作为一名半路出家的数据统计人员,简单梳理一下一年半以来在数据统计方面的心得:
1 )业务数据统计
这一类数据统计需求往往伴随着具体业务和产品形态的变化而变化,不过总体上是关于用户行为和用户流量的统计。统计这一类数据的目的一般是为产品的运营和发展方向提供数据支撑和决策支持。需要注意的是,事先要有前瞻性的设计好打点字段,一方面要便于程序的计算,另一方面要易于扩展,尤其在业务统计需求发生变化的时候。而事实也证明,这一类数据统计的需求也是最有可能经常发生变化的。此外,这一类数据在存储和输出上也有很多问题需要解决。往往这一类数据的统计结果数据量会比较大(日数据量往往在百万级),例如产生大量长尾数据,如何有效解决这一类海量数据的存储和查询问题都是值得思考的。
2 )交易数据统计
如今的互联网产品在进入到中后期运营阶段都会考虑产品盈利和变现的问题,那么对交易载体用户订单的统计需求便自然应运而生。几乎所有需要盈利的互联网产品都离不开对用户交易数据的统计。统计这一类数据的目的往往在于评估跟踪产品的盈利能力,同时也提供了在财务结算上必要的支持。需要注意的是,由于该类数据统计存在着财务敏感性,因此如何将交易数据统计准确是值得思考并需要解决的问题。几乎所有互联网产品在用户订单上的设计都涉及了订单状态这个字段,一个订单是否成功交易也往往取决于这一状态值的变化。因此,在交易数据统计上需要精准的感知到这一状态值的变化,在必要时维护好所有订单的历史状态信息,不漏过每一笔最新交易,也不放过每一笔用户退款。
3 )服务稳定性统计
这一类数据统计需求在稍大一些的互联网公司可能会由专门的 SRE 负责,不过也不排除实际工作中数据统计人员需要接手这一类需求。统计这一类数据的目的一般在于对一款产品的后端服务稳定性和健康程度进行数据监控,必要时向工程师提供预警信息(如预警短信和邮件)。这一类数据的统计需求比较常态化,一般大多关注服务端各类接口的流量和耗时、请求的返回结果状态分布等。在统计过程中及时的反馈结果数据并建立有效的预警和监控机制即可。
4 )二次统计需求
这一类数据统计需求往往基于上述三类数据,并在其基础上进行了二次数据处理。统计这一类数据也自然存在更多动机,需要视实际场景而定,例如统计用户入口的活跃率、留存率,用户交易的转化率等等,诸如此类。值得注意的是,上述几大类的统计数据均从产品本身的角度出发,事实上也可以从单个用户的维度出发进行各类数据的二次统计。按照这种思路,很多大型互联网公司都建立起了各自的用户画像系统,提供了对用户本身属性进行评估的一系列量化后的数值指标,例如用户活跃度、用户购买力、用户信誉度以及用户真实度等等,并在此基础之上展开了较为有效的深度数据挖掘工作。
此外值得一提的是,对稍成型一些的互联网产品而言,上述所有类型的统计数据几乎都涉及到了海量日志信息的大规模处理,因此有必要使用一些业界比较成熟的大规模数据并行处理框架来提高数据计算的效率,借助一些专门针对海量数据的存储平台来优化数据持久化存储的性能。其中,可能存在一些计算平台更适用于实时性高的统计需求,一些存储平台可能更适合非结构化数据的存储等等,诸如此类。找到最适合自己的工具,然后在实践中逐步优化这整个过程,这个过程包括了从原始日志的提取、计算和分析,直到最终对统计结果的输出和向用户的友好展示。所有这一切,都值得去深入思考和改善。
以上。
1
vnady 2015-12-23 11:11:57 +08:00
已经有很多公司在做这一类的分析工具了,比如诸葛 IO
|