深入浅出数据分析(1)

初识篇

Posted by MitnickEX on October 19, 2016

在研究了一段时间Selenium之后,最近又开始瞎逼研究数据分析,不过对于近一个月没有学习,还是要在此好好做个检讨

回到正题——数据分析,数据分析是指用适当的统计分析方法对收集来的大量数据进行 分析提取有用信息和形成结论而对数据加以详细研究和概括 总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可 帮助人们作出判断,以便采取适当行动。

这里为了便于理解分享一个关于数据分析的经典案例——“啤酒与尿布”

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店, 直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提 出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior 算 法引入到 POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

故事结束,可以看出数据无处不在,而如何处理数据材料,如何将原始数据转变为推进现实工作的策略,如何 分解和构建复杂的问题和数据集,进而牢牢把握工作中的各种问题的要害,至关重要。

固定基本流程

数据分析这个词涵盖大量形形色色的工作和技巧,就算有人明白告诉你她是数据分析师,我们依然无法确定她的专长,也许你可能说她懂Excel,但仅此而已⊙﹏⊙。

但是,所有优秀的分析师,无论专长及目标如何,都会在工作过程中按顺序执行一定的固定基本流程,同时通过经验数据来推敲各种问题。

确定阶段,个人理解可以从以下几方面进行确定。

1.从一切途径获取足够的信息(客户、上级、自己……)
2.了解数据、问题和目标
3.整理信息,量化数据
4.弄清被分析对象在环境中的位置(竞品圈、行业圈……)

分解阶段,则是把得到的数据、问题放在一起,把这些问题分解为颗粒剂的小问题,让它们在分析时发挥最大作用。

1.将大问题划分为小问题
	我们需要将问题划分为可管理、可解决的组块,
	我们无法直接回答大问题,但是可以回答分解出来的小问题,如: ![](http://i.imgur.com/RjQSQOU.jpg)

2.将数据分解为更小的组块
	分解为更小组块的意义在于提炼重要的因子,
	使用重要的因子进行有效的比较,进一步理解

评估阶段,正如分解时一样,评估分解组块的关键就是比较。

1.做出自己介入分析的明确假设
2.以自己的信用为自己的结论打赌

决策阶段,通过研究对数据的评估,从而有能力做出更换的决策。

1.将分析形成报告供制定决策
2.得到客户理解、鼓励客户
3.以数据为基础

以上,就是此次初识数据分析的全部内容。