深入浅出数据分析(4)

贝叶斯统计

Posted by MitnickEX on December 14, 2016

再次检讨,最近工作状态有点差,学习的积极性也没之前高了,可能是因为项目数量起来之后有点乱导致的,但愿自己早点走出来。

今天给大家分享的是新学习到的一个极其方便的分析工具,叫做贝叶斯规则,这个规则能帮助你利用 基础概率波动数据做到明察秋毫。

还是通过例子来看今天的内容:

医生带来了恼人的消息,给了你一份蜥蜴流感诊断书。

好消息是蜥蜴流感并不致命,在家治疗几个星期即可痊愈;

坏消息是蜥蜴流感极其麻烦,你不得不歇业,与心爱的人离别几周。

医生确信你已染病在身。不过,由于你对数据分析已经得心应手,所以可能想看看试验结果,了解了解试验结果的准确性

你火速上网搜索了该流感的诊断试验,收获到一份试验正确性分析报告:

若某人已患蜥蜴流感:试验结果为阳性的概率为90%。

若某人未患蜥蜴流感:试验结果为阳性的概率为9%。

根据这个信息,你觉得自己患病的概率有多大?90%?81%?75%?

对于这类问题,大多数人的答案也许都是75% —— 这大错特错了

在得出正确答案之前,有太多问题需要解决,我们要彻底从头开始……

让我们逐条细读正确性分析

分析报告针对试验给出了两类断言,“阳性”结果的概率随实验对象是否患蜥蜴流感而发生变化。因此,让我们想象有两个不同的控件:一个空间有大量的人患有蜥蜴流感,另一个空间里几乎没有人患蜥蜴流感;然后再来观察未患流感的人的“阳性”概率。

情形1:
如果100个人中有90个人患病,
这表示10人不患病,
10人的9%等于1人,
这1人的试验结果为阳性但未患病。 ![](http://i.imgur.com/vd6UbVH.png)

情形2:
如果100个人中有10个人患病,
这表示90人不患病,
90人的9%等于10人,
这10人的试验结果为阳性但未患病。 ![](http://i.imgur.com/lYeRkrm.png)

看起来,起码对于未患病但试验结果为阳性这种情况,蜥蜴流感在总人数中站的分量有显著差别。

其实,除非我们不仅知道试验正确性分析结果,而且知道有多少人已患蜥蜴流感,否则,我们根部无法判断某人得流感的可能性有多大。

而到这里,又引出了一个概念 —— 条件概率

假阳性:未患疾病却被误诊为阳性
真阴性:未患疾病且检验结果为阴性
真阳性:患有疾病且检验结果为阳性
假阴性:患有疾病但检验结果为阴性

以上这些术说的都是条件概率。条件概率即以一件事的发生为前提的另一件事的发生概率

研究表明总人口中有1%的人患有蜥蜴流感 —— 这个数据可以用来分析试验结果,从人类的角度上看,这个人数非常多,但从总体人口的百分比上看,这个数字非常小。

1%是基础概率,在根据试验结果单独分析每个人的情况之前,你就已经知道患有蜥蜴流感的人口只有1%,因此基础概率又称作事前概率

假定以1000人为基础进行计算,我们来看看你自己患蜥蜴流感的概率。

在试验结果为阳性的条件下患者的概率为: 你患有蜥蜴流感的几率为9%!而你刚刚用的就是贝叶斯规则,这是一个强悍无比的统计公示,有了这个工时,你就能用基础概率和条件概率估计新的条件概率。如果你想用数学方法进行计算,可以使用下面这个怪模怪样的公式:

贝叶斯规则可以反复使用

贝叶斯规则是一个重要的数据分析工具,他提供了一种把新信息整合到分析中的精确方法。

针对你蜥蜴流感的几率比正常人高9倍的情况,医生再度给你做了一次检查,这次用的药物比上次的更高级更专业,正确性分析报告如下:

若某人已患蜥蜴流感:试验结果为阳性的概率为99%。

若某人未患蜥蜴流感:试验结果为阳性的概率为1%。

而此次的诊断结果为阴性。但是最好再分析一遍数据,那么这次的基础概率是多少囔?

基础概率不会是1%,新基础概率是9%,
我们刚算过,这正式我自己的患病概率。

新信息会改变你的基础概率,拿到第一项试验结果时,你把大家的蜥蜴流感发病率当作自己的基础概率。但你从试验结果中了解到,你患蜥蜴流感的概率高于基础概率;这个高概率是你的新基础概率,因为现在你属于试验结果为阳性的人群。

那么是时候在用一次贝叶斯规则看看你患蜥蜴流感的新概率了!