旧文:贝叶斯方法

十 30th, 2007

贝叶斯公式是 条件概率中的一个重要式子,学的时候没心思去看,正巧非典不考试大家抄了抄就过了,现在再次看,发现很有意思。这个式子非常简单,含义也很明确,如果想要 预测未来的话,已经发生的数据越多越好,已有数据越精确,对未来的预测越准确。但是它有点难理解,尤其是当判断什么是p(x|w)什么是p(w|x)的时 候,比较有悖于直觉。下面是经典的一个问题:

步入40岁的女性患乳腺癌的几率是1%,现在有一种仪器,当被测者已经患了乳腺癌的时候,它测出来为阳性的概率为80%,当被测者没有患乳腺癌的时候,它误测为阳性的概率是9.6%,那么,当这个仪器测试一位40岁以上的女性为阳性时,她患有乳腺癌的几率为多少?

据说只有15%的医生给出了正确答案。所以被我问住并且回答几率在40%以上的也不必汗颜。直觉会倾向于在9.6%和80%之间取一个中间值,胆大 点的会猜的偏小一点。但是简单用bayes公式计算一下,会发现答案只有7.8%. 就是说,即使这个仪器测出来阳性,患病的几率也只有十三分之一。

对我们普通的群众来说(相对于数学牛人),有悖于直觉,不是吗?大部分人忽略了真实患病的几率只有1%. 可以去这么理解它:仪器的作用就是,把1%的几率,提高到了7.8%. 当然这不是说仪器让患乳腺癌的几率增大了,而是说给真正有可能患病的人一个比1%更确切一点的数字,尽管这个数字似乎仍然没什么作用。

这里给出了一种贝叶斯方法的直觉解释,对于我们这种没有数字敏感性的人群来说,图是最好的解释方式。这篇文章给出了图示来解释贝叶斯公式是怎样把预测的可能性增强的,很符合人的思维模式。

随着搜索引擎、机器学习等热潮的兴起,贝叶斯方法和马尔科夫模型越来越受人推崇,谷歌黑板报也科普过。具八卦传闻,在微软,if..else是软件开发的原子操作,在google,原子操作变成了贝叶斯方法和Markov模型。看来,google具有更高的视野,那里的某个大拿也曾在某次坐飞机的时候写了一段20多行的python代码,利用贝叶斯方法来实现拼写检查,有效率达到了70%-80%.

标签: ,
目前还没有任何评论.