初探贝叶斯定理

淮城一只猫 · · 167次浏览 ·

前言

贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质。

它是贝叶斯定理(Bayes’ theorem)的应用。英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。正是因为它的主观性太强,曾经遭到许多统计学家的诟病。

贝叶斯推断需要大量的计算,因此历史上很长一段时间,无法得到广泛应用。只有计算机诞生以后,它才获得真正的重视。人们发现,许多统计量是无法事先进行客观判断的,而互联网时代出现的大型数据集,再加上高速运算能力,为验证这些统计量提供了方便,也为应用贝叶斯推断创造了条件,它的威力正在日益显现。

概率

对于概率这个很好解释,例如一个硬币投掷正反面的几率是多少?是50%?其实这个例子是典型的古典统计学的思想:就是概率是基于大量实验的。但它有个弊端:如果我这个硬币只投掷三次,然而这三次全是反面,难道就认为得到这个反面的概率就是100%吗?

现在这里有个例子:

一种癌症,得了这个癌症的人被检测出为阳性的几率为90%,未得这种癌症的人被检测出阴性的几率为90%,而人群中得这种癌症的几率为1%,一个人被检测出阳性,问这个人得癌症的几率为多少?

现在用A表示测出为阳性,用B_1表示得癌症,用B_2表示未得癌症,根据题意得知:

表示得了这个癌症的人被检测出为阳性的几率为90%:P(A|B_1) = 0.9

表示未得这种癌症的人被检测出阳性的几率为10%:P(A|B_2) = 0.1

表示在人群中得这种癌症的几率为1%:P(B_1) = 0.01

表示在人群中不会得癌症的几率为99%:P(B_2) = 0.99

那么在已知阳性的情况下,得癌症的几率为:P(B_1,A)

P(B_1,A) = P(B_1) * P(A|B_1) = 0.01 * 0.9 = 0.009

P(B_1,A) 表示联合概率,所以上面这个结果为癌症且检测出阳性的概率是人群中得癌症的概率乘上得癌症时测出是阳性的几率是0.9%,同理检测出阳性但未得癌症的人概率是:

P(B_2,A) = P(B_2) * P(A|B_2) = 0.99 * 0.1 = 0.099

故得知检测出阳性但未得癌症的人概率是9.9%。

如果人群中有1000个人,检测出阳性并且得癌症的人有9个,检测出阳性但未得癌症的人有99个。可直到现在并没有得到所谓的“在检测出阳性的前提下得癌症的 概率 ”,怎么得到呢?很简单,就是看被测出为阳性的这108(9+99)人里,9人和99人分别占的比例就是我们要的,也就是说我们只需要添加一个归一化因子就可以了。所以阳性得癌症的概率P(B_1 | A) \dfrac{0.009}{0.099 + 0.009} \approx 0.083,阳性未得癌症P(B_2 | A) = \dfrac{0.099}{0.099 + 0.009} \approx 0.917。这里P(B_1 | A)P(B_2 | A)是条件概率,所以这个概率是贝叶斯统计中的 后验概率,P(B_1)P(B_2)先验概率 。所以简单点来说就是用先验概率根据观测值来判断得出结果的后验概率这就是基本的贝叶斯思想:

P(B_i | A) = \dfrac{P(B_i) * P(A | B_i)}{P(B_1) * P(A | B_1) + P(B_2) * P(A | B_2)}

所以上面是贝叶斯公式一般的形式。

本博客所有内容采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可

转载文章请注明:初探贝叶斯定理 - https://iiong.com/exploring-bayes-theorem.html

分类: 机器算法

淮城一只猫

永远年轻,永远热泪盈眶

发表评论

电子邮件地址不会被公开。 必填项已用*标注

我不是机器人*