总统列

贝叶斯初学者2:前

在他的就职总统列格里斯泰尔APS总统c·兰迪,向初学者介绍贝叶斯统计分析。这个月,他继续介绍贝叶斯与一个教训在利用先验分布改善参数估计。

在上个月的专栏中,我关注的可能性和概率之间的区别。

审查,概率高度可能的结果从一个随机的过程就像掷硬币(技术上称为伯努利过程)。一个概率分布给出了不同的可能结果的概率给定的参数的过程。假设我们有50%的机会(即成功。,抛头;p= 5)和告知有10次。鉴于这些参数,准确的概率5个正面时抛一枚硬币大约为10倍。

相比之下,可能连接到我们的参数估计和假设。例如,鉴于我们发现9 10次的一枚硬币,的可能性(即抛头的概率是50%。,这p= 5)非常低。的可能性p=。9大的近40倍。似然函数告诉我们可能值的相对可能不同p

两个组件的似然函数只有一个贝叶斯计算,然而。另一个是之前,这是必要的估计参数,得出统计结论。使用先验分布改善参数估计和量化的假设。

一个先验分布可以而且应该考虑一个已经知道的东西。然而,当人知道很少,可以使用先知先觉的杰弗里斯杰弗里斯,英国数学家命名哈罗德爵士,他恢复了贝叶斯概率的观点。先知先觉的杰弗里斯是一些最有趣的和有用的先验分布,他们来自毫无了解的数学意义以外的人想要估计的参数可能的范围。

改善前的参数估计

Pres_Column2一个先验分布概率赋值给每一个可能的值的每个参数估计。因此,当估计参数的伯努利方程的过程p之前,是一个可能的值的分布p。假设p的概率是一个主题做了x假设我们最初不知道多少人有这种实践。我们问前三个主题是否他们已经做了。他们都说,“没有。“在这个早期阶段,我们的人口比例应该估计做了X ?以及我们应该对我们的估计吗?

数据本身p(X) = 0。这个值指定了一个分布无差异;它预测每一个后续的主题还没有做x直觉认为这是不明智的三个人作为代表的经验所有人们的经验。然而,手头的数据,给我们一些信息:我们已经知道p(X)≠1(因为至少一个主题没有X),这似乎不太可能p(X) >。9(因为我们的三个主题做了X)。

贝叶斯参数估计借口,量化这些直觉将先验分布计算。先验分布代表不确定性参数的值之前,我们看到的数据。杰弗里斯意识到任何了解其可能的范围以外的一个参数(在本例中,0 - 1)经常唯一指定了一个先验分布参数的估计。

杰佛利之前的p伯努利过程的参数称为贝塔分布。贝塔分布本身有两个参数,表示a和b。杰弗里斯之前,这些值a = b = 0。5。常见的做法后,我把这些参数hyperparameters区分它们的参数分布,我们试图估计。

通过采用一个杰佛利之前,我们可以计算的最佳估计p我们当前的不确定性和量化p在数据采集的每个阶段,从阶段我们没有数据阶段,我们有一个n在数百万。贝叶斯计算需要用先验分布的似然函数和正常化的结果为了获得后验分布(即。,一个新的不同的值的概率分布p,考虑到数据和之前)。这个过程听起来很吓人。

然而,当我们使用之前的主人公,以相同的形式为后验分布的先验分布;一个β分布在之前和贝塔分布出现后。(被称为先验分布与这美好的属性共轭之前)。因此,计算是唯一改变贝塔分布的参数的值。此外,新值的计算这些参数非常简单:a帖子=一个之前+n年代和b帖子= b之前+nf,在那里n年代表示成功的数量(在这种情况下,那些做了X)nf失败的数量(受试者没有)。最好的估计p后验分布的均值,是a帖子/ (帖子+ b帖子)。统计计算从来没有比这更容易。

最重要的是,由此产生的后验分布告诉我们如何确定我们应该的真正价值p。在传统的统计,这是置信区间应该做什么。(它很糟糕,但这是另一个故事。)估计的估计的置信区间p当样本低并非易事,而后使用共轭先验分布的计算,已经解释,简单本身。

图1块的似然函数,杰弗里斯之前,后验分布的情况我们没有三阴性和阳性。注意好贝叶斯统计可以捕捉我们的直觉告诉我们我们可以从这个小样本学习。

评论

州正确指出概率推断基于新的数据应该考虑一个已经知道。的数学基础和实际后果是最彻底的统计物理学家建立的埃德温·T我们(2003),基于贝叶斯和杰佛利但走得更远。理解概率推理及其神经基础是至关重要的,有两种截然不同的和补充知识的方式可以考虑。最明显和最著名的方式是通过独立的先验概率推理计算的新数据,即通过所谓的前。至少另一种方法是同样重要的,即通过的可能性。相比之前的计算,计算这取决于知道新数据,并可以敏感的上下文信息知识,既无必要,也足够的计算后验,但,如果可行的话,可以有很大的可能对计算的影响。考虑一个模糊输入的可能的解释。其中的一些解释除了在某些情况下,可能是不太可能。因此,而先知先觉的概率可以指定每个解释平均超过所有上下文,可能可以用来选择后验的概率大大增加,尽管不太可能总体而言,极有可能在当前上下文。很可能是知识的角色在决定可能终于在确定先验一样根本性的作用。

你好兰迪,
感谢这两列!我在想如果你可能自己,或问别人,第三个在这个伟大的系列。我希望看到一个数据集或研究的角度讨论如何通过不同数据分析类零假设方法和贝叶斯分析。我几乎可以理解这两列中提供的各种各样的例子,但我想我(或者其他)将大大受益于并排对比,如果这是可能的吗?
谢谢你!
茱莉亚

情节之前,显示了主人公,迷惑我,因为我觉得概率密度函数只能马克斯在1。

应对Eric Garr:概率不能大于1,但概率密度可以有任何值从0到+∞。概率分布的概率密度应用持续的支持,如持续时间或利率。概率密度的价值在任何时候(任何支持值)是累积概率分布的导数。换句话说,它是概率增加的速度。如果所有的概率是集中在一个点,就像在一个预测p =零假设。5,那么概率增加的速度是无限的


APS定期打开特定的在线文章讨论在我们的网站上。有效的2021年2月,你必须登录APS成员发表评论。通过发布评论,你同意我们社区指导原则和显示您的个人信息,包括你的名字和联系。任何意见、发现、结论或建议在文章评论的作家和不一定反映APS的观点或文章的作者。有关更多信息,请参阅我们的社区指导原则

请登录你的APS账户置评。