总统列

最小描述长度原则

州作为科学家和在我们的日常生活中,我们做概率推断。数学家可能推断出他们的结论的前提,但其余的人诱导从数据我们的结论。作为科学家,我们这样做,我们的假设——通过检查程度的结论我们可以得出,解释或预测数据。我们面临这样的一个问题是,一些假设比其他人更为复杂。一个同事曾经说过关于一个明显复杂的理论,它是唯一他知道比结果更难记住它解释道。我们如何决定什么时候复杂的假设是合理的?

奥卡姆剃刀(也称为“吝啬”)以来一直被认为是科学思维的一个方面毕达哥拉斯(公元前6世纪)。原则建议,当几个理论解释相同的数据,最简单的一个是可取的。但是我们如何衡量简单吗?它活着,像美,只有在旁观者的眼睛吗?我们如何准确衡量竞争理论解释数据?我们做什么当理论更准确地描述了数据越复杂,这是常有的事吗?我们如何衡量其更高的复杂性(坏的管理者)它代表数据的准确性(好)?

近年来,在这个问题上已经取得了进展在推论统计,在假设的形式随机模型;例如,假设1的数据来自正态分布,而假设2,他们来自威布尔分布;或者,假设1状态数据服从幂律,而假设2州,他们服从对数律法。这些同样简单的假设吗?有多种方式解决这个问题,但可以说是最简单的概念上,最适用于温和的数据集,和最有趣的哲学是最小描述长度原则,这是由Rissanen约玛•开始在1970年代末(1978年,Rissanen, 1999;教程中,看到格,2005)。它使我们能够顺序随机模型的客观测量的复杂性,它告诉我们如何解决复杂性和解释充分性之间的权衡。

的想法很简单:更多的空间随机模型,越复杂。这个空间可以衡量如何准确模型适合给定大小的随机数据集。模型的空间适合许多不同的这样的数据集相当好;模型与小空间适合较少的地方。作为我的第一列在贝叶斯解释对于初学者来说,一个模型的可能性,给定数据,概率的乘积模型分配到这些数据。如果有三个数据点和模型分配概率。5,第二。2,然后第三。3,模型考虑到这些数据的可能性是5 x。2。3 = 03。的最大似然模型形式是可能你得到当你调整模型的参数,最大化的产品。一般来说,likelihood-maximizing简单随机模型的参数值很容易计算。

ProbabilityDensity2图1说明了问题的模型复杂性和可能性程度的模型。的人物,我画了100份随机样本10码的指数分布的意思是10,100个样本的大小从正态分布相同的均值和标准差,和另一个100个样本的大小从一个位置参数的威布尔分布10和形状参数的1。(威布尔分布通常是用来描述反应时间的数据,这通常是没有的。)然后我找到了最大似然适合所有三个分布形式的三组100个样本,相比,我所说的最大可能性。威布尔可能是一个更好的选择比指数在每个可能性指数样本,和正常的可能性是一个更好的选择比指数可能性98%的样本。虽然样本来自一个指数分布、威布尔和正常分配形式几乎总是描述数据更准确。前面板显示了一个示例的威布尔分布拟合指数数据比指数分布。

任何统计学家会说:“当然!正常和威布尔有两个自由参数,而指数只有一个。模型通常有更多的自由参数符合数据更好。“冯·诺依曼宣称说,“我可以适合大象有四个参数,和五个我能让他摆动他的树干。”参数的数量并不是故事的全部,然而,因为威布尔分布也击败了正态分布几乎一半的时间。两种分布形式有两个参数,但当两人都适合数据来自正态分布、威布尔分布更好地适应了几乎一半的时间。底部面板图显示了一个示例的威布尔分布拟合正常数据比正态分布。它更适合,因为它可以向左或向右倾斜,而正常总是对称的。小样本来自正态分布的数据经常稍微倾斜的小错误。

我们知道从一个著名的由克劳德·香农定理,信息论之父,之间有一个1:1映射数据从一个给定源的相对频率(概率)和码字的长度必须分配基准,以便获得最有效的编码的数据来源。数据的概率越高,越短的代码必须。塞缪尔·莫尔斯明白这直觉他点“e的象征。“摩尔斯电码的点是最短的象征,和“e”是最常见的英语单词中字母(如概率最高的信)。如果你要经常使用一个符号,你想要短;如果使用一个符号很少,那么不管它长。这一原则是现代的基础数据压缩方案(jpg,。mov等等)。这种方案能够适应大量数据到给定的内存使用短代码频繁的数据和长编码了罕见的数据。

,Rissanen最小描述长度的原理是这样的:一个好的模型压缩数据,告诉我们多长时间应该为每个数据码字;越高概率模型分配基准,越短的编码数据。一个必然的结果是更精确的模型,它能够压缩数据越多。但是,因为最好的压缩方案是由数据,我们必须编码模型本身到内存的数据编码,我们使用它。如果我们不把模型放在内存,我们不知道如何解码(解压缩)数据。,Rissanen显示,我们可以测量编码模型的成本(比特)对于一个给定的计算的数据量的总和最大似然适合所有可能的数据集的大小。一个自然奇观,和是否可以计算近似;事实证明,它经常可以。因此,我们可以测量model-encoding成本和数据编码的成本相同的语言独立的货币。

链接的解决原则之间的权衡模型复杂性和描述性的充分性问题找到最有效的使用的内存。最好的模型是最小化所需的内存编码数据使我们的数据的压缩编码。当一个没有数据,复杂模型的成本超过了额外的数据压缩,它使成为可能。然而,事实证明,该模型成本增长的数据量的对数,而编码数据线性增长的成本。当我们使用一个更好的模式-一个捕捉真实结构数据数据编码的成本增长慢于当我们使用差模型。因此,从长远来看,总内存负载所使用更复杂的模型(例如,威布尔而不是正常)将小于负载发生通过使用一个简单的模型当且仅当更复杂的模型捕捉真正的结构数据(而不是小错误)。当我们有一点点数据,支持原则简单模型。当我们获得更多的数据,它将支持一个更复杂的模型只有在支付与记忆储蓄增加其复杂性。

最激动人心的事这一原则是,它意味着,在合理的条件下,该模型能够最有效的利用内存的数据我们已经拥有最出色的预测数据没有看到。因此,只有正确的随机模型复杂性做两件事:它最小化内存负载最大化预测精度。我的同事压力是正确的这一事实的复杂理论是比结果更难记住它解释道。œ

引用

格伦沃尔德,p . d . (2004)。教程中介绍的最小描述长度原则。在p·d·格伦沃尔德,j . i Myung & m·a·皮特(Eds)。最小描述长度:理论与应用(23 - 81)页。剑桥,麻州:麻省理工学院出版社。

Rissanen j . (1978)。建模通过最短的数据描述。自动化,14,465 - 471。

Rissanen j . (1999)。假设选择MDL准则和测试。电脑杂志,42,260 - 269。


APS定期打开特定的在线文章讨论在我们的网站上。有效的2021年2月,你必须登录APS成员发表评论。通过发布评论,你同意我们社区指导原则和显示您的个人信息,包括你的名字和联系。任何意见、发现、结论或建议在文章评论的作家和不一定反映APS的观点或文章的作者。有关更多信息,请参阅我们的社区指导原则

请登录你的APS账户置评。