在终极的分析中,一切知识都是历史;
在抽象的意义下,一切科学都是数学;
在理性的基础上,所有的判断都是统计学。
—————–《统计与真理》,C.R.Rao
大三第一次看到这几句话时,是在学院的网站上,当时心里狠狠地自豪了一把,当然,学数学的和历史的看到此估计也会欣慰。Rao大人是当今仍健在的国际上最伟大的统计学家之一,印度人。他在青年时期就取得了很多成就,如我们本科学的科拉姆-劳信息不等式(Cramer-Rao)。他的老师是印度统计学家马哈拉诺比斯(P. C. Mahalanobis),马氏距离的提出者。
上个月花了点时间把这本书看完了,书不厚,里面讨论的问题是如何设计实验以便提供所要求的信息,如何从实验结果中获取一切有效的信息,如何在实际中应用这些信息,里面的事例堪称精妙绝伦。如讨论pi小数点后的位数是不是随机的,通过小数点后1000位数中0到9出现的频数,构造卡方检验,结果不拒绝原假设。还有日内循环的例子,通过简单的统计调查从生理上解释了人的身高为什么早晚有差别;小数位数字的遗失例子让统计学者牢记“除非验明清白,否则每一个数字都是有罪的”。
书中讨论数据伪造那一节让人印象深刻,因为最近几年有些统计学者已经检验了过去某些科学家所生成和使用过的数据,并且发现有些“并不是非常诚实的,那些科学家所得的数据并不总是他们报告的结果。”里面列举了费歇用卡方检验推断,孟德尔的实验数据很可能是他的助手伪造的;韦斯特福尔怀疑牛顿是操纵观测值的行家,因为牛顿在研究万有引力时,估计昼夜平分点的精确度为三千分之一,这样高的精确度对于牛顿时代的观测技术水平来说是达不到的;还有道尔顿发表的一系列高深的实验结果,但是当代没有一个化学家能够再现他发表的实验数据···这些例子不禁让人汗颜,再一次告诉我们要有怀疑的精神(当时本小子学这些的时候,想都没想,一股脑地承认他们的结果)。当然,这只是从统计角度推断那些科学家篡改了事实,至于他们为什么这么做,可能是当一个科学家凭直觉(直觉对于统计来说非常重要)确信他的理论时,便存在一种诱惑,使得他去寻找“事实”或者歪曲事实以便拟合他的理论。他们可能认为:一个与数据信息更接近的结论意味着更准确的理论和更使人信服的证据。当然,这也可能意味着一个伪造的理论,基于伪造数据建立错误的假设结果对社会会造成危害。为了避免这种情况,近些年来统计界大力提倡可重复性研究,即别人在你设定的条件下能够重现你的结果,其实这也可以看成另一种形式的开源,大赞开源的思想。
书中还揭示了怎样二次伪造使数据不被发现是伪造的,从这个角度看,学统计确实是可以忽悠人的。不过,我们学统计是为了尽量不被人忽悠。书中指出,在如今由科学和技术控制的时代,人们有必要掌握一定的统计知识,对统计学基本素养的需要就如威尔斯所预见的那样:“就像读和写的能力一样,将来有一天统计的思维方法会成为效率公民的必备能力。”为了成为有效率的公民,学点统计吧!
书中开篇写道:
在我年少时,母亲每天早上四点起床,为我点上油灯,使我能在安静的早晨精力充沛地用功读书。
这话于现代来看,让人感慨颇多!
comments powered by Disqus