大数据时代之下的爱情永远寂寞

2013/01/28

这十来天翻完了《大数据时代》这本书，里面有一些观点还是比较新颖。给我印象最深的就是书中一再强调，在如今大数据的时代，相关关系比因果关系更为重要。在我们日常生活中，人们习惯性地用因果关系考虑事情。佛教向教徒传播因果循环，因果报应的理念，所谓“善有善报，恶有恶报，不是不报，只是时候未到”“凡事皆有原因”等等。在几个世纪以来，因果关系是否存在在哲学界争论地喋喋不休。统计界，人们往往想通过研究相关关系推断出因果关系，甚至有时候直接把相关关系当成因果关系来处理。比如在回归中，当自变量对响应变量的拟合非常显著时，我们解释模型时直接就说当自变量增加或降低时，响应变量也相应地变化。我在本科做回归就干过这事，现在回想起来，当时屁都不懂。当然，现在统计领域中因果推断和因果网络还比较热，上次去人大参加统计学论坛，北大的耿直教授就介绍了这方面的一些情况。

“Data is cheap, but information is expensive” 这是SanfordWeisberg说的一句话。在现代社会，数据多的不得了，就看你会不会用。如今越来越火的数据挖掘，干的就是从各种各样的数据中找出有用的信息。在现在的信息网络社会，我们时刻都暴露在“第三只眼”之下，例如google监视着我们的网页浏览习惯，当记录的数据足够多时，google可以分析出你的性格特征还有其他方面的一些隐私。这就涉及到隐私的威胁，需要将人类信息管理准则重新定位。如今我们处在大数据时代的风口浪尖，当然收益良多，它告诉我们通过去探求“是什么”而不是“为什么”，相关关系分析法可以帮助我们更好地了解这个世界。这就解放了统计军团中的很多工作，因为证明因果关系既费时费力，得到的结果又不一定正确。于此同时，在大数据的时代，我们永远受困于过去的行为，这些已经发生的行为在预知我们下一步动作的预测中与我们作对。莎士比亚曾说“凡事过去，皆为序曲。”如今真的是这样。

logve

爱情是什么？这个永恒的话题牵动着无数人的心。有人说：人生是花朵，爱情是甜蜜；有人说：爱情是最辛苦的等待；还有人说：爱情是毒药，它让你死去活来。不管他们怎么说，统计数字告诉我们的是：爱情永远寂寞。去年第一次在贝吉塔行星的博客上看到他画出的这幅图，我很是惊讶。他下载了22996首中文歌曲（844个流行歌手）的文本数据，先把每首歌曲分词，然后构建item-document矩阵，根据这个矩阵找关联规则，最后把规则用sna的技术绘制出来···从这幅图我们可以看出，在爱情永远寂寞三者覆盖的区域里有快乐，回忆，曾经，现在，心里，世界，感觉，是你，是我···爱情里有眼泪，伤心，无法，忘了，感情···寂寞夹杂着孤单，孤独，沉默···永远伴随着希望，等待，明天，未来，和你，改变，生命。文本挖掘告诉我们爱情的本质是永远寂寞，我释然了。

bigd

得益于yixuan在统计词话中的工作，我用R画了宋词高频词云。以上展示的是全宋词中频率最高的149个两个字的词（当然还可以把三个字的高频宋词一同展示出来，最主要的还是分词，不难）。其中，最大的红色宋词是我加上去的，也就是说宋词中排在前五位的是“东风，何处，人间，风流，归去”，它们在宋词中分别出现了“1379,1231,1164,843,818”次。我是将它们的频率标准化之后再用R中的wordcloud包画的。从上面可以很直观地看出哪些词出现的频率较高，其中大小颜色相近的两个词则表明它们出现的次数差不多。这些高频宋词任意随机组合就很可能有词的韵味，比如从高频宋词中挑选排名30-35,80-85十二个词，分别是“风吹，依旧，多情，风月，当时，故人，今夜，不似，十年，行人，谁知，寂寞”。如果我们这样组合

风吹今夜依旧，不似多情，十年风月，行人当时谁知，故人寂寞。

好像还真有那么一点味道，呵呵，有网友就利用这些高频宋词做出了一些有趣的词。

tjkjt

以上这幅图叫统计科技树，这是我从cos论坛上看到的。总的来说，这幅图大致描述了统计所学课程之间的关系。以本人的学习经历来看（虽然不具有代表性），高等代数应该有一个箭头直接指向泛函分析而不是间接，因为泛函分析主要是研究无限维向量空间，高等代数则是在有限维框架下分析。实变函数也应该有一根箭头直接指向测度论，测度里面确实用到很多实变的知识。看到最下面的软件一行，让我想起了不久前看到一个数据科学家在其博客中的软件建议一文中写道：“要想成为数据科学家，如果有人问我在HBase, Cassandra, MySQL, Excel, SPSS, R or SAS这些软件中学哪个？我会告诉他全部都学。”看到这句话再结合上面的统计科技树，顿时感觉任重而道远···