莎士比亚新诗一曲统计学赞歌
时间:2022-11-04 来源:博通范文网 本文已影响 人
下面是小编为大家整理的莎士比亚新诗一曲统计学赞歌,供大家参考。
莎士比亚的新诗:一曲统计学的赞歌
1985 年 11 月,研究莎士比亚的学者泰勒(G. Taylor)从 1775 年以来就保存在 Bodelian 图书馆的收藏中发现了写在纸片上的九节新诗。新诗只有 429 个字,没有记载谁是诗的作者。
这首诗会是莎士比亚的作品吗?两个统计学者 Thisted 和 Efron(1987)利用统计方法研究 了这个问题,得到结论: 这首诗用词的风格(规范)与莎士比亚的风格非常一致。这个研究纯 粹基于统计学基础,其过程可描述如下:
已知莎士比亚所有著作的用词总数为 884647 个,其中 31534 个是不同的。这些词出现 的频数如表 1 所示。
表 1 不同单词所使用的频数分布
单词使用的频数
不同的单词数
14376
4343
2292
1463
1043
837
638
>100 总数
846 31534
表 1 中所包含的信息可用来回答下列类型的问题。如果要求莎士比亚写一个含有一定 数量单词的新作品,他会使用多少新单词(以前作品中未使用过的)?在他以前所有的作品 中,有多少单词他仅使用过一次,两次,三次,…?这些数字可以用费歇等(1943)提出的划 时代的法则来预测。在完全不同的领域内,费歇利用他的方法估计了未被发现的蝴蝶总数! 利用费歇的理论,如果莎士比亚用与他已有的所有作品中出现的单词数 884647 完全一样数 目的单词来写他的新的剧本和诗,则估计他将使用约 35000 个新词。这种情形下,莎士比亚 的总词汇估计至少有 66000 个单词(在莎士比亚时代,英语语言的总词汇约有 100000 个,目 前约有 500000 个)。
现在回到新发现的诗上,其含有 429 个单词中有 258 个是不同的,新诗的观测值和预 测值(基于莎士比亚的风格)的分布由表 2(最后两栏)给出。从表 2 可以看到,(在所期望的
差的范围内)两个分布非常一致,这表示了新发现的诗的作者可能就是莎士比亚。
表 2 长度几乎相同的诗中,莎士比亚风格所含不同单词与其他作者风格所含不同单词 的频数分布
莎士比亚作品
不同单词使用的频数
基于莎士比
中
本•约翰逊(哀 马洛(四首 多恩(狂
单词使用的次 歌)
诗)
喜)
数
新发现的 诗
亚作品的期 望值
0
17
6.97
4.21
3.33
3~4
16
5.36
5~9
22
12
11
10.24
10~19
20~29
12
30~39
12
20
17
13.96
13
14
21
10.77
16
8.87
40~59
13
60~79
80~99
13
14
12
18
13.77
9.99
13
7.48
不同单词数单
243
词
411
272
252
258
258
495
487
429
…
总数
表 2 中也给出了与莎士比亚同时代的其他几位诗人本•约翰逊(B.Johnson)、马洛(C.Mar lowe)、多恩(J.Donne)长度几乎相同的作品中所使用的单词的分布频数。这些作者作品中单 词的分布频数与新发现诗中单词的观测频数,以及与莎士比亚用词风格的期望观测频数之间 看起来多少有些不同。
另一个与其类似的故事是——有争议的作者权:《联邦主义者论文集》作者是谁? 这是与上一故事密切相关的验明作者问题,或者是对作者不明的作品所列出的可能的作 者群中去识别一个作者,下面再给大家一个故事。这个故事来源于费歇,他是第一个发展这 个方法来回答一个人类学家向他提出的问题的。是否存在任何客观的、仅利用测量的方法能
够判断从墓中发现的下鄂骨是男性?还是女性? 同样的技术可用来回答本质上相同的问题:在两个可能的作者中,谁是有作者权的争议
作品的真正作者。让我们来考察一下联邦主义者论文集的情形。这个论文集是 1787~1788 年由哈密顿(A.Hamilton)、杰伊(J.Jay)、和马德森(J.Madison)为了劝说纽约市民批准宪法 所著的。按那个时代所时兴的,这个论文集共含 77 篇论文,全部署名为笔名“民众 (Publicus)”。这个论文集的大多数文章的真正作者已经判明了,但有 12 篇文章仍存在争议, 到底是汉密尔顿的,还是马德森的。两个统计学者,莫斯特雷(F.Mosteller)和华莱士(D. Wallace)利用统计方法解决了这个问题,得出的结论是:12 篇有争议的文章最可能的作者是 马德森。解决这个问题所使用的度量化方法是从有争议的作者的作品中研究每一个作者自己 的风格,按其作品的风格最接近于有争议的作品来确定其作者。