有一天小明收到一封信,信的内容如下:
信上写的内容是什么意思呢?
我们先来了解下相关知识。
频率的定义:若在相同条件下进行n次试验,事件A发生了k次,则称比值k/n为事件A发生的频率。
历史上有人做过抛硬币试验,发现如果做大量的重复抛硬币试验,比如抛硬币10000次,正面向上出现的频率会集中在0.5附近,因此把频率的稳定值0.5称为正面向上的概率。所以我们认为如果抛掷一枚质地均匀的硬币,则正面向上的概率为0.5。
概率的统计定义:大量重复试验下频率的稳定值。
根据概率的统计定义,可以解决非常多的问题。比如在古典密码学中,根据英文字母出现的频率,可以破译一些简单的古典密码,这种方法称为频率攻击法。
经统计,英文字母中e出现的频率是最高的,为12%;字母t,a,o,i,n,s,h,r的出现频率为6%~9%,为高频字母;字母v,k,j,x,q,z出现的概率小于1%,为低频字母。
双字母中,th,he,in,er,an,re,de,on,es,st,en,at,to等出现的频率较高。三字母中the,ing,and,her,ent出现的频率较高。
最经典的例子是英国的阿瑟·柯南道尔写的小说《福尔摩斯探案集》,其中有一个案情的名字为“跳舞的小人”,英文为the adventure of dancing men。在这部分内容里面,福尔摩斯收到的是一些有不同动作的跳舞的小人的纸条。他利用英文字母出现的频率,找出出现次数最多的跳舞小人的动作,将其确定为字母E,然后根据女主人公的名字ELISE确定出字母LIS,进而根据故事发生的背景把里面的跳舞小人动作都解密成英文字母,最后完成破译工作。
我们来仔细观察小明收到的这封信。
(1)这封信内容中间有空格,显然是单词间的间隔。
(2)把各个字母出现的频数写出来,观察到字母W出现的频数最多,将其解密为e。
(3)由3个字母组成的XBW出现了3次,作为一个单词在一段话里面出现的频率如此高,可以猜测其为the。这样字母X为t,字母B为h,字母W为e。
然后将刚知道的这些信息填入对应字母的下方。
(4)第一行第三个单词为XS,将其解密成to,即字母S为o。
(5)看最后一行有SXBWGF。现在已经知道了othe__,可以想到单词others。即字母G为r,字母F为s。
(6)再看第二行第一个单词FWPGWXF。现在已经知道了se_rets,想到单词secrets。即字母P为c。
(7)第四行第一个单词是WUWD,现在已经知道了e_e_,最常见的匹配单词有even,ever,但是字母r为G,所以推测为even。即字母U为v,字母D为n。
(8)观察第一句话,里面有CF,CD两个单词,此时有两种思路:一种是is,另一种是as。如果解密成as,则没有谓语,所以试着解密成is,即字母C为i。
(9)观察第一行的第四个单词,这个单词现在为__iscover。
最容易联想到的单词为discover。所以字母A为d。
(10)第六行第一个单词SI,这个单词现在为o_。想到的单词为of。所以字母I为f。
(11)由第七行单词IGSY,可以推出该单词为from,即字母Y为m。由第五行单词KGSYCFW,可以推出该单词为promise,即字母K为p。第五行第二个单词为roused,即字母H为u。第三行第三个单词为human,即字母J为a。第一行第二个单词为urge。字母Q为g。
(12)剩下的内容就更容易猜了。比如AWWKZV可以解密成deeply,即字母Z为l,字母V为y。第五行第三个单词LV中,字母L为b,即为by。第七行的第一个单词为withheld,即字母O为w。第六行最后一个单词为knowledge,字母R为k。
(13)到此,全文已经破译完成。即为:
The urge to discover secerts is deeply ingrained in human nature;even the least curious mind is roused by the promise of sharing knowledge withheld from others.