法:1次 轮:1次 功:1次 计算得在本表中: 法出现的概率为0.3 轮出现的概率为0.3 功出现的概率为0.3 根据邮件B生成hashtable_good,该哈希表中的记录为: 法:1 律:1 计算得在本表中: 法出现的概率为0.5 律出现的概率为0.5 综合考虑两个哈希表,共有四个TOKEN串: 法 轮 功 律当邮件中出现"法"时,该邮件为垃圾邮件的概率为: P=0.3/(0.3+0.5)=0.375 出现"轮"时: P=0.3/(0.3+0)=1 出现"功"时: P=0.3/(0.3+0)=1 出现"律"时 P=0/(0+0.5)=0; 由此可得第三个哈希表:hashtable_probability 其数据为: 法:0.375 轮:1 功:1 律:0 当新到一封含有"功律"的邮件时,我们可得到两个TOKEN串,功 律查询哈希表hashtable_probability可得 P(垃圾邮件| 功)=1 P (垃圾邮件|律)=0<页码:[1] [2] [3] [4] [5] [6] [7] [8] 第6页、共8页 |