使用多尺度文本指纹的文档分类的制作方法_4

文档序号：9264905阅读：来源：国知局

步骤422选择用于指纹计算的缩小因数。在一些实施例中，表示为k的缩小因数平均起来指示文本块38的标记的仅1/k用于指纹计算。指纹计算器 56可因此根据步骤406(图7)中确定的标记计数而选择缩小因数。在一些实施例中，缩小因数的最初选择可能无法产生在所要长度范围内的指纹（参见下文）；在此类情况下，可在一循环中以试误方式执行步骤422到430,直到产生适当长度的指纹。例如，指纹计算器56 可最初选择缩小因数k= 2 ;当此值未能产生足够短的指纹时，计算器56可选择k= 3,等等。
[0070] 然后，指纹计算器可根据散列选择准则而选择标记。当缩小时，指纹计算器56可使用已在步骤404(图7)中确定的标记，或可从文本块38计算新标记。在图10所说明的实例中，在步骤424中，指纹计算器56确定文本块38的聚合标记集合。在一些实施例中，通过级联连续个别标记而确定聚合标记（在图9中被说明为项目60d)。用于形成聚合标记的标记的计数可根据缩小因数而变化。
[0071] 在步骤426中，针对每一聚合标记而计算散列（例如，使用上文所描述的方法）。在步骤428中，计算器56根据散列选择准则而选择聚合标记子集。在一些实施例中，针对缩小因数k，所述选择准则要求针对所选择的子集的成员所确定的全部散列等于模数k。例如，为了确定2倍缩小指纹，计算器56可仅考虑聚合标记，其散列等于模数2(S卩，仅奇散列，或仅偶散列）。在一些实施例中，散列选择准则包括仅选择其散列能被缩小因数k整除的标记。
[0072] 在步骤430中，指纹计算器56可检查步骤428中选择的标记的计数是否在所要指纹长度范围内。如果所述计数不在所要指纹长度范围内，那么计算器56可返回到步骤422 且以另一缩小因数k重新开始。当所选择的标记的计数在范围内时，在步骤432中，计算器 56根据所选择的标记的每一散列而确定指纹片段。在步骤434中，组合此类片段以产生指纹42。图9说明针对文本块38所确定的一些缩小指纹42d到h。表2展示针对图9中的同一文本块38所确定的示范性指纹片段（在各种缩小因数下）。
[0073] 表 2
[0074]
[0075] 图11展示根据本发明的一些实施例的在安全服务器（也参见图1)上执行的示范性组件。安全服务器14包括文档分类器72,其连接到通信管理器74及指纹数据库70。通信管理器74管理与客户端系统16a到c进行的垃圾邮件/诈骗检测事务，如上文关于图 4-A到B所展示。在一些实施例中，文档分类器72经配置以经由通信管理器74而接收目标指示符40,且确定指示目标文档36的分类的目标标签50。
[0076] 在一些实施例中，分类目标文档36包括根据针对文档36所确定的文本指纹与参考指纹集合之间的比较而将文档36指派到文档类别，每一参考指纹指示文档类别。例如，分类文档36可包含确定文档36是否为垃圾邮件及/或诈骗性，及确定文档36属于垃圾邮件/诈骗的子类别（例如，产品提供、网络钓鱼或尼日利亚诈骗）。为了分类文档36,文档分类器72可结合指纹比较而使用所属领域中所知的任何方法。此类方法包含黑及白名单、图案匹配算法等等。例如，文档分类器72可计算多个个别得分，其中每一得分指示到特定文档类别（例如，垃圾邮件）的文档36的成员，每一得分是通过相异分类方法（例如，指纹比较、黑名单等等）而确定。分类器72可随后根据被确定为个别得分的复合得分而确定文档36的分类。
[0077] 文档分类器72可进一步包括指纹比较器78(如图12中所展示），其经配置以通过比较目标文档的指纹与存储在数据库70中的参考指纹集合而分类目标文档36。在一些实施例中，指纹数据库70包括针对参考文档集合所确定的文本指纹的存储库（例如，电子邮件消息、网页及网站评论等等）。数据库70可包括垃圾邮件/诈骗的指纹，但也包括合法文档的指纹。针对每一参考指纹，数据库70可存储相应指纹与文档类别（例如，垃圾邮件）之间的关联的指不符。
[0078] 在一些实施例中，数据库70中的参考指纹子集中的所有指纹具有在预定范围（例如，在129与256个字符之间）内的长度。此外，所述范围与由指纹计算器56(图6)针对目标文档所确定的目标指纹的长度范围相一致。此类配置（其中所有参考指纹具有大致相同的大小，且其中参考指纹所具有的长度大致等于目标指纹的长度）可促进用于文档分类目的的目标指纹与参考指纹之间的比较。
[0079] 针对每一参考指纹，数据库70的一些实施例可存储文本块的长度的指示符，针对所述文本块的长度而确定相应指纹。此类指示符的实例包含相应文本块的串长度、确定相应指纹时使用的片段长度，及放大/缩小因数等等。存储具有每一指纹的文本块长度的指示符可促进文档比较，这是通过使指纹比较器78能够选择性地检索表示在长度上与产生目标指纹42的文本块类似的文本块的参考指纹而实现。
[0080] 为了分类目标文档36,分类器72可接收目标指示符40,从指示符40提取目标指纹42且将指纹42转送到指纹比较器78。比较器78可与数据库70进行接口连接，以选择性地检索用于与目标指纹42比较的参考指纹82。在一些实施例中，指纹比较器78可优选地检索针对具有与目标文本块的长度类似的长度的文本块所计算的参考指纹。
[0081] 文档分类器72根据目标指纹42与从数据库70检索的参考指纹的比较而进一步确定目标文档42的分类。一些实施例中，所述比较包含计算指示指纹42与82的类似度的类似性得分。例如，此类似性得分可被确定为：
[0082]
[1]
[0083] 其中&及fK分别表示目标指纹及参考指纹，d(fT,fK)表示两个指纹之间的编辑距离（例如，莱文斯坦（Levenshtein)距离），且其中|fT|及|fK|分别表示目标指纹及参考指纹的长度。得分S可取0与1之间的任何值，接近1的值指示两个指纹之间的高类似度。在示范性实施例中，当得分S超过预定阈值T(例如，0. 9)时，目标指纹42据称匹配于参考指纹82。当目标指纹42匹配于来自数据库70的至少一个参考指纹时，文档分类器72可根据相应参考指纹的文档类别指示符而分类目标文档，且可制定目标标签50以反映所述分类。例如，当目标指纹42匹配于针对垃圾邮件消息所确定的参考指纹时，目标文档36可被分类为垃圾邮件，且目标标签50可指示垃圾邮件分类。
[0084] 上文所描述的示范性系统及方法允许电子消息传递系统（例如，电子邮件及用户贡献网站）中的未经请求的通信（垃圾邮件）的检测，以及诈骗性电子文档（例如，网络钓鱼网站）的检测。在一些实施例中，针对每一目标文档而计算文本指纹，所述指纹包括根据相应文档的多个文本标记而确定的字符序列。所述指纹随后与针对文档集合所确定的参考指纹（包含垃圾邮件/诈骗性及合法文档）比较。当目标指纹与针对垃圾邮件/诈骗性消息所确定的参考指纹相匹配时，目标通信可被加标签为垃圾邮件/诈骗。
[0085] 当将目标通信肯定地识别为垃圾邮件/诈骗时，反垃圾邮件/反诈骗系统的组件可修改相应文档的显示。例如，一些实施例可阻止相应文档的显示（例如，不允许在网站上显示垃圾邮件评论），可在单独的位置（例如，垃圾电子邮件文件夹、单独的浏览器窗口）中显示相应文档，及/或可显示警报。
[0086] 在一些实施例中，文本标记可包含目标文本的个别字或字序列，以及电子邮件地址及/或网络地址（例如，包含于目标文档的文本部分中的统一资源定位符（URL))。本发明的一些实施例识别在目标文档内的多个此类文本标记。针对每一标记而计算散列，且根据相应散列而确定指纹片段。在一些实施例中，指纹片段随后通过（例如）级联而组合以产生相应文档的文本指纹。
[0087] -些电子文档（例如，电子邮件消息）可在长度上有很大变化。在一些常规反垃圾邮件/反诈骗系统中，针对此类文档所确定的指纹的长度相应地变化。相比之下，在本发明的一些实施例中，文本指纹的长度约束在预定长度范围（例如，在129与256个字符之间）内，而不管目标文本块或文档的长度如何。使所有文本指纹在预定长度界限内可实质上改善消息间比较的效率。
[0088] 为了确定预定长度范围内的指纹，本发明的一些实施例使用放大及缩小方法。当文本块相对短时，通过调整指纹片段的长度而获得放大以产生所要长度的指纹。在示范性实施例中，30位散列的每6个位可转换成一字符（使用（例如）Base64表示），因此，相应散列可产生长度在1与5个字符之间的指纹片段。
[0089] 针对相对长的文本块，本发明的一些实施例通过从标记子集计算指纹而实现缩小，所述子集是根据散列选择准则而选择。示范性散列选择准则包括仅选择其散列能被整数k(例如，2、3或6)整除的标记。针对给定实例，此类选择引起分别从可用标记的约1/2、 1/3或1/6计算指纹。在一些实施例中，缩小可进一步包括将此类标记选择应用于多个聚合标记，其中每一聚合标记包括若干标记的级联（例如，相应电子文档的字序列）。
[0090] 各种散列函数可用于指纹片段的确定。在计算机实验中，将所属领域中所知的各种散列函数应用于从呈各种语言的电子邮件消息提取的122, 000个字的集合，其目的是确定散列冲突（相异字产生相同散列）的数目，所述散列冲突为每一散列函数产生实际垃圾邮件。表3中说明的结果展示所属领域中称为RSHash的散列函数产生所有所测试的散列函数的最少冲突。
[0091] 表 3
[0092]

[0093] 在另一计算机实验中，使用本发明的一些实施例来分析电子邮件消息集合（由企业服务器在一周期间接收的电子邮件的总量组成，且包括垃圾邮件及合法消息两者）。为了确定长度在129与256个字符之间的文本指纹，20. 8%的消息要求无缩放，18. 5%的消息要求2倍缩小，8.1 %的消息要求3倍缩小，且8.7 %的消息要求6倍缩小。在相同消息集合之中，14. 8 %的消息要求2倍放大，9. 7 %的消息要求4倍放大，且11. 7 %的消息要求8倍放大。以上结果表明在129到256个字符之间的指纹长度对于检测电子邮件垃圾邮件可为最佳的，这是因为根据放大及/或缩小因数而将实际电子邮件流分成群组的上述分割产生相对均匀填入的群组；此类情况针对指纹比较是有利的，这是因为可在大致相同的时间搜索所有群组。
[0094] 在另一计算机实验中，由遍及15小时而收集的大约865, 000个消息组成的连续垃圾邮件流被分成消息集合，每一集合由在相异的10分钟间隔期间接收的消息组成。使用根据本发明的一些实施例而构造的文档分类器

完整全部详细技术资料下载

当前第4页1 2 3 4 5