用于使用字符直方图进行垃圾邮件检测的系统和方法

文档序号:7994145阅读:128来源:国知局
用于使用字符直方图进行垃圾邮件检测的系统和方法
【专利摘要】所描述的包含串识别、预过滤以及字符直方图和时戳比较步骤的垃圾邮件检测技术促进了对在短持续波中到达的快速改变的垃圾邮件的准确、计算上高效的检测。在一些实施例中,计算机系统从例如博客评论等电子通信提取目标字符串,将其发射到反垃圾邮件服务器,且从所述反垃圾邮件服务器接收相应电子通信是否为垃圾邮件或非垃圾邮件的指示符。所述反垃圾邮件服务器根据所述目标串的所述字符直方图的某些特征确定所述电子通信是否为垃圾邮件或非垃圾邮件。一些实施例还执行将传入目标串无监督地群集为若干群集,其中群集的所有成员具有相似的字符直方图。
【专利说明】用于使用字符直方图进行垃圾邮件检测的系统和方法

【背景技术】
[0001] 本发明涉及用于分类电子通信的方法和系统,且特定来说涉及用于对非请求商业 电子通信(垃圾邮件(spam))进行过滤的系统和方法。
[0002] 非请求商业电子通信(也称为垃圾邮件)形成全世界所有通信业务的重要部分, 从而影响计算机和电话消息接发服务。垃圾邮件可采取许多形式,从非请求电子邮件通信 至IJ装作例如博客和社交网络站点等各种因特网站点上的用户评论的垃圾邮件消息。垃圾邮 件占用有价值的硬件资源,影响生产力,且被通信服务和/或因特网的许多用户视为厌烦 和打扰的。
[0003] 在电子邮件垃圾邮件的情况下,在用户或电子邮件服务提供者的计算机系统上运 行的软件可用以将电子邮件消息分类为垃圾邮件或非垃圾邮件,且甚至在各种垃圾邮件消 息之间进行区分(例如,产品报价、成人内容、电子邮件欺诈)。随后可将垃圾邮件消息引导 到特殊文件夹或删除。
[0004] 类似地,在内容提供者的计算机系统上运行的软件可用以拦截张贴到网站的欺骗 消息且防止相应消息被显示,或向网站的用户显示相应消息可能是垃圾邮件的警告。
[0005] 已经提出若干方法来识别垃圾邮件消息,包含将消息的发源地址匹配于已知的违 反或受信任地址的列表(分别称为列黑名单和列白名单的技术)、搜索某些字或字模式(例 如,重新募集资金、Viagra?、股票)以及分析消息标头。特征提取/匹配方法经常结合自 动化数据分类方法(例如,贝叶斯滤波、神经网络)来使用。
[0006] 垃圾邮件经常以相似消息的快速连续群组到达,也称为垃圾邮件波。垃圾邮件的 形式和内容可大体上在垃圾邮件波之间改变,因此成功检测可得益于能够快速地辨识新垃 圾邮件波且对其作出反应的方法和系统。


【发明内容】

[0007] 根据一个方面,一种方法包括:采用计算机系统接收形成电子通信的一部分的目 标串;根据所述目标串确定串合格性准则;以及根据所述串合格性准则对参考串的语料库 进行预过滤,以产生多个候选串。响应于选择所述候选串,采用所述计算机系统执行所述目 标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较,以及所述 电子通信的时戳与所述候选串的时戳之间的第二比较。所述计算机系统根据所述第一比较 和第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。
[0008] 根据另一方面,一种计算机系统包括经编程以进行以下操作的至少一处理器:接 收形成电子通信的一部分的目标串;根据所述目标串确定串合格性准则;以及根据所述串 合格性准则对参考串的语料库进行预过滤,以产生多个候选串。所述处理器进一步经编程 以响应于选择所述候选串,执行所述目标串的字符直方图与所述多个候选串中的候选串的 字符直方图之间的第一比较,以及所述电子通信的时戳与所述候选串的时戳之间的第二比 较。所述处理器进一步经编程以根据所述第一比较和第二比较的结果确定所述电子通信是 否为垃圾邮件或非垃圾邮件。
[0009] 根据另一方面,一种方法包括:采用计算机系统接收电子通信;响应于接收到所 述电子通信,从所述电子通信提取目标串;将所述目标串发射到反垃圾邮件服务器;以及 响应于发射所述目标串,接收指示所述电子通信是否为垃圾邮件或非垃圾邮件的目标标 签,其中所述目标标签是在所述反垃圾邮件服务器处确定。确定所述目标标签包括:采用所 述反垃圾邮件服务器根据所述目标串确定合格性准则;根据所述准则条件对参考串的语料 库进行预过滤,以产生多个候选串;响应于选择所述候选串,执行所述目标串的字符直方图 与所述多个候选串中的候选串的字符直方图之间的第一比较,以及所述电子通信的时戳与 所述候选串的时戳之间的第二比较;以及根据所述第一比较和第二比较的结果确定所述目 标标签。
[0010] 根据另一方面,一种方法包括:采用计算机系统接收形成电子通信的一部分的目 标串;根据所述目标串确定串合格性准则;根据所述串合格性准则对参考串的语料库进行 预过滤,以产生多个候选串。响应于选择所述候选串,所述方法采用所述计算机系统确定将 所述目标串与所述多个候选串中的候选串分离的串间距离,所述串间距离是根据所述目标 串内的选定字符的发生计数和所述候选串内的所述选定字符的发生计数来确定。所述方法 随后包括根据所述串间距离确定所述电子通信是否为垃圾邮件或非垃圾邮件。

【专利附图】

【附图说明】
[0011] 在阅读以下详细描述后且在参考附图后将更好地了解本发明的前述方面和优点, 其中:
[0012] 图1展示根据本发明的一些实施例的示范性反垃圾邮件系统。
[0013] 图2展示根据本发明的一些实施例的服务器计算机系统的示范性硬件配置。
[0014] 图3-A说明根据本发明的一些实施例的在客户端计算机与反垃圾邮件服务器之 间的示范性垃圾邮件检测事务。
[0015] 图3-B说明根据本发明的一些实施例的在内容服务器与反垃圾邮件服务器之间 的示范性垃圾邮件检测事务。
[0016] 图4展示根据本发明的一些实施例的目标通信的示范性目标指示符,所述指示符 包括目标串和额外识别垃圾邮件的数据。
[0017] 图5展示根据本发明的一些实施例的在反垃圾邮件服务器上执行的一组示范性 应用程序的图。
[0018] 图6展示根据本发明的一些实施例的关联于目标串且针对多个字符类计算的示 范性字符直方图。
[0019] 图7说明根据本发明的一些实施例的在图1的反垃圾邮件服务器上操作的示范性 垃圾邮件检测器应用程序。
[0020] 图8说明根据本发明的一些实施例的在特征超空间中表示的多个群集,每一群集 包括相似项目的集合。
[0021] 图9展示根据本发明的一些实施例的由图7的垃圾邮件检测器执行的示范性步骤 序列。
[0022] 图10-A展示随着测试串的明显不同的字符数目而变的计算机实验的结果,包括 确定针对测试串集合产生字符直方图的计算时间。
[0023] 图10-B展示随着测试串的串长度而变的计算机实验的结果,包括确定针对测试 串集合产生字符直方图的计算时间。
[0024] 图10-C展示随着测试串的明显不同的字符数目而变的计算机实验的结果,包括 确定针对测试串集合计算一组串间距离的计算时间。
[0025] 图10-D展示随着测试串的串长度而变的计算机实验的结果,包括确定针对测试 串集合计算一组串间距离的计算时间。
[0026] 图11展示针对包括垃圾邮件和非垃圾邮件的真实博客评论集合的串长度对时戳 指示符的绘图。
[0027] 图12展示针对包括垃圾邮件和非垃圾邮件的真实博客评论集合的明显不同的字 符数目对时戳指示符的绘图。

【具体实施方式】
[0028] 在以下描述中,应了解,结构之间所有陈述的连接可为直接操作连接或通过中间 结构的间接操作连接。一组元件包含一或多个元件。对一元件的任何陈述应理解为涉及至 少一个元件。多个元件包含至少两个元件。除非另外需要,否则任何描述的方法步骤均无 需一定以特定说明次序执行。从第二元素导出的第一元素(例如,数据)涵盖等于第二元 素的第一元素,以及通过处理第二元素和(任选地)其它数据产生的第一元素。根据参数 做出确定或决策涵盖根据参数且任选地根据其它数据做出确定或决策。除非另外指定,否 则某个量/数据的指示符可为所述量/数据自身,或不同于所述量/数据自身的指示符。 在本发明的一些实施例中描述的计算机程序可为独立的软件实体或其它计算机程序的子 实体(例如,子例程、代码对象)。除非另外指定,否则术语垃圾邮件不限于电子邮件垃圾 邮件,而是还涵盖例如不合法或非请求的商业用户产生的内容等电子通信,其形式为博客 评论、论坛讨论、维基(wiki)条目、顾客反馈、社交网络站点上的张贴、即时消息,以及电话 文本和多媒体消息等等。计算机可读媒体涵盖非暂时性存储媒体,例如磁性、光学和半导体 媒体(例如,硬驱动器、光盘、快闪存储器、DRAM),以及例如传导电缆和光纤链路等通信链 路。根据一些实施例,本发明尤其提供包括经编程以执行本文描述的方法的硬件的计算机 系统,以及编码用以执行本文描述的方法的指令的计算机可读媒体。
[0029] 以下描述借助于实例且不一定以限制方式来说明本发明的实施例。
[0030] 图1展示根据本发明的一些实施例的示范性反垃圾邮件系统。系统10包含多个内 容服务器12a到12b、反垃圾邮件服务器16以及多个客户端系统14a到14b。内容服务器 12a到12b可表示托管和/或递送在线内容的网络服务器,所述在线内容例如个人和公司网 站、博客、社交网络站点和在线娱乐站点等等。其它内容服务器12a到12b可表示电子邮件 服务器,其对客户端系统14a到14b提供电子消息递送。客户端系统14a到14b可表示最 终用户计算机,其各自具有处理器、存储器和存储装置,且运行例如Windows?、MacOS? 或Linux等操作系统。一些客户端计算机系统14a到14b可表示移动计算和/或电信装置, 例如平板PC、移动电话和个人数字助理(PDA)。在一些实施例中,客户端系统14a到14b可 表示个别顾客,或若干客户端系统可属于同一顾客。反垃圾邮件服务器16可包含一或多个 计算机系统。网络18连接内容服务器12a到12b、客户端系统14a到14b以及反垃圾邮件 服务器16。网络18可为例如因特网等广域网,而网络18的部分也可包含局域网(LAN)。
[0031] 图2展示例如反垃圾邮件服务器16等服务器计算机系统的示范性硬件配置。在 一些实施例中,服务器16包括处理器20、存储器单元22、一组存储装置24,和通信接口控制 器26,全部通过一组总线28连接。
[0032] 在一些实施例中,处理器20包括物理装置(例如,多核心集成电路),其经配置以 用一组信号和/或数据执行计算和/或逻辑操作。在一些实施例中,此些逻辑操作以处理 器指令序列(例如,机器代码或其它类型的软件)的形式递送到处理器20。存储器单元22 可包括计算机可读媒体(例如,RAM),其存储在实行指令的过程中由处理器20存取或产生 的数据/信号。存储装置24包含实现软件指令和/或数据的非易失性存储、读取和写入的 计算机可读媒体。示范性存储装置24包含磁盘和光盘以及半导体(例如,快闪)存储器装 置,以及例如CD和/或DVD光盘和驱动器等可装卸媒体。通信接口控制器26使得服务器 系统16能够连接到网络18和/或其它机器/计算机系统。典型的通信接口控制器26包 含网络适配器。总线28共同地表示多个系统、外围设备和芯片组总线和/或实现服务器系 统16的装置20到26的互通信的所有其它电路。举例来说,总线28可尤其包括将处理器 20连接到存储器22的北桥总线,和/或将处理器20连接到装置24到26的南桥总线。
[0033] 在一些实施例中,每一客户端系统14a到14b包括文档阅读器应用程序(例如,网 络浏览器、电子邮件阅读器、媒体播放器),其可为用以远程地存取存储在内容服务器12a 至lj 12b上的数据的计算机程序。当用户接入例如网页等在线文档或接收例如电子邮件等电 子通信时,关联于所述文档/通信的数据在相应内容服务器与客户端系统14之间在网络18 的部分上循环。在一些实施例中,阅读器应用程序接收文档数据,将其转换为可视形式,且 向用户显示。阅读器应用程序的一些实施例也可允许用户与所显示内容交互。在电子邮件 的情况下,客户端系统14a到14b可包含专门软件,其经配置以将传入电子邮件分类为多种 类别中的一者(例如,垃圾邮件、合法邮件、各种其它类和子类)。
[0034] 在一些实施例中,内容服务器12a到12b经配置以从多个用户接收用户产生的内 容(例如,文章、博客条目、媒体上载、评论等等),且组织、格式化此内容且经由网络18将 此内容递送到第三方。在服务器12a到12b处接收的用户产生的数据的一部分可包括可能 包含非请求消息(垃圾邮件)的电子通信。此些电子通信的实例(在以下描述中称为目标 通信或目标消息)是电子邮件消息、博客评论、向社交网络站点的张贴、以及发送到娱乐和 /或新闻站点的评论等等。
[0035] 在一些实施例中,内容服务器12a到12b可包括经配置以处理从用户接收的目标 通信以检测垃圾邮件的软件组件。当检测到时,可阻止和/或防止垃圾邮件消息(例如,欺 骗性博客评论等等)在相应网站内显示。垃圾邮件处理软件可以服务器侧脚本的形式在内 容服务器12a到12b上实施。此些脚本可作为插件并入到较大的脚本包中,例如作为用于 Wordpress?成Drupal?在线发布平台的反垃圾邮件插件。在一些实施例中,为了检测垃圾 邮件,服务器12a到12b可经配置以从事与反垃圾邮件服务器16的合作性垃圾邮件检测事 务,如下文详细描述。
[0036] 在一些实施例中,反垃圾邮件服务器16经配置以执行与内容服务器12a到12b和 /或客户端系统14a到14b的合作性垃圾邮件检测事务。图3-A说明经配置以检测电子邮 件垃圾邮件的实施例中在服务器16与客户端系统14之间的示范性数据交换。客户端系统 14可经由网络18从邮件服务器接收电子邮件消息。在接收到电子邮件消息之后,客户端系 统14可将包括关联于电子邮件消息的识别垃圾邮件的数据的目标指示符40发送到反垃圾 邮件服务器16,且作为响应可接收指示相应电子邮件消息是否为垃圾邮件的目标标签50。 客户端系统14可随后将消息置于适当消息类别中(例如,垃圾邮件或合法电子邮件)。
[0037] 图3-B说明经配置以检测在服务器12处接收的用户产生的垃圾邮件(例如博客 垃圾邮件或张贴在社交网络站点上的垃圾邮件等等)的实施例中在反垃圾邮件服务器16 与内容服务器12之间的示范性数据交换。在例如由于用户在托管于服务器12上的网站上 张贴评论而接收到目标通信之后,服务器12可将包括从目标通信提取的识别垃圾邮件的 数据的目标指示符40发送到反垃圾邮件服务器16,且作为响应接收指示目标通信是否为 垃圾邮件的目标标签50。
[0038] 图4展示根据本发明的一些实施例的目标通信的示范性目标指示符。目标指示符 40包括:对象ID41 (例如,标签、散列),其唯一地识别目标通信;以及目标串42,其包含目 标通信的文本部分,例如博客评论的文本部分。在一些实施例中,目标串42包括目标通信 的大体上所有文本。当目标通信包含若干文本部分时,目标串42可包括文本部分的串联, 或者,每一文本部分可接收明显不同的目标串42。在一些实施例中,目标串42包括目标通 信的文本部分的区段,所述区段具有预设串长度(例如,128个连续字符)。
[0039] 目标指示符40的一些实施例除了目标串42之外可包含对应于目标通信的其它识 另IJ垃圾邮件的数据。在图4的实例中,目标指示符40包含:用户名指示符44,其指示由目标 通信的提交者提供的名称(例如,个人名字、笔名、屏幕名称、登录名称、化身、句柄等等); 地址指示符46,其指示目标通信的起源位置(例如,发源的IP地址);以及时戳48,其指示 当目标通信被提交时的实时点(例如,日期和时间)。
[0040] 在一些实施例中,目标标签50可包括例如ID41等对象ID,以及目标通信的垃圾邮 件状态的指示符。目标标签50根据由反垃圾邮件服务器16执行的评估有效地指定目标通 信是否为垃圾邮件,如下文详细描述。
[0041] 图5展示根据本发明的一些实施例的在反垃圾邮件服务器16上执行的一组示范 性应用程序的图。应用程序包含垃圾邮件检测器32和连接到垃圾邮件检测器32的通信管 理器34。应用程序32和34可为独立计算机程序,或可形成提供例如计算机安全性服务(例 如恶意软件检测)的较大软件套件的部分。在一些实施例中,反垃圾邮件服务器16还托管 反垃圾邮件数据库30。或者,反垃圾邮件数据库可驻留在与服务器16明显不同的计算机系 统上,但经由网络18连接到服务器16,或驻留在连接到服务器16的计算机可读媒体上。
[0042] 反垃圾邮件数据库30包括与在线垃圾邮件相关的知识储存库。在一些实施例中, 数据库30包括字符直方图的语料库,每一直方图是针对电子通信而计算,如下文进一步描 述。数据库30可包含用于垃圾邮件或非垃圾邮件电子通信两者的数据,例如博客评论、张 贴于社交网络站点上的评论等等。除了直方图数据,存储于数据库30中的每一记录可包含 额外信息,例如相应目标通信的串42,例如时戳48等时间指示符,以及串长度的指示符,明 显不同的字符的数目以及串42的串得分,下文描述此些量的示范性使用。在一些实施例 中,与每一字符直方图相关,数据库30可存储群集指派指示符,其指示相应串当前经指派 于的消息群集。数据库30还可存储包括例如对象ID41等多个识别符的数据结构,每一对 象识别符唯一地关联于电子通信,以及映射,其使每一字符直方图与其计算所针对的目标 通信相关联,从而允许垃圾邮件检测器32从数据库30选择性地检索直方图,如下文所示。
[0043] 图6展示根据本发明的一些实施例的针对目标串42计算的示范性字符直方图。 目标直方图60包括一组数字,每一数字指示目标串42内的每一明显不同的字符的发生计 数。举例来说,"Mississippi"的目标直方图包含针对"M"的1、针对"i"的4、针对"s"的 4和针对"p"的2。在一些实施例中,将字符分组为若干明显不同的字符类62,例如"小写 字母"、"大写字母"、"数位"和"特殊字符"等等。各种字符类的数字和复合可在实施例之间 变化。
[0044] 在一些实施例中,通信管理器34经配置以管理与客户端系统14a到14b和/或内 容服务器12a到12b的通信。举例来说,管理器34可经由网络18建立连接,向客户端系统 14a到14b和内容服务器12a到12b/从客户端系统14a到14b和内容服务器12a到12b发 送和接收例如目标指示符和目标标签等数据。
[0045] 图7展示根据本发明的一些实施例的在反垃圾邮件服务器16上操作的示范性垃 圾邮件检测器的图。垃圾邮件检测器32包括直方图管理器36和连接到直方图管理器36 的群集引擎38。垃圾邮件检测器32可从通信管理器34接收目标通信的目标指示符40 (参 见图5和3-A-B)且从反垃圾邮件数据库30接收参考直方图64,且又将目标标签50输出 到通信管理器34,以转发到客户端系统14或内容服务器12,其起始相应的垃圾邮件检测事 务。
[0046] 在一些实施例中,直方图管理器36经配置以从通信管理器34接收目标指示符40, 根据目标指示符40的数据计算目标直方图60,执行预过滤过程以确定一组合格的参考直 方图64,从反垃圾邮件数据库30选择性地检索参考直方图64,且将直方图60和64转发到 群集引擎38以进行直方图比较和群集指派。将关于图9详细论述直方图管理器36的操作。
[0047] 在一些实施例中,在消息特征超空间中通过分析对应于目标通信的特征向量与一 组代表性向量之间的距离来执行目标消息分析,每一代表性向量界定消息的明显不同的集 合(群集)。图8展示在具有两条轴线dl和d2的简单二维特征空间中分别由特征向量74a 至lj 74c形成的三个示范性消息群集70a到70c。在本发明的一些实施例中,轴线dl和d2对 应于字符直方图的明显不同的特征。举例来说,轴线dl可对应于字符"M",且轴线d2对应 于字符"s"。考虑到在相应串内"M"出现一次而"s"出现四次,串"Mississippi"可由特 征向量(1,4)表示。具有相似字符直方图的两个串在此示范性特征超空间中彼此靠近而驻 留:在以上实例中,"Mississippi"和"Mission impossible"在此空间中具有相同的特征 向量。在一些实施例中,每一消息群集70由占据特征超空间的大体上小区域的消息组成, 意味着群集的所有成员具有相似的特征向量,即相似的字符直方图。
[0048] 在一些实施例中,群集引擎38经配置以维持根据相似性而分组为群集的消息群 集70的集合,表示在数据积累的历史期间在反垃圾邮件服务器16处接收的通信的语料库。 一些群集70可表示个别垃圾邮件波,每一波包含发送到大量客户端和/或张贴于大量网站 上的同一垃圾邮件消息的副本或变体。理想上,消息群集由相同或近相同的目标串组成。群 集引擎38进一步经配置以接收目标直方图60且根据直方图相似性将由直方图60表示的 目标通信指派于其最相似的消息群集。为了执行群集指派,群集引擎38从直方图管理器36 接收一组参考直方图64,每一直方图64代表一群集,且比较直方图60与64以确定哪一消 息群集最佳地匹配于目标直方图60。下文关于图9给出群集引擎38的操作的更多细节。
[0049] 图9展示根据本发明的一些实施例的在垃圾邮件检测事务内由垃圾邮件检测器 32(图7)执行的示范性步骤序列。在步骤102中,垃圾邮件检测器32经由通信管理器34 从客户端系统14或内容服务器12接收目标指示符40。接着,在步骤104中,垃圾邮件检测 器根据目标指示符40提取目标串42,且计算串42的字符直方图60。步骤104还可包括计 算目标串42的若干参数,例如串长度和/或明显不同的字符的数目,其用以在步骤106中 对消息群集的集合进行预过滤。在一些实施例中,在步骤106中,垃圾邮件检测器32执行 预过滤操作以根据一组预过滤条件从群集引擎38所维持的完整集合选择候选消息群集的 子集。通过仅选择将执行直方图比较的群集的(小)子集,垃圾邮件检测器32可有效地降 低计算成本。
[0050] 在一些实施例中,垃圾邮件检测器32可根据串长度选择候选群集的子集。将目标 串42的串长度与代表每一群集的串长度进行比较,或与相应群集的成员的平均串长度进 行比较。群集在其典型串长度在目标串42的串长度的预定阈值内时可经选择为用于直方 图比较的候选。
[0051] 替代预过滤准则是明显不同的字符的数目(计数)。举例来说:串"Mississippi" 具有4个明显不同的字符:M、i、s和p。对于每一群集,将目标串42的明显不同的字符的 数目与相应群集的代表性成员的明显不同的字符的数目进行比较,或与群集的成员的明显 不同的字符的平均数目进行比较;将具有与目标串42相似数目的明显不同的字符的群集 选择为用于直方图比较的候选。
[0052] 在一些实施例中,预过滤可根据如下计算的串得分而进行:
[0053]

【权利要求】
1. 一种方法,其包括: 采用计算机系统接收形成电子通信的一部分的目标串; 响应于接收到所述目标串,采用所述计算机系统根据所述目标串确定串合格性准则; 采用所述计算机系统根据所述串合格性准则对参考串的语料库进行预过滤,以产生多 个候选串; 响应于选择所述候选串,采用所述计算机系统执行所述目标串的字符直方图与所述多 个候选串中的候选串的字符直方图之间的第一比较,以及所述电子通信的时戳与所述候选 串的时戳之间的第二比较;以及 采用所述计算机系统根据所述第一比较和所述第二比较的结果确定所述电子通信是 否为垃圾邮件或非垃圾邮件。
2. 根据权利要求1所述的方法,其中所述参考串的语料库包括多个群集,每一群集包 含一组互相相似串,其中所述多个候选串中的每一候选串代表一明显不同的群集,且其中 所述方法进一步包括响应于执行所述第一比较,采用所述计算机系统从所述多个群集选择 一群集且将所述目标串指派于所述选定群集。
3. 根据权利要求2所述的方法,其进一步包括根据多个时戳确定所述目标通信是否为 垃圾邮件或非垃圾邮件,所述多个时戳中的每一时戳对应于所述选定群集的一成员。
4. 根据权利要求2所述的方法,其进一步包括: 响应于将所述目标串指派于所述选定群集,确定所述选定群集的群集成员的计数;以 及 根据所述群集成员的计数确定所述电子通信是否为垃圾邮件或非垃圾邮件。
5. 根据权利要求2所述的方法,其进一步包括根据所述选定群集将所述电子通信识别 为属于选定垃圾邮件波。
6. 根据权利要求1所述的方法,其中对所述语料库进行预过滤包括: 确定所述目标串的第一串长度和所述语料库的参考串的第二串长度,且 当所述第一串长度与所述第二串长度相差小于预定阈值的量时,将所述参考串添加到 所述组候选串。
7. 根据权利要求1所述的方法,其中对所述语料库进行预过滤包括: 确定所述目标串的明显不同的字符的第一计数和所述语料库的参考串的明显不同的 字符的第二计数,且 当所述第一计数与所述第二计数相差小于预定阈值的量时,将所述参考串添加到所述 组候选串。
8. 根据权利要求1所述的方法,其中对所述语料库进行预过滤包括: 将所述目标串的第一串得分确定为如下函数:
其中Pi表示所述目标串的第i字符的ASCII码,且Wi是字符特定权重; 确定所述语料库的参考串的第二串得分;以及 当所述第一串得分与所述第二串得分相差小于预定阈值的量时,将所述参考串添加到 所述组候选串。
9. 根据权利要求1所述的方法,其中执行所述第一比较包括将串间距离确定为如下函 数:
其中T表示所述目标串的字符集合,C表示所述候选串的字符集合,表示所述目标 串内字符i的发生计数,表示所述候选串内字符i的发生计数,且其中Wi是字符i的字 符特定权重。
10. 根据权利要求9所述的方法,其中将所述串间距离进一步确定为如下函数:
其中字符j在所述目标串内发生,但不在所述候选串内发生是字符j的字符特定权 重,且c是根据所述目标串的串长度选择的数字。
11. 根据权利要求1所述的方法,其中执行所述第一比较包括将串间距离确定为如下 函数:
其中T表示所述目标串的字符集合,C表示所述候选串的字符集合,其中字符i在所述 目标串内发生,但不在所述候选串内发生,Wi是字符i的字符特定权重,且c是根据所述目 标串的串长度选择的数字。
12. 根据权利要求1所述的方法,其中所述电子通信包括博客评论。
13. 根据权利要求1所述的方法,其中所述电子通信包括张贴于社交网络站点上的消 肩、。
14. 一种计算机系统,其包括经编程以进行以下操作的至少一个处理器: 接收形成电子通信的一部分的目标串; 响应于接收到所述目标串,根据所述目标串确定串合格性准则; 根据所述串合格性准则对参考串的语料库进行预过滤,以产生多个候选串; 响应于选择所述候选串,执行所述目标串的字符直方图与所述多个候选串中的候选串 的字符直方图之间的第一比较,以及所述电子通信的时戳与所述候选串的时戳之间的第二 比较;以及 根据所述第一比较和所述第二比较的结果确定所述电子通信是否为垃圾邮件或非垃 圾邮件。
15. 根据权利要求14所述的系统,其中所述参考串的语料库包括多个群集,每一群集 包含一组相似串,其中所述多个候选串中的每一候选串代表一明显不同的群集,且其中所 述处理器进一步经编程以响应于执行所述第一比较,从所述多个群集选择一群集且将所述 目标串指派于所述选定群集。
16. 根据权利要求15所述的系统,其进一步包括根据多个时戳确定所述目标通信是否 为垃圾邮件或非垃圾邮件,所述多个时戳中的每一时戳对应于所述选定群集的一成员。
17. 根据权利要求15所述的系统,其中所述处理器进一步经编程以: 响应于将所述目标串指派于所述选定群集,确定所述选定群集的群集成员的计数;以 及 根据所述群集成员的计数确定所述电子通信是否为垃圾邮件或非垃圾邮件。
18. 根据权利要求15所述的系统,其中所述处理器进一步经编程以根据所述选定群集 将所述电子通信识别为属于选定垃圾邮件波。
19. 根据权利要求14所述的系统,其中对所述语料库进行预过滤包括: 确定所述目标串的第一串长度和所述语料库的参考串的第二串长度,且 当所述第一串长度与所述第二串长度相差小于预定阈值的量时,将所述参考串添加到 所述组候选串。
20. 根据权利要求14所述的系统,其中对所述语料库进行预过滤包括: 确定所述目标串的明显不同的字符的第一计数和所述语料库的参考串的明显不同的 字符的第二计数,且 当所述第一计数与所述第二计数相差小于预定阈值的量时,将所述参考串添加到所述 组候选串。
21. 根据权利要求14所述的系统,其中对所述语料库进行预过滤包括: 将所述目标串的第一串得分确定为如下函数:
其中Pi表示所述目标串的第i字符的ASCII码,且Wi是字符特定权重; 确定所述语料库的参考串的第二串得分;以及 当所述第一串得分与所述第二串得分相差小于预定阈值的量时,将所述参考串添加到 所述组候选串。
22. 根据权利要求14所述的系统,其中执行所述第一比较包括将串间距离确定为如下 函数:
其中T表示所述目标串的字符集合,C表示所述候选串的字符集合,表示所述目标 串内字符i的发生计数,表示所述候选串内字符i的发生计数,且其中Wi是字符i的字 符特定权重。
23. 根据权利要求22所述的系统,其中将所述串间距离进一步确定为如下函数:
其中字符j在所述目标串内发生,但不在所述候选串内发生是字符j的字符特定权 重,且c是根据所述目标串的串长度选择的数字。
24. 根据权利要求14所述的系统,其中执行所述第一比较包括将串间距离确定为如下 函数:
其中T表示所述目标串的字符集合,C表示所述候选串的字符集合,其中字符i在所述 目标串内发生,但不在所述候选串内发生,Wi是字符i的字符特定权重,且c是根据所述目 标串的串长度选择的数字。
25. 根据权利要求14所述的系统,其中所述电子通信包括博客评论。
26. 根据权利要求14所述的系统,其中所述电子通信包括张贴于社交网络站点上的消 肩、。
27. -种方法,其包括: 采用计算机系统接收电子通信; 响应于接收到所述电子通信,采用所述计算机系统从所述电子通信提取目标串; 采用所述计算机系统将所述目标串发射到反垃圾邮件服务器;以及 响应于发射所述目标串,接收指示所述电子通信是否为垃圾邮件或非垃圾邮件的目 标标签,其中所述目标标签是在所述反垃圾邮件服务器处确定且其中确定所述目标标签包 括: 采用所述反垃圾邮件服务器根据所述目标串确定合格性准则; 采用所述反垃圾邮件服务器根据所述准则条件对参考串的语料库进行预过滤,以产生 多个候选串; 响应于选择所述候选串,采用所述反垃圾邮件服务器执行所述目标串的字符直方图与 所述多个候选串中的候选串的字符直方图之间的第一比较,以及所述电子通信的时戳与所 述候选串的时戳之间的第二比较;以及 采用所述反垃圾邮件服务器根据所述第一比较和所述第二比较的结果确定所述目标 标签。
28. -种方法,其包括: 采用计算机系统接收形成电子通信的一部分的目标串; 响应于接收到所述目标串,采用所述计算机系统根据所述目标串确定串合格性准则; 采用所述计算机系统根据所述串合格性准则对参考串的语料库进行预过滤,以产生多 个候选串; 响应于选择所述候选串,采用所述计算机系统确定将所述目标串与所述多个候选串中 的一候选串分离的串间距离,所述串间距离是根据所述目标串内的选定字符的发生计数和 所述候选串内的所述选定字符的发生计数来确定;以及 采用所述计算机系统根据所述串间距离确定所述电子通信是否为垃圾邮件或非垃圾 邮件。
【文档编号】H04L12/58GK104067567SQ201280067397
【公开日】2014年9月24日 申请日期:2012年9月5日 优先权日:2012年1月25日
【发明者】达尼埃尔·迪基乌, Z·卢奇安·卢普赛斯库 申请人:比特梵德知识产权管理有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1