使用多尺度文本指纹的文档分类的制作方法

文档序号:9264905阅读:408来源:国知局
使用多尺度文本指纹的文档分类的制作方法
【专利说明】使用多尺度文本指纹的文档分类
【背景技术】
[0001] 本发明涉及用于分类电子文档的方法及系统,且尤其涉及用于筛选未经请求的电 子通信(垃圾邮件)且检测诈骗性网上文档的系统及方法。
[0002] 未经请求的电子通信(也称为垃圾邮件)形成全球通信业务的显著部分,从而影 响计算机消息传递服务及电话消息传递服务两者。垃圾邮件可呈许多形式,从未经请求的 电子邮件通信到伪装成各种互联网站点(例如,网志及社交网络站点)上的用户评论的垃 圾邮件消息。垃圾邮件占用宝贵的硬件资源、影响生产率,且被通信服务及/或互联网的许 多用户视为讨厌的及打扰的。
[0003] 网上诈骗(尤其是呈网络钓鱼及身份盗用的形式)已正对全球互联网用户造成日 益增加的威胁。由在互联网上操作的国际犯罪网络诈骗性地获得的敏感身份信息(例如用 户姓名、ID、密码、身份证号码及医疗记录、银行及信用卡明细)用于提取私人资金及/或进 一步卖给第三方。除了给个人造成直接的金融损失以外,网上诈骗也造成一系列有害的副 作用,例如公司日益增加的安全成本、较高的零售价格及银行收费、下跌的股票价值、较低 的工资及下降的税收收入。
[0004] 在示范性网络钓鱼尝试中,虚假网站(也称为克隆)可伪装成属于网上零售商或 金融机构的正版网页,要求用户输入一些个人信息(例如,用户名或密码)或一些金融信息 (例如,信用卡号、账号或安全代码)。一旦毫无戒心的用户提交所述信息,其就可由所述虚 假网站搜集。另外,用户可被引导到另一网页,其能够在用户的计算机上安装恶意软件。所 述恶意软件(例如,病毒、特洛伊木马)能够通过记录由用户在访问某些网页时键入的密钥 而继续窃取个人信息,且能够将用户的计算机变换成用于发动其它网络钓鱼及垃圾邮件攻 击的平台。
[0005] 在垃圾电子邮件或电子邮件诈骗的情况下,在用户或电子邮件服务提供商的计算 机系统上运行的软件可用于将电子邮件消息分类为垃圾邮件/非垃圾邮件(或诈骗性/合 法),且甚至区分各种种类的消息,例如,区分产品提供、成人内容及尼日利亚诈骗。垃圾邮 件/诈骗性消息可随后被引导到特殊文件夹或被删除。类似地,在内容提供商的计算机系 统上运行的软件能够用于拦截发布到由相应内容提供商托管的网站的垃圾邮件/诈骗性 消息,且防止显示相应消息,或向所述网站的用户显示所述相应消息可为诈骗性或垃圾邮 件的警告。
[0006] 已提出用于识别垃圾邮件及/或网上诈骗的若干方法,其包含使消息的发端地址 与已知违法或受信任地址列表(分别称为黑名单及白名单的技术)匹配、搜索某些字或字 形(例如,再融资、Viagra?、股票),及分析消息标头。有时结合自动化数据分类方法(例 如,贝叶斯(Bayesian)筛选、神经网络)而使用特征提取/匹配方法。
[0007] -些所提出的方法使用散列以产生电子文本消息的紧凑表示。此类表示允许有效 的消息间比较,其用于垃圾邮件或诈骗检测目的。
[0008] 垃圾邮件发送者及网上诈骗者试图通过使用各种迷惑方法(例如,拼错某些字、 将垃圾邮件及/或诈骗性内容嵌入到伪装成合法文档的较大文本块中,及将消息的形式及 /或内容从一个分布波更改到另一分布波)而避开检测。使用散列的反垃圾邮件及反诈骗 方法通常易受此类迷惑的干扰,这是因为文本的小改变可产生实质上不同的散列。成功的 检测可因此受益于能够识别多态垃圾邮件及诈骗的方法及系统。

【发明内容】

[0009] 根据一个方面,一种客户端计算机系统包括至少一个处理器,其经配置以确定目 标电子文档的文本指纹,使得所述文本指纹的长度约束在下限与上限之间,其中所述下限 及上限为预定的。确定所述文本指纹包括:选择所述目标电子文档的多个文本标记;及响 应于选择所述多个文本标记,根据所述上限及下限且根据所述所选择的多个文本标记的计 数而确定指纹片段大小。确定所述文本指纹进一步包括:确定多个指纹片段,所述多个指纹 片段中的每一指纹片段是根据所述所选择的多个文本标记中的相异文本标记的散列而确 定,每一指纹片段由字符序列组成,所述序列的长度经选择为等于所述指纹片段大小;及级 联所述多个指纹片段以形成所述文本指纹。
[0010] 根据另一方面,一种服务器计算机系统包括至少一个处理器,其经配置以执行与 多个客户端系统进行的事务,其中事务包括:从所述多个客户端系统中的客户端系统接收 文本指纹,所述文本指纹是针对目标电子文档而确定,使得所述文本指纹的长度约束在下 限与上限之间,其中所述下限及上限为预定的;及向所述客户端系统发送指示所述目标电 子文档所属的文档类别的目标标签。确定所述文本指纹包括:选择所述目标电子文档的多 个文本标记;及响应于选择所述多个文本标记,根据所述上限及下限且根据所述所选择的 多个文本标记的计数而确定指纹片段大小。确定所述文本指纹进一步包括:确定多个指纹 片段,所述多个指纹片段中的每一指纹片段是根据所述所选择的多个文本标记中的相异文 本标记的散列而确定,每一指纹片段由字符序列组成,所述序列的长度经选择为等于所述 指纹片段大小;及级联所述多个指纹片段以形成所述文本指纹。确定所述目标标签包括: 从参考指纹的数据库检索参考指纹,所述参考指纹是针对属于所述类别的参考电子文档而 确定,所述参考指纹是根据所述参考指纹的长度而选择,使得所述参考指纹的所述长度在 所述上限与下限之间;及根据比较所述文本指纹与所述参考指纹的结果而确定所述目标电 子文档是否属于所述类别。
[0011] 根据另一方面,一种方法包括使用客户端计算机系统的至少一个处理器以确定目 标电子文档的文本指纹,使得所述文本指纹的长度约束在下限与上限之间,其中所述下限 及上限为预定的。确定所述文本指纹包括:选择所述目标电子文档的多个文本标记;及响 应于选择所述多个文本标记,根据所述上限及下限且根据所述所选择的多个文本标记的计 数而确定指纹片段大小。确定所述文本指纹进一步包括:确定多个指纹片段,所述多个指纹 片段中的每一指纹片段是根据所述所选择的多个文本标记中的相异文本标记的散列而确 定,每一指纹片段由字符序列组成,所述序列的长度经选择为等于所述指纹片段大小;及级 联所述多个指纹片段以形成所述文本指纹。
[0012] 根据另一方面,一种方法包括使用经配置以执行与多个客户端系统进行的事务的 服务器计算机系统的至少一个处理器以:从所述多个客户端系统中的客户端系统接收文本 指纹,所述文本指纹是针对目标电子文档而确定,使得所述文本指纹的长度约束在下限与 上限之间,其中所述下限及上限为预定的;及向所述客户端系统发送针对所述目标电子文 档所确定的目标标签,所述目标标签指示所述目标电子文档所属的文档类别。确定所述文 本指纹包括:选择所述目标电子文档的多个文本标记;及响应于选择所述多个文本标记, 根据所述上限及下限且根据所述所选择的多个文本标记的计数而确定指纹片段大小。确定 所述文本指纹进一步包括:确定多个指纹片段,所述多个指纹片段中的每一指纹片段是根 据所述所选择的多个文本标记中的相异文本标记的散列而确定,每一指纹片段由字符序列 组成,所述序列的长度经选择为等于所述指纹片段大小;及级联所述多个指纹片段以形成 所述文本指纹。确定所述目标标签包括:从参考指纹的数据库检索参考指纹,所述参考指纹 是针对属于所述类别的参考电子文档而确定,所述参考指纹是根据所述参考指纹的长度而 选择,使得所述参考指纹的所述长度在所述上限与下限之间;及根据比较所述文本指纹与 所述参考指纹的结果而确定所述目标电子文档是否属于所述类别。
【附图说明】
[0013] 在阅读以下详细描述后及在参考图式后就将更好地理解本发明的前述方面及优 点,在图式中:
[0014] 图1展示根据本发明的一些实施例的包括保护多个客户端系统的安全服务器的 示范性反垃圾邮件/反诈骗系统。
[0015] 图2-A展示根据本发明的一些实施例的客户端计算机系统的示范性硬件配置。
[0016] 图2-B展示根据本发明的一些实施例的安全服务器计算机系统的示范性硬件配 置。
[0017] 图2-C展示根据本发明的一些实施例的内容服务器计算机系统的示范性硬件配 置。
[0018] 图3-A展示根据本发明的一些实施例的包括文本块的示范性垃圾电子邮件消息。
[0019] 图3-B展示根据本发明的一些实施例的包括文本块的示范性垃圾邮件网志评论。
[0020] 图3-C说明根据本发明的一些实施例的包括多个文本块的示范性诈骗性网页。
[0021] 图4-A说明根据本发明的一些实施例的客户端计算机与安全服务器之间的示范 性垃圾邮件/诈骗检测事务。
[0022] 图4-B说明根据本发明的一些实施例的内容服务器与安全服务器之间的示范性 垃圾邮件/诈骗检测事务。
[0023] 图5展示根据本发明的一些实施例的目标电子文档的示范性目标指示符,所述指 示符包括文本指纹及其它垃圾邮件/诈骗识别数据。
[0024] 图6展示根据本发明的一些实施例的在客户端系统上执行的示范性应用程序集 合的图解。
[0025] 图7说明根据本发明的一些实施例的由图6的指纹计算器执行的示范性步骤序 列。
[0026] 图8展示根据本发明的一些实施例的目标文本块的文本指纹的示范性确定。
[0027] 图9展示根据本发明的一些实施例的针对处于各种放大及缩小因数的目标文本 块而确定的多个指纹。
[0028] 图10说明根据本发明的一些实施例的由指纹计算器执行以确定缩小指纹的示范 性步骤序列。
[0029] 图11展示根据本发明的一些实施例的在安全服务器上执行的示范性应用程序。
[0030] 图12展示根据本发明的一些实施例的在安全服务器上执行的示范性文档分类器 的图解。
[0031] 图13展示在包括分析实际垃圾邮件消息流的计算机实验中获得的垃圾邮件检测 率,所述分析是根据本发明的一些实施例而执行;比较所述检测率与通过常规方法而获得 的检测率。
【具体实施方式】
[0032] 在以下描述中,应理解,结构之间的所有列举的连接可为直接操作连接或通过中 介结构的间接操作连接。元件集合包含一或多个元件。元件的任何列举应被理解为是指至 少一个元件。多个元件包含至少两个元件。除非另有要求,否则任何所描述的方法步骤未必 需要按所说明的特定次序执行。来源于第二元件的第一元件(例如,数据)涵盖等于第二 元件的第一元件,以及通过处理第二元件而产生的第一元件及任选的其它数据。根据参数 做出确定或决定涵盖根据参数且任选地根据其它数据做出确定或决定。除非另有指定,否 则一些数量/数据的指示符
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1