用于收集远程可接入信息源的地址的方法及系统的制作方法

文档序号:7936897阅读:199来源:国知局
专利名称:用于收集远程可接入信息源的地址的方法及系统的制作方法
技术领域
一般来说,本发明涉及一种用于收集远程可接入信息源的地址的方法及系统。本发 明的实施例特别适合于在更新过滤系统时使用,所述过滤系统控制对到网页的链接的接 入。本发明尤其适合于从电子消息及短消息(例如,无线接入协议(WAP)及多媒体消 息接发系统(MMS)消息)收集此类地址。
背景技术
因特网是全球计算机系统,所述计算机被链接在一起以促进计算机之间的通信。这 些计算机可由用户接入以便从所述计算机下载并显示信息页。检索因特网页的容易接入 及低廉成本已导致关于控制对不适当信息(例如色情描绘)的接入的数个问题。已提出 对这个问题的数种解决方案,包含评级系统,其类似于用于给电影评级使得父母或雇主 可控制对具有特定等级的因特网服务器或因特网页的接入的评级系统。除评级方案外,
其他人已开发出含有将被封锁的站点的统一资源定位符(URL)地址的数据库。这些数 据库被集成到网络计算机系统及因特网防火墙中,使得期望接入到因特网的人首先对照 被封锁站点的数据库匹配其URL请求且被拒绝对接入所述数据库中存在的任何URL的 接入。美国第5,678,041号专利中描述了一个此类系统。
所述系统依赖于所接入站点的数据库的完整性,且由于每天都有新的服务器及URL 添加到因特网,因此这些数据库不提供应被封锁的站点的完整列表。美国第5678041号 中所描述系统的改进呈现于EP1318468中,其描述一种分布于中央"数据库工厂"与许 多本地"接入系统"之间的系统,所述中央"数据库工厂"经布置以执行URL分类且将 分类的结果存储于中央数据库中,所述本地"接入系统"中的每一者与既定LAN相关联 且可连接到所述数据库工厂。任一既定接入系统加载有来自所述数据库工厂的分类数据 的拷贝并更新为所述分类数据,且另外包含所谓的过滤器模块,所述过滤器模块可执行 一定量的与未分类URL有关的处理。这些未分类URL是由LAN上的客户端请求的且未 列入于从数据库工厂下载的经分类数据中的任何URL。
当本地接入系统从其LAN上的客户端机器接收URL请求时,所述本地接入系统通 常可基于从数据库工厂接收的分类数据识别所述URL的类别。然而,如果无法从所述数 据库工厂获得类别,那么本地过滤器模块将执行例如文本处理的某一本地处理以识别对
客户端来说接入所述URL是否是安全的。所述本地处理的输出将与所述未分类URL相 关联地存储。对于任一既定接入的URL,所述过滤器模块还存储计数器,每当请求既定URL时所述计数器便被递增。在某些时间时-例如,在设定时间时、在随机时间时,每n 个时间单位或在既定URL已被请求指定的次数时-所述数据库工厂从接入系统请求未分 类URL及任何相关联的经处理数据。由于所述数据库工厂从不同接入系统收集数据且将 其输出下载到所述接入系统中的每一者,因此任一既定接入系统可从经由从连接到不相 关LAN的接入系统接收的URL请求而获得的知识中受益。
所有已知因特网接入控制系统共有的一个特征是对URL分析的触发,所述触发是接 收到对接入到既定URL的请求;因此,对URL的分析是由对接入到因特网上的对应于 所述URL的计算机的直接请求而触发的。

发明内容
根据本发明,提供一种如所附权利要求书中陈述的设备及方法。从独立技术方案及 以下描述中,本发明的其它特征将显而易见。
在本发明的一个方面中,提供一种收集远程可接入信息源的地址以供在更新过滤系 统时使用的方法,所述过滤系统控制经由公共接入网络对此信息的接入,所述方法包括 中断对去往终端而非所述过滤系统的消息的传输;从所述消息识别远程可接入信息源的 地址;基于所述接收的消息的属性分析所述消息以便将所述接收的消息归类为第一消息 类型或第二不同消息类型;且如果所述接收的消息被分类为所述第一消息类型,那么将 包括指示所述经识别地址的数据的消息传输到所述过滤系统。
因此,在本发明的实施例中,依据对消息(例如,通过网络传输的电子消息)的分 析来捕获远程可接入信息源的地址(例如URL)。此向URL过滤系统提供潜在有问题 的URL的新且不相依于请求的源,且提供相对于所述过滤系统异步操作的潜在有问题的 URL的新且不相依于请求的源。
在一个布置中,所述接收的消息包括消息本体,所述消息本体含有指定对应于远程 可接入信息源的网络位置的数据,且所述方法包含基于与所述传输的电子消息内指定的 网络位置相关的准则分析所述消息以便将所述消息归类为第一或第二消息类型。
在另一布置中,可基于与所述传输的消息的属性相关的准则分析所述消息,以便将 所述消息归类为第一或第二消息类型,所述属性例如是与所述消息包含在一起的发送者 (姓名、IP地址)、主题行及主题。第一消息类型的典型实例包含垃圾邮件、病毒及网 络钓鱼归类的消息,且所述分析可包含导出所述消息的消息模式及将所述导出的消息模 式和与先前传输的消息相关联的消息模式进行比较。
本发明的实施例还提供一种用于归类消息且向URL过滤系统传输指示潜在有问题 的URL的数据的系统。优选地,作为电子邮件分析系统的一部分提供所述功能性,使得 对潜在有问题的URL的识别是对传输中(in-transmit)电子邮件分析的副产物。依据对 本发明的优选实施例的以下描述本发明的其它特征及优点将显而易见,所述描述是参照 附图仅以举例说明方式给出的。


图la是显示本发明的实施例在其内操作的电子邮件过滤系统及分类系统的组件的 示意性框图lb是显示图la中所示各种组件之间的数据传送的概述的示意性时序图; 图2是显示根据本发明的实施例的电子邮件过滤系统的组件的示意性框图; 图3是显示由图2的电子邮件过滤系统执行的步骤的示意性流程图;及 图4是显示根据本发明的实施例的分类系统的组件的示意性框图。
具体实施例方式
如上文所描述,本发明的实施例提供一种用于捕获且分类URL的系统。与其中作为 接入URL的用户请求的一部分捕获URL的已知系统相比,在本发明的实施例中,URL 是在除从用户接收直接请求外还涉及若干步骤的过程期间捕获的。在本发明的至少一些 实施例中,作为另一过程的副产物捕获既定URL,且概括地说,对既定URL的触发及 分类过程与接入既定URL的用户请求是分离的。
转到图la,将首先描述本发明的实施例与其一起操作的分类系统100的概述。系统 100使终端Tl能够经由加载于终端Tl上的浏览器102或专门编写的客户端应用程序从 web服务器101请求数据。分类系统100经布置以过滤(控制及/或分析)终端Tl的对 资源的接入且实现对终端Tl的此监视的功能性可在本地过滤器模块F1与分类系统100 之间分担,所述本地过滤器模块F1与所述分类系统100可一起提供计算机网络接入的实 时或离线过滤以便分析与对所述资源的己尝试接入相关联的数据,且在适当时准许从与 对web服务器101的接入请求相关联的地址下载数据等。分类系统100与数据库DB1合 作,所述数据库DB1经布置以存储URL的细节及指派给其的类别,且在除分类系统100 外还包含本地过滤器模块Fl的布置中,将数据库DB1中保存的经分类数据的拷贝存储 于显示为DB1'的镜像数据库中。
图la还显示与电子邮件过滤系统103相关联的网络元件,在一个实施例中,所述电 子邮件过滤系统103用于捕获URL且将其发送到分类系统100上。电子邮件过滤系统 103实施于电子邮件的正常递送路径内且被利用来识别垃圾电子邮件、网络钓鱼电子邮 件或病毒;参照图la及lb,在发送者A给接收者B创建并发送电子邮件的上下文中显 示此递送路径电子邮件是从发送者A撰写所述电子邮件的终端T3处发送出,且被递 送到对应于所述电子邮件的电子邮件地址的终端T2。如此项技术中所知,电子邮件是从 终端T3发送到与终端T3合作的本地邮件服务器S1,其可驻留于局域网上或ISP处); 当本地邮件服务器S1接收电子邮件时,邮件服务器S1询问域名服务器(DNS) 101以 获得接收者的电子邮件地址的因特网协议(IP)地址。根据优选布置,对应于接收者的 地址的DNS记录经预配置以包括识别电子邮件过滤系统103的数据(例如,通过修改相 关联的邮件交换(MX)记录),此意味着所有去往接收者B的电子邮件被自动定向到电子邮件过滤系统103而不是定向到对应于接收者B的电子邮件地址的邮件服务器。
如图2中所示,电子邮件过滤系统103优选地包括应用服务器、web服务器、各种 常规及专门编写的处理组件,且可包括一个或多个机器,所述机器根据各种准则共同地 分析电子邮件,如下文的更详细描述。电子邮件过滤系统103通常经由公共网络(例如 因特网N1)连接到各种服务器及网关,包含对应于接收者的电子邮件地址的目的地电子 邮件服务器S2。
在某些条件下,例如当电子邮件含有满足各种条件的URL时或当所述电子邮件始发 于被识别为某种类型的因特网服务的源时,电子邮件过滤系统103将指示所述电子邮件 的URL及/或源地址的数据发送到分类系统100。可执行此动作,且同时或在此之前,采 取与所述电子邮件本身相关的动作。转到图3,当电子邮件过滤系统103接收到电子邮 件时,所述电子邮件被传递到应用服务器205以由URL软件组件207处理(步骤301)。 一旦URL软件组件207接收到所述电子邮件,便针对其它的一个或一个以上web链接的 存在来分析所述电子邮件(步骤303);在未识别此链接的情况下,软件组件207将所 述电子邮件传递到垃圾邮件检测软件组件209以用于签名代码及其它类似的电子邮件分 析,且如果适当,那么随后将所述电子邮件传递到应用服务器205用于以正常方式路由 到服务器S2 (步骤305)。
在一个实施例中,可在基于格式化所述消息中环绕URL串的数据而根据标记语言 (例如,HTML)格式化的电子邮件中检测到所述URL串的存在。举例来说,在HTML 消息中,URL串可具有如下格式<ahref= "http :〃www.sesame.com" >'在此情形中, 软件组件207经配置以遍历HTML消息搜索包括"http:"或"href="的串,以提取紧随 所述串后面的数据。
在其中确定所述电子邮件含有URL的情形中,软件组件207可仅基于所述URL或 结合对所述电子邮件的其它特征(例如,主题、发送者及接收者地址的格式或电子邮件 内的文本)的分析而继续分析所述电子邮件(步骤307);此项技术中已知若干种用于 执行对电子邮件的此类分析的方法且所述方法统称为"垃圾邮件检测方法"。
关于URL,软件组件207可基于存储于存储装置209中的以下参数中的一个或一个 以上参数评审所述URL:
域URL可包含到目标URL的子域及重定向,且将不同子域包含到URL中可 使得能够创建指向相同目标URL的唯一 URL。举例来说,可从包含不同子域 的URL指定URL "http:Vspamtastic.test.co.uk"。因此,可针对不同子域的存在
(此处存在两个子域spamtastic.test.co.uk; testco.uk)检查所述URL串;
重定向URL: URL可包括指向特定目标URL的另一 URL;举例来说,URL
"http:〃random.com/date/03/*http:〃www.spamtasic.co.uk"实际上指向目标URL "http:〃www.spamtasic.co.uk"。因此,可针对到不同URL的重定向检查所述 URL串;
URL内的额外信息用户名、口令、"@"符号、数字字符参考(其指定文档字符集中的字符的代码位置)、字符实体参考(其使用符号名)、缓冲器溢出、 空位填充及嵌入的空字符。因此,可针对此信息的存在检查所述URL串; URL内的某些字(例如)存储于数据库DB2中的色情或令人反感的字。因此,
可针对此类字的存在检査所述URL串。 另外,电子邮件过滤系统103可维持或利用URL黑名单,所述URL黑名单包含被 认为是指示垃圾邮件的及/或与电子邮件病毒及/或网络钓鱼相关的URL,且软件组件207 可经布置以将所述电子邮件内的所述URL或每一 URL与所述黑名单中列出的URL进行 比较;当将列入黑名单的URL存储为散列值时,便于软件组件207产生所述电子邮件内 的所述URL或每一 URL的散列值,使得能够基于产生的及存储的散列值来执行所述比 较。
在一个布置中,基于上述参数中的一个、 一些或所有参数给所述电子邮件打分,且 取决于预指定的权重组合个别的得分。 一旦评估了总得分,软件组件207便将所述得分 与预定阈值进行比较(步骤309);在所述得分超过所述阈值的情况下,将指示URL的 数据作为分类请求消息M1传输到分类系统100。
如上文所描述,电子邮件过滤系统103能够经由垃圾邮件检测软件组件209将各种 垃圾邮件检测技术应用于传入的电子邮件;关于不含有URL链接的电子邮件,须基于主 题、发送者及接收者地址的格式及/或所述电子邮件内文本对这些电子邮件进行分析以便 导出所述电子邮件的签名代码(步骤305)。作为所述分析的结果,可将对应于各种电 子邮件属性的数据存储于数据库DB2中,且对于被确定为是一批批量电子邮件中的一者 的那些电子邮件-换句话说,其文本部分(签名代码)与被发送到至少一个其它接收者的 文本部分相同的电子邮件-电子邮件过滤系统103可将包括指示所述电子邮件的始发地址 的数据的分类请求消息M1发送到分类系统100。
优选地,分类请求消息M1包含指示作为上述分析的结果由电子邮件过滤系统103 导出的归类类型的数据;举例来说,分类请求消息M1包含与垃圾邮件、病毒及网络钓 鱼归类相关联的字段,且如果既定分类请求消息M1的相应字段在其中包含"1",那么 此向分类系统100指示相关联的归类。此可辅助分类系统100的机器辨识。
因此,本发明的实施例有利地提供一种用于将URL通知分类系统100的新机制,且 由于接收分类请求消息M1与对接入URL的请求无关,因此对所述请求的处理以及对所 述URL的分类的处置也与对客户端始发资源接入请求的处理无关。因此,与常规系统所 能做的相比,将分析(及分类)更多数量及种类的URL,重要的是不招致与处理客户端 始发资源接入请求相关的任何额外开销。另外且鉴于此新的URL源,经分类URL的储 存库显著增加,从而增加可以指示(先前指派的)分类的响应服务先前未看见的客户端 始发资源接入请求的概率。
现在将描述分类系统100的组件及操作;当系统100执行的分类的性质是常规的时, 分类系统100唯一地经配置以响应于来自节点而非经验证客户端装置的请求。另外,分 类系统100经选择性地布置以响应于分类请求消息M1而传输(预存储的)类别及/或存储所述分类的结果,及/或在相依于分类请求消息Ml的源的响应消息M2中传输所述分
类的结果。
现在转到图4,在一个布置中,分类系统100包括各种常规输入/输出、存储装置、 存储器和操作系统处理组件以及各种专门编写的处理组件,所述专门编写的处理组件包 含用于接收分类请求的请求处置组件401及用以确定URL的一或多个适当类别的自动分 类或归类组件403。请求处置组件401经配置以识别分类请求消息M1的源、检索分类请 求消息M1内的URL且基于数据库DB1中存储的数据确定请求消息M1中的URL是否 需要分类。如果先前尚未分析URL,那么请求处置组件401将所述URL及与所述URL 相关联的任何额外数据传递到分类组件403。如果URL已经分类(即,如果所述URL 被存储于数据库DB1中),那么请求处置组件401经布置以从数据库DB1中检索所述 类别并创建消息M2,所述消息M2具有含有供传输到分类请求消息M1的源(即电子邮 件过滤系统103)的类别的消息本体。在分类请求消息M1识别已从一电子邮件(与发送 者的批量电子邮件的情况相反)内检索的URL的情况下,电子邮件过滤系统103在接收 到类别数据之后将所述类别数据连同所述URL—起存储于数据库DB2中。因此,此类 别信息有利地提供与电子邮件过滤系统103在步骤305及307处执行的分析相关的第二 级检验,且可在针对处置电子邮件(URL始发于其中)做出的任何决策中加以利用。
假设消息Ml含有对应于web服务器Sl保存的一或多个页面的URL,那么分类组 件403从服务器Sl检索所述页面且使用分类引擎剖析所述页面以确定所述URL的一或 多个适当类别,从而确定所述分类过程期间的统计概率及多维向量。分类可基于字分析、 自适应学习系统及/或图像分析,在此情形中,分类组件403可包含语言分析器,所述语 言分析器经布置以确定既定URL的网站的语言;适合技术的实例描述于具有公开案号 WO0163835的国际专利申请案中。另外,分类组件403可与人类检验者介接以确定所述 URL的一或多个适当类别。
一旦分类了对应于URL的网页,分类组件403便可经布置以将所述URL连同其相 关联的一个或一个以上类别一起存储于经分类站点的数据库DB1中;数据库DB1包含 用于调度对本地过滤器模块(例如F1)的更新的功能性以便确保所述URL及其相关联 的一或多个类别被拷贝到镜像数据库DB1'。
应将上述实施例理解为本发明的说明性实例。还可设想出本发明的其它实施例。举 例来说,请求处置组件401可经配置以响应于来自分析器的与处理无线接入协议(WAP) 及多媒体消息接发系统(MMS)消息相关联的分类请求消息。
应理解,针对任何一个实施例描述的任一特征可单独地或结合所描述的其它特征一 起使用,且所述特征还可结合所述实施例中任何其它实施例或所述实施例中任何其它实 施例的任何组合的一个或一个以上特征一起使用。此外,还可采用上文未描述的等效及 修改形式,而此并不背离由所附权利要求书界定的本发明的范围。
权利要求
1、一种收集远程可接入信息源的地址以供在更新过滤系统(100)时使用的方法,所述过滤系统(100)控制经由公共接入网络(N1)对所述信息源的接入,所述方法包括中断对去往终端(T2、T3)而非所述过滤系统(100)的消息的传输;从所述消息识别远程可接入信息源的地址;基于所述接收的消息的属性分析所述消息以便将所述接收的消息归类为第一消息类型或第二不同消息类型;如果所述接收的消息被归类为所述第一消息类型,那么将包括指示所述经识别地址的数据的消息传输到所述过滤系统(100)。
2、 如权利要求1所述的方法,其中所述消息包括指定对应于远程可接入信息源 的网络位置的数据,且所述方法包含基于与所述传输的电子消息内指定的所述网络位 置相关的准则分析所述消息以便将所述消息归类为第一或第二消息类型。
3、 如权利要求2所述的方法,其中所述消息包括到所述网络位置的链接。
4、 如权利要求1到3中任一所述的方法,其包含基于与所述传输的消息的至少 一个其它属性相关的准则分析所述消息以便将所述消息归类为第一或第二消息类型。
5、 如权利要求4所述的方法,其中所述与所述消息的另一属性相关的准则包含 发送者地址。
6、 如权利要求4或5所述的方法,其包含导出所述消息的消息模式且将所述导 出的消息模式和与先前传输的消息相关联的消息模式进行比较,借此来分析所述消息 且将所述消息归类为第一或第二消息类型。
7、 如前述权利要求中任一所述的方法,其中所述消息是电子消息。
8、 如权利要求7所述的方法,其中所述第一消息类型包括垃圾电子邮件消息。
9、 如权利要求7所述的方法,其中所述第一消息类型包括电子邮件病毒。
10、 如权利要求7所述的方法,其中所述第一消息类型包括网络钓鱼消息。
11、 如前述权利要求中任一所述的方法,其中所述消息是无线接入协议(WAP) 消息。
12、 如前述权利要求中任一所述的方法,其中传输到所述过滤系统的所述消息进 一步包括指示所述第一消息类型的数据。
13、 一种供在更新过滤系统(100)时使用的消息处理系统(103),所述过滤系 统(100)控制经由公共接入网络(Nl)对远程可接入信息源的接入,所述消息处理 系统(103)包括接口 (205),其用于接收去往终端(T2、 T3)而非所述过滤系统(100)的消息;及消息处理器(207),其经布置以从所述消息识别远程可接入信息源的地址,所 述消息处理器(207)经布置以基于所述接收的消息的属性分析所述消息以便将所述接 收的消息归类为第一消息类型或第二不同消息类型;其中所述接口 (205)经布置以在所述接收的消息被归类为所述第一消息类型的 情况下将包括指示所述经识别地址的数据的消息传输到所述过滤系统(100)。
全文摘要
本发明描述一种用于收集远程可接入信息源的地址的方法及系统。在由消息接发网络(N1)载送的消息(例如电子邮件)到达去往的终端之前将其拦截。从所述拦截的电子邮件消息识别远程可接入信息源的地址(即,URL)。分析所述消息以归类为第一消息类型(例如,垃圾邮件消息或病毒消息)或第二不同消息类型。如果所述拦截的消息被归类为所述第一垃圾邮件/病毒类型,则将指示所述经识别地址(URL)的数据传输到过滤系统(100),所述过滤系统控制对所述远程可接入信息源的接入。因此,从例如垃圾电子邮件的所传输消息搜集地址(URL)并将所述地址供应到过滤系统(100),所述过滤系统控制对可在那些地址处接入的资源的接入。
文档编号H04L29/06GK101637002SQ200880006431
公开日2010年1月27日 申请日期2008年1月4日 优先权日2007年1月9日
发明者詹姆斯·凯 申请人:韦伯森斯郝斯特德研发有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1