用于收集远程可接入信息源的地址的方法及系统的制作方法

文档序号：7936897阅读：199来源：国知局

专利名称：用于收集远程可接入信息源的地址的方法及系统的制作方法
技术领域：
一般来说，本发明涉及一种用于收集远程可接入信息源的地址的方法及系统。本发明的实施例特别适合于在更新过滤系统时使用，所述过滤系统控制对到网页的链接的接入。本发明尤其适合于从电子消息及短消息(例如，无线接入协议(WAP)及多媒体消息接发系统(MMS)消息)收集此类地址。
背景技术：
因特网是全球计算机系统，所述计算机被链接在一起以促进计算机之间的通信。这些计算机可由用户接入以便从所述计算机下载并显示信息页。检索因特网页的容易接入及低廉成本已导致关于控制对不适当信息(例如色情描绘)的接入的数个问题。已提出对这个问题的数种解决方案，包含评级系统，其类似于用于给电影评级使得父母或雇主可控制对具有特定等级的因特网服务器或因特网页的接入的评级系统。除评级方案外，
其他人已开发出含有将被封锁的站点的统一资源定位符(URL)地址的数据库。这些数据库被集成到网络计算机系统及因特网防火墙中，使得期望接入到因特网的人首先对照被封锁站点的数据库匹配其URL请求且被拒绝对接入所述数据库中存在的任何URL的接入。美国第5，678,041号专利中描述了一个此类系统。
所述系统依赖于所接入站点的数据库的完整性，且由于每天都有新的服务器及URL 添加到因特网，因此这些数据库不提供应被封锁的站点的完整列表。美国第5678041号中所描述系统的改进呈现于EP1318468中，其描述一种分布于中央"数据库工厂"与许多本地"接入系统"之间的系统，所述中央"数据库工厂"经布置以执行URL分类且将分类的结果存储于中央数据库中，所述本地"接入系统"中的每一者与既定LAN相关联且可连接到所述数据库工厂。任一既定接入系统加载有来自所述数据库工厂的分类数据的拷贝并更新为所述分类数据，且另外包含所谓的过滤器模块，所述过滤器模块可执行一定量的与未分类URL有关的处理。这些未分类URL是由LAN上的客户端请求的且未列入于从数据库工厂下载的经分类数据中的任何URL。
当本地接入系统从其LAN上的客户端机器接收URL请求时，所述本地接入系统通常可基于从数据库工厂接收的分类数据识别所述URL的类别。然而，如果无法从所述数据库工厂获得类别，那么本地过滤器模块将执行例如文本处理的某一本地处理以识别对
客户端来说接入所述URL是否是安全的。所述本地处理的输出将与所述未分类URL相关联地存储。对于任一既定接入的URL,所述过滤器模块还存储计数器，每当请求既定URL时所述计数器便被递增。在某些时间时-例如，在设定时间时、在随机时间时，每n 个时间单位或在既定URL已被请求指定的次数时-所述数据库工厂从接入系统请求未分类URL及任何相关联的经处理数据。由于所述数据库工厂从不同接入系统收集数据且将其输出下载到所述接入系统中的每一者，因此任一既定接入系统可从经由从连接到不相关LAN的接入系统接收的URL请求而获得的知识中受益。
所有已知因特网接入控制系统共有的一个特征是对URL分析的触发，所述触发是接收到对接入到既定URL的请求；因此，对URL的分析是由对接入到因特网上的对应于所述URL的计算机的直接请求而触发的。

发明内容
根据本发明，提供一种如所附权利要求书中陈述的设备及方法。从独立技术方案及以下描述中，本发明的其它特征将显而易见。
在本发明的一个方面中，提供一种收集远程可接入信息源的地址以供在更新过滤系统时使用的方法，所述过滤系统控制经由公共接入网络对此信息的接入，所述方法包括中断对去往终端而非所述过滤系统的消息的传输；从所述消息识别远程可接入信息源的地址；基于所述接收的消息的属性分析所述消息以便将所述接收的消息归类为第一消息类型或第二不同消息类型；且如果所述接收的消息被分类为所述第一消息类型，那么将包括指示所述经识别地址的数据的消息传输到所述过滤系统。
因此，在本发明的实施例中，依据对消息(例如，通过网络传输的电子消息)的分析来捕获远程可接入信息源的地址(例如URL)。此向URL过滤系统提供潜在有问题的URL的新且不相依于请求的源，且提供相对于所述过滤系统异步操作的潜在有问题的 URL的新且不相依于请求的源。
在一个布置中，所述接收的消息包括消息本体，所述消息本体含有指定对应于远程可接入信息源的网络位置的数据，且所述方法包含基于与所述传输的电子消息内指定的网络位置相关的准则分析所述消息以便将所述消息归类为第一或第二消息类型。
在另一布置中，可基于与所述传输的消息的属性相关的准则分析所述消息，以便将所述消息归类为第一或第二消息类型，所述属性例如是与所述消息包含在一起的发送者 (姓名、IP地址)、主题行及主题。第一消息类型的典型实例包含垃圾邮件、病毒及网络钓鱼归类的消息，且所述分析可包含导出所述消息的消息模式及将所述导出的消息模式和与先前传输的消息相关联的消息模式进行比较。
本发明的实施例还提供一种用于归类消息且向URL过滤系统传输指示潜在有问题的URL的数据的系统。优选地，作为电子邮件分析系统的一部分提供所述功能性，使得对潜在有问题的URL的识别是对传输中(in-transmit)电子邮件分析的副产物。依据对本发明的优选实施例的以下描述本发明的其它特征及优点将显而易见，所述描述是参照附图仅以举例说明方式给出的。

图la是显示本发明的实施例在其内操作的电子邮件过滤系统及分类系统的组件的示意性框图lb是显示图la中所示各种组件之间的数据传送的概述的示意性时序图；图2是显示根据本发明的实施例的电子邮件过滤系统的组件的示意性框图；图3是显示由图2的电子邮件过滤系统执行的步骤的示意性流程图；及图4是显示根据本发明的实施例的分类系统的组件的示意性框图。
具体实施例方式
如上文所描述，本发明的实施例提供一种用于捕获且分类URL的系统。与其中作为接入URL的用户请求的一部分捕获URL的已知系统相比，在本发明的实施例中，URL 是在除从用户接收直接请求外还涉及若干步骤的过程期间捕获的。在本发明的至少一些实施例中，作为另一过程的副产物捕获既定URL，且概括地说，对既定URL的触发及分类过程与接入既定URL的用户请求是分离的。
转到图la，将首先描述本发明的实施例与其一起操作的分类系统100的概述。系统 100使终端Tl能够经由加载于终端Tl上的浏览器102或专门编写的客户端应用程序从 web服务器101请求数据。分类系统100经布置以过滤(控制及/或分析)终端Tl的对资源的接入且实现对终端Tl的此监视的功能性可在本地过滤器模块F1与分类系统100 之间分担，所述本地过滤器模块F1与所述分类系统100可一起提供计算机网络接入的实时或离线过滤以便分析与对所述资源的己尝试接入相关联的数据，且在适当时准许从与对web服务器101的接入请求相关联的地址下载数据等。分类系统100与数据库DB1合作，所述数据库DB1经布置以存储URL的细节及指派给其的类别，且在除分类系统100 外还包含本地过滤器模块Fl的布置中，将数据库DB1中保存的经分类数据的拷贝存储于显示为DB1'的镜像数据库中。
图la还显示与电子邮件过滤系统103相关联的网络元件，在一个实施例中，所述电子邮件过滤系统103用于捕获URL且将其发送到分类系统100上。电子邮件过滤系统 103实施于电子邮件的正常递送路径内且被利用来识别垃圾电子邮件、网络钓鱼电子邮件或病毒；参照图la及lb，在发送者A给接收者B创建并发送电子邮件的上下文中显示此递送路径电子邮件是从发送者A撰写所述电子邮件的终端T3处发送出，且被递送到对应于所述电子邮件的电子邮件地址的终端T2。如此项技术中所知，电子邮件是从终端T3发送到与终端T3合作的本地邮件服务器S1，其可驻留于局域网上或ISP处)；当本地邮件服务器S1接收电子邮件时，邮件服务器S1询问域名服务器(DNS) 101以获得接收者的电子邮件地址的因特网协议(IP)地址。根据优选布置，对应于接收者的地址的DNS记录经预配置以包括识别电子邮件过滤系统103的数据(例如，通过修改相关联的邮件交换(MX)记录)，此意味着所有去往接收者B的电子邮件被自动定向到电子邮件过滤系统103而不是定向到对应于接收者B的电子邮件地址的邮件服务器。
如图2中所示，电子邮件过滤系统103优选地包括应用服务器、web服务器、各种常规及专门编写的处理组件，且可包括一个或多个机器，所述机器根据各种准则共同地分析电子邮件，如下文的更详细描述。电子邮件过滤系统103通常经由公共网络(例如因特网N1)连接到各种服务器及网关，包含对应于接收者的电子邮件地址的目的地电子邮件服务器S2。
在某些条件下，例如当电子邮件含有满足各种条件的URL时或当所述电子邮件始发于被识别为某种类型的因特网服务的源时，电子邮件过滤系统103将指示所述电子邮件的URL及/或源地址的数据发送到分类系统100。可执行此动作，且同时或在此之前，采取与所述电子邮件本身相关的动作。转到图3，当电子邮件过滤系统103接收到电子邮件时，所述电子邮件被传递到应用服务器205以由URL软件组件207处理(步骤301)。一旦URL软件组件207接收到所述电子邮件，便针对其它的一个或一个以上web链接的存在来分析所述电子邮件(步骤303);在未识别此链接的情况下，软件组件207将所述电子邮件传递到垃圾邮件检测软件组件209以用于签名代码及其它类似的电子邮件分析，且如果适当，那么随后将所述电子邮件传递到应用服务器205用于以正常方式路由到服务器S2 (步骤305)。
在一个实施例中，可在基于格式化所述消息中环绕URL串的数据而根据标记语言 (例如，HTML)格式化的电子邮件中检测到所述URL串的存在。举例来说，在HTML 消息中，URL串可具有如下格式<ahref= "http :〃www.sesame.com" >'在此情形中，软件组件207经配置以遍历HTML消息搜索包括"http:"或"href="的串，以提取紧随所述串后面的数据。
在其中确定所述电子邮件含有URL的情形中，软件组件207可仅基于所述URL或结合对所述电子邮件的其它特征(例如，主题、发送者及接收者地址的格式或电子邮件内的文本)的分析而继续分析所述电子邮件(步骤307);此项技术中已知若干种用于执行对电子邮件的此类分析的方法且所述方法统称为"垃圾邮件检测方法"。
关于URL，软件组件207可基于存储于存储装置209中的以下参数中的一个或一个以上参数评审所述URL:
域URL可包含到目标URL的子域及重定向，且将不同子域包含到URL中可使得能够创建指向相同目标URL的唯一 URL。举例来说，可从包含不同子域的URL指定URL "http:Vspamtastic.test.co.uk"。因此，可针对不同子域的存在
(此处存在两个子域spamtastic.test.co.uk; testco.uk)检查所述URL串；
重定向URL: URL可包括指向特定目标URL的另一 URL;举例来说，URL
"http:〃random.com/date/03/*http:〃www.spamtasic.co.uk"实际上指向目标URL "http:〃www.spamtasic.co.uk"。因此，可针对到不同URL的重定向检查所述 URL串；
URL内的额外信息用户名、口令、"@"符号、数字字符参考(其指定文档字符集中的字符的代码位置)、字符实体参考(其使用符号名)、缓冲器溢出、空位填充及嵌入的空字符。因此，可针对此信息的存在检查所述URL串； URL内的某些字(例如)存储于数据库DB2中的色情或令人反感的字。因此，
可针对此类字的存在检査所述URL串。另外，电子邮件过滤系统103可维持或利用URL黑名单，所述URL黑名单包含被认为是指示垃圾邮件的及/或与电子邮件病毒及/或网络钓鱼相关的URL，且软件组件207 可经布置以将所述电子邮件内的所述URL或每一 URL与所述黑名单中列出的URL进行比较；当将列入黑名单的URL存储为散列值时，便于软件组件207产生所述电子邮件内的所述URL或每一 URL的散列值，使得能够基于产生的及存储的散列值来执行所述比较。
在一个布置中，基于上述参数中的一个、一些或所有参数给所述电子邮件打分，且取决于预指定的权重组合个别的得分。一旦评估了总得分，软件组件207便将所述得分与预定阈值进行比较(步骤309);在所述得分超过所述阈值的情况下，将指示URL的数据作为分类请求消息M1传输到分类系统100。
如上文所描述，电子邮件过滤系统103能够经由垃圾邮件检测软件组件209将各种垃圾邮件检测技术应用于传入的电子邮件；关于不含有URL链接的电子邮件，须基于主题、发送者及接收者地址的格式及/或所述电子邮件内文本对这些电子邮件进行分析以便导出所述电子邮件的签名代码(步骤305)。作为所述分析的结果，可将对应于各种电子邮件属性的数据存储于数据库DB2中，且对于被确定为是一批批量电子邮件中的一者的那些电子邮件-换句话说，其文本部分(签名代码)与被发送到至少一个其它接收者的文本部分相同的电子邮件-电子邮件过滤系统103可将包括指示所述电子邮件的始发地址的数据的分类请求消息M1发送到分类系统100。
优选地，分类请求消息M1包含指示作为上述分析的结果由电子邮件过滤系统103 导出的归类类型的数据；举例来说，分类请求消息M1包含与垃圾邮件、病毒及网络钓鱼归类相关联的字段，且如果既定分类请求消息M1的相应字段在其中包含"1"，那么此向分类系统100指示相关联的归类。此可辅助分类系统100的机器辨识。
因此，本发明的实施例有利地提供一种用于将URL通知分类系统100的新机制，且由于接收分类请求消息M1与对接入URL的请求无关，因此对所述请求的处理以及对所述URL的分类的处置也与对客户端始发资源接入请求的处理无关。因此，与常规系统所能做的相比，将分析(及分类)更多数量及种类的URL，重要的是不招致与处理客户端始发资源接入请求相关的任何额外开销。另外且鉴于此新的URL源，经分类URL的储存库显著增加，从而增加可以指示(先前指派的)分类的响应服务先前未看见的客户端始发资源接入请求的概率。
现在将描述分类系统100的组件及操作；当系统100执行的分类的性质是常规的时，分类系统100唯一地经配置以响应于来自节点而非经验证客户端装置的请求。另外，分类系统100经选择性地布置以响应于分类请求消息M1而传输(预存储的)类别及/或存储所述分类的结果，及/或在相依于分类请求消息Ml的源的响应消息M2中传输所述分
类的结果。
现在转到图4，在一个布置中，分类系统100包括各种常规输入/输出、存储装置、存储器和操作系统处理组件以及各种专门编写的处理组件，所述专门编写的处理组件包含用于接收分类请求的请求处置组件401及用以确定URL的一或多个适当类别的自动分类或归类组件403。请求处置组件401经配置以识别分类请求消息M1的源、检索分类请求消息M1内的URL且基于数据库DB1中存储的数据确定请求消息M1中的URL是否需要分类。如果先前尚未分析URL，那么请求处置组件401将所述URL及与所述URL 相关联的任何额外数据传递到分类组件403。如果URL已经分类(即，如果所述URL 被存储于数据库DB1中)，那么请求处置组件401经布置以从数据库DB1中检索所述类别并创建消息M2，所述消息M2具有含有供传输到分类请求消息M1的源(即电子邮件过滤系统103)的类别的消息本体。在分类请求消息M1识别已从一电子邮件(与发送者的批量电子邮件的情况相反)内检索的URL的情况下，电子邮件过滤系统103在接收到类别数据之后将所述类别数据连同所述URL—起存储于数据库DB2中。因此，此类别信息有利地提供与电子邮件过滤系统103在步骤305及307处执行的分析相关的第二级检验，且可在针对处置电子邮件(URL始发于其中)做出的任何决策中加以利用。
假设消息Ml含有对应于web服务器Sl保存的一或多个页面的URL，那么分类组件403从服务器Sl检索所述页面且使用分类引擎剖析所述页面以确定所述URL的一或多个适当类别，从而确定所述分类过程期间的统计概率及多维向量。分类可基于字分析、自适应学习系统及/或图像分析，在此情形中，分类组件403可包含语言分析器，所述语言分析器经布置以确定既定URL的网站的语言；适合技术的实例描述于具有公开案号 WO0163835的国际专利申请案中。另外，分类组件403可与人类检验者介接以确定所述 URL的一或多个适当类别。
一旦分类了对应于URL的网页，分类组件403便可经布置以将所述URL连同其相关联的一个或一个以上类别一起存储于经分类站点的数据库DB1中；数据库DB1包含用于调度对本地过滤器模块(例如F1)的更新的功能性以便确保所述URL及其相关联的一或多个类别被拷贝到镜像数据库DB1'。
应将上述实施例理解为本发明的说明性实例。还可设想出本发明的其它实施例。举例来说，请求处置组件401可经配置以响应于来自分析器的与处理无线接入协议(WAP) 及多媒体消息接发系统(MMS)消息相关联的分类请求消息。
应理解，针对任何一个实施例描述的任一特征可单独地或结合所描述的其它特征一起使用，且所述特征还可结合所述实施例中任何其它实施例或所述实施例中任何其它实施例的任何组合的一个或一个以上特征一起使用。此外，还可采用上文未描述的等效及修改形式，而此并不背离由所附权利要求书界定的本发明的范围。
权利要求
1、一种收集远程可接入信息源的地址以供在更新过滤系统(100)时使用的方法，所述过滤系统(100)控制经由公共接入网络(N1)对所述信息源的接入，所述方法包括中断对去往终端(T2、T3)而非所述过滤系统(100)的消息的传输；从所述消息识别远程可接入信息源的地址；基于所述接收的消息的属性分析所述消息以便将所述接收的消息归类为第一消息类型或第二不同消息类型；如果所述接收的消息被归类为所述第一消息类型，那么将包括指示所述经识别地址的数据的消息传输到所述过滤系统(100)。
2、如权利要求1所述的方法，其中所述消息包括指定对应于远程可接入信息源的网络位置的数据，且所述方法包含基于与所述传输的电子消息内指定的所述网络位置相关的准则分析所述消息以便将所述消息归类为第一或第二消息类型。
3、如权利要求2所述的方法，其中所述消息包括到所述网络位置的链接。
4、如权利要求1到3中任一所述的方法，其包含基于与所述传输的消息的至少一个其它属性相关的准则分析所述消息以便将所述消息归类为第一或第二消息类型。
5、如权利要求4所述的方法，其中所述与所述消息的另一属性相关的准则包含发送者地址。
6、如权利要求4或5所述的方法，其包含导出所述消息的消息模式且将所述导出的消息模式和与先前传输的消息相关联的消息模式进行比较，借此来分析所述消息且将所述消息归类为第一或第二消息类型。
7、如前述权利要求中任一所述的方法，其中所述消息是电子消息。
8、如权利要求7所述的方法，其中所述第一消息类型包括垃圾电子邮件消息。
9、如权利要求7所述的方法，其中所述第一消息类型包括电子邮件病毒。
10、如权利要求7所述的方法，其中所述第一消息类型包括网络钓鱼消息。
11、如前述权利要求中任一所述的方法，其中所述消息是无线接入协议(WAP) 消息。
12、如前述权利要求中任一所述的方法，其中传输到所述过滤系统的所述消息进一步包括指示所述第一消息类型的数据。
13、一种供在更新过滤系统(100)时使用的消息处理系统(103),所述过滤系统(100)控制经由公共接入网络(Nl)对远程可接入信息源的接入，所述消息处理系统(103)包括接口 (205)，其用于接收去往终端(T2、 T3)而非所述过滤系统(100)的消息；及消息处理器(207)，其经布置以从所述消息识别远程可接入信息源的地址，所述消息处理器(207)经布置以基于所述接收的消息的属性分析所述消息以便将所述接收的消息归类为第一消息类型或第二不同消息类型；其中所述接口 (205)经布置以在所述接收的消息被归类为所述第一消息类型的情况下将包括指示所述经识别地址的数据的消息传输到所述过滤系统(100)。
全文摘要
本发明描述一种用于收集远程可接入信息源的地址的方法及系统。在由消息接发网络(N1)载送的消息(例如电子邮件)到达去往的终端之前将其拦截。从所述拦截的电子邮件消息识别远程可接入信息源的地址(即，URL)。分析所述消息以归类为第一消息类型(例如，垃圾邮件消息或病毒消息)或第二不同消息类型。如果所述拦截的消息被归类为所述第一垃圾邮件/病毒类型，则将指示所述经识别地址(URL)的数据传输到过滤系统(100)，所述过滤系统控制对所述远程可接入信息源的接入。因此，从例如垃圾电子邮件的所传输消息搜集地址(URL)并将所述地址供应到过滤系统(100)，所述过滤系统控制对可在那些地址处接入的资源的接入。
文档编号H04L29/06GK101637002SQ200880006431
公开日2010年1月27日申请日期2008年1月4日优先权日2007年1月9日
发明者詹姆斯·凯申请人:韦伯森斯郝斯特德研发有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：詹姆斯.凯
技术所有人：韦伯森斯郝斯特德研发有限公司
我是此专利的发明人

上一篇：用于电声换能器的复合悬置系统的制作方法
上一篇：用于提供个人视频服务的系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。