利用搜索引擎来防止污染的系统和方法

文档序号:6651112阅读:160来源:国知局
专利名称:利用搜索引擎来防止污染的系统和方法
技术领域
本发明各实施例涉及用于实现防止计算机病毒扩散的搜索引擎的系统和方法。
背景技术
近年来,计算机病毒通过使用恶意电子邮件附件并通过恶意网站的永久性链接,越来越多地在计算机之间扩散。在线服务的用户已被告知要避免打开未经请求的邮件、打开来自不熟悉源的附件或者访问在未经请求邮件中广告的网站。所有这些措施都具有降低用户感染计算机病毒的风险的效果。
尽管用户有了这方面的知识,很多用户仍然不知道通过使用受信任来源提供的链接可能是恶意的。虽然精通因特网的用户不会随意地访问网站,但即使是最谨慎的用户也要继续面对访问由因特网搜索引擎引用的恶意网站的风险。访问用户以前未见过的新网站的最常见原因在于该网站是通过搜索引擎产生的。诸如MSN.com或Google.com的搜索引擎的良好认同导致对作为搜索结果由这些搜索引擎呈现给用户的任何网站的误导性信任。
因此需要可通过搜索引擎实现的一种方案,用于防止用户计算机因访问恶意网站而受到损坏。该方案应被执行为,使用户因避开由受信任搜索引擎呈现为结果的恶意网站而安全。

发明内容
本发明各实施例包括一种用于实现搜索引擎的方法,该搜索引擎用于防止在搜索结果的接收者选择一受染搜索结果链接时发生污染。该搜索引擎包括用来遍历可搜索内容并且索引已遍历内容的爬寻器(Crawler)。该方法包括在已遍历的可搜索内容中检测任何恶意的可搜索内容。此外,该方法还包括,在产生包括到所检测到的恶意可搜索内容的受染链接的搜索结果之后,处理该受染链接的呈现以使得用户免遭污染。
在本发明另一方面中,一种用于防止恶意可搜索内容扩散的系统被结合到搜索引擎中。该系统包括一种检测机制,用于在由网络爬寻器遍历的可搜索内容内检测恶意的可搜索内容。此外,该系统还包括一种呈现机制,用于在确定由搜索引擎提供的搜索结果中包括恶意的可搜索内容之后,处理检测到的恶意可搜索内容,该呈现机制处理检测到的恶意可搜索内容,以便防止将恶意搜索内容扩散给搜索结果的接收者。


以下参照附图对本发明进行详细描述,其中图1是示出根据本发明一实施例的系统纵览的框图;图2是示出其中可实现本发明各实施例的计算机化环境的框图;图3是示出根据本发明一实施例的病毒处理组件的框图;图4是示出根据本发明一些实施例的检测机制的框图;图5是示出根据本发明其它实施例的检测机制的框图;图6是示出根据本发明各实施例的用于索引恶意网站的方法的流程图;图7是示出根据本发明各实施例的用于由搜索引擎呈现链接的方法的流程图。
具体实施例方式
I.系统纵览图1示出根据本发明一实施例的用于防止恶意活动扩散的系统。用户计算机10将诸如因特网的网络20与搜索引擎200相连。该搜索引擎200可通过网络20访问多个网站30、40和50。有限数量的网站仅为示例性目的而示出。在实际应用中,该搜索引擎200可通过网络20访问大量的网站。
搜索引擎200可包括用来遍历网站30、40和50的web爬寻器210以及用来索引已遍历网站的索引220。搜索引擎200还可包括用于响应来自用户计算机10的关键字查询而搜索结果的索引220的关键字搜索组件230。搜索引擎200还可包括病毒处理组件300,该病毒处理组件300在已遍历网站30、40和50中检测恶意活动并且以一种设计为防止恶意活动扩散的方式来处理显示恶意活动的网站。
如上所述,本发明各实施例涉及用于防止通过恶意网站维持的病毒扩散的系统和方法。本发明各实施例通过提供一种用于降低病毒在因特网上扩散的风险的方法,克服了现有技术的问题和缺点。在操作中,搜索引擎200维持因特网索引信息220。这样,当搜索引擎200响应于关键字查询而使用关键字搜索组件230执行搜索时,搜索引擎200访问索引信息220。搜索引擎200通过不断爬寻网站已在索引信息220中的网站以及最近发现并首次访问的网站,来使因特网索引信息220保持为最新。
在这些访问期间,web爬寻器210从网站和个人网页获取诸如文本描述的索引兼容信息。在访问网站时,web爬寻器210将检测恶意活动的出现。当检测到这些活动时,病毒处理组件300将适当地标记该行为。或者,在基于用户输入的请求执行搜索时,搜索引擎200可实时检测恶意活动。当由病毒处理组件300先前标记的或者实时标记的已知恶意网站或网页通过由关键字搜索组件230执行的搜索而产生时,搜索引擎200将会实现病毒处理组件300,来以减少对用户计算机20有不利影响的感染或恶意活动的风险的方式将结果呈现给用户。
尽管本发明实各施例在此进行了与网站、网页、和网络内容相关的一般描述,但是任何可搜索内容都在所揭示各实施例的范围之内。例如,可搜索内容可包括可经因特网访问的视频。此外,可搜索内容无需经因特网访问。可搜索内容可位于硬盘驱动器或网络驱动器中,并可由合适的爬寻器访问。
II.示例性操作环境图2示出合适的计算系统环境100的一个示例,其中可实现用于防止恶意活动扩散的系统。计算系统环境100仅仅是合适的计算环境的一个示例,且并非旨在对本发明的使用范围或功能提出任何限制。也不应将计算环境100解释为对示例性操作环境100中示出的各组件的任一个或组合有任何依赖性或要求。
本发明在由计算机执行的诸如程序模块的计算机可执行指令的通用环境中进行描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等,它们执行特定任务或实现特定的抽象数据类型。此外,本领域的技术人员可以理解,本发明可以使用其它计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器或可编程的消费电器、小型计算机、大型计算机等。本发明也可以在分布式计算环境中实现,其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,程序模块可位于包括存储器存储设备的本地和远程计算机存储介质中。
参考图2,用于实现本发明的示例性系统100包括计算机110形式的通用计算设备,该设备包括处理单元120、系统存储器130和将包括系统存储器的各种系统组件耦合至处理单元120的系统总线121。
计算机110通常包括各种计算机可读介质。作为示例,而非限制,计算机可读介质可包括计算机存储介质和通信介质。系统存储器130包括诸如只读存储器(ROM)131和随机存取存储器(RAM)132的易失性和/或非易失性存储器形式的计算机存储介质。包含有助于诸如启动期间在计算机110中元件之间传递信息的基本例程的基本输入/输出系统133(BIOS)通常存储在ROM 131中。RAM 132通常包含处理单元120可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例,而非限制,图2示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110还可包括其它可移动/不可移动、易失性/非易失性的计算机存储介质。仅作为示例,图2示出了从不可移动、非易失性磁性介质中读取或写入的硬盘驱动器141,从可移动、非易失性磁盘152中读取或写入的磁盘驱动器151,以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘156中读取或写入的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性的计算机存储介质包括,但不限于,盒式磁带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器141通常由诸如接口140的不可移动存储器接口连接至系统总线121,磁盘驱动器151和光盘驱动器155通常由诸如接口150的可移动存储器接口连接至系统总线121。
以上描述的并在图2中示出的驱动器及其相关联的计算机存储介质,向计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图2中,硬盘驱动器141被示为存储了操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被标注了不同的标号,以说明至少它们是不同的副本。用户可以通过输入设备,诸如键盘162和通常指鼠标、跟踪球或触摸垫的定点设备161,向计算机110输入命令和信息。其它输入设备(未示出)可以包括话筒、操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接到处理单元120,但也可以通过诸如并行端口、游戏端口或通用串行总线(USB)的其它接口和总线结构连接。监视器191或其它类型的显示设备也通过诸如视频接口190的接口连接到系统总线121。除监视器以外,计算机还可以包括诸如扬声器197和打印机196的其它外围输出设备,它们可以通过输出外围接口195连接。
本发明中的计算机110可在使用与一个或多个诸如远程计算机180的远程计算机的逻辑连接的网络化环境中运行。远程计算机180可以是个人计算机,并通常包括上述涉及计算机110的许多或所有元件,尽管在图2中只显示了存储器存储设备181。图2中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接到局域网171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或用于通过诸如因特网的WAN 173来建立通信的其它装置。可以是内部的或外部的调制解调器172,可以通过用户输入接口160或其它合适的机制连接到系统总线121。在网络化环境中,相关于计算机110的所述程序模块或其各个部分可以存储在远程存储器存储设备中。作为示例,而非限制,图2示出了驻留在存储器设备181上的远程应用程序185。可以理解,所示的网络连接是示例性的,并且可使用在计算机之间建立通信链接的其它装置。
尽管未示出计算机110的多个其它内部组件,但是本领域的普通技术人员可以理解,这样的组件和互连是众所周知的。相应地,不必连同本发明一起揭示有关计算机110内部构造的其它细节。
III.本发明的系统和方法如上所述,图1示出了根据本发明一实施例的用于防止恶意活动扩散的系统。用户计算机10可通过网络20连接到搜索引擎200。搜索引擎200可通过网络20访问诸如30、40以及50的多个网站。搜索引擎200可实现用于遍历网站30、40和50的web爬寻器210以及用于索引已遍历网站的索引220。搜索引擎200可利用关键字搜索组件230,以响应于来自用户计算机10的关键字查询来搜索结果。搜索引擎200可实现病毒处理组件300,以在已遍历网站30、40和50中检测恶意活动,并且以一种设计为防止恶意活动扩散的方式来处理显示恶意活动的网站。
图3示出根据本发明一实施例的病毒处理组件300。病毒处理组件300可检测并处理病毒,或者可检测并处理其它类型的恶意活动。病毒处理组件300可包括检测机制310和呈现机制380。检测机制310可结合web爬寻器210操作,以检测web爬寻器210所访问网站上的恶意活动。呈现机制380可结合关键字搜索组件230操作,以决定由关键字搜索组件230发现的结果是否是展现恶意行为的链接。如果呈现机制380在结果中定位了展现恶意行为的链接,则呈现机制380执行链接处理例程以确保用户免遭恶意活动。
呈现机制380可包括众多用于保护用户计算机10免遭恶意链接的不同机制。搜索引擎200实现关键字搜索组件230,以创建可点击链接的列表,这些链接常带有一些数量的每个链接的相关联文本。当在最近爬寻期间一个链接指向检测机制310分类为恶意的网站时,会发生众多不同行动。
在一个较佳实施例中,呈现机制380可修改受染链接以便提示网络浏览器提供最大程度的保护,即使该保护是以功能为代价而进行的。作为一个示例,呈现机制380可提示网络浏览器通过对恶意链接预加惊叹号来保护自己。因而,www.malicious.com会变成!http://www.malicious.com。作为响应,已修改的链接可执行众多行动,诸如禁用选定的宏。
在另一实施例中,呈现机制380修改危险的链接,以指向能够使用户计算机10免遭可能发生的恶意活动的代理。类似地,呈现机制380可修改该链接以指向该网页的已杀毒的高速缓存副本,该副本由搜索引擎200存储或代表该搜索引擎。已修改的链接可引用在爬寻时保存的已杀毒高速缓存副本。或者,呈现机制380可呈现指向动态杀毒的非高速缓存副本的已修改链接,其中杀毒在用户选择已修改链接时进行。
在又一实施例中,呈现机制380可创建要显示给用户的警告。该警告可指示链接上的内容,如果访问的话,可能是有害的。最后,在另一实施例中,呈现机制可隐藏危险链接,或不向用户显示该链接。
图4示出检测机制310的一个较佳实施例。检测机制310可包括静态分析工具312和动态分析工具316。静态分析工具312可检查已知编码模式的每个已遍历网页或网站,例如,静态分析工具312可检测不必要的长HTML字段。动态分析工具316操作以检测已知的恶意行为和信息流通模式。例如,动态分析工具316可确定在到与常易受攻击相关联的端口上网站启动与客户机的连接,或者被访问的网站正在尝试黑入搜索引擎200。该搜索引擎200应该受到良好保护,并且应设置为对所访问网站显现为常规用户计算机。恶意网站在与访问者开始通信之前可区分诸如搜索引擎和用户浏览器的访问者。
图5示出了检测机制330的又一实施例。检测机制330可包括可置换机,诸如虚拟机340和可置换的或虚拟机检查机制350。在图5所示的实施例中,虚拟机340的行为类似于允许视窗在视窗内运行的虚拟PC程序。内部视窗可以与外部视窗和主机独立的方式来操作。因此,无论内部视窗发生了什么都不会对主机产生有害影响。因而虚拟机340包括访问每个网站的爬寻器。
在每个访问之后,虚拟机检查机制350检查内部虚拟机340中的内部爬寻器,以找出感染或者有害影响。虚拟机检查机制350查寻每个访问的结果以决定虚拟机340的文件或行为是否已经改变,而不在被访问的网站上查寻行为。因此,在与爬寻器210相连的虚拟机340访问了每个网页或者由爬寻器210实现的其它搜索单元之后,虚拟机检查机制350检查虚拟机340以找出感染的迹象。如果虚拟机340受到感染或者损坏,则可知道所访问的网页或网站是恶意的。在对恶意网站或网页的访问之后,虚拟机检查机制350在访问任何其它网站或网页之前重新初始化虚拟机340。
虽然上述的实施例描述了虚拟机作为可置换机的使用,但是其它实现也是可能的。例如,可置换机还可包括物理个人计算机。虚拟机作为可置换机的使用提供了从受染状态中快速复原的优点。
图4所示的检测机制的实施例是一种主动检测机制,而图5所示的检测机制的实施例是一种呈现检测机制。图4的实施例防止了行为的发生,而图5的实施例允许行为在虚拟机中发生,并随后确定被访问的网站是否是恶意的。在另一实施例中,可以组合图4和图5的方法,从而在爬寻过程之后可缓存和分析显现为受到影响的某些网站。
web爬寻器210可作用为使检测机制310能在逐页或者逐个地址的基础上检测恶意行为。或者,检测机制310或330可对单个网络对象(例如,内嵌图片文件)、域名、IP地址或其它爬寻单元的组合方法的范围做出决定。例如,多个共享网站可使用代字号(~)标志属于个人用户的网站部分。这样,http://www.example.com/users/~barney/demos/hack.htm假定为属于用户Barney,而http://www.example.com/users/~adam/index.htm假定为属于用户Adam。在该示例中,Barney网页的恶意可对Barney控制下的整个web子树发出,而不针对由Adam操作的web子树。
图6示出根据本发明一实施例用于检测恶意活动的过程。该方法从600开始,并且在步骤602中web爬寻器访问一个网站。在步骤604,搜索引擎200实现恶意活动检测机制310或者检测机制330。如果在606检测到了恶意活动,则在步骤610web爬寻器索引该网站为恶意。如果没有检测到恶意活动,则在步骤608web爬寻器索引该网站为正常。如果在步骤612web爬寻器选择访问另一个网站,则过程返回到步骤602。
图7示出根据本发明一实施例的用于将搜索结果提供给用户的过程。该过程从步骤700开始,并且在步骤702搜索引擎执行关键字搜索。在步骤704,搜索引擎在索引210中寻找结果。如果在步骤706结果被索引为恶意,则在步骤708搜索引擎实现病毒处理呈现机制380。
如上所示,呈现机制380可以若干方式之一操作。呈现机制380可将链接隐藏或者警告用户该链接可能是恶意的。或者,呈现机制380可将用户重新引导到该恶意内容的已杀毒高速缓存版本或者动态杀毒版本。在另一方法中,呈现机制380可修改链接以指向代理。最后,呈现机制380可修改链接以警告用户浏览器将防护最大化。网站的危险部分将被禁用。如果作为结果的网站没有被索引为恶意,则在步骤710搜索引擎将呈现结果。在712过程结束。
虽然在爬寻和索引阶段,上述检测机制310和330的实施例涉及恶意活动的检测,但是也可实时检测恶意活动。在本实现中,呈现机制380呈现将用户重新引导到可动态检测并消毒恶意网络内容的代理的链接。此外,可实现在爬寻期间的检测和在访问期间的实时检测的组合。
总之,一种典型的搜索引擎通过不断爬寻网站来使它的因特网索引信息保持最新。在其访问期间,爬寻器从网站和个人网页中获取诸如文本描述的索引兼容信息。在访问网站时,本发明系统的各个实施例可检测到恶意活动的呈现。当这些活动的呈现被检测到时,它将合适地标记,并且当随后已知的恶意网站产生为搜索结果时,呈现机制以减少对用户计算机的感染或恶意活动的风险的方式来向用户呈现结果。如上所示,在执行用户请求搜索之后,恶意活动的检测可有选择地实时地进行。
尽管在此处详细说明和描述了本发明的特定实施例,但应该理解,可以对本发明作各种改变和修改,而不背离本发明的范围和目的。此处所述的各个实施例旨在在所有方面都是说明性的而非限制性的。对本领域技术人员本发明相关的其它实施例不背离本发明的范围是显而易见的。
从前述内容可以了解,本发明很适合获得对本系统和方法明显且固有的所有上述目的和目标以及其它优点。可以理解,特定的特征和子组合是可以利用的,且可以不需参照其它特征和子组合来使用。这是可预期的,并在所附权利要求书的范围之内。
权利要求
1.一种用于实现搜索引擎的方法,所述搜索引擎用于在搜索结果的接收者选择了受染搜索结果链接时防止污染的发生,所述搜索引擎包括用于遍历可搜索内容的和索引已遍历内容的爬寻器,所述方法包括在已遍历可搜索内容中检测任何恶意的可搜索内容;以及在产生包括到检测到的恶意可搜索内容的受染链接的搜索结果之后,处理受染链接的呈现以便避免接收者受到污染。
2.如权利要求1所述的方法,其特征在于,检测任何恶意可搜索内容包括执行用于检测已知编码模式的静态分析。
3.如权利要求2所述的方法,其特征在于,检测任何恶意可搜索内容包括执行用于检测通信流通模式的动态分析。
4.如权利要求1所述的方法,其特征在于,检测任何恶意可搜索内容包括实现遍历可搜索内容而不影响主机的可置换机。
5.如权利要求4所述的方法,其特征在于,检测任何恶意可搜索内容包括实现用于在遍历之后检查所述可置换机的感染的可置换机检查机制。
6.如权利要求4所述的方法,还包括在对受染可搜索内容的每次访问之后重新初始化所述可置换机。
7.如权利要求1所述的方法,其特征在于,处理受染链接的呈现包括修改所述受染链接以便提示用户网络浏览器提供最大程度的保护。
8.如权利要求1所述的方法,其特征在于,处理受染链接的呈现包括修改所述受染链接以指向能够使用户免遭恶意活动的代理。
9.如权利要求1所述的方法,其特征在于,处理受染链接的呈现包括修改所述受染链接以指向所述可搜索内容的已杀毒高速缓存副本。
10.如权利要求1所述的方法,其特征在于,处理受染链接的呈现包括创建警告并将所述警告显示给所述接收者。
11.一种存储用于执行如权利要求1所述的方法的计算机可执行指令的计算机可读介质。
12.一种结合在搜索引擎中的用于防止恶意可搜索内容扩散的系统,所述系统包括检测机制,用于在通过web爬寻器遍历的可搜索内容中检测恶意的可搜索内容;以及呈现机制,用于在确定所述恶意可搜索内容包括在由搜索引擎提供的搜索结果中之后处理恶意可搜索内容,所述呈现机制处理所述检测到的恶意可搜索内容以便防止将所述恶意可搜索内容扩散给所述搜索结果的接收者。
13.如权利要求12所述的系统,其特征在于,用于检测任何恶意可搜索内容的检测机制包括用于检测已知编码模式的静态分析工具。
14.如权利要求12所述的系统,其特征在于,用于检测任何恶意可搜索内容的检测机制包括用于检测信息流通模式的动态分析工具。
15.如权利要求12所述的系统,其特征在于,用于检测任何恶意可搜索内容的检测机制包括用于遍历可搜索内容而不影响主机的可置换机。
16.如权利要求15所述的系统,其特征在于,用于检测任何恶意可搜索内容的检测机制包括用于在遍历之后检查所述可置换机的感染的可置换机检查机制。
17.如权利要求15所述的系统,还包括在每次访问之后用于重新初始化所述可置换机的装置。
18.如权利要求12所述的系统,其特征在于,所述呈现机制包括用于修改所述受染链接以便提示用户网络浏览器提供最大程度保护的装置。
19.如权利要求12所述的系统,其特征在于,所述呈现机制通过修改受染链接以指向能够使用户免遭恶意活动的代理来处理所述受染链接的呈现处理。
20.如权利要求12所述的系统,其特征在于,所述呈现机制通过修改所述受染链接以指向所述可搜索内容的已杀毒高速缓存副本来处理受染链接的呈现。
全文摘要
一种系统和方法被结合到搜索引擎中,用于防止恶意搜索内容扩散。该系统包括用于在通过web爬寻器遍历的可搜索内容中检测恶意可搜索内容的检测机制。该系统还包括用来在确定恶意可搜索内容包括在由搜索引擎提供的搜索结果中之后,处理检测到的恶意可搜索内容的呈现机制。该呈现机制处理检测到的恶意可搜索内容以便防止将该恶意可搜索内容扩散给搜索结果的接收者。
文档编号G06F21/00GK1790329SQ20051012713
公开日2006年6月21日 申请日期2005年11月17日 优先权日2004年12月17日
发明者A·舍莱斯特, E·D·谢德曼 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1