用于网页的动态及实时归类的系统及方法

文档序号:6594146阅读:140来源:国知局
专利名称:用于网页的动态及实时归类的系统及方法
技术领域
本申请案涉及针对内容扫描网页且更特定来说涉及一种用于在网页包括动态内 容的情况下仅针对经更新内容扫描网页的系统及方法。
背景技术
因特网过滤是由于某些网站所含有的内容而限制用户接入所述网站的能力。举例 来说,雇主可能限制雇员接入被反对或妨碍生产率的某些网站。雇主可针对雇员设定策略, 以仅允许雇员在办公时间接入与办公相关的网站。类似地,学校及父母可限制学生及孩子 仅接入年龄上适当的网站。另外,因特网过滤用于防止用户接入可能含有恶意内容的网站。随着网页含有更 加精细的内容,此增加恶意代码被下载到用户的计算机上的机会。由于操作系统及web浏 览应用程序中的安全弱点被识别,因此肆无忌惮的黑客已开始编写恶意代码及应用程序, 其利用这些弱点来将自身下载到用户的机器上,而不依赖于用户启动被感染文件的任何特 定活动。此种攻击的一个此种实例是使用嵌入到网页的活动内容对象中的恶意代码。通常,使用自动化的过程或手动地将网页内容归类。创建含有网站地址(URL)及 网站的归类的数据库。此数据库规则地传输到过滤用户请求的网站的网络装置。然而,通 过此方法,网站被归类的时间与更新被发送到所述网络装置的时间之间可存在延迟,使得 恶意或不适当的网站可能被网络用户接入。为减小此延迟,已开发实时扫描技术。通过这些技术,如果用户接入未经归类的网 站,那么紧在所述网站被发送给用户之前将其归类。此准许用户紧在归类之后接入所述网 站。然而,实时扫描仅适于未经归类的网站。由于因特网上可接入的网站的数目巨大,实时 分析用户所请求的每一及每个网站将是不切实际的。因此,仍存先前已经归类的网站上可 存在恶意或不适当内容的威胁。此外,由于一些网站的性质改变(例如,博客及社会性网络 站点),网站的归类可能已改变,因此其现在应由网络装置阻止。

发明内容
本发明揭示一种用于将网页上的内容归类的系统及方法。所述方法包含接收来自 用户的计算机的对网页的请求。接下来,所述系统通过查看能够改变所述网页的地址、链 接、信誉、类型、样式及其它指示符来确定所述网页上是否存在动态内容。如果所述网页含 有可改变的内容,那么扫描所述网页以确定其归类。如果所述网页不具有动态内容,那么所 述网页的归类将保持不变,或者如果所述内容还未经归类,那么所述系统的实时归类模块 可将所述内容归类。
此外,揭示一种用于允许用户更新网页的归类的系统及方法。具体来说,网络管理 员指定可信任将网页归类的用户。接着所述用户能够改变网页的归类而不需要网络管理员 的预先批准。


在本说明中,参照其中贯穿所有图式使用相同编号指定相同部件的图式。图1是显示用于网页上的内容的动态归类的系统的图示。图2、图3及图4图解说明使用图1中所示的系统的动态归类的过程。图5是显示用于网页上的内容的实时归类的系统的图示。图6、图7、图8及图9图解说明使用图5中所示的系统的网页的内容的实时归类 的过程。图10是显示用于网页上的内容的用户归类的系统的图表。
具体实施例方式以下详细说明针对本发明的某些具体实施例。然而,可以如权利要求书所定义及 涵盖的许多不同方式来体现本发明。图1是显示可如何实施网页的动态归类的图示。应理解,下文所描述的模块可经 由网络在单个计算机或多个计算机上以软件或硬件实施,如所属技术领域中普遍已知。使 用计算机的用户10向与因特网14通信的网关模块12请求网页。网关模块12通常位于用 户的局部网络与因特网之间且控制其之间的业务流动。网关模块12借助web过滤器16来 确认用户的请求以确定所述网页的内容是否已经归类。具体来说,web过滤器16确定网页 内容先前是否已经扫描及内容是否已经归类。web过滤器16可含有先前经扫描网页的网页 地址(URL)与其对应归类的数据库。如果所述网页的内容还未经扫描,那么需要将所述网 页归类以确定用户10是否应能够接入所述网页。如果所述网页的URL不在先前经归类网 页的数据库中或如果知道所述网页上的内容动态地改变,那么web过滤器16指令网关模块 16将所述网页内容发送到动态归类服务器模块18。具有动态内容的网页是那些具有基于 用户交互(例如,帖子、博客、照片等)而频繁地改变的内容的网页。网页的地址、网页的安 全性、网页的信誉及网页上所含有的内容全部可以是动态内容的指示符。举例来说,社会性 网络网站可被视为是动态的,因为用户不断地贴出新材料。因此,应频繁地分析社会性网络 网站的内容以确保归类恰当。为容易地将网页分类为是动态的,可将已知动态网页(例如, 社会性网络站点)的地址存储于web过滤器16中。如果网页内容还未经归类或web过滤器16确定网页由于动态内容而需要经重新 归类,那么web过滤器16借助网关12向因特网14请求网页的内容。一旦网关12接收到 网页的内容,那么其将所述内容发送到动态归类服务器模块18以用于分类。通过仅扫描及 分析具有动态内容的网页,可极大地改善系统的性能,因为先前经归类网页不需要重新扫 描及重新归类。动态归类模块18扫描网页以分析内容且确定所述网页的恰当归类。举例来说,动 态归类模块18可查看关键词及链接来确定所述网页的类别。动态归类模块18也可将内 容发送到中心实体20来进行归类。一旦已将网页归类,那么将结果发送到web过滤器16。
5web过滤器16可存储所述结果以用于用户10的未来请求。web过滤器16接着针对用户先 前请求时网页的类别来获得用于用户10的策略。web过滤器16可阻止或允许所述网页, 此取决于所述策略及所述网页的归类。举例来说,如果所述网页被分类为“色情”且针对类 别“色情”的用户的策略是阻止所述页面,那么web过滤器16将阻止用户10接入到所述页 面。然而,如果用于所述用户的策略允许所述类别,那么将准予用户10接入。前述实例将网页描述为具有作为整体的内容。然而,应认识到,可按不同区段来阻 止及允许网页上的内容。举例来说,许多网页从许多不同源接收内容。对于这些类型的网 页,个别条内容中的每一者可个别地由网关模块12接收且由web过滤器16及动态归类服 务器模块18来归类,以使得每一条内容具有其自己的归类且可独立于网页上的其它内容 被阻止或允许。在此种系统中,每一区段的URL可被视为单独的网页,以使得网页上的所有 URL的组合组成整个页面。图2及图3图解说明内容被允许的情况下的图1中所示系统的过程且图4图解说 明内容被阻止的情况下的过程。具体来说,图2显示用户向网关模块12进行请求,网关模块12又借助web过滤器 16来执行HTTP查找。如果所述请求有效,那么网关模块12将从因特网14检索内容。接下 来,动态归类服务器模块18使用链接分析、关键词、从中心实体的查找及内容的其它指示 符来确定所述内容的归类。一旦确定了所述归类,则所述内容是允许的并被发送回用户且 记入结果。图3包括借助web过滤器16来记入结果以使得所述结果可用于未来查找的步 骤。图4进一步包含在用户未被授权观看所述页面的情况下将阻止页面通知发送到用户或 将向所述用户发送网页,以指示所述用户可在有限持续时间内观看所述网页。如果用户请 求在有限持续时间内观看所述页面,那么所述内容将被递送到所述用户且记入结果。图5图解说明用于来自网页的内容的实时归类的系统。用户10向内容网关模块 12进行对含有内容的网页的请求。内容网关模块12借助web过滤器16来确认所述请求 以确定所述内容是否已经归类。如果所述内容还未经归类,那么web过滤器16请求内容网 关12以从因特网14获得所述内容。内容网关模块12接着将所述内容发送到实时归类服 务器模块22以进行归类。归类服务器模块22使用链接分析、关键词及其它语言分析学来 确定所述网页上的所述内容的归类。来自中心实体20的更新使得归类服务器模块22能够 正确地确定并归类所述网页的所述内容。归类服务器模块22将归类结果发送到内容网关12。web过滤器16接着接收用户 10的关于所述内容的类别的策略以确定阻止还是允许所述内容。接着将允许或阻止策略从 web过滤器16传输到内容网关模块12以阻止或允许用户10接入到所述网页的所述内容。 应认识到,可将动态归类服务器模块18与实时归类服务器模块22组合于同一系统中以向 还未经归类的网页提供实时归类。图6图解说明在所述网页上的所述内容由实时归类服务器模块22使用图5的系 统确定为是恶意的情况下的过程。具体来说,用户10向内容网关12进行请求。web过滤 器16执行HTTP查找且接着内容网关12从因特网14检索所述内容。网关12接着将所述 内容发送到实时归类服务器模块22,实时归类服务器模块22执行所述内容的即刻归类。如 果实时归类服务器模块22检测到恶意内容,那么内容网关12将被阻止页面消息返回到用 户10且记入结果。
图7及图8显示如何使用图5的系统阻止来自网页的内容。图9显示在对于用户 10来说用于观看网页的配额系统在作用中的情况下图5的系统如何操作。举例来说,图5 的系统可具有用于用户10的允许在规定时间周期内接入到正常被阻止的内容的策略。此 时间通常称为“配额时间”。参照图10,其显示用于基于用户的建议来将网页内容归类的系统。替代使用网站 的实时分类,用户10也可对未经归类网页的归类提出建议。具体来说,用户10向因特网14 请求未经归类站点。web过滤器16辨识所述请求且检索所述站点,因为其未经归类。用户 可接着向管理员28提出恰当归类。管理员28接着改变web过滤器16的数据库中的归类。 在此实例中,用户10不具有改变网页的归类的授权,因为用户10是不被信任的。仅管理员 28可改变归类。web过滤器16将归类传输到中心实体20以将归类应用及发布给其它者。还涵盖管理员28准予用户10 “归类”接入。在此情形中,管理员28确定可信任 用户10将未经归类站点的内容归类。此允许用户10将接着被自动发布到web过滤器16 的数据库且发送到中心实体20的网站归类,而不需要管理员28的任何进一步批准。所属领域的技术人员应认识到,结合本文中所揭示实施例描述的各种说明性逻辑 块、模块、电路及算法步骤可实施为电子硬件、计算机软件或两者的组合。为清楚地图解说 明硬件与软件的此互换性,上文已按照其功能性大体描述了各种说明性组件、块、模块、电 路及步骤。此种功能性实施为硬件还是软件取决于特定应用及施加于整个系统的设计约束 条件。技术人员可针对每一特定应用以不同方式实施所描述的功能性,但不应将此类实 施方案决策解释为导致背离本发明的范围。结合本文中所揭示实施例描述的各种说明性逻 辑块、模块及电路可以以下装置实施或执行通用处理器、数字信号处理器(DSP)、专用集 成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、 离散硬件组件或其设计用于执行本文中所描述功能的任一组合。通用处理器可为微处理器,但或者,处理器可为任何常规处理器、控制器、微控制 器或状态机。处理器也可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处 理器的组合、一个或一个以上微处理器与DSP核心的联合或任一其它此种配置。结合本文中所揭示实施例描述的方法或算法的步骤可直接在硬件、在由处理器执 行的软件模块中或两者的组合中体现。软件模块可驻存于RAM存储器、快闪存储器、ROM存 储器、EPROM存储器、EEPROM存储器、寄存器、硬磁盘、可拆卸式磁盘、⑶ROM或所属技术领域 中已知的任一其它形式的存储媒体内。例示性存储媒体耦合到该处理器,以使该处理器可 从该存储媒体读取信息及向该存储媒体写入信息。或者,该存储媒体可以是处理器的组成 部分。所述处理器及所述存储媒体可驻存于ASIC中。所述ASIC可驻存于用户终端或某其 它类型的装置中。或者,处理器及存储媒体可作为离散组件驻存于用户终端中。虽然以上详细说明已显示、描述及指出本发明的适用于各种实施例的新颖特征, 然而应理解,所属领域的技术人员可在不背离本发明的精神的情况下在形式及细节上对所 图解说明的装置或过程作出各种省略、替代及改变。应认识到,由于可独立于其它特征使用 或实践一些特征,因此可以一种并不提供所有本文所述特征及益处的形式体现本发明。本 发明的范围由所附权利要求书而非由上文说明来指示。归属于权利要求书的等效物的意义 及范围内的所有改变均将涵盖在权利要求书的范围内。
权利要求
1.一种用于使用动态归类计算机系统将网页上的动态内容归类的方法,所述方法包含接收来自具有所述动态归类系统的用户的计算机的对网页的请求;确定所述网页是否含有动态内容;如果所述网页含有动态内容,那么分析所述网页的所述内容;及如果所述网页含有动态内容,那么确定所述内容的所述归类。
2.根据权利要求1所述的方法,其中所述确定所述网页是否含有动态内容的步骤包含 分析所述网页的信誉。
3.根据权利要求1所述的方法,其中所述确定所述网页是否含有动态内容的步骤包含 分析所述网页的地址。
4.根据权利要求1所述的方法,其中所述确定所述网页是否含有动态内容的步骤包含 分析所述网页上的所述内容以确定所述内容是否可容易地改变。
5.根据权利要求1所述的方法,其中所述网页包括多个区段,且分析并归类每一区段 的所述内容。
6.根据权利要求1所述的方法,其进一步包含响应于所述网页的所述归类而允许所述 用户的计算机接入到所述网页的步骤。
7.根据权利要求6所述的方法,其中所述允许接入的步骤进一步包含在所述内容为恶 意的情况下阻止接入。
8.一种用于借助计算机系统将网页上的内容归类的系统,所述系统包含内容网关模块,其经配置以接收来自用户的计算机的对网页的请求;web过滤器模块,其与所述内容网关模块通信,所述web过滤器模块经配置以存储所述 网页的所述归类且确定所述网页是否含有动态内容;及动态归类模块,其与所述web过滤器模块及所述内容网关模块通信,所述动态归类模 块经配置以在所述网页含有动态内容的情况下将所述网页归类。
9.根据权利要求8所述的系统,其中所述内容网关经配置以响应于所述网页的所述归 类而向所述用户提供接入。
10.根据权利要求8所述的系统,其中所述web过滤器模块经配置以通过分析所述网页 的信誉来确定所述网页是否含有动态内容。
11.根据权利要求8所述的系统,其中所述web过滤器模块经配置以通过分析所述网页 的地址来确定所述网页是否含有动态内容。
12.根据权利要求9所述的系统,其中所述web过滤器模块经配置以通过分析所述网页 上的所述内容以确定所述内容是否可容易地改变来确定所述网页是否含有动态内容。
13.根据权利要求9所述的系统,其中所述网页含有多个区段,且每一区段的所述内容 是由所述web过滤器来分析。
14.根据权利要求9所述的系统,其进一步包含实时归类服务器模块,所述实时归类服 务器模块经配置以将所述网页的所述动态内容归类。
15.根据权利要求14所述的系统,其中所述动态归类模块经配置以在所述内容为动态 的情况下将所述网页的每一区段归类。
16.一种用于确定网页上的动态内容的系统,所述系统包含具有动态归类模块的计算机,所述动态归类模块经配置以在网页含有为动态的内容的情况下分析所述网页的所述内容。
17.根据权利要求16所述的系统,其进一步包含web过滤器模块,所述web过滤器模块 经配置以在所述网页上的所述内容可容易地改变的情况下确定所述内容为动态的。
18.根据权利要求17所述的系统,其中所述web过滤器模块经配置以分析所述网页内 容的地址以确定所述内容是否为动态的。
19.根据权利要求18所述的系统,其进一步包含实时归类服务器模块,所述实时归类 服务器模块经配置以将所述网页的所述内容归类。
全文摘要
本发明揭示一种用于将网页上的内容归类的系统及方法。所述方法包含接收来自用户的计算机的对网页的请求。接下来,所述系统通过分析能够容易地改变所述网页的地址、链接、信誉、类型、样式及其它指示符来确定所述网页上是否存在动态内容。如果所述网页含有可改变的内容,那么分析所述网页以确定其当前归类。如果所述网页不具有动态内容,那么所述网页的所述归类将保持不变,从而通过仅分析动态网页来释放系统资源。
文档编号G06F17/30GK102077201SQ200980125479
公开日2011年5月25日 申请日期2009年6月29日 优先权日2008年6月30日
发明者丹·拉斯金, 丹尼尔·莱尔·哈伯德 申请人:网圣公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1