网页文本信息过滤系统及方法

文档序号:6442367阅读:939来源:国知局
专利名称:网页文本信息过滤系统及方法
技术领域
本发明涉及一种网页信息过滤系统及方法,特别是涉及一种可过滤网页文本信息中不良内容的网页文本信息过滤系统及方法。
背景技术
目前国内外在网页内容鉴别上主要有四种过滤技术,即基于因特网内容分级平台 (PICS)过滤、数据库过滤(IP库、URL库)、关键字过滤以及智能内容理解过滤。由于不法分子一般是不会主动给其传播的不良信息内容按照PICS标准贴标签的,所以基于PICS过滤在实际应用中效果不大;数据库过滤方法对许多寄生在综合性网站内的不良信息无法过滤,对一些经常性地更改IP、URL,或采取多级代理方式的含有不良信息网站也无法过滤;基于关键字的不良信息过滤技术能获得较快的过滤速度,但往往不考虑上下文的关联性,漏报、错报率高,而且关键字是目前人们常使用的词,有些信息内容的发布者可能有意避开使用这些词,用其他的词或图片替代,使得基于关键词的信息过滤机制不能识别;智能内容理解过滤技术发展不成熟、计算量大、过滤速度慢。

发明内容
为克服上述现有网页内容过滤技术存在的不足,本发明的主要目的在于提供一种网页文本信息过滤系统及方法,其利用面向对象的编程思想对文本进行过滤开发,并结合各种数据结构对系统进行充分优化,模块之间相互独立,大大提高了本发明之系统的重用性和可扩展性。为达上述及其它目的,本发明提供一种网页文本信息过滤系统,至少包括网页浏览终端,通过一浏览器接收并解析目标请求,并将其发送;代理服务器,接收该目标请求将其发送至网络主机,并于获得该网络主机返回的源代码信息后将该源代码信息发送至一文本过滤中心模块进行文本内容过滤,同时,该代理服务器还用于接收该文本过滤中心模块返回的过滤结果,并将该过滤结果返回至该网页浏览终端;网络主机,用于接收该代理服务器发送的目标请求,并返回该源代码信息;以及文本过滤中心模块,负责该源代码信息解析与过滤判断,并将过滤结果返回至该代理服务器。进一步地,该代理服务器在将该目标请求发送至该网络主机之前,将该目标请求发送给文本过滤中心模块,并于接收到该文本过滤中心模块解析出真实的网络访问地址、 请求参数信息后,重新构建目标请求,再将重新构建的目标请求发送至该网络主机。进一步地,该文本过滤中心模块包含业务模块、过滤模块以及数据库,其中,该业务模块用于接收该代理服务器发送的目标请求,解析出真实的网络访问地址、请求参数信息并将其返回至代理服务器;该过滤模块用于接收该代理服务器发送的该源代码信息,并根据从该数据库中加载的敏感词信息对该源代码信息进行解析过滤,同时记录不合法请求;该数据库用于存储敏感词信息。进一步地,该过滤模块包括加载模组,用于加载并存储该数据库中的敏感词信息;源代码接收模组,用于接收来自该代理服务器的源代码信息,并将过滤后的源代码信息返还给代理服务器;解析模组,用于解析出该源代码信息中的文本内容;检测模组,用于检测该源代码信息中的文本内容是否需要过滤;以及过滤处理模组,根据加载的敏感词信息对该源代码信息进行过滤处理。进一步地,该加载模组于加载敏感词信息后,将敏感词存储于一二叉树数据结构中。进一步地,该文本过滤中心模块或设置于该网络主机或由该代理服务器集成。进一步地,该网页浏览终端为手机终端。为达到上述及其他目的,本发明还提供一种网页文本信息过滤,包括如下步骤网页浏览终端接收并解析一目标请求,并将该目标请求发送至代理服务器;该代理服务器将该目标请求发送至网络主机,并获得网络主机返回的源代码信息;该代理服务器将该源代码信息发送至文本过滤中心模块进行过滤,并记录不合法请求;该文本过滤中心模块将过滤结果返回至该代理服务器;以及代理服务器将过滤后的源代码信息进行处理,并将最终的页面返回至该网页浏览终端进行显示。进一步地,在该代理服务器将该目标请求发送至该网络主机之前,该方法还包括如下步骤该代理服务器将该目标请求发送至该文本过滤中心模块的业务模块;该业务模块解析出真实的网络访问地址、请求参数信息,并将这些信息返回;以及该代理服务器将获得的这些信息重新构建目标请求。进一步地,该文本过滤中心模块进行过滤的步骤包括如下步骤从数据库中加载敏感词,并存储于一二叉树数据结构中;接收该源代码信息;解析出该源代码信息中的文本内容;检测该源代码信息中的文本内容是否需要过滤;若需过滤,则根据该二叉树数据结构中的敏感词对该源代码信息中的文本内容进行过滤处理,并返回过滤结果至该代理服务器。与现有技术相比,本发明一种网页文本信息过滤系统及方法利用面向对象的编程思想对文本进行过滤开发,并结合各种数据结构对系统进行充分优化,模块之间相互独立, 大大提高了本发明之系统的重用性和可扩展性。


图1为本发明一种网页文本信息过滤系统的系统架构图2为本发明一种网页文本信息过滤系统之较佳实施例的系统架构图;图3为图2之信息处理时序图;图4为本发明中文本过滤中心模块之过滤模块42的原理框图;图5为本发明之较佳实施例中敏感词的数据结构示意图;图6为本发明一种网页文本信息过滤方法的步骤流程图;图7为本发明一种网页文本信息过滤方法之较佳实施例中步骤603的具体步骤流程图;图8为在无本发明之网页文本信息过滤系统的情况下手机终端访问到的网页和在有本发明之网页文本信息过滤系统的情况下手机终端访问到的网页效果对比示意图;图9为本发明之网页文本信息过滤系统生成的日志信息示意图。
具体实施例方式以下通过特定的具体实例并结合

本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。图1为本发明一种网页文本信息过滤系统的系统架构图。如图1所示,本发明一种网页文本信息过滤系统,至少网页浏览终端10、代理服务器20、网络主机30以及文本过滤中心模块40。其中网页浏览终端10为目标信息输入层和查询结果的输出层,其采用网络浏览器作为用户的交互界面,当浏览器接收用户输入的URL(目标请求)后,浏览器将目标请求截获并解析该目标请求,然后将其发送至代理服务器20 ;代理服务器20用于将该目标请求发送给网络主机30,并于获得网络主机返回的源代码信息后将该源代码信息发送至文本过滤中心模块40进行文本过滤,同时,该代理服务器20还用于接收文本过滤中心模块40过滤完成后返回的过滤结果,并将过滤结果返回至网页浏览终端10进行呈现,较佳的,代理服务器20在将目标请求发送至网络主机30之前,会将该目标请求发送给文本过滤中心模块40,并于接收到文本过滤中心模块40解析出真实的网络访问地址、请求参数等信息后, 重新构建目标请求,再将重新构建的目标请求发送至网络主机30 ;网络主机30,为互联网中分布的各种类型主机,里面包含大量信息,其具有较高计算能力,网络主机是通过网络给客户端用户使用的;文本过滤中心模块40,具有文本解析过滤能力,负责源代码解析与过滤判断并将结果返回给代理服务器20,能够实现系统的自优化,文本过滤中心模块40包含业务模块41、过滤模块42及数据库43,其中,业务模块41用于接收代理服务器20发送的目标请求,解析出真实的网络访问地址、请求参数等信息并将其返回至代理服务器20,过滤模块42用于接收代理服务器20发送的源代码信息,并根据数据库43中的敏感词信息对该源代码信息进行解析过滤,记录不合法请求并过滤该源代码信息中的敏感信息,数据库43 用于存储敏感词信息。图2为本发明一种网页文本信息过滤系统之较佳实施例的系统架构图。在本发明较佳实施例中,网页浏览终端10为一手机终端,由于UC浏览器浏览网站更快捷,功能更强大,手机终端采用UC浏览器,手机终端主要利用无线网络通过代理服务器20从网络主机30
6上下载HTML源代码,此时代理服务器20相当于一个文本过滤防火墙。(1)手机终端,为信息查询的目标信息输入层和查询结果的输出层。采用网络浏览器(UC浏览器)作为用户的交互界面。(2)代理服务器20,当用户于手机终端的浏览器输入URL后,浏览器将请求截获然后解析请求,然后代理请求发送至代理服务器20,代理请求将该请求发送至网络主机30, 于HTML代码返回后再将该HTML代码发送至本地或网络的文本过滤中心模块40,经文本过滤中心模块40解析过滤后再将处理后的页面返回给代理服务器20,代理服务器20再将结果返回至手机终端。(3)网络主机30为互联网中分布的各种类型主机,里面包含大量信息。是一种具有较高计算能力,能够提供给多个用户使用的计算机,网络主机通过网络给客户端用户使用。(4)文本过滤中心模块40包含业务模块41、过滤模块42及数据库43,负责HTML 代码解析与过滤判断并将结果返回给代理服务器20。图3为图2之信息处理时序图,以下将配合图3进一步说明本发明之信息处理时序。在本发明较佳实施例中,信息处理通过如下7步完成(1) “手机终端”请求信息(URL 请求)发送给“代理服务器”;O) “代理服务器”将请求(URL请求)分配给文本过滤中心模块40的“业务模块”;(3) “业务模块”解析出真实的网络访问地址、请求参数等信息,并将这些信息返回;(4) “代理服务器”获得这些信息重新构建请求,并将重新构建的请求发送到互联网中“网络主机”,从而获得访问的HTML源代码;( “代理服务器”获取HTML源代码后将此HTML源代码发送到文本过滤中心模块40的“过滤模块”,由“过滤模块”记录不合法请求并过滤中间敏感信息;(6) “过滤模块”完成过滤后将结果返回“代理服务器”,(7) “代理服务器”再压缩HTML源代码并将最终的网页返回“手机终端”,以呈现在手机浏览器上。在此需说明的是,本发明中的文本过滤中心模块40可以设置于“网络主机”上,也可以是“代理服务器”集成的。图4为本发明中文本过滤中心模块之过滤模块42的原理框图。如图4所示,过滤模块42包括加载模组420、源代码接收模组430、解析模组440、检测模组450以及过滤处理模组460,其中加载模组420用于加载并存储数据库43中的敏感词信息;源代码接收模组430用于接收来自代理服务器20的源代码信息,并将过滤处理模组460处理后的源代码信息返还给代理服务器20 ;解析模组440用于解析出源代码信息中的文本内容;检测模组 450用于检测是否源代码信息中的文本内容是否需要过滤,这是根据网页浏览终端的缓存实现的,缓存的内容包括检测到的非法请求,本发明还会将非法请求以HTML格式文档保存起来,便于将来做数据分析;过滤处理模组460则根据加载的敏感词信息对源代码信息进行过滤处理。在本发明较佳实施例中,为提高本发明的效率,降低算法复杂度,加载模组420于加载敏感词信息后,会将敏感词存储到一二叉树数据结构中,当外部系统调用过滤接口时, 过滤模块会根据输入的源代码信息来过滤,具体的数据库表结构如图5所示。在本发明较佳实施例中,对敏感词数据结构的描述如表1所示
权利要求
1.一种网页文本信息过滤系统,至少包括网页浏览终端,通过一浏览器接收并解析目标请求,并将其发送; 代理服务器,接收该目标请求将其发送至网络主机,并于获得该网络主机返回的源代码信息后将该源代码信息发送至一文本过滤中心模块进行文本内容过滤,同时,该代理服务器还用于接收该文本过滤中心模块返回的过滤结果,并将该过滤结果处理后返回至该网页浏览终端;网络主机,用于接收该代理服务器发送的目标请求,并返回该源代码信息;以及文本过滤中心模块,负责该源代码信息解析与过滤判断,并将过滤结果返回至该代理服务器。
2.如权利要求1所述的网页文本信息过滤系统,其特征在于该代理服务器在将该目标请求发送至该网络主机之前,将该目标请求发送给文本过滤中心模块,并于接收到该文本过滤中心模块解析出真实的网络访问地址、请求参数信息后,重新构建目标请求,再将重新构建的目标请求发送至该网络主机。
3.如权利要求2所述的网页文本信息过滤系统,其特征在于该文本过滤中心模块包含业务模块、过滤模块以及数据库,其中,该业务模块用于接收该代理服务器发送的目标请求,解析出真实的网络访问地址、请求参数信息并将其返回至代理服务器;该过滤模块用于接收该代理服务器发送的该源代码信息,并根据从该数据库中加载的敏感词信息对该源代码信息进行解析过滤,同时记录不合法请求;该数据库用于存储敏感词信息。
4.如权利要求3所述的网页文本信息过滤系统,其特征在于,该过滤模块包括 加载模组,用于加载并存储该数据库中的敏感词信息;源代码接收模组,用于接收来自该代理服务器的源代码信息,并将过滤后的源代码信息返还给代理服务器;解析模组,用于解析出该源代码信息中的文本内容;检测模组,用于检测该源代码信息中的文本内容是否需要过滤;以及过滤处理模组,根据加载的敏感词信息对该源代码信息进行过滤处理。
5.如权利要求4所述的网页文本信息过滤系统,其特征在于该加载模组于加载敏感词信息后,将敏感词存储于一二叉树数据结构中。
6.如权利要求1所述的网页文本信息过滤系统,其特征在于该文本过滤中心模块或设置于该网络主机或由该代理服务器集成。
7.如权利要求1所述的网页文本信息过滤系统,其特征在于该网页浏览终端为手机终端。
8.一种网页文本信息过滤,包括如下步骤网页浏览终端接收并解析一目标请求,并将该目标请求发送至代理服务器; 该代理服务器将该目标请求发送至网络主机,并获得网络主机返回的源代码信息; 该代理服务器将该源代码信息发送至文本过滤中心模块进行过滤,并记录不合法请求;该文本过滤中心模块将过滤结果返回至该代理服务器;以及代理服务器将过滤后的源代码信息进行处理,并将最终的页面返回至该网页浏览终端进行显示。
9.如权利要求8所述的网页文本信息过滤方法,其特征在于,在该代理服务器将该目标请求发送至该网络主机之前,该方法还包括如下步骤该代理服务器将该目标请求发送至该文本过滤中心模块的业务模块; 该业务模块解析出真实的网络访问地址、请求参数信息,并将这些信息返回;以及该代理服务器将获得的这些信息重新构建目标请求。
10.如权利要求8所述的网页文本信息过滤方法,其特征在于,该文本过滤中心模块进行过滤的步骤包括如下步骤从数据库中加载敏感词,并存储于一二叉树数据结构中;接收该源代码信息;解析出该源代码信息中的文本内容;检测该源代码信息中的文本内容是否需要过滤;若需过滤,则根据该二叉树数据结构中的敏感词对该源代码信息中的文本内容进行过滤处理,并返回过滤结果至该代理服务器。
全文摘要
本发明公开一种网页文本信息过滤系统及方法,该系统包括网页浏览终端,通过一浏览器接收、解析并发送目标请求;代理服务器,接收该目标请求将其发送至网络主机,并于获得返回的源代码信息后将该源代码信息发送至一文本过滤中心模块进行过滤,同时,该代理服务器还用于接收文本过滤中心模块返回的过滤结果;网络主机,用于接收该目标请求,并返回该源代码信息;以及文本过滤中心模块,负责该源代码信息解析与过滤判断,并将过滤结果返回,本发明利用面向对象的编程思想对文本进行过滤开发,并结合各种数据结构对系统进行充分优化,模块之间相互独立,大大提高了本发明之系统的重用性和可扩展性。
文档编号G06F17/30GK102402613SQ201110430970
公开日2012年4月4日 申请日期2011年12月20日 优先权日2011年12月20日
发明者刘兰保, 徐涛, 朱一群 申请人:上海电机学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1