关键词过滤系统及方法

文档序号:6372267阅读:551来源:国知局
专利名称:关键词过滤系统及方法
技术领域
本发明涉及网络信息过滤技术领域,特别涉及一种关键词过滤系统及方法。
背景技术
在web 2.0时代,互联网用户所产生的内容十分广泛,例如在电子布告栏系统(Bulletin Board System,BBS)论坛上发布帖子、在博客上发布文章、以及在最新兴起的微博上发布文本信息,使得互联网中每天都有海量的文本内容生成。用户产生的文本内容包罗广泛,但有些内容会涉及色情、欺诈、以及政治敏感信息,而产生的这些内容可能会影响读者的上网体验,或者带来精神上、甚至经济上的危害。无论是从净化论坛数据,还是从提升读者使用感受的角度出发,各ICP (论坛、博客、微博的提供商)必须对用户产生的数据进行及时地、有效地过滤。
现有技术中,为了及时地过滤包含敏感信息的内容,比较常用的做法是基于关键词内容的扫描技术,具体为使用与敏感信息有关的关键词扫描,比如通过扫描“色情门”、“艳照”、“偷拍”等关键词来发现与“色情门”有关的帖子,通过扫描帖子中的文本内容,只要发现所述文本内容中包含任意一个上述关键词,即可认定该内容为与“色情门”有关的敏感信息,但在实际发布文本内容的过程中,有些用户会通过对准备发布的文本内容进行“微加工”,而逃避审查和过滤。以“色情门”关键词为例,用户可以将准备发布的文本内容中的“色情门”修改为“色X门”、“色〇门”、“色情门”、“色情门”、“色X情X门”,“色XO情O门”,“色**林*情*林林林林林林林*门”等变形内容;虽然这些变化并不会影响读者对文本内容的理解,但能够轻易避开现有技术中基于关键词内容的扫描技术对文本内容中敏感信息的扫描,继续发布涉及色情、欺诈、以及政治敏感信息,从而使得现有技术中基于关键词内容的扫描技术失去意义。

发明内容
本发明要解决的技术问题是如何提高对敏感信息的识别力,并提高对敏感信息过滤的适应性。为解决上述技术问题,本发明提供了一种关键词过滤系统,所述系统包括文本获取模块,适于获取待过滤文本内容;扫描模块,适于通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;判断过滤模块,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。其中,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。
其中,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。其中,所述系统还包括有向性判断模块,适于根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性。 其中,所述关键词词典还存有预设的所述关键词的有向性次序。其中,所述有向性判断模块具体包括次序获得子模块,用于根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;有向性匹配子模块,用于将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。其中,所述文本获取模块采用网络蜘蛛抓取网页,以获取待过滤文本内容。其中,所述文本获取模块通过接收待过滤文本,以获取待过滤文本内容。本发明还公开了一种关键词过滤方法,所述方法包括以下步骤获取待过滤文本内容;通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。其中,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。其中,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。其中,判断所述字符间距是否超过了预设字符间距之前,还包括以下步骤根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性,若是,则执行后续步骤。其中,所述关键词词典还存有预设的所述关键词的有向性次序。其中,在判断所述各个关键词是否满足有向性时,具体包括以下步骤根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。其中,采用网络蜘蛛抓取网页,以获取待过滤文本内容。其中,通过接收待过滤文本,以获取待过滤文本内容。本发明通过获取待过滤文本内容中各个关键词之间的字符间距,并通过字符间距进行判断,提高了对敏感信息的识别力,并提高了对敏感信息过滤的适应性。


图I是按照本发明一种实施方式的关键词过滤系统的结构框图;图2是按照本发明另一种实施方式的关键词过滤系统的结构框图;图3是按照本发明一种实施方式的关键词过滤方法的流程图;图4是按照本发明另一种实施方式的关键词过滤方法的流程图。
具体实施例方式下面结合附图和实施例,对本发明的具体实施方式
作进一步详细描述。以下实施例适于说明本发明,但不用来限制本发明的范围。图I是按照本发明一种实施方式的关键词过滤系统的结构框图;参照图1,所述系统包括文本获取模块101,适于获取待过滤文本内容,本实施例中,所述文本获取模块101可采用网络蜘蛛抓取网页,以获取待过滤文本内容,还可通过接收待过滤文本(即论坛、博客、微博等信息服务系统接收由用户输入的待发布文本),以获取待过滤文本内容;扫描模块102,适于通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;判断过滤模块103,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。优选地,所述关键词为能组成敏感信息的词语或单个字,所述预设的关键词词典存有需要过滤的所有关键词。所述敏感信息是由多个词语构成的词组时,例如,“美国”、“公交车”、“爆炸”这三个词各自独立存在时,不会包含任何敏感信息,但是,当这三个词同时出现在一段文本内容中时,则有很大可能形成敏感信息,在一般情况下,多个词语构成的词组作为敏感信息时为离散型信息,即无需具备有向性,并且字符间距很长,甚至整个文章篇幅中同时出现仍然可以反映出上述敏感信息,为识别该词组,本实施方式中,将该词组中的每个词作为关键词;假设所述关键词词典包括3个关键词“美国”、“公交车”及“爆炸”,与其对应的预设字符间距为50,并假设扫描结果(扫描结果的格式一 “关键词”:位置)为“公交车”:34、“美国”:48、“爆炸”:57 ;扫描结果中“美国”、“公交车”、“爆炸”三个词都出现了,并且任意两个词之间的字符间距小于50,因此在待过滤文本内容中识别为由这三个关键词所组成的敏感信息,对所述待过滤文本内容进行过滤处理或等待人工审查。优选地,所述关键词为组成敏感信息的单个字时,参照图2,所述系统还包括有向性判断模块104,适于根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性,所述有向性为各个关键词是否按照一定次序排列。所述关键词词典还存有预设的所述关键词的有向性次序。 优选地,所述有向性判断模块具体包括次序获得子模块,用于根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;
有向性匹配子模块,用于将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。敏感信息是词语时,例如,“色情门”,在一般情况下,词语作为敏感信息时为向量型信息,即具备有向性的信息,组成该敏感信息的关键词必须按照一定先后次序,才能反映出上述敏感信息,因此,为识别加工后的该词语,本实施方式将该词语按单个字进行拆分,并将拆分后的单个字作为关键词;假设所述关键词词典包括3个关键词“色”、“情”、“门”,与其对应的预设字符间距为10,并且所述关键词词典中的有向性次序设置成依次为“色”、“情”、“门”,并假设待过滤文本内容中的扫描结果为(扫描结果的格式一 “关键词”:位置)为“情” 67、77、“色” :87、“门” 90 ;扫描结果中,“色”、“情”、“门”三个关键词都出现了,但在所述待过滤文本内容中出现的次序为情出7)->情(77)->色(87)->门(90),所述顺序的格式一 “关键词”(位置),不满足预设的次序排列,因此在待过滤文本内容中未识别敏感信息“色情门”。
而由于上述词语还可通过“色X门”、“色〇门”等省略部分字的情况来进行表示,同样能反映出上述敏感信息,因此,可采用识别力更强、但误判率略高的方式进行识别,该方式如下假设所述关键词词典包括3个关键词“色”、“情”、“门”,与其对应的预设字符间距为10,并且所述关键词词典中的有向性次序包括(I)依次为“色”、“情” ;(2)依次为“色”、“门”;(3)依次为“情”、“门”,并假设待过滤文本内容中的扫描结果为(扫描结果的格式—“关键词”:位置)为“情” :67、77、“色” :87、“门” 90 ;扫描结果中,“色”、“情”、“门”三个关键词都出现了,但在所述待过滤文本内容中出现的次序为情(67)->情(77)->色(87)->门(90),在判断时,满足所述有向性次序中的(2)和(3),并且色(87)->门(90)之间的字符间距小于预设字符间距,因此,在待过滤文本内容中识别了敏感信息“色情门”,需要对所述待过滤文本内容进行过滤处理或等待人工
审查;图3是按照本发明一种实施方式的关键词过滤方法的流程图;参照图3,所述方法包括以下步骤S201 :获取待过滤文本内容,本实施例中,可采用网络蜘蛛抓取网页,以获取待过滤文本内容,还可通过接收待过滤文本(即论坛、博客、微博等信息服务系统接收由用户输入的待发布文本),以获取待过滤文本内容;S202:通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;S203:判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。步骤S202中,若所述待过滤文本内容中没有所述预设的关键词词典中所存储的关键词,则直接结束流程;步骤S203中,若是,则直接结束流程优选地,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。
优选地,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。参照图4,优选地,步骤S203之前,还包括以下步骤S204:根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性,若是,则执行后续步骤。
优选地,所述关键词词典还存有预设的所述关键词的有向性次序。优选地,在判断所述各个关键词是否满足有向性时,具体包括以下步骤根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。应当注意的是,在本发明的系统的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。以上实施方式仅适于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
权利要求
1.一种关键词过滤系统,其特征在于,所述系统包括 文本获取模块,适于获取待过滤文本内容; 扫描模块,适于通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距; 判断过滤模块,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。
2.如权利要求I所述的系统,其特征在于,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。
3.如权利要求I所述的系统,其特征在于,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。
4.如权利要求3所述的系统,其特征在于,所述系统还包括 有向性判断模块,适于根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性。
5.如权利要求4所述的系统,其特征在于,所述关键词词典还存有预设的所述关键词的有向性次序。
6.如权利要求5所述的系统,其特征在于,所述有向性判断模块具体包括 次序获得子模块,用于根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序; 有向性匹配子模块,用于将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。
7.如权利要求1飞中任一项所述的系统,其特征在于,所述文本获取模块采用网络蜘蛛抓取网页,以获取待过滤文本内容。
8.如权利要求1飞中任一项所述的系统,其特征在于,所述文本获取模块通过接收待过滤文本,以获取待过滤文本内容。
9.一种关键词过滤方法,其特征在于,所述方法包括以下步骤 获取待过滤文本内容; 通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距; 判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。
10.如权利要求9所述的方法,其特征在于,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。
11.如权利要求9所述的方法,其特征在于,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。
12.如权利要求11所述的方法,其特征在于,判断所述字符间距是否超过了预设字符间距之前,还包括以下步骤 根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性,若是,则执行后续步骤。
13.如权利要求12所述的方法,其特征在于,所述关键词词典还存有预设的所述关键词的有向性次序。
14.如权利要求13所述的方法,其特征在于,在判断所述各个关键词是否满足有向性时,具体包括以下步骤 根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序; 将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。
15.如权利要求扩14中任一项所述的方法,其特征在于,采用网络蜘蛛抓取网页,以获取待过滤文本内容。
16.如权利要求扩14中任一项所述的系统,其特征在于,通过接收待过滤文本,以获取待过滤文本内容。
全文摘要
本发明公开了一种关键词过滤系统及方法,涉及网络信息过滤技术领域,所述系统包括文本获取模块,适于获取待过滤文本内容;扫描模块,适于对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;间距判断模块,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。本发明通过获取待过滤文本内容中各个关键词之间的字符间距,并通过字符间距进行判断,提高了对敏感信息的识别力,并提高了对敏感信息过滤的适应性。
文档编号G06F17/30GK102779176SQ20121021855
公开日2012年11月14日 申请日期2012年6月27日 优先权日2012年6月27日
发明者刘绪平, 李铁钧, 韩孟岗 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1