文本内容过滤方法和系统的制作方法

文档序号:6560918阅读:264来源:国知局
专利名称:文本内容过滤方法和系统的制作方法
技术领域
本发明属于计算机技术领域,涉及文本信息处理领域的文本信息过滤的实现方法,尤 其涉及基于文本主题分析和关键字检测的文本内容过滤方法。
背景技术
随着计算机和互联网技术的迅速发展,应用的日益广泛,使得互联网上的信息量急剧 增加,人们也越来越习惯通过网络来获取信息。然而,互联网上的信息十分庞杂,良莠不 齐。对互联网上的信息进行监测、分析和过滤,及时发现和阻止不良信息的传播和散布, 净化互联网环境显得十分必要。目前,对于互联网上的文本信息过滤的技术主要分为三类 一类是通过应用关键字匹 配算法,匹配文本信息中的特定关键字,如图1所示。这类方法能够较快速地匹配到包含 匹配关键字的文本,但要求用户准确给出所有需要检测的关键字,并且由于机械地根据字 词进行匹配,误报率较高。另一类方法是采用正规表达式,应用模糊的关键字匹配方法, 匹配文本信息中的特定关键字。这一类方法的问题在于,采用正规表达式的匹配过程很复 杂,计算量很大,当待过滤内容较多或实时性要求较高时,采用这类方法的过滤方法往往 不能胜任。再一类方法是通过支持向量机(SVM)等技术,采用统计分析的方法,对文本 内容进行归类,并根据所属类别的对应主题进行进一步的人工分析。这类方法往往需要通 过一些训练数据来提取过滤特征,并根据提取到的特征进行实际的过滤操作。这种方法虽 然解决了用户配置的难题,但是其完全基于主题的分类方法粒度较大,往往无法准确区分 出主题范围内包含不同子话题的内容,产生的结果往往因为需要的后续人工分析工作量太 大,在实际应用中用户往往无法承担这么大的工作量。考虑到文本内容过滤方法的实际应用背景,过滤方法应该需要支持细粒度的精确匹配 过滤, 一定程度的模糊匹配过滤和基于主题的粗粒度过滤,我们设计了本发明所述的一种 基于文本内容和主题相关程度的内容过滤方法。发明内容本发明的目的在于提供一种基于文本内容和主题相关程度的内容过滤方法。该方法是 一种既具有字词级别的关键字匹配,又具有文章/会话级别的主题相关度分析的文本信息
过滤方法。由于结合了关键字匹配的高效性与准确性,以及主题分析误报率低的特点,本 发明的实用性大大高于以往文本信息过滤方法。本发明的另一个目的在于,提供一种可用性高,可操作性好的文本信息过滤系统,降 低对用户配置的要求。本发明采用结合关键字匹配和文本主题相关性分析的技术,解决了 单一依靠关键字匹配要求用户准确给出所有需要检测的关键字的难题,也解决了单一依靠 主题相关性分析需要事先训练,并且分类粒度较粗,不够精确的问题,大大提高了实际应 用中的可操作性,降低了对用户配置和使用的要求。为实现以上目的,本发明的构思是首先将被过滤文本信息送入文本内容分析模块进 行分析,然后将分析结果送往精确匹配检测模块和模糊匹配检测模块进行匹配,文本主题 检测模块根据文本内容分析模块的分析结果和模糊匹配检测模块的匹配结果,识别出被过 滤文本信息的相关主题。通过调整需要检测的主题和关键字,该方法可以适用于任何主题 和/或关键字的过滤,并且不需要事先训练,为用户提供一种使用灵活方便,处理高效快 速的文本内容过滤服务。相应地,用于实现上述方法的文本内容过滤系统主要由文本内容分析模块、精确关键 字检测模块、模糊关键字检测模块和文本主题检测模块组成。基于以上构思,本发明的技术方案为一种文本内容过滤方法,包括步骤1) 解析用户配置信息,提取出其中的有效过滤规则;进一步地,还可以将提取出来的 有效过滤规则组织成处理效率更高的内部表达形式;2) 根据所述的有效过滤规则,对被过滤文本信息进行分析和检测;3) 对步骤2)的分析结果进行精确关键字匹配检测,输出检测结果;4) 对步骤2)的分析结果进行模糊关键字匹配检测,输出检测结果;5) 对步骤2)和4)的分析检测结果进行文本主题检测,确定被过滤文本内容的主题, 输出检测结果。较佳地,上述方法还可以包括综合步骤2)、 3)、 4)的检测结果,输出最终过滤结果 的步骤。相应地,用于实现以上方法的文本内容过滤系统包括配置信息解析模块、文本内容 分析模块、精确关键字检测模块、模糊关键字检测模块和文本主题检测模块。 系统的结构如图2所示,其中配置信息解析模块根据用户配置的检测关键字和/或主题,提取出其中的有效过滤规 贝IJ;并将提取出来的有效过滤规则进行预处理,组织成处理效率更高的内部表达形式;并
将组织好的过滤规则送入文本内容分析模块,供其使用;文本内容分析模块根据配置信息解析模块提供的过滤规则,对被过滤文本信息解析分 析和检测。文本内容分析模块标记可能匹配的过滤规则项目,并且根据用户提供的配置信 息,可以将分析结果送往精确关键字检测模块进行进一步的分析,也可以将分析结果送往 模糊关键字检测模块进行进一步的分析,检査其中的精确匹配规则或模糊匹配规则是否命 中;文本内容分析模块还可以将分析结果送往主题检测模块进行进一步的分析,检查其中 的主题过滤规则是否命中;精确关键字检测模块根据文本内容分析模块对被过滤文本所做的分析和检测的结果, 检查精确关键字过滤规则对应的匹配模式是否命中,据此判断精确关键字过滤规则是否命 中;模糊关键字检测模块根据文本内容分析模块对被过滤文本所做的分析和检测的结果, 检查模糊关键字过滤规则对应的匹配模式是否都命中,并且同时满足模糊关键字过滤规则 的约束条件,据此判断模糊关键字过滤规则是否命中;文本主题检测模块根据文本内容分析模块对被过滤文本所做的分析和检测的结果,以 及模糊关键字检模块的检测结果,判断主题过滤规则中的命中的子规则数占该主题所有子 规则数的比例是否超过预先指定的阀值,决定该主题是否命中。本发明的技术效果在于,在提供细粒度的精确关键字过滤支持、有限的模糊关键字过 滤支持和基于主题的粗粒度过滤支持的同时,通过分离重组三种过滤方式的文本内容扫描 前端,只需要对被过滤文本做一次全文扫描,而不需要像以往的分别应用三种方法所需要 的三次全文扫描,可以大大降低文本过滤所需处理时间。并且,本发明没有指定文本内容 扫描前端在具体实现中所采用的匹配算法,内容扫描和过滤操作分离的架构使得本发明可 以根据被过滤文本内容的特性,选择有针对性的优化内容匹配算法。另外,本发明中,对于每个过滤配置项目,用户都可以指定对应的优先级,表明用户 对该项目在被过滤文本中出现时的关注程度,实现不同级别的过滤处理操作。最后,本方 法中的主题过滤模块中还实现了基于关键字权值的检测。用户可以为每个主题中包含的各 个关键字条目分别指定对应的权值,表明该关键字在该主题中的重要性,使得本方法的灵 活性和适用性进一歩得到加强。


图1是传统精确关键字匹配系统的框图。 图2是本发明的文本内容过滤系统的框图。
图3是本发明实施例配置信息解析模块对有效过滤规则进行预处理的示意图,精确关 键字过滤规则、模糊关键字过滤规则和主题过滤规则最终都被解析,以内部的匹配模式表达。图4是本发明实施例的文本内容过滤系统的数据流图。
具体实施方式
以下将结合附图,通过一优选的实施例对本发明作出更详细的描述。本发明的输入是 待过滤的文本内容信息。输入信息可以来自任何网络信息承载设备,如网关、路由模块、 服务模块或个人计算机。这些网络信息设备上的数据流经过对应的预处理设备处理后,提 取出的文本信息都可作为本发明的输入信息。为了更容易理解本发明,首先介绍用于实现文本内容过滤方法的系统。如图2所示, 该系统包括-配置信息解析模块,用于根据用户配置的检测关键字和/或主题,提取出其中的有效 过滤规则;配置信息解析模块中还可以包括一预处理单元,用于将提取出来的有效过滤规 则进行预处理,组织成处理效率更高的内部表达形式;文本内容分析模块,用于根据配置信息解析模块提供的过滤规则,对被过滤文本信息 解析分析和检测。文本内容分析模块标记可能匹配的过滤规则项目,并且可以将分析结果 送往精确关键字检测模块、模糊关键字检测模块和文本内容分析模块进行进一步的分析;精确关键字检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和检测的 结果,检査精确关键字过滤规则对应的匹配模式是否命中,据此判断精确关键字过滤规则 是否命中;模糊关键字检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和检测的 结果,检査模糊关键字过滤规则对应的匹配模式是否都命中,并且同时满足模糊关键字过 滤规则的约束条件,据此判断模糊关键字过滤规则是否命中;文本主题检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和检测的结 果,以及模糊关键字检模块的检测结果,判断主题过滤规则中的命中的子规则数占该主题 所有子规则数的比例是否超过预先指定的阀值,决定该主题是否命中。参考图4,下面给出文本内容过滤方法的详细过程。第一步解析用户配置信息;所述的用户配置信息是指用户输入或制定的过滤配置信息,所述的有效过滤规则是从 用户配置信息中提取出来的有效配置信息,它可以是关键字信息和/或主题信息,可配置
的关键字信息包括精确关键字和模糊关键字;可配置的主题由一系列精确关键字和模糊关 键字构成。所述的精确关键字可以包括任意确定的字符序列,可直接构建匹配模式。所述 的模糊关键字包括由任意确定的字符序列以及通配符组成,通配符包括表示一个字符的 " ",表示零个或多个字符的"*"。对于模糊关键字,本实施例将模糊匹配关键字转换为另一种形式的精确匹配关键字。 首先解析其中的通配符含义,将整个模糊关键字拆分成多个不包含通配符的精确子关键字,并确定这些子关键字之间的距离关系,每个精确子关键字将独立对应一个匹配模式, 所有的这些匹配模式将对应一个模糊匹配关键字。例如,对于模糊关键字"AB CD",将被拆分成"AB"和"CD"两个精确子关键字, 并附加1个字符间距的判断阀值。对于主题信息配置条目,配置解析模块将逐个提取其中的关键字,并根据精确关键字 和模糊关键字分别执行如上的操作,并将所有这些关键字的匹配模式对应到该主题。例如,对于包含"AB*CD","我们?大家","测试项目","English"四个关键字的主 题,其中的模糊关键字"AB*CD"和"我们?大家"将按照模糊关键字的拆解规则,被分 别拆分为"AB"和"CD"两个精确子关键字,并附加1个字符间距的判断阀值;以及"我 们"和"大家"两个精确子关键字,并附加任意个字符间距的判断阀值。对于"测试项目", "English",则按照精确关键字处理。用户可以自行设定过滤配置项目(即过滤规则)的优先级别,每个配置项目的优先级, 直接与各项目相关,不与匹配模式相关。配置文件解析完毕后,逻辑上将形成如图3所示的对应关系。配置信息解析模块解析完配置信息之后,根据文本内容分析模块具体实现中所采用的 特定多模式匹配算法的要求,将对解析得到的匹配模式进行处理,将所有匹配模式构建成 一个匹配模式树。其中,所采用的匹配算法可以是AC-BM算法及类似的多模式匹配算法。第二步文本内容分析模块对被检测文本信息进行分析和匹配。文本内容分析模块根据配置分析模块的结果,构建出匹配模式状态机,对被检测文本 做一次扫描匹配操作。本发明中,文本内容分析的过程本质上是一个模式匹配过程。根据具体实现中采用的 模式匹配算法的不同,扫描实现略有不同,但都需要标记每个命中的匹配模式,以及命中 的模式在被检测文本中出现的位置和该模式的索引。并可以根据配置要求,确定命中模式 的优先级是否足够高,可以中止匹配过裡,实现类似短路计算的匹配过程。第三步对文本内容分析模块的结果进行处理。1、 精确关键字检测模块所需的处理相对简单,只需根据文本内容分析模块的结果, 确定是否有与精确匹配关键字对应的匹配模式命中。2、 模糊关键字检测模块需要检测文本内容分析模块的结果中,是否包含对应到任何 模糊匹配关键字的匹配模式的命中。对于任何与模糊匹配关键字对应的匹配模式的命中,模糊关键字检测模块需要检査构 成该模糊匹配关键字的所有匹配模式是否都命中,并且,根据这些命中的匹配模式在被检 测文本中的命中位置,检査这些位置之间的关系,是否符合模糊匹配关键字的要求。例如<formula>formula see original document page 9</formula>表示对于模糊匹配关键字A,可以拆分成a, b, c三个精确的子关键字,即对应三个 匹配模式,a和b之间的距离关系为dis(ab), b和c之间的距离关系为<formula>formula see original document page 9</formula>表示被检测文本中匹配模式a,b,c分别出现的位置。当Result(a) != 0, Result(b) != 0, Result(c) != 0都成立时,模糊关键字检测模块将检测 是否存在ai, bj满足dis(ab),和bj, Ct满足dis(bc)。即: 3《.A ,满足)=fifo(a6)3 ,c,,满足血<formula>formula see original document page 9</formula>如果以上所有条件都成立,则模糊E配关键字命中。模糊关键字检测模块将执行命中 的模糊匹配关键字对应的操作。第四步文本主题检测模块对文本内容分析模块和模糊关键字检测模块的结果进行处理。文本主题检测模块在文本内容分析模块和模糊关键字检测模块的结果上进行分析。 首先,文本主题检测模块依次检査每个主题,判断其中的精确匹配关键字、模糊匹配 关键字是否有命中。然后,文本主题检测模块将根据命中关键字的个数、所有命中关键字在被检测文本中 出现的次数和命中关键字的权值,计算被检测文本和主题的相关程度系数。良卩,对包含k个关键字的形如T叫<formula>formula see original document page 9</formula>的主题,其中Ai,i-l…k为精确匹
配关键字或模糊匹配关键字,对应的权值分别为Wi,i=l...k,并且<formula>formula see original document page 10</formula>若用户没有为关键字配置权值,默认的,各个关键字权值相同,即w-l,记Ai在被检测文本中命中的次数为Ni, i=l...k,则被检测文本主题跟用户配置的过滤 主题之间的相关系数为<formula>formula see original document page 10</formula>当;i2y9时,々为可配置的相关系数阀值,文本主题检测模块将认为被检测文本与用户配置的过滤主题相吻合,产生主题命中结果信息。最后,在本发明中可以将各个模块的检测结果综合起来,送到后端处理设备,如日志 记录设备,显示输出设备,或根据本发明的检测结果进行后续处理的设备。以上尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解在不脱离本发明及所附的权利要求 的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施 例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
权利要求
1.一种文本内容过滤方法,包括步骤1)解析用户配置信息,提取出其中的有效过滤规则;2)根据所述的有效过滤规则,对被过滤文本信息进行分析和检测;3)对步骤2)的分析结果进行精确关键字匹配检测,输出检测结果;4)对步骤2)的分析结果进行模糊关键字匹配检测,输出检测结果;5)对步骤2)和4)的分析检测结果进行文本主题检测,确定被过滤文本内容的主题,输出检测结果。
2. 如权利要求l所述的方法,其特征在于,所述的步骤l)还包括将提取出来 的有效过滤规则组织成处理效率更高的内部表达形式的步骤。
3. 如权利要求1所述的方法,其特征在于,所述的内部表达形式是模式匹配树。
4. 如权利要求l所述的方法,其特征在于,所述的有效过滤规则包括精确关键 字、模糊关键字和主题。
5. 如权利要求l所述的方法,其特征在于,还包括综合步骤2)、 3)、 4)的检 测结果,输出最终过滤结果的步骤。
6. 如权利要求l所述的方法,其特征在于,所述的匹配算法是AC-BM算法或 类似的多模式匹配算法。
7. —种文本内容过滤系统,包括配置信息解析模块,用于根据用户配置的检测关键字和/或主题,提取出其中 的有效过滤规则;文本内容分析模块,用于根据配置信息解析模块提供的过滤规则,对被过滤文 本信息进行解析分析和检测,并标记可能匹配的过滤规则项目;精确关键字检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和 检测的结果,检査精确关键字过滤规则对应的匹配模式是否命中,据此判断精确关 键字过滤规则是否命中;模糊关键字检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和 检测的结果,检査模糊关键字过滤规则对应的匹配模式是否都命中,并且同时满足 模糊关键字过滤规则的约束条件,据此判断模糊关键字过滤规则是否命中;文本主题检测模块,用于根据文本内容分析模块对被过滤文本所做的分析和检 测的结果,以及模糊关键字检模块的检测结果,判断主题过滤规则中的命中的子规 则数占该主题所有子规则数的比例是否艇过预先指定的阀值,决定该主题是否命 中。
8. 如权利要求7所述的系统,其特征在于,所述的配置信息模块还包括一预处理单元,用于将提取出来的有效过滤规则进行预处理,组织成处理效率更高的内 部表达形式。
9. 如权利要求7所述的系统,其特征在于,所述的有效过滤规则包括精确关键 字、模糊关键字和主题。
10. 如权利要求7所述的系统,其特征在于,所述的内部表达形式是模式匹配树。
全文摘要
一种文本内容过滤方法,包括步骤1)解析用户配置信息,提取出其中的有效过滤规则;2)根据所述的有效过滤规则,对被过滤文本信息进行分析和检测;3)对步骤2)的分析结果进行精确关键字匹配检测,输出检测结果;4)对步骤2)的分析结果进行模糊关键字匹配检测,输出检测结果;5)对步骤2)和4)的分析检测结果进行文本主题检测,确定被过滤文本内容的主题,输出检测结果。本发明在提供细粒度的精确关键字过滤支持、有限的模糊关键字过滤支持和基于主题的粗粒度过滤支持的同时,通过分离重组三种过滤方式的文本内容扫描前端,只需要对被过滤文本做一次全文扫描,可以大大降低文本过滤所需处理时间。
文档编号G06F17/30GK101158948SQ20061011359
公开日2008年4月9日 申请日期2006年10月8日 优先权日2006年10月8日
发明者冯登国, 应凌云, 苏璞睿 申请人:中国科学院软件研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1