基于关键词权值的文本过滤方法与系统的制作方法

文档序号:6491483阅读:164来源:国知局
基于关键词权值的文本过滤方法与系统的制作方法
【专利摘要】本申请提供了一种基于关键词权值的文本过滤方法,该方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中,计算关键词权值的步骤包括:判断所述关键词是否是全新关键词,如果是,则计算历史判定数据中的正确判定数据的条数和错误判定数据的条数、以及包含所述关键词的正确判定数据的条数和错误判定数据的条数;以及计算所述关键词的权值。此外,本申请还提供了一种基于关键词权值的文本过滤系统。
【专利说明】基于关键词权值的文本过滤方法与系统
【技术领域】
[0001]本申请涉及安全、数据业务领域,尤其涉及基于关键词权值的文本过滤方法与系统。
【背景技术】
[0002]文本信息是移动互联网信息中传播数量最多的内容,包括:网页、短信、彩信、即时通信工具等。对文本传输中的敏感内容进行信息过滤(例如政治、色情、赌博…)是互联网中的一项重要技术。一般来说,系统会将文本归类为“正常”和“需要过滤”两类。
[0003]从信息量上看,每条链路(IOG)上每天用户访问的文本数据量多达数亿条,全网有数千亿条数据,而其中需要过滤的信息占比非常少,一般少于1%,因此从海量数据中准确捕获待过滤信息是困难的。即使有少量的误判(10%),也使得系统捕获到的数据中误判的信息占比达90%以上。为了避免误判,需要通过人工二次审核来最终判定,而人工审核的结果是最准确的,但相对来说效率也比较低。
[0004]现有的信息过滤系统(以下简称“过滤系统”)对文本进行识别与分类的方法主要有以下几种:
[0005]( I)基于关键词数量进行判定
[0006]该技术方案的主要思想是设定关键词库,每个关键词不再设置其他考量指标;对文本中包含的关键词进行识别,并依据数量的多少是否达到系统设定的阈值对数据进行归类。
[0007](2)基于熵值(权值)之和进行判定
[0008]该技术对每个关键词设定熵值,将重要的关键词的熵值设置为较高,不重要的关键词的熵值设置为较低。对文本进行识别时,计算文本中包含的关键词的熵值之和,并依据熵值是否达到系统设定的阈值对数据进行归类。
[0009](3)基于语义识别进行判定
[0010]语义识别不仅定义关键词,而且定义关键词之间的联系(例如同时出现)确定熵值,并最终通过全文的语义确定文本的分类。例如“枪支”和“出售”两个关键词单独出现时,应为正常;如果在一定的距离内出现,例如“出售进口枪支”,则判定两个词之间存在语义联系。
[0011]但是,现有的3种技术方案均存在一定程度的不足,具体如下:
[0012](I)基于关键词数量判定
[0013]单纯的基于关键词的数量进行判定会产生非常多的误判,例如“出售”、“枪支”都为关键词,一篇出现大量“出售”的文章很可能被判定为需要过滤,但很可能是一个正常(如淘宝)的交易页面。
[0014]采用该技术的误判率可能高达50%,对于仅包含1%需要过滤信息的原始数据流来说,误判造成的影响基本上不可被接受。
[0015](2)基于熵值之和进行判定[0016]基于熵值的判定方式无疑大大增强了判定能力,例如将“出售”、“枪支”的熵值设定为1,将“出售”& “枪支”的熵值设定为100。单纯出现“出售”或“枪支”的文本则会判定为正常,往往同时出现“出售”和“枪支”的文本才会判定为需要过滤。
[0017]采用该技术很大程度上减少了误判,该方式存在的关键词权重设定不合理时的调整问题。
[0018](3)基于语义识别进行判定
[0019]语义识别的条件更多,因此也更加精确。但在语义识别中同样面临两个技术难点:一是语义识别同样也面临关键词权值如何设定的问题,因为在已有的技术方案中,缺乏定义关键词权重设定的方式与方法;二是语义识别分析的效率较低,不适用于处理海量数据。

【发明内容】
[0020]为了解决系统判定文本的准确程度较低的问题,本申请提供了一种基于关键词权值的文本过滤方法,该方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中计算关键词权值的步骤包括:判断关键词是否是全新关键词,如果不是,则计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含关键词的正确判定数据的条数Ml和错误判定数据的条数NI ;以及计算关键词权

【权利要求】
1.一种基于关键词权值的文本过滤方法,所述方法包括以下步骤: 计算关键词的权值;以及 基于所计算出的关键词的权值对文本进行过滤; 其中,计算关键词权值的步骤包括: 判断所述关键词是否是全新关键词,如果所述关键词不是全新关键词,则计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含所述关键词的正确判定数据的条数Ml和错误判定数据的条数NI ;以及 计算所述关键词的权值
2.如权利要求1所述的方法,其中计算关键词权值的步骤还包括: 计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi ;以及 计算摩擦系数
3.如权利要求1所述的方法,其中计算关键词权值的步骤还包括: 如果所述关键词是全新关键词,则 令所述关键词的权值ValueO = (VH+VL) /2,其中VL是由用户设定的所述关键词的最小权值,VH是由用户设定的所述关键词的最大权值; 当在所述正确判定数据或所述错误判定数据中出现新的所述关键词时,计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi ;以及 计算摩擦系数
4.如权利要求2或3所述的方法,其中计算关键词权值的步骤还包括: 判断(X1-Yi).μ的大小是否超过用户预先设定的权值调整阈值;以及 如果(X1-Yi).μ的大小超过所述权值调整阈值,则令所述关键词的权值Value=ValueO+ (X1-Yi).μ ,否则令所述关键词的权值 Value=ValueO。
5.一种基于关键词权值的文本过滤系统,所述系统包括: 关键词权值计算模块,用于计算关键词的权值;以及 文本过滤模块,用于基于所计算出的关键词的权值对文本进行过滤; 其中,所述关键词权值计算模块包括: 第一判断单元,用于判断所述关键词是否是全新关键词; 第一计算单元,用于当所述关键词不是全新关键词时计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含所述关键词的正确判定数据的条数Ml和错误判定数据的条数NI ; 第二计算单元,用于计算所述关键词的权值ValueO =VL+ ^1 ( VH - VL),其



M1/M + N1/N中VL是由用户设定的所述关键词的最小权值,VH是由用户设定的所述关键词的最大权值。
6.如权利要求5所述的系统,其中所述关键词权值计算模块还包括:第三计算单元,用于计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi;以及 第四计算单元,用于计算摩擦系数
7.如权利要求5所述的系统,所述关键词权值计算模块还包括: 第五计算单元,用于当所述关键词是全新关键词时令所述关键词的权值ValueO =(VH+VL) /2,其中VL是由用户设定的所述关键词的最小权值,VH是由用户设定的所述关键词的最大权值; 第六计算单元,用于当历史判定数据中的正确判定数据或错误判定数据中出现新的所述关键词时,计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi ;以及 第七计算单元,用于计算摩擦系、
8.如权利要求6或7所述的方法,所述关键词权值计算模块还包括: 第二判断单元,用于判断(X1-Yi).μ的大小是否超过用户预先设定的权值调整阈值, 权值调整单元,用于当(X1-Yi).μ的大小超过所述权值调整阈值时令所述关键词的权值Value=ValueO+(X1-Yi).μ ,否则令所述关键词的权值Value = ValueO。
【文档编号】G06F17/27GK103838710SQ201210479196
【公开日】2014年6月4日 申请日期:2012年11月22日 优先权日:2012年11月22日
【发明者】粟栗, 张峰, 付俊 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1