用于识别敏感文本信息的系统和方法

文档序号:6526822阅读:407来源:国知局
用于识别敏感文本信息的系统和方法
【专利摘要】一种用于识别敏感文本信息的系统和方法。所述包括:数据训练模块,用于将训练文本表示为向量空间形式的特征空间模型;数据测试模块,用于将测试文本表示为向量空间形式的特征空间模型;以及信息源分块识别模块,用于根据文本点在二维空间的分布,将测试文本集合划分为模糊区和非模糊区以及对模糊区和非模糊区分别进行分类识别。
【专利说明】用于识别敏感文本信息的系统和方法
【技术领域】
[0001]本发明涉及一种用于识别敏感文本信息的系统和方法。
【背景技术】
[0002]例如微博等的文本信息已成为社会思潮多样化的助推器和放大器,在舆论环境的角色正在发生着重大的变化。如果网络舆论环境遭到不法的破坏,违背信息自由和公正传播的原则,会造成不正当的商业竞争等,进而扰乱社会秩序。复杂多变的网络舆论环境以及背后各种利益体的驱使,给微博和社区论坛BBS等文本信息的有效监控带来了前所未有的挑战。
[0003]在处理文本信息内容的安全领域,目前采用的技术主要有基于规则的方法和基于概率统计的方法。
[0004](I)基于规则的方法是指事先设计好一组规则,用以指明某条信息是否属于敏感信息。如图1所示,该方法主要由数据输入预处理模块、数据规则提取模块、规则判断模块和结果输出模块来实现。其利用规则判断模块对数据进行是否符合条件的相关的判定,规则判断模块为核心模块,在具体的实现中,基于规则的几种典型方法如下:
[0005]基于IP、域名和路由规则:对IP设置黑白名单,IP在黑名单的信息源将会被过滤等处理,而IP在白名单的信息源被放过;服务器端的配置可以实现对Access controlList、Top wrappers、主机路由表等服务器端配置;安全认证方法有测试/回复系统和计算测试系统等。
[0006]基于内容规则和行为规则:例如邮件中包含adertisement或者英文大写字母过度使用,与房产或药品等相关词语的过度使用,或是过于花哨的HTML模式用色等,这些内容规则一旦被识别出来,该信息源将会被过滤等;根据信息源邮件头中的信息判定为群发邮件并且在MTA端监控该信息源的IP在规定的时间内超过了流量阈值,则被进行过滤等特殊处理。
[0007](2)基于概率统计的方法是指利用某些特征来对不同的内容进行分类,计算某个特征属于某个类别的测度,取最大值,如果这个最大值所属的类别为敏感类,则将该信息进行相关处理。如图2所示,该方法主要由测试数据输入模块、训练数据训练模块、分类器分类模块、结果输出模块来实现。数据训练过程是一个统计学习的过程,得到相应的分类器。训练分类器时所使用的分类算法可根据实际应用场景而确定,如朴素贝叶斯,K-mean等分类算法等。
[0008]基于规则的方法存在的缺点:在规律性不明显的应用领域效果较差,一些正常的信息源常会被归为非正常的信息源。即使在规律性明显的应用领域,当信息源制造者知道了所有的规则以后,为了绕开规则处理,其行为会变得更加隐蔽。基于规则的方法另外一个问题,信息源是否会被识别为敏感信息因其所面对的读者和张贴位置的不同而不同,对于某些特定用户、公告留言或者维基百科而言,那些可以用来明确指示是否为敏感信息,而其他场合可能变得相当正常。即由于不同用户界定敏感信息的标准不同,还需要为不同的用户、群组等建立起各自的实例和数据集合。
[0009]基于概率统计的方法也因采用的不同的算法而存在各自的缺点,例如朴素贝叶斯分类器最大的缺陷就是,他无法处理基于特征组合所产生的变化结果,当我们假设单词“美国”和“911”为非敏感词,而实际上“美国911”这样的敏感信息也会被识别为非敏感信息放过。再例如K-mean的主要缺点在于,为了找到最为接近的数据项,每一项带预测的数据都必须和所有的数据项进行比较且缺一不可,面对百万甚至上千万的数据集,在时间和空间上都是非常低效的。
[0010]因此,期望提供一种高性能的识别敏感文本信息的系统和方法。

【发明内容】

[0011]为了解决现有技术中的上述缺点和问题中的至少一个而提出本发明。基于现有技术存在的缺点,我们提出了划分信息源集合,并采用不同类型的特征对信息源先后进行识别的方法,它一方面可以在处理大数据集时表现出较高的性能;另一方面,该方法应用于敏感信息识别时,较之普通的分类算法在效果上也会有大大的提高。
[0012]根据一个方面,本发明提出了一种用于识别敏感文本信息的系统,包括:数据训练模块,用于将训练文本表示为向量空间形式的特征空间模型;数据测试模块,用于将测试文本表示为向量空间形式的特征空间模型;以及信息源分块识别模块,用于根据文本点在二维空间的分布,将测试文本集合划分为模糊区和非模糊区以及对模糊区和非模糊区分别进行分类识别。
[0013]可选地,所述数据训练模块包括:训练文本预处理模块,用于对训练文本进行预处理;特征抽取模块,用于根据所述训练文本预处理模块的预处理结果进行特征抽取;以及特征选择模块,用于对所述特征抽取模块所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到特征空间。
[0014]可选地,所述数据测试模块包括:测试文本预处理模块,用于对测试文本进行预处理;特征抽取模块,用于根据所述测试文本预处理模块的预处理结果进行特征抽取;以及特征选择模块,用于对所述特征抽取模块所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到特征空间。
[0015]可选地,所述信息源分块识别模块包括:区域划分模块,用于根据文本点在二维空间的分布将所述测试文本集合划分为所述模糊区和所述非模糊区;第一分类识别模块,用于以字或词作为特征对所述模糊区进行分类识别;以及第二分类识别模块,用于以相邻两个字或词组成的二元字符串作为特征对所述非模糊区进行分类识别。
[0016]可选地,所述字或词是通过分词工具获得的。
[0017]根据本发明的另一个方面,提供了一种用于识别敏感文本信息的方法,包括:将训练文本表示为向量空间形式的特征空间模型;将测试文本表示为向量空间形式的特征空间模型;根据文本点在二维空间的分布,将测试文本集合划分为模糊区和非模糊区;以字或词作为特征,对所述模糊区进行分类识别;以及以由相邻两个字或词组成的二元字符串作为特征,对所述非模糊区进行分类识别。
[0018]可选地,将训练文本表示为向量空间形式的特征空间模型包括:对训练文本进行预处理;对预处理结果进行特征抽取;对所抽取的特征进行特征选择。[0019]可选地,将测试文本表示为向量空间形式的特征空间模型包括:对测试文本进行预处理;对预处理结果进行特征抽取;对所抽取的特征进行特征选择。
[0020]可选地,所述字或词是通过分词工具获得的。
[0021]可选地,采用贝叶斯或者K-means作为分类算法来训练分类器,以将测试文本集合分割为所述模糊区和所述非模糊区。
【专利附图】

【附图说明】
[0022]通过下面结合附图进行的描述,本发明一些示范性实施例的上述和其他方面、特征和优点对于本领域技术人员来说将变得显而易见,其中:
[0023]图1是用于实现基于规则的方法的框图;
[0024]图2是用于实现基于概率统计的方法的框图;
[0025]图3是用于识别敏感文本信息的系统的框图;以及
[0026]图4是用于识别敏感文本信息的方法的流程图。
【具体实施方式】
[0027]提供参考附图的下面描述以帮助全面理解本发明的示范性实施例。其包括各种细节以助于理解,而应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的 实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,省略了对公知功能和结构的描述。
[0028]根据本发明的识别敏感文本信息的系统和方法将测试文本集合根据模糊区域划分为两部分,并采用不同类型的特征对这两部分的文本分别进行识别。该技术方案对传统的基于概率统计方法技术进行了改进,使识别和分类结果的精确率和召回率得到了明显提高,并且不同的算法可以实现组合用于敏感信息识别和文本分类领域,在大数据量的高效率分类方面有很重要的应用潜力。
[0029]图3是用于识别敏感文本信息的系统的框图。
[0030]如图3所示,根据本发明的用于识别敏感文本信息的系统包括数据训练模块310、数据测试模块320、信息源分块识别模块330。
[0031]数据训练模块310用于将训练文本表示为向量空间形式的特征空间模型。
[0032]在一个实施例中,数据训练模块310包括训练文本预处理模块312、特征抽取模块314、特征选择模块316。
[0033]训练文本预处理模块312用于对训练文本进行预处理。例如,训练文本预处理模块312可以从训练文本去除标点符号和无效字符、过滤停用词、然后对训练文本进行分词。停用词可以包括“的、地、得”、“是、了、也…”等。
[0034]特征抽取模块314可以根据训练文本预处理模块312的预处理结果进行特征抽取。例如,特征抽取模块314可以根据需求选择字、词、以及字词组成的二元字符串作为特征。第一步选用的特征,应该具有较强的覆盖能力,有较强的分辨能力,因此选取经过分词的普通词语作为特征,识别效果要优于单个字或词语组合;第二步选用的特征,应该能够对第一步识别结果不可靠的那些文本具有较强的分辨能力,并且语义特征要更加突出,而词语组合正好具有较好的语义特性,例如词语组合“商品属性”比单个词语“商品”、“属性”具有更强的语义效果,因此第二步选择文本分词以后两个相邻的二元词串作为特征。作为一个示例,可以利用分词工具,第一步直接选取分词工具的分词结果作为特征,第二步选取分词工具分词以后相邻的两个词语组合作为特征。
[0035]特征选择模块316对特征抽取模块314所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到由向量空间模型VSM表示的特征空间。例如,特征选择可采用的方法包括词频(Term Frequency)统计法、文档频率(DocumentFrequency)统计法、逆文档频率(IDF)法、互信息法、CHI方统计法、信息增益法等。例如,特征选择模块316可以采用CHI方统计法进行特征选择。
[0036]与数据训练模块310类似,数据测试模块320用于将测试文本表示为向量空间形式的特征空间模型。
[0037]在一个实施例中,数据测试模块320包括测试文本预处理模块322、特征抽取模块324、特征选择模块326。
[0038]测试文本预处理模块322用于对训练文本进行预处理。例如,训练文本预处理模块322可以从训练文本去除标点符号和无效字符、过滤停用词、然后对训练文本进行分词。停用词可以包括“的、地、得”、“是、了、也…”等。
[0039]特征抽取模块324可以根据训练文本预处理模块322的预处理结果进行特征抽取。例如,特征抽取模块324可以根据需求选择字、词、以及字词组成的二元字符串作为特征。如同以前所述,第一步选用的特征,应该具有较强的覆盖能力,有较强的分辨能力,因此选取经过分词的普通词语作为特征,识别效果要优于单个字或词语组合;第二步选用的特征,应该能够对第一步识别结果不可靠的那些文本具有较强的分辨能力,并且语义特征要更加突出,而词语组合正好具有较好的语义特性,例如词语组合“商品属性”比单个词语“商品”、“属性”具有更强的语义效果,因此第二步选择文本分词以后两个相邻的二元词串作为特征。
[0040]特征选择模块326对特征抽取模块324所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到由向量空间模型VSM表示的特征空间。例如,特征选择可采用的方法包括词频(Term Frequency)统计法、文档频率(DocumentFrequency)统计法、逆文档频率(IDF)法、互信息法、CHI方统计法、信息增益法等。例如,特征选择模块316可以采用CHI方统计法进行特征选择。
[0041]信息源分块识别模块330用于根据文本点在二维空间的分布,将测试文本集合划分为模糊区A和非模糊区B,首先以字或词作为特征,对模糊区A进行分类识别,再以由相邻两个字或词组成的二元字符串作为特征,对非模糊区B进行分类识别。
[0042]在一个实施例中,信息源分块识别模块330包括区域划分模块332、第一分类识别模块334、第二分类识别模块336。区域划分模块332可以用于根据文本点在二维空间的分布将测试文本集合划分为模糊区A和非模糊区B。第一分类识别模块334可以用于以字或词作为特征对模糊区A进行分类识别。第二分类识别模块334可以用于相邻两个字或词组成的二元字符串作为特征对非模糊区B进行分类识别。
[0043]例如,信息源分块识别模块330可任意采用贝叶斯或者K-means作为分类算法来训练分类器,以将测试文本集合分割为两部分:模糊区外的文本集合A,模糊区内的文本集合B。[0044]具体地,以贝叶斯分类算法为例,给定二值文本向量d= (W1, w2,...,wD)(其中,Wi=O或者I ;如果第i个特征出现在文本d中,Wi=I,否则Wi=O),文本dx属于类别Cj的概率可表示为P (Cj I dx),经过计算以后将文本dx分到所得值最大的类别,P (Cj I dx)的计算公式可以表示为:
【权利要求】
1.一种用于识别敏感文本信息的系统,包括: 数据训练模块,用于将训练文本表示为向量空间形式的特征空间模型; 数据测试模块,用于将测试文本表示为向量空间形式的特征空间模型;以及信息源分块识别模块,用于根据文本点在二维空间的分布,将测试文本集合划分为模糊区和非模糊区以及对模糊区和非模糊区分别进行分类识别。
2.根据权利要求1所述的系统,其中,所述数据训练模块包括: 训练文本预处理模块,用于对训练文本进行预处理; 特征抽取模块,用于根据所述训练文本预处理模块的预处理结果进行特征抽取;以及特征选择模块,用于对所述特征抽取模块所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到特征空间。
3.根据权利要求1所述的系统,其中,所述数据测试模块包括: 测试文本预处理模块,用于对测试文本进行预处理; 特征抽取模块,用于根据所述测试文本预处理模块的预处理结果进行特征抽取;以及特征选择模块,用于对所述特征抽取模块所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到特征空间。
4.根据权利要求1所述的系 统,其中,所述信息源分块识别模块包括: 区域划分模块,用于根据文本点在二维空间的分布将所述测试文本集合划分为所述模糊区和所述非模糊区; 第一分类识别模块,用于以字或词作为特征对所述模糊区进行分类识别;以及第二分类识别模块,用于以相邻两个字或词组成的二元字符串作为特征对所述非模糊区进行分类识别。
5.根据权利要求4所述的系统,其中所述字或词是通过分词工具获得的。
6.一种用于识别敏感文本信息的方法,包括: 将训练文本表示为向量空间形式的特征空间模型; 将测试文本表示为向量空间形式的特征空间模型; 根据文本点在二维空间的分布,将测试文本集合划分为模糊区和非模糊区; 以字或词作为特征,对所述模糊区进行分类识别;以及 以由相邻两个字或词组成的二元字符串作为特征,对所述非模糊区进行分类识别。
7.根据权利要求6所述的方法,其中将训练文本表示为向量空间形式的特征空间模型包括: 对训练文本进行预处理; 对预处理结果进行特征抽取; 对所抽取的特征进行特征选择。
8.根据权利要求6所述的方法,其中将测试文本表示为向量空间形式的特征空间模型包括: 对测试文本进行预处理; 对预处理结果进行特征抽取; 对所抽取的特征进行特征选择。
9.根据权利要求6所述的方法,其中,所述字或词是通过分词工具获得的。
10.根据权利要求6所述的方法,其中,采用贝叶斯或者K-means作为分类算法来训练分类器,以将测试文本集合分割为所述模`糊区和所述非模糊区。
【文档编号】G06F17/27GK103761221SQ201310749656
【公开日】2014年4月30日 申请日期:2013年12月31日 优先权日:2013年12月31日
【发明者】何泉昊, 权圣, 陆强 申请人:北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1