关键词扩展方法和关键词扩展系统与流程

文档序号:12363840阅读:221来源:国知局
关键词扩展方法和关键词扩展系统与流程
本发明涉及计算机
技术领域
,具体而言,涉及一种关键词扩展方法和一种关键词扩展系统。
背景技术
:目前,随着互联网的普及和网民数量的逐年增多,特别是随着Web2.0等交互式技术发展应用,使得互联网中的信息日益提高,互联网舆情事件呈现逐年增多的趋势,且互联网中的信息可能包含有敏感信息,因此,对互联网中的信息进行检测是十分必要的。相关技术中对敏感信息的检测的方案是以关键词为基础,通过建立规则和匹配算法,实现敏感信息的检测和过滤,这对于新闻等具有严格语用语法规范的文本具有较好的效果。但是,互联网中的信息具有不完整、不规范、复杂多变的特点,仅通过基于关键词规则的过滤方法,不能实现有效监测。为了解决用户生成信息杂乱无章给信息过滤带来的新问题,相关技术中的解决方案是通过语义词典的来扩充关键词的同义词和近义词,进而达到识别互联网中的敏感信息的目的,相关技术的方案能够在一定程度上提高信息监测的效果。但是,在新形式下,互联网信息相互融合,网络新词频繁出现,特别是在特殊话题中大量通过各种变异来逃避审查,使得相关技术中的基于近义词和同义词的敏感信息的过滤方法不能满足实际应用需求。因此,如何全面地检测出具有敏感信息但经过变异的词,成为亟待解决的问题。技术实现要素:本发明正是基于上述问题,提出了一种新的技术方案,可以全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。有鉴于此,本发明的一方面提出了一种关键词扩展方法,包括:通过关键词获取模块在当前数据中获取关键词;通过初始扩展模块对所述关键词进行初始扩展,以确定所述关键词的初始扩展词;通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据所述词权重在所述多个目标样本词中提取所述候选词;通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词。在该技术方案中,对关键词进行初始扩展得到初始扩展词,然后将候选词与关键词及初始扩展词进行匹配,当候选词与关键词或初始扩展词匹配时,则确定关键词的目标扩展词,因此,即使包含有敏感信息的候选词经过多种变异等处理,也能通过关键词及初始扩展词确定具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。在上述技术方案中,优选地,所述对所述关键词进行初始扩展的方式包括以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式。在该技术方案中,对关键词进行初始扩展的方式包括但不限于以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式,从而使关键词的初始扩展词更加多样化,这样,即使具有敏感信息的候选词经过多次或多种变异,也能够识别出具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息候选词,通过对关键词进行扩展也能识别出具有敏感信息的候选词,其中,变形词扩展方式通过对关键词进行字形拆分处理,实现对关键词的字形的扩展,同音词扩展方式和拼音词扩展方式是根据关键词的拼音,对关键词进行拼音的扩展,当然,也可以通过多种初始扩展的方式相结合对关键词进行初始扩展,例如,在对关键词通过变形词扩展方式进行扩展之后,然后在变形词扩展方式的基础上再次通过同音词扩展方式进行初始扩展。在上述技术方案中,优选地,在所述提取所述候选词之前,还包括: 通过噪音信息删除模块删除所述样本数据库中的多个样本数据中的噪音信息,其中,所述噪音信息为包含特殊符号、特定字符串和/或特定表达式的信息,和/或通过重复样本删除模块删除所述多个样本数据中的重复样本数据;以及通过分词处理模块对完成删除处理后的所述多个样本数据进行分词处理,得到所述多个目标样本词。在该技术方案中,在提取候选词之前,删除多个样本数据中的噪音信息,即删除了多个样本数据中的无用信息,不仅可以提高提取候选词的准确性,还提高了提取候选词的处理效率,和/或删除多个样本数据中的重复样本数据,从而降低了重复样本数据给词权重计算带来的不公平性,从而提高了提取候选词的准确性,另外,在完成删除处理后的多个样本数据进行分词处理,得到目标样本数据,从而可以在目标样本数据中获取候选词。在上述技术方案中,优选地,所述词权重计算公式为:w(z)=b×a×tf×log(d1+df)]]>z表示任一所述目标样本词,w(z)表示任一所述目标样本词的词权重,b表示任一所述目标样本词的经验系数,a表示任一所述目标样本词的类别系数,tf表示任一所述目标样本词在所述多个样本数据中出现的次数,d表示所述多个样本数据的数量,df表示具有任一所述目标样本词的所述样本数据的数量。在该技术方案中,通过词权重计算公式,可以准确计算出每个目标样本词的词权重,并将每个目标样本词的词权重按照由大到小或由小到大的顺序进行排序,将预设数量且词权重较大的目标样本词作为候选词,从而使获取到的候选词更加准确。在上述技术方案中,优选地,所述通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词,具体包括:匹配模块通过直接匹配方式和/或间接匹配方式,将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述目标扩展词。在该技术方案中,通过直接匹配方式获取目标扩展词,例如,直接匹配方式为音形义匹配方式,当候选词与关键词及初始扩展词在音、形和/ 或义方面存在相同或相似,则确定候选词、关键词和/或初始扩展词为目标扩展词,从而保证了目标扩展词的准确性,另外,通过间接匹配方式获取目标扩展词,例如,间接匹配方式为上下文匹配方式,如果候选词与关键词及初始扩展词之间具有相似的上下文环境,则确定候选词、关键词和/或初始扩展词为目标扩展词,这样,即使候选词与关键词及初始扩展词之间没有明显相似的特征或候选词为新词,也可以全面地确定具有敏感信息的候选词。本发明的另一方面提出了一种关键词扩展系统,包括:关键词获取模块,在当前数据中获取关键词;初始扩展模块,对所述关键词进行初始扩展,以确定所述关键词的初始扩展词;候选词提取模块,使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据所述词权重在所述多个目标样本词中提取所述候选词;匹配模块,将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词。在该技术方案中,对关键词进行初始扩展得到初始扩展词,然后将候选词与关键词及初始扩展词进行匹配,当候选词与关键词或初始扩展词匹配时,则确定关键词的目标扩展词,因此,即使包含有敏感信息的候选词经过多种变异等处理,也能通过关键词及初始扩展词确定具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。在上述技术方案中,优选地,所述对所述关键词进行初始扩展的方式包括以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式。在该技术方案中,对关键词进行初始扩展的方式包括但不限于以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式,从而使关键词的初始扩展词更加多样化,这样,即使具有敏感信息的候选词经过多次或多种变异,也能够识别出具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息候选词,通过对关键词进行扩展也能识别出具有敏感信息的候选词,其中,变形词扩展方式通过对关键词进行字形 拆分处理,实现对关键词的字形的扩展,同音词扩展方式和拼音词扩展方式是根据关键词的拼音,对关键词进行拼音的扩展,当然,也可以通过多种初始扩展的方式相结合对关键词进行初始扩展,例如,在对关键词通过变形词扩展方式进行扩展之后,然后在变形词扩展方式的基础上再次通过同音词扩展方式进行初始扩展。在上述技术方案中,优选地,还包括:噪音信息删除模块,删除所述样本数据库中的多个样本数据中的噪音信息,其中,所述噪音信息为包含特殊符号、特定字符串和/或特定表达式的信息,和/或重复样本删除模块,删除所述多个样本数据中的重复样本数据;以及分词处理模块,对完成删除处理后的所述多个样本数据进行分词处理,得到所述多个目标样本词。在该技术方案中,在提取候选词之前,删除多个样本数据中的噪音信息,即删除了多个样本数据中的无用信息,不仅可以提高提取候选词的准确性,还提高了提取候选词的处理效率,和/或删除多个样本数据中的重复样本数据,从而降低了重复样本数据给词权重计算带来的不公平性,从而提高了提取候选词的准确性,另外,在完成删除处理后的多个样本数据进行分词处理,得到目标样本数据,从而可以在目标样本数据中获取候选词。在上述技术方案中,优选地,所述词权重计算公式为:w(z)=b×a×tf×log(d1+df)]]>z表示任一所述目标样本词,w(z)表示任一所述目标样本词的词权重,b表示任一所述目标样本词的经验系数,a表示任一所述目标样本词的类别系数,tf表示任一所述目标样本词在所述多个样本数据中出现的次数,d表示所述多个样本数据的数量,df表示具有任一所述目标样本词的所述样本数据的数量。在该技术方案中,通过词权重计算公式,可以准确计算出每个目标样本词的词权重,并将每个目标样本词的词权重按照由大到小或由小到大的顺序进行排序,将预设数量且词权重较大的目标样本词作为候选词,从而使获取到的候选词更加准确。在上述技术方案中,优选地,所述匹配模块具体用于:通过直接匹配 方式和/或间接匹配方式,将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述目标扩展词。在该技术方案中,通过直接匹配方式获取目标扩展词,例如,直接匹配方式为音形义匹配方式,当候选词与关键词及初始扩展词在音、形和/或义方面存在相同或相似,则确定候选词、关键词和/或初始扩展词为目标扩展词,从而保证了目标扩展词的准确性,另外,通过间接匹配方式获取目标扩展词,例如,间接匹配方式为上下文匹配方式,如果候选词与关键词及初始扩展词之间具有相似的上下文环境,则确定候选词、关键词和/或初始扩展词为目标扩展词,这样,即使候选词与关键词及初始扩展词之间没有明显相似的特征或候选词为新词,也可以全面地确定具有敏感信息的候选词。通过本发明的技术方案,通过对关键词进行扩展,可以全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。附图说明图1示出了根据本发明的一个实施例的关键词扩展方法的流程示意图;图2示出了根据本发明的一个实施例的关键词扩展系统的结构示意图;图3示出了根据本发明的另一个实施例的关键词扩展系统的结构示意图;图4示出了根据本发明的一个实施例的关键词扩展系统的原理示意图。具体实施方式为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。图1示出了根据本发明的一个实施例的关键词扩展方法的流程示意图。如图1所示,根据本发明的一个实施例的关键词扩展方法,包括:步骤102,通过关键词获取模块在当前数据中获取关键词。步骤104,通过初始扩展模块对关键词进行初始扩展,以确定关键词的初始扩展词。步骤106,通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据所述词权重在所述多个目标样本词中提取所述候选词。步骤108,通过匹配模块将每个候选词与关键词及初始扩展词进行匹配,以获取关键词的目标扩展词。在该技术方案中,对关键词进行初始扩展得到初始扩展词,再将候选词与关键词及初始扩展词进行匹配,当候选词与关键词或初始扩展词匹配时,则确定关键词的目标扩展词,因此,即使包含有敏感信息的候选词经过多种变异等处理,也能通过关键词及初始扩展词确定具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。在上述技术方案中,优选地,对关键词进行初始扩展的方式包括以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式。在该技术方案中,对关键词进行初始扩展的方式包括但不限于以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式,从而使关键词的初始扩展词更加多样化,这样,即使具有敏感信息的候选词经过多次或多种变异,也能够识别出具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息候选词,通过对关键词进行扩展也能识别出具有敏感信息的候选词,其中,变形词扩展方式通过对关键词进行字形拆分处理,实现对关键词的字形的扩展,同音词扩展方式和拼音词扩展方式是根据关键词的拼音,对关键词进行拼音的扩展,当然,也可以通过多种初始扩展的方式相结合对关键词进行初始扩展,例如,在对关键词通过变形词扩展方式进行扩展之后,然后在变形词扩展方式的基础上再次通过同音词扩展方式进行初始扩展。在上述技术方案中,优选地,在步骤106之前,还包括:通过噪音信息删除模块删除样本数据库中的多个样本数据中的噪音信息,其中,噪音信息为包含特殊符号、特定字符串和/或特定表达式的信息,和/或通过重 复样本删除模块删除多个样本数据中的重复样本数据;以及通过分词处理模块对完成删除处理后的多个样本数据进行分词处理,以获取目标样本词。在该技术方案中,在提取候选词之前,删除多个样本数据中的噪音信息,即删除了多个样本数据中的无用信息,不仅可以提高提取候选词的准确性,还提高了提取候选词的处理效率,和/或删除多个样本数据中的重复样本数据,从而降低了重复样本数据给词权重计算带来的不公平性,从而提高了提取候选词的准确性,另外,在完成删除处理后的多个样本数据进行分词处理,得到目标样本数据,从而可以在目标样本数据中获取候选词。在上述技术方案中,优选地,词权重计算公式为:w(z)=b×a×tf×log(d1+df)]]>z表示任一目标样本词,w(z)表示任一目标样本词的词权重,b表示任一目标样本词的经验系数,a表示任一目标样本词的类别系数,tf表示任一目标样本词在多个样本数据中出现的次数,d表示多个样本数据的数量,df表示具有任一目标样本词的样本数据的数量。在该技术方案中,通过词权重计算公式,可以准确计算出每个目标样本词的词权重,并将每个目标样本词的词权重按照由大到小或由小到大的顺序进行排序,将预设数量且词权重较大的目标样本词作为候选词,从而使获取到的候选词更加准确。在上述技术方案中,优选地,通过匹配模块将每个候选词与关键词及初始扩展词进行匹配,以获取关键词的目标扩展词,具体包括:匹配模块通过直接匹配方式和/或间接匹配方式,将每个候选词与关键词及初始扩展词进行匹配,以获取目标扩展词。在该技术方案中,通过直接匹配方式获取目标扩展词,例如,直接匹配方式为音形义匹配方式,当候选词与关键词及初始扩展词在音、形和/或义方面存在相同或相似,则确定候选词、关键词和/或初始扩展词为目标扩展词,从而保证了目标扩展词的准确性,另外,通过间接匹配方式获取目标扩展词,例如,间接匹配方式为上下文匹配方式,如果候选词与关键词及初始扩展词之间具有相似的上下文环境,则确定候选词、关键词和 /或初始扩展词为目标扩展词,这样,即使候选词与关键词及初始扩展词之间没有明显相似的特征或候选词为新词,也可以全面地确定具有敏感信息的候选词。图2示出了根据本发明的一个实施例的关键词扩展系统的结构示意图。如图2所示,本发明的实施例的关键词扩展系统200,包括:关键词获取模块202,在当前数据中获取关键词;初始扩展模块204,对关键词进行初始扩展,以确定关键词的初始扩展词;候选词提取模块206,使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据所述词权重在所述多个目标样本词中提取所述候选词;匹配模块208,将每个候选词与关键词及初始扩展词进行匹配,以获取关键词的目标扩展词。在该技术方案中,对关键词进行初始扩展得到初始扩展词,然后将候选词与关键词及初始扩展词进行匹配,当候选词与关键词或初始扩展词匹配时,则确定关键词的目标扩展词,因此,即使包含有敏感信息的候选词经过多种变异等处理,也能通过关键词及初始扩展词确定具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。在上述技术方案中,优选地,对关键词进行初始扩展的方式包括以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式。在该技术方案中,对关键词进行初始扩展的方式包括但不限于以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式,从而使关键词的初始扩展词更加多样化,这样,即使具有敏感信息的候选词经过多次或多种变异,也能够识别出具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息候选词,通过对关键词进行扩展也能识别出具有敏感信息的候选词,其中,变形词扩展方式通过对关键词进行字形拆分处理,实现对关键词的字形的扩展,同音词扩展方式和拼音词扩展方式是根据关键词的拼音,对关键词进行拼音的扩展,当然,也可以通过多种初始扩展的方式相结合对关键词进行初始扩展,例如,在对关键词通过变形词扩展方式进行扩展之后,然后在变形词扩展方式的基础上再次通过 同音词扩展方式进行初始扩展。在上述技术方案中,优选地,还包括:噪音信息删除模块210,删除样本数据库中的多个样本数据中的噪音信息,其中,噪音信息为包含特殊符号、特定字符串和/或特定表达式的信息,和/或重复样本删除模块212,删除多个样本数据中的重复样本数据;以及分词处理模块214,对完成删除处理后的多个样本数据进行分词处理,得到所述多个目标样本词。在该技术方案中,在提取候选词之前,删除多个样本数据中的噪音信息,即删除了多个样本数据中的无用信息,不仅可以提高提取候选词的准确性,还提高了提取候选词的处理效率,和/或删除多个样本数据中的重复样本数据,从而降低了重复样本数据给词权重计算带来的不公平性,从而提高了提取候选词的准确性,另外,在完成删除处理后的多个样本数据进行分词处理,得到目标样本数据,从而可以在目标样本数据中获取候选词。在上述技术方案中,优选地,词权重计算公式为:w(z)=b×a×tf×log(d1+df)]]>z表示任一目标样本词,w(z)表示任一目标样本词的词权重,b表示任一目标样本词的经验系数,a表示任一目标样本词的类别系数,tf表示任一目标样本词在多个样本数据中出现的次数,d表示多个样本数据的数量,df表示具有任一目标样本词的样本数据的数量。在该技术方案中,通过词权重计算公式,可以准确计算出每个目标样本词的词权重,并将每个目标样本词的词权重按照由大到小或由小到大的顺序进行排序,将预设数量且词权重较大的目标样本词作为候选词,从而使获取到的候选词更加准确。在上述技术方案中,优选地,匹配模块208具体用于:通过直接匹配方式和/或间接匹配方式,将每个候选词与关键词及初始扩展词进行匹配,以获取目标扩展词。在该技术方案中,通过直接匹配方式获取目标扩展词,例如,直接匹配方式为音形义匹配方式,当候选词与关键词及初始扩展词在音、形和/或义方面存在相同或相似,则确定候选词、关键词和/或初始扩展词为目 标扩展词,从而保证了目标扩展词的准确性,另外,通过间接匹配方式获取目标扩展词,例如,间接匹配方式为上下文匹配方式,如果候选词与关键词及初始扩展词之间具有相似的上下文环境,则确定候选词、关键词和/或初始扩展词为目标扩展词,这样,即使候选词与关键词及初始扩展词之间没有明显相似的特征或候选词为新词,也可以全面地确定具有敏感信息的候选词。图3示出了根据本发明的另一个实施例的关键词扩展系统的结构示意图。如图3所示,根据本发明的另一个实施例的关键词扩展系统300(相当于图2示出的实施例的关键词扩展系统200),包括:关键词初始扩展模块302(相当于图2示出的实施例的初始扩展模块204)、候选词提取模块304(相当于图2示出的实施例的候选词提取模块206)和词汇关联分析模块306(相当于图2示出的实施例的匹配模块208)。关键词初始扩展模块302,用于对关键词进行初始扩展,其中,对关键词进行初始扩展的方式包括:变形词扩展方式、同音词扩展方式、拼音词扩展方式和组合扩展方式。具体地,变形词扩展方式是通过对关键词进行字形拆分处理,实现关键词的变形形式扩展;同音词扩展方式和拼音词扩展方式是在字形拆分的基础上,根据拼音字典,对关键词和关键词的变形形式进行拼音扩展;组合扩展方式是结合变形词扩展方式、同音词扩展方式、拼音词扩展方式等方式的扩展,形成多种组合的关键词扩展形式。候选词提取模块304,通过识别样本数据库中的多个样本数据中可能包含敏感信息的候选词,以为关键词作进一步扩展。候选词提取方法主要包括噪声过滤、文本去重、文本分词、词权重计算和候选词选择等五个方面。词汇关联分析模块306,通过词汇关联分析方法,结合关键词及初始扩展词,来准确发现目标扩展词。词汇关联分析方法主要包括直接比较法和间接分析方法两种。图4示出了根据本发明的一个实施例的关键词扩展系统的原理示意图。下面结合图4详细说明本发明的技术方案:1:对关键词进行初始扩展,具体来说,本发明通过对关键词进行初始扩展得到关键词的初始扩展词,形成包含初始扩展词的关键词初始扩展词库(如图4所示)。具体地包括:●变形词扩展方式对关键词进行字形拆分,字形拆分是根据字形拆分词典对关键词中的每个字逐一进行拆分,得到所有可能的关键词的初始扩展词。字形拆分字典的内容为由人工从网络上收集,经分析、整理、加工后得到的关于每个汉字的拆分形式信息。为了避免由于关键词过长导致拆分后得到的关键词变异形式过多,从而造成后续匹配处理耗用时间过长、占用过多系统资源的问题,可以限定只对用户输入的关键词中的前几个字进行拆分,在具体的实施过程中,可以选择只对关键词中的前4个字进行拆分处理。例如,关键词为“地下刊物”,关键词“地下刊物”的初始扩展词为“土也下刊物”等7中变异形式。其中,对关键词进行初始扩展的扩展结果(拆分结果)如表1所示。表1●同音词扩展方式和拼音词扩展方式为了能够识别同音字和用拼音代替文字的变异形式,需要在字形拆分的基础上,根据拼音字典,通过同音词扩展方式和/或拼音词扩展方式对关键词和关键词的变异形式进行拼音扩展,例如关键词“地下刊物”及初始扩展词的拼音编码对照结果。对于少见的生僻字,如“氵”,可能由于拼音字典内容信息少而无法转换为对应的拼音,这时可以用一个特殊的字符作为该字的拼音。其中,关键词及初始扩展词的相关信息如表2所示。表2在实际应用中,为了节省存储空间以及后续处理的便捷,可以根据拼音字典,在将关键词和的初始扩展词中的每个字转换为对应拼音或特殊字符后,再对其进行编码处理。在对关键词和关键词变异形式进行拼音编码转换的基础上,通过建立关键词的初始扩展词的索引表,实现关键词的快速检索。索引表中每个记录的结构包含索引值,标号信息、字符串信息、长度信息、指向下一个链表节点的指针信息等数据。●多种组合扩展●实际互联网环境中,关键词可能是上述几种方式的组合变异形式,因此,需要结合变形、同音、拼音等扩展,形成多种初始扩展词。对于给定的关键词,具体处理过程为:首选判断关键词是否能够进行字形拆分,如果能够通过变形词扩展方式进行拆分,则进行关键词的变形词扩展;其次,通过同音词扩展方式和拼音词扩展方式进行同音和拼音词扩展,最后,通过拼音和汉字组合,形成多种初始扩展词。2:候选词提取为了解决突发应急事件中信息检测滞后问题,尽可能早的进行突发应急事件的预警分析,本专利提出了候选词提取方法,通过识别样本样例库中包含的可疑敏感词,为关键词的进一步扩展,提供候选词,最终达到提高信息检测和舆情分析及时准确的目的。候选词提取的具体包括:噪声过滤、文本去重、文本分词、词权重计算和候选词选择。下面将详细说明候选词提取:●噪声过滤噪声过滤通过一定规则过滤掉文本常用字符串、特定表达方式和特殊 应用形式,限定候选词抽取得范围。由于样本数据中包含大量无效信息,不仅降低了处理效率,而且影响候选词提取的效果。本发明采用基于规则过滤方法进行降噪处理,首先通过观察样本数据的提取规则,以微博消息为例,主要规则包括①表情符号(一般以“[文本]”形式出现)噪声,②“html标签”噪声,③“@用户名”噪声,④“//@用户名”噪声;其次,通过规则匹配的方法,去掉待处理样本数据中包含的噪音信息,具体方法为:对于一篇样本数据,进行遍历,依次和每个规则进行匹配,如果成功匹配到某个规则,则将该样本数据做为噪声处理。●文本去重文本去重主要负责去除重复文本,降低重复文本对候选词抽取得影响。由于样本数据存在冗余现象,为了降低重复内容给词权重计算带来的不公平性,需要进行文本去重处理。本研究拟将每篇文本映射成一个64位的指纹信息,然后通过比较生成的指纹信息的差异性来确定是否为重复样本数据。具体地:顺序处理多个样本数据中的每个样本数据,生成每个样本数据的指纹信息,判断多个样本数据中的任一样本数据的指纹信息与多个样本数据中的其他样本数据的指纹信息进行比较,确定指纹信息差异性是否存在3位以内的,如果存在,判定任一样本数据为重复文本,丢弃掉,否则,将任一样本数据的指纹信息加入到已有的指纹信息库中,其中,其他样本数据为多个样本数据中的除任一样本数据之外的样本数据。●文本分词文本分词主要负责对样本数据库中的多个样本数据进行分词,得到分词后的目标样本词,并统计每个目标样本词的经验系数(经验系数是指目标样本词的新词系数,例如,当目标样本词为新词时,该目标样本词的新词系数为第一预设值,当目标样本词不是新词时,该目标样本词的新词系数为第二预设值)、目标样本词的类别系数、目标样本词在所述多个样本数据中出现的次数、多个样本数据的数量和具有目标样本词的样本数据的数量。具体地:首先,建立如表3所示的词索引表和如表4所示的文本索引表;其次,对于多个样本数据,调用分词方法对每个样本数据进行分词和词性标注;再次,遍历每个样本数据的分词结果,对于每个不重复词分配一个索引号,保存到词索引表中,对于每个样本数据分配一个索引号, 按照所包含目标样本词的位置前后关系,将此目标样本词的索引号保存到样本数据所对应的索引表的索引项中;最后,对于每个目标样本词,遍历每个样本数据,统计目标样本词在所述多个样本数据中出现的次数tf,统计具有任一目标样本词的样本数据的数量df,然后更新词索引表中对应索引项的信息。其中,表3和表4如下所示:表3词索引词词性词频文本数词权重171中国/ns9563302.1706北韩/cw2816216.6679台湾/ns6048214.37成为/v9876367.2………………表4文本索引词索引词索引词索引词索引3911511661166…75237914591460…756661389379…77617776871965…7………………●词权重计算词权重计算主要负责计算每个目标样本词的词权重。遍历词索引表,结合词性、词频和是否新词来计算每个词的权重。词term权重的计算公式如下:w(term)=b×a×tf×log(d1+df)]]>其中,w(term)表示任一目标样本词的词权重,b表示任一目标样本词的经验系数,a表示任一目标样本词的类别系数,tf表示任一目标样本词在多个样本数据中出现的次数,d表示多个样本数据的数量,df表示具有任一目标样本词的样本数据的数量,a是根据term不同的词性取不同的值,a,b具体取值情况可以通过具体的实验分析和经验来得到。●候选词提取候选词提取主要结合停用词表综合考量词性、词权重来实现候选词提取。计算词权重的计算结果会包含大量的目标样本词,但由于某个特定关键词的扩展词数量有限,因此不可能也没有必要选取所有的目标样本词作为最终结果。在该技术方案中提取候选词,具体地:首先,按照权重由大到小对目标样本词进行排序,其次,选取词性为/a形容词,/v动词,/j简称,/ns地名,/nr人名,/nt机构名,/nz专有名词,并且不包含在停用词表中的词作为候选词,形成候选词集。3:词汇关联分析由于用户网络语言的多变性,基于规则的关键词的初级扩展得到初级扩展词,不一定是实际业务过程中确实出现的关键词变异形式,往往隐含在一些新词和高频词中。为了有效提取关键词扩展形式,该技术方案结合关键词初级扩展结果和候选词集,通过词汇关联分析的方法,来准确发现关键词的扩展形式,从而提高信息监测和舆情分析的准确性。词汇关联分析主要采用两种方法,一种是直接通过比较词之间的音形义,来实现关键词的扩展,该方法适用于候选词与关键词及初始扩展词之间确实存在音形义相同的情况,并且具有较高的准确性;另外一种就是间接分析方法,用来处理候选词与关键词及初始扩展词之间别没有明显相似特征的情况,该法拟通过分析词语之间的关联关系,来实现关键词扩展。下面具体描述两种方法具体细节:●直接匹配方式将候选词集中每个候选词(W)和关键词(KW)及其初级扩展词进行比较,包括音形义的比较,如果任一项匹配成功,则认为W是KW的扩展词,否则,不予处理。例如关键词“十八大”和“斯巴达”音相同,可以直接匹配,判定后者是前者扩展词。●间接匹配方式实际网络环境中,关键词“六四”和“535”极少同时出现在一篇文本中,无法直接给予词之间的同现信息来测量它们之间的相关性。但是,上述候选词与关键词之间很可能具有相似的上下文环境,即通过比较候选词与关键词之间的上下文信息的重合度来实现关键词的关联,即“六四” 上下文中具有较强相关性的词簇和“535”上下文中具有较强相关性的词簇进行比较,来确定“六四”和“535”之间的关联。同时,我们将综合考虑词串重复度等多种因素进行综合打分,例如“六四”和“535”都是数字的表达形式,“康师傅”和“周永康”、“法轮功”和“轮子”都含有部分相同的字,从而通过间接匹配方式可以识别出轮子(法轮功成员)、康师傅(周永康)的词,而类似于这些词都是相关技术中不能识别出的。以上结合附图详细说明了本发明的技术方案,通过对关键词进行扩展,可以全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1