一种变形词证认系统及证认方法

文档序号:6384104阅读:174来源:国知局
专利名称:一种变形词证认系统及证认方法
技术领域
本发明涉及一种对变形词进行检测证认的系统,同时也涉及该系统实现变形词检测证认的方法,属于计算机自然语言处理技术领域。
背景技术
随着互联网的推广普及,现实生活中开始出现越来越多的网络语言。网络语言的一个显著特点在于变形词特别多,例如用“886”表示“再见”,“3Q”表示“谢谢”,“童鞋”表示“同学”等等。另一方面,有些作者为了规避机器自动检测,故意选用错字、别字、同音字等变形词替换原形词。这些变形词的出现给计算机自然语言处理带来了巨大的技术挑战,需要研发出专门的变形词检测技术加以解决。目前,现有的变形词检测技术大多基于变形词库实现,主要在变形词检测的技术实现上有所不同,例如有的变形词检测技术是在分离变形词部分后与原形词进行匹配。在申请号为98105507. 9的中国专利申请中,公开了一种不连续短语的匹配翻译装置和方法。该装置包括一个句子获取装置,从一篇文章或文章片断的指定的位置获取一个句子;变形词辨析装置,根据变形词取得其原形;短语辨析装置,将有关的短语信息位置取出并送到短语索引装置中;短语索引装置,根据短语辨析装置的输入,将涉及有关单词的短语全部取出进行匹配;以及语法规则快速确认装置,根据相关的语法规则,判断所识别出的语言成分是否符合语法规则。另外,在申请号为200810224894. 7的中国专利申请中,也公开了一种敏感词校对的方法及系统。该方法包括如下步骤通过组成敏感词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;从被校对文本中获取被校对词,通过组成被校对词的汉字内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;若被校对词与敏感词,彼此之间的拼音字母组成信息相同,则确定被校对词为敏感词,因此通过语音校对,使得敏感词的变形词可以被校对出来,提高了敏感词的校对准确率。

发明内容
本发明所要解决的技术问题在于提供一种变形词证认系统及证认方法。该技术方案将变形词的检测与证认有机结合,从而使变形词判别结论有语义依据。为实现上述的发明目的,本发明采用下述的技术方案—种变形词证认系统,包括原形词提供模块、变形词生成模块、变形词库、变形词检测模块、证认模块、概念库及变形词判别模块;其中,所述原形词提供模块与所述变形词生成模块连接,所述变形词生成模块分别连接所述变形词库和所述变形词检测模块,所述证认模块分别与所述变形词检测模块、所述变形词判别模块和所述概念库进行连接;所述原形词提供模块提供原形词,所述变形词生成模块在所述变形词库中查找所述原形词的变形词,将所述变形词提供给所述变形词检测模块,所述证认模块通过所述概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,所述变形词判别模块通过所述相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为所述原形词的变形词的结论。其中较优地,所述变形词证认系统中还包括数据提供模块,所述数据提供模块分别与所述变形词检测模块和所述证认模块进行连接。其中较优地,所述变形词库中以原形词为主键,记录所述原形词的变形词;所述变形词包括但不限于汉语拼音、同音词、拼音首字母词、易混词、拆字变形词、英语同音词。其中较优地,所述概念库是以原形词为节点的无向图,在节点之间以边相连,每条边表示两个节点的原形词属于相同的概念集合。其中较优地,所述概念集合是与原形词节点相连的一级节点的集合。一种变形词证认方法,包括如下步骤首先通过原形词,在变形词库查询其对应的变形词;在得到原形词及变形词后,在待检测数据中做匹配运算,如果得到对应的变形词则继续,否则退出变形词证认;如果待检测数据中存在变形词,将变形词前后一定范围内的文本数据作为语义背

牙、;通过原形词在概念库中查找与所述原形词相关的概念集合,计算所述概念集合与所述语义背景间的相似性,利用相似性度量变形词是所述原形词的变形词的信度值;通过预先设定的判别阈值与所述信度值进行比较,得出变形词是不是所述原形词的变形词的结论。其中较优地,在查询变形词的过程中,通过指定变形词类别作为过滤条件,得到所述原形词的不同形式的变形词。本发明所提供的变形词证认系统及证认方法能够对常见词的各种变形词进行机器自动检测。在变形词证认的过程中,通过检测与证认的有机结合,对变形词的信度进行了有语义依据的评估,从而使变形词的判别结论有效可信。


图1是本发明所提供的变形词证认系统的整体结构示意图;图2是本变形词证认系统中,变形词库的表结构示意图;图3是本变形词证认系统中,概念库中节点的连接关系示意图。
具体实施例方式本发明所提供的变形词证认系统的一个技术特点是指定原形词,根据变形词库的变形词形与文本数据进行匹配。如图1所示,该变形词证认系统由原形词提供模块、变形词生成模块、变形词库、变形词检测模块和数据提供模块、证认模块、概念库及变形词判别模块组成。其中,原形词提供模块确定原形词的词形。它与变形词生成模块连接,向其提供原形词。变形词生成模块在变形词库中查找原形词的不同形式的变形词,例如汉语拼音词、同音词、拼音首字母词、易混词、拆字变形词、常见英语同音词等,并将这些变形词提供给变形词检测模块。数据提供模块分别与变形词检测模块和证认模块进行连接,向它们提供待检测的数据。这里的待检测数据通常是一段文本数据。变形词检测模块用于实现对文本数据的词语检测,检测范围包括原形词本身及其变形词形式。证认模块分别与变形词检测模块、变形词判别模块和概念库进行连接,用于通过概念库的支持,检测文本数据的语义背景与原形词概念集合的相似程度。变形词判别模块通过上述的相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为指定原形词的变形词的结论。在变形词的实现上,本发明首先提供需要检测变形词的原形词。具体地说,由原形词提供模块提供原形词的词形,指定对哪个词形进行变形词检测及证认。如图2所示,变形词库中以原形词为主键,记录原形词的不同形式的变形词,如汉语拼音、同音词、拼音首字母词、易混词、拆字变形词、常见英语同音词等变形词。这些变形词可以在原形词的基础上,利用常见变形词的组词规律,由计算机自动生成。通过变形词库的支持,可以查询原形词存储在变形词库中的变形词形式。变形词生成模块通过已知的原形词及变形词组词规律,在变形词库中查询出所有的变形词形式。在查询结果的筛选上,通过变形词生成模块可以控制查询返回的变形词类别。本发明中的概念库是一个知识网络,是以原形词为节点的无向图。在节点之间以边相连。每条边表示两个节点的原形词属于相同的概念集合。例如某个原形词是“电脑”,它与另一个原形词“计算机”是同义词,因此用一条边相连,表示两者属于同一概念集合。在本发明中,概念集合是与原形词节点相连的一级节点的集合。图3显示了概念库中原形词节点之间形成的概念集合表达方式。在变形词证认的过程中,本发明利用概念库的支持,将每个原形词的概念集合存储在概念库中。当检测到原形词某种形式的变形词时,将变形词出现位置前后一段文本作为语义背景,计算此语义背景与原形词的概念集合的相似度,以此来度量证认的信度。证认是指经过观察检验而确认某事物的存在,或证明它是本事物不是其他事物。本发明中的证认模块首先进行概念集合的检测,得到原形词的概念集合;同时在输入的待检测数据中查询概念集合的覆盖程度(即相似度)。变形词判别模块通过证认模块得到的概念集合的覆盖程度与预先设定的判别阈值进行比较,可以得出变形词是否是指定原形词的变形词的结论。基于图1所示的变形词证认系统,本发明所提供的变形词证认方法是这样的首先通过得到的原形词,在变形词库查询其对应的变形词,同时可以通过指定变形词类别作为过滤条件,得到原形词的不同形式的变形词。变形词检测模块得到变形词形及原形词后,在文本数据中做匹配运算。如果得到对应的变形词则继续,否则退出变形词证认。如果待检测数据中存在变形词,将变形词前后一定范围内的文本数据作为语义背景,进入证认模块。证认模块通过原形词在概念库中查找与其相关的概念集合。得到概念集合后,计算概念集合与语义背景间的相似性。这个相似性度量了此变形词是原形词的变形词的信度值。在证认的最后阶段,通过预先设定的判别阈值与上述步骤得到的信度值进行比较,得出变形词是不是原形词的变形词的结论。例如通过相似性度量得出某变形词是某原形词的变形词的信度值是0. 7,如果将预先设定的判别阈值设定为0. 8,则得出该变形词不是原形词的变形词的结论;如果将预先设定的判别阈值设定为0. 6,则得出该变形词是原形词的变形词的结论。
在上述变形词证认方法中,文本之间的相似度计算可以采用基于统计的文本相似度量方法,例如先采用TF-1DF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度;也可以查用基于语义分析的文本相似度量方法,基于知识库构建词语之间的语义关系。对于后者,可以参阅李素建的论文《基于语义计算的语句相关度研究》(刊载于《计算机工程与应用》2002年07期),在此就不详细说明了。本发明所提供的变形词证认系统及证认方法可以解决文本中常见的变形词无法识别的问题,对常见词的各种变形词能够实现机器自动检测。在变形词证认的过程中,通过检测与证认的有机结合,对变形词的信度进行了有语义依据的评估,从而使变形词的判别结论有效可信。以上对本发明所提供的变形词证认系统及证认方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
权利要求
1.一种变形词证认系统,其特征在于 所述变形词证认系统包括原形词提供模块、变形词生成模块、变形词库、变形词检测模块、证认模块、概念库及变形词判别模块;其中, 所述原形词提供模块与所述变形词生成模块连接,所述变形词生成模块分别连接所述变形词库和所述变形词检测模块,所述证认模块分别与所述变形词检测模块、所述变形词判别模块和所述概念库进行连接; 所述原形词提供模块提供原形词,所述变形词生成模块在所述变形词库中查找所述原形词的变形词,将所述变形词提供给所述变形词检测模块,所述证认模块通过所述概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,所述变形词判别模块通过所述相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为所述原形词的变形词的结论。
2.如权利要求1所述的变形词证认系统,其特征在于 所述变形词证认系统中还包括数据提供模块,所述数据提供模块分别与所述变形词检测模块和所述证认模块进行连接。
3.如权利要求1所述的变形词证认系统,其特征在于 所述变形词库中以原形词为主键,记录所述原形词的变形词;所述变形词包括但不限于汉语拼音、同音词、拼音首字母词、易混词、拆字变形词、英语同音词。
4.如权利要求1所述的变形词证认系统,其特征在于 所述概念库是以原形词为节点的无向图,在节点之间以边相连,每条边表示两个节点的原形词属于相同的概念集合。
5.如权利要求4所述的变形词证认系统,其特征在于 所述概念集合是与原形词节点相连的一级节点的集合。
6.一种变形词证认方法,基于权利要求1所述的变形词证认系统实现,其特征在于 首先通过原形词,在变形词库查询其对应的变形词; 在得到原形词及变形词后,在待检测数据中做匹配运算,如果得到对应的变形词则继续,否则退出变形词证认; 如果待检测数据中存在变形词,将变形词前后一定范围内的文本数据作为语义背景;通过原形词在概念库中查找与所述原形词相关的概念集合,计算所述概念集合与所述语义背景间的相似性,利用相似性度量变形词是所述原形词的变形词的信度值; 通过预先设定的判别阈值与所述信度值进行比较,得出变形词是不是所述原形词的变形词的结论。
7.如权利要求6所述的变形词证认方法,其特征在于 在查询变形词的过程中,通过指定变形词类别作为过滤条件,得到所述原形词的不同形式的变形词。
全文摘要
本发明公开了一种变形词证认系统及证认方法。在该变形词证认系统中,由原形词提供模块提供原形词,变形词生成模块在变形词库中查找原形词的变形词,将变形词提供给变形词检测模块,证认模块通过概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,变形词判别模块通过相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为原形词的变形词的结论。本发明能够对常见词的各种变形词进行机器自动检测。在变形词证认的过程中,通过检测与证认的有机结合,对变形词的信度进行了有语义依据的评估,从而使变形词的判别结论有效可信。
文档编号G06F17/27GK103049434SQ20121053780
公开日2013年4月17日 申请日期2012年12月12日 优先权日2012年12月12日
发明者张作职, 宋传宝, 王树强 申请人:北京海量融通软件技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1