一种新词发现方法和系统的制作方法

文档序号：6556067阅读：292来源：国知局

专利名称：一种新词发现方法和系统的制作方法
技术领域：
本发明涉及文本信息处理领域，尤其涉及一种新词发现方法和系统。
背景技术：
中文(还有日语等亚洲语言)不像西方语言那样使用空格表示词的边界，因此分词是中文语言处理的首要任务。然而随着互联网内容服务(比如微博、小说)的迅速发展，网络新词不断涌现，自动语音识别(ASR)、文本-语音(TTS)、搜索引擎等系统里所采用的分词模型需要不断更新新词才不会过时，因此新词发现最近成为研究热点。目前新词发现所面临的问题大概有三方面1.缺乏有效依据。对于新词目前没有明确定义，现有技术中，一般是用词典(作为背景语料)去除前景语料中的非新词，再用规则从剩余的短语碎片中判断新词。但是由于新词的组成千差万别，许多情况下不具备普遍规律，如小说中的人名译名，魔法名，种族名，用词典和规则的方法往往达不到良好效果。2.词边界难于确定。现有技术中，采用基于语料库和概率统计方法的统计语言模型(一般为用前N-I个汉字来推测当前这个汉字的Markov模型称为N-gram(N元文法)语言模型，其中，当N= 1，2，3时，分别称为Unigram模型、Bigram模型和！digram模型)建立分词系统时，对于前景语料，背景语料的分词模型可信度大打折扣，特别是在新词附近；而采用停用词(语料中词频较高，但没有意义的词，如“的”、“太”等)规则的方法时，停用词也会带来负面作用，过滤掉一些可能新词，比如"可的便利店"的“可的”。3.更新困难。依赖于分词的新词发现，往往需要将背景语料和前景语料结合起来重新训练分词模型，滚动地发现新词，流程复杂而且耗时。

发明内容
本发明的目的在于提供一种新词发现方法和系统，利用背景语料的统计信息筛选新词，对新词的边界进行判别，避免对背景语料里已有新词重新发现，减少了人工校对的负担。为解决上述问题，本发明提出一种新词发现方法，包括根据bigram语言模型抽取已知背景语料的bigram元素，并统计所述已知背景语料中所有bigram元素的词频和与种数；根据bigram语言模型抽取前景语料的bigram元素，并统计所述前景语料中所有 bigram元素的词频和与种数；根据上述所有统计确定所述前景语料中符合第一预设规则的bigram元素；根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展，确定所述前景语料中符合第二预设规则的n-gram元素，得到新词列表。进一步的，所述第一预设规则包括
该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值；所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值；该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。进一步的，所述已知背景语料为国家语委现代汉语语料库中的语料。进一步的，所述相关度的计算公式为
权利要求
1.一种新词发现方法，其特征在于，包括根据bigram语言模型抽取已知背景语料的bigram元素，并统计所述已知背景语料中所有bigram元素的词频和与种数；根据bigram语言模型抽取前景语料的bigram元素，并统计所述前景语料中所有 bigram元素的词频和与种数；根据上述所有统计确定所述前景语料中符合第一预设规则的bigram元素；根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展，得到所述前景语料的n-gram元素，确定所述前景语料中符合第二预设规则的n-gram元素，得到新词列表。
2.如权利要求1所述的新词发现方法，其特征在于，所述第一预设规则包括该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值；所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值；该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。
3.如权利要求2所述的新词发现方法，其特征在于，所述相关度的计算公式为
4.如权利要求1所述的新词发现方法，其特征在于，所述已知背景语料为国家语委现代汉语语料库中的语料。
5.如权利要求1所述的新词发现方法，其特征在于，所述第二预设规则包括该n-gram元素由某(n_l) -gram元素向前或向后扩展一个字得到时,该n-gram元素关于该(n-l)-gram元素的条件概率大于第四预设阈值；该n-gram元素向前或向后扩展一个字得到(n+1)-gram元素时，该(n+1)-gram元素关于该n-gram元素的条件概率小于等于所述第四预设阈值；该n-gram元素的词频与所述前景语料中所有bigram元素的词频均值之比大于第五预设阈值。
6.如权利要求5所述的新词发现方法，其特征在于，得到新词列表时，某(n-D-gram 元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时，保留该 (n-1) -gram元素于所述新词列表中；其中，当由Xi_n+1，. . .，Xi^1组成的(n-1) -gram元素向后扩展一个字Xi得到由Xi_n+1，. . .，Xi组成的n-gram元素时,使该由Xi_n+1,...，Xi组成的n-gram元素关于该由Xi_n+1, · · ·，Xi^1组成的(n-1) -gram元素的条件概率P (Xi | Xi_n+1，. . .，Xi^1)大于第四预设阈值的字Xi有j种，则定义该由Xi-n+1，. . ·，X^组成的(11-1)1仪111元素独立成词的向后独立概率？31_1&_11+1，...， Xh)为
7.如权利要求5所述的新词发现方法，其特征在于，根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中，对所述剩余的bigram元素及得到trigram元素进行筛选更新。
8.如权利要求7所述的新词发现方法，其特征在于，当由Xi_2，Xp1组成的bigram元素向后扩展一个字Xi_得到由Xi_2，，Xi_组成的 trigram元素时，满足所述字Xi_关于该bigram元素的条件概率大于所述第四预设阈值后，若该bigram元素的首字Xi_2关于由Xi_1; Xi组成的bigram元素的条件概率大于所述第四预设阈值，则所述由Xi_2，Xi-!, Xi-组成的trigram元素能继续扩展；若该bigram元素的首字Xi_2关于由Xi_1; Xi组成的bigram元素的条件概率小于等于所述第四预设阈值，则所述由χ"，Xh组成的bigram元素和所述由Xi_2，，Xi_组成的 trigram元素均不是有效的新词；当由Xi_2，Xp1组成的bigram元素向前扩展一个字Xi__3得到由Xi_3_，Xi_2，X^1组成的 trigram元素时，满足所述字Xi__3关于该bigram元素的条件概率大于所述第四预设阈值后，若该bigram元素的尾字Xh关于由Xi_3，Xi_2组成的bigram元素的条件概率大于所述第四预设阈值，则所述由Xi-3_，Xi_2，Xi-!组成的trigram元素能继续扩展；若该bigram元素的尾字Xh关于由Xi_3，Xi_2组成的bigram元素的条件概率小于等于所述第四预设阈值，则所述由χ"，Xi-!组成的bigram元素和所述由Xi_3_，Xi_2，Xi^1组成的 trigram元素均不是有效的新词。
9.一种新词发现系统，其特征在于，包括bigram背景模块，用于根据bigram语言模型抽取已知背景语料的bigram元素，并统计所述已知背景语料中所有bigram元素的词频和与种数；bigram前景模块，用于根据bigram语言模型抽取前景语料的bigram元素，并统计所述前景语料中所有bigram元素的词频和与种数；bigram筛选模块，用于根据所述bigram背景模块和bigram前景模块统计确定所述前景语料中符合第一预设规则的bigram元素；n-gram扩展模块，用于根据n-gram语言模型对经所述bigram筛选模块过滤后剩余的 bigram元素进行在所述前景语料中的向前和向后扩展，得到所述前景语料的n-gram元素，确定所述前景语料中符合第二预设规则的n-gram元素，得到新词列表。
10.如权利要求9所述的新词发现系统，其特征在于，所述第一预设规则包括该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值；所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值；该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。
11.如权利要求10所述的新词发现系统，其特征在于，所述相关度的计算公式为
12.如权利要求9所述的新词发现系统，其特征在于，所述已知背景语料为国家语委现代汉语语料库中的语料。
13.如权利要求9所述的新词发现系统，其特征在于，所述第二预设规则包括该n-gram元素由某(n_l) -gram元素向前或向后扩展一个字得到时,该n-gram元素关于该(n-l)-gram元素的条件概率大于第四预设阈值；该n-gram元素向前或向后扩展一个字得到(n+1)-gram元素时，该(n+1)-gram元素关于该n-gram元素的条件概率小于等于所述第四预设阈值；该n-gram元素的词频与所述前景语料中所有bigram元素的词频均值之比大于第五预设阈值。
14.如权利要求9所述的新词发现系统，其特征在于，得到新词列表时，某(n-D-gram 元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时，保留该 (n-1)-gram元素于所述新词列表中；其中，当由Xi_n+1，. . .，Xi^1组成的(n-1) -gram元素向后扩展一个字Xi得到由Xi_n+1，. . .，Xi组成的n-gram元素时,使该由Xi_n+1,...，Xi组成的n-gram元素关于该由Xi_n+1, · · ·，Xi^1组成的(n-1) -gram元素的条件概率P (Xi | Xi_n+1，. . .，Xi^1)大于第四预设阈值的字Xi有j种，则定义该由Xi-n+1，. . ·，X^组成的(11-1)1仪111元素独立成词的向后独立概率？31_1&_11+1，...， Xh)为
15.如权利要求9所述的新词发现系统，其特征在于，根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中，对所述剩余的bigram元素及得到trigram元素进行筛选更新。
16.如权利要求15所述的新词发现系统，其特征在于，当由Xi_2，Xp1组成的bigram元素向后扩展一个字Xi_得到由Xi_2，，Xi_组成的 trigram元素时，满足所述字Xi_关于该bigram元素的条件概率大于所述第四预设阈值后，若该bigram元素的首字Xi_2关于由Xi_1; Xi组成的bigram元素的条件概率大于所述第四预设阈值，则所述由Xi_2，Xi-!, Xi-组成的trigram元素能继续扩展；若该bigram元素的首字Xi_2关于由Xi_1; Xi组成的bigram元素的条件概率小于等于所述第四预设阈值，则所述由χ"，Xh组成的bigram元素和所述由Xi_2，，Xi_组成的 trigram元素均不是有效的新词；当由Xi_2，Xp1组成的bigram元素向前扩展一个字Xi__3得到由Xi_3_，Xi_2，X^1组成的 trigram元素时，满足所述字Xi__3关于该bigram元素的条件概率大于所述第四预设阈值后，若该bigram元素的尾字Xh关于由Xi_3，Xi_2组成的bigram元素的条件概率大于所述第四预设阈值，则所述由Xi-3_，Xi_2，Xi-!组成的trigram元素能继续扩展；若该bigram元素的尾字Xh关于由Xi_3，Xi_2组成的bigram元素的条件概率小于等于所述第四预设阈值，则所述由χ"，Xi-!组成的bigram元素和所述由Xi_3_，Xi_2，Xi^1组成的 trigram元素均不是有效的新词。
全文摘要
本发明提供一种新词发现方法和系统，基于bigram语言模型分别提取了前背景语料的bigram元素，并分别得到前背景语料的统计信息，利用统计信息及第一预设规则过滤bigram元素，再利用n-gram语言模型及第二预设规则对剩余的bigram元素进行前景语料中的扩展，n-gram元素的更新不需要对背景语料重新计算，避免对背景语料里已有新词重新发现，利用第二预设规则判别新词的边界，去除垃圾bigram元素和n-gram元素，简单易用，减少了人工校对的负担。
文档编号G06F17/27GK102231153SQ20111013804
公开日2011年11月2日申请日期2011年5月25日优先权日2011年5月25日
发明者吴悦申请人:盛乐信息技术(上海)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴悦
技术所有人：盛乐信息技术（上海）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。