维吾尔语句子相似度计算方法

文档序号:6493955阅读:303来源:国知局
维吾尔语句子相似度计算方法
【专利摘要】本发明公开了维吾尔语句子相似度计算方法,1.建立维吾尔语倒排索引的;2.对输入维吾尔语句子进行粗选;3.计算基于词的维吾尔语句子相似度;4.计算维吾尔语简单结构相似度;5.计算维吾尔语句子综合相似度。本发明实现了维吾尔语句子相似度计算功能,为基于实例的维吾尔语汉语机器翻译系统提供了帮助;为维吾尔语文本分类系统、维吾尔语问答系统、维吾尔语摘要自动生成系统、维吾尔语搜索引擎等系统的开发打下了坚实的基础。
【专利说明】维吾尔语句子相似度计算方法
【技术领域】
[0001]本发明涉及语言信息处理技术,特别是维吾尔语句子相似度计算方法。
【背景技术】
[0002]近年来,随着少数民族信息化领域的发展,在新疆的少数民族语言信息处理也有了比较大的发展,特别是维吾尔语信息处理方面词法分析、词性标注等基础工作有了较好的研究成果和已实现的系统。这些技术为维吾尔语汉语机器翻译系统的实现打下了坚实的基础。
[0003]计算句子相似度在基于实例的机器翻译(Example Based Machine Translation,EBMT)中起到重要的作用。自从基于实例的翻译方法提出以来,句子相似度计算已经成为该方法的一个研究重点。维吾尔语汉语基于实例的机器翻译中维吾尔语句子的相似度计算也是一个难点。维吾尔语属于阿尔泰语系突厥语族西匈语支,在结构特点上,属于黏着语。它是通过在词干上附加各种构词和构形词缀而改变词汇意义和语法意义的一种语言。这种特点对于维吾尔语句子相似度计算带来了一定的困难。到目前为止还没有有关对维吾尔语句子相似度计算系统,其研究也处于试探阶段。
[0004]维吾尔语句子相似度系统就是在上述背景下提出的,该系统解决了计算维吾尔语相似度难,且计算结果不符合维吾尔语实际相似性的问题,为实现基于实例的维吾尔语汉语机器翻译系统打下了良好的基础。该系统及其方法也可用于维吾尔语文本分类系统、维吾尔语问答系统、维吾尔语摘要自动生成系统、维吾尔语搜索引擎等系统。

【发明内容】

[0005]本发明的目的在于提供一种维吾尔语句子相似度计算方法,实现维吾尔语句子相似度计算功能,为基于实例的维吾尔语汉语机器翻译系统提供帮助;为维吾尔语文本分类系统、维吾尔语问答系统、维吾尔语摘要自动生成系统、维吾尔语搜索引擎等系统的开发打下坚实的基础。
[0006]本发明的目的是这样实现的:一种维吾尔语句子相似度计算方法,1.维吾尔语倒排索引的建立:为有效的查找相似句子且计算其值对语料建立倒排索引,建立倒排索引时对维吾尔语句子的每一个单词进行词干提取;2.对输入维吾尔语句子进行粗选:根据倒排索引查找的伪相似句子会很多,为提高维吾尔语句子相似度计算效率,需要排除相似度低的句子,因此对根据倒排索引查找的输入维吾尔语句子进行粗选;3.基于词的维吾尔语句子相似度计算:对粗选的相似句子集进行基于词的维吾尔语句子相似度计算;4.维吾尔语简单结构相似度计算:通过该方法弥补因为维吾尔语句法分析没有实际应用而无法进行结构相似度计算的空白;5.维吾尔语句子综合相似度计算:有效的结合维吾尔语的基于词的相似度计算和维吾尔语简单结构相似度计算,综合的相似度计算值更接近人工评价的相似度值。
[0007]本发明的有益效果是:实现了维吾尔语句子相似度计算功能,为基于实例的维吾尔语汉语机器翻译系统提供了帮助;为维吾尔语文本分类系统、维吾尔语问答系统、维吾尔语摘要自动生成系统、维吾尔语搜索引擎等系统的开发打下了坚实的基础。
[0008]本发明涉及维吾尔语句子相似度计算,其包含维吾尔语倒排索引的建立、对维吾尔语相似句子进行粗选、维吾尔语相似句子的排序、基于词的维吾尔语句子相似度计算、维吾尔语句子简单结构相似度计算和维吾尔语句子综合相似度计算,属于自然语言处理中的基于实例的机器翻译【技术领域】。
[0009]本发明不仅考虑了维吾尔语单词词频特征对不同的单词给予不同的权值,且考虑了维吾尔语的黏着性,即对维吾尔语单词进行词干提取,这样可以消除较长的句子或组成词频低的句子相似度计算产生的与实际相似度较大的偏差,且鉴于维吾尔语句法分析研究的还没有出现实用性的成果,提出了维吾尔语句子简单结构相似度计算功能和方法、且提出了符合维吾尔语独特语言特征的维吾尔语倒排索引建立功能和方法、对维吾尔语相似句子进行粗选功能和方法、基于词的维吾尔语句子相似度计算功能和方法,维吾尔语综合相似度计算功能和方法为实现基于实例的维吾尔语汉语机器翻译系统并提高其翻译质量提供了良好的基础。
【专利附图】

【附图说明】
[0010]下面将结合附图对本发明作进一步说明。
[0011]图1是本发明维吾尔语句子相似度计算的总流程图;
[0012]图2是本发明维吾尔语句子相似度计算流程图;
[0013]图3是本发明维吾尔语句子简单结构相似度计算流程图;
[0014]图4是本发明基于单词的维吾尔语句子相似度计算流程图;
[0015]图5是本发明建立维吾尔语倒排索引文件流程图。
【具体实施方式】
[0016]一种维吾尔语句子相似度计算方法,1.维吾尔语倒排索引的建立:为有效的查找相似句子且计算其值对语料建立倒排索引,建立倒排索引时对维吾尔语句子的每一个单词进行词干提取;2.对输入维吾尔语句子进行粗选:根据倒排索引查找的伪相似句子会很多,为提高维吾尔语句子相似度计算效率,需要排除相似度低的句子,因此对根据倒排索引查找的输入维吾尔语句子进行粗选;3.基于词的维吾尔语句子相似度计算:对粗选的相似句子集进行基于词的维吾尔语句子相似度计算;4.维吾尔语简单结构相似度计算:通过该方法弥补因为维吾尔语句法分析没有实际应用而无法进行结构相似度计算的空白;5.维吾尔语句子综合相似度计算:有效的结合维吾尔语的基于词的相似度计算和维吾尔语简单结构相似度计算,综合的相似度计算值更接近人工评价的相似度值。
[0017]如图1所示,首先,对输入维吾尔语句子的每一个单词进行词干提取,对维吾尔语相似句子进行粗选,即读维吾尔语倒排索引文件对应的每一个单词的句子编号,并对η个(可以自定义具体数目)句子编号根据相同单词数量进行排序。然后根据句子编号从维吾尔语句子内容文件中读取相应的维吾尔语句子内容。最后从维吾尔语句子内容文件中读取的η个句子和维吾尔语输入 句子进行相似度计算。维吾尔语相似度计算具体步骤在图2中描述。[0018]如图2所示,首先,对没有维吾尔语词干提取的句子进行词干提取,根据为选供给的三种计算维吾尔语句子相似度方法中的某一个流程走下一步骤。如果选为基于词的维吾尔语句子相似度计算,则通过该方法计算相似度并输出最后结果。如果选为维吾尔语句子简单结构相似度计算方法,则通过该方法计算相似度(具体步骤在图3中描述)并输出最后结果,如果选为维吾尔语句子综合相似度计算方法,则同时通过前两种方法(即基于词的维吾尔语句子相似度计算方法和维吾尔语句子简单结构相似度计算方法)计算相似度并根据权重参数计算维吾尔语句子综合相似度。
[0019]如图3所示,首先,对输入维吾尔语句子进行词性标注,然后同时对维吾尔语句子的词性标注计算词性标注的词形相似度、词形标注的词序相似度、词形标注的夹角和词形标注的句长相似度。最后根据权重参数输出最终的维吾尔语句子简单结构相似度。
[0020]如图4所示,首先,对已经词干提取的维吾尔语单词进行词形相似度计算,然后对维吾尔语句子同时进行词序相似度计算、夹角计算和句长相似度计算。最后根据基于单词的维吾尔语句子相似度的权重参数输出最终的基于单词的维吾尔语句子相似度计算结果。
[0021]如图5所示,首先,从维吾尔语句子内容文件中读取一个句子,对该句子的每一个单词进行维吾尔语词干提取,然后对其按维吾尔语字母顺序进行排序,排序过程当中纪录重复单词的数量,直到读完维吾尔语句子内容文件的全部内容,最后输出维吾尔语倒排索引文件。
[0022]如图5所示,倒排索引文件有维吾尔语词干、维吾尔语词干频率和对应该词干的维吾尔语句子编号集。
[0023]下述表格及例句是本发明建立维吾尔语倒排索引文件的格式。
【权利要求】
1.一种维吾尔语句子相似度计算方法,其特征是:1.维吾尔语倒排索引的建立:为有效的查找相似句子且计算其值对语料建立倒排索引,建立倒排索引时对维吾尔语句子的每一个单词进行词干提取;2.对输入维吾尔语句子进行粗选:根据倒排索引查找的伪相似句子会很多,为提高维吾尔语句子相似度计算效率,需要排除相似度低的句子;3.基于词的维吾尔语句子相似度计算:对粗选的相似句子集进行基于词的维吾尔语句子相似度计算;4.维吾尔语简单结构相似度计算:通过该方法弥补因为维吾尔语句法分析没有实际应用而无法进行结构相似度计算的空白;5.维吾尔语句子综合相似度计算:有效的结合维吾尔语的基于词的相似度计算和维吾尔语简单结构相似度计算。
【文档编号】G06F17/27GK103902523SQ201210579445
【公开日】2014年7月2日 申请日期:2012年12月28日 优先权日:2012年12月28日
【发明者】尼加提·纳吉米, 买合木提·买买提, 帕肉克·司地克, 马斌 申请人:新疆电力信息通信有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1