维吾尔语元音和谐处理方法

文档序号:6493954阅读:1546来源:国知局
维吾尔语元音和谐处理方法
【专利摘要】本发明公开了维吾尔语元音和谐处理方法,提供了增音和脱落处理功能;基于规则的央音原音识别功能、基于词干词典的央音原音识别功能和基于最大熵的不规则单词央音原音识别功能。本发明利用计算机提取维吾尔语单词词干,对乌(乌孜别克文)、哈(哈萨克)、柯(柯尔克孜)、土(土耳其文)词干提取系统的开发打下坚实的基础。
【专利说明】维吾尔语元音和谐处理方法
【技术领域】
[0001]本发明涉及语言信息处理技术,特别是维吾尔语元音和谐处理方法。
【背景技术】
[0002]在国民经济和社会信息化的今天,人们对各类语种信息获取、查询、翻译提出了更快、更高的要求。随之,研制开发了各类电子词典产品和机器翻译系统,受到广大用户欢迎。在进行机器翻译或处理用户提供的搜索关键词时,被提交的单词很可能已具有了形态变化。这时系统必须要采用某种方法对提交的单词进行形态还原并取回相关信息,词干提取系统是机器翻译和构建电子词典的辅助工具。
[0003]维吾尔语的形态系统中存在元音弱化、增音和元音脱落等现象,其中增音现象的发生有一定的规律,可用规律进行还原,原因脱落在极少数的词语发生形态变化时发生,完全可以用词典查询方法来解决,但元音的弱化又是非常普遍,又是非常灵活,尤其是外来词发生形态变化时,很难根据上下文恢复弱化的元音,这种现象使得计算机难以正确提取单词词干,导致维吾尔语词性标注、信息检索以及机器翻译等课题的研究中出现严重的数据稀疏。
[0004]语音和谐处理是词干提取系统必不可少的部分,对词干提取的影响有较大的影响。因为发生增音和脱落的单词较少,所以使用词典进行恢复;规则没有任何歧义情况,恢复结果完全可靠,而且覆盖面也较广,不仅结果可靠,速度也快;因为已经有一定规模的词干,部分单词可以用词典恢复央音。最大熵模型是为了处理未登录词而建立,即词干库里没有改词干,无法借助词干库确定央音的原音。
[0005]近年来,随着少数民族信息化领域的发展,新疆的少数民族语言的自然语言处理技术也有了比较大的发展,但大多数以汉维为主,并且功能没有那么强大,没有满足更广大用户的实际需求,在更多少数民族语言的支持和技术水平上存在一定的缺陷。
[0006]维吾尔语元音和谐处理系统就是在上述背景下提出的,该系统解决了维吾尔语的形态系统中存在元音弱化、增音和元音脱落等现象;对利用计算机提取维吾尔语单词词干,维吾尔语的词性标注,信息检索以及机器翻译等自然语言处理技术有着深远的意义;另一方面对将来汉维机器翻译词典库建设;对乌(乌孜别克文)、哈(哈萨克)、柯(柯尔克孜)、土(土耳其文)词干提取系统的开发打下了坚实的基础。

【发明内容】

[0007]本发明的目的在于提供一种维吾尔语元音和谐处理方法,实现维吾尔语增音和脱落处理功能,基于规则的央音原音识别功能,基于词干词典的央音原音识别功能和基于最大熵的不规则单词央音原音识别功能。对利用计算机提取维吾尔语单词词干,维吾尔语的词性标注,信息检索以及机器翻译等自然语言处理技术有着深远的意义;另一方面对将来汉维机器翻译词典库建设;对乌(乌孜别克文)、哈(哈萨克)、柯(柯尔克孜)、土 (土耳其文)词干提取系统的开发打下坚实的基础。[0008] 本发明的目的是这样实现的:一种维吾尔语元音和谐处理方法,1.维吾尔语单词不仅附加成分发生形态变化,同时发生单词内部的语音变化,这些现象大致分为元音弱化、增音、脱落,因为发生增音和脱落的单词有限,大约有100个左右,本发明使用词典解决增音和脱落现象;2.根据维吾尔语元音弱化的规则总结的规则是若附加的词缀中任有一个包含前元音,则最后音节的“e,i”的原音为“a”。若附加的词缀中任有一个包含后元音,则最后音节的“e,i”的原音为‘I'根据这个规则实现基于规则的央音原音识别功能;3.维吾尔语中的很多单词的处理情况并完全符合规则,特别是维吾尔语名词,基于这种情况实现基于词干词典的央音原音识别功能;4.维吾尔语单词中的央音“e,i”同时代表实际上在具体的上下文文环境中“e,i”代表前元音和后元音,而规则在判断式中无法准确地加入不同上下文的多个制约和依据特征,根据这种情况实现基于最大熵的不规则单词央音原首识别功能。
[0009]本发明涉及维吾尔语元音的和谐处理,属于自然语言处理中机器翻译【技术领域】;目前在市场上,包括增音和脱落处理功能,基于规则的央音原音识别功能,基于词干词典的央音原音识别功能和基于最大熵的不规则单词央音原音识别功能的维吾尔语元音和谐处理系统尚属首例。
[0010]本发明基于语言学、社会学、翻译学、计算机信息处理科学的处理系统,其特征是:提供了增音和脱落处理功能;基于规则的央音原音识别功能、基于词干词典的央音原音识别功能和基于最大熵的不规则单词央音原音识别功能。
[0011]本发明的有益效果是:实现了维吾尔语增音和脱落处理功能,基于规则的央音原音识别功能,基于词干词典的央音原音识别功能和基于最大熵的不规则单词央音原音识别功能。对利用计算机提取维吾尔语单词词干,维吾尔语的词性标注,信息检索以及机器翻译等自然语言处理技术有着深远的意义;另一方面对将来汉维机器翻译词典库建设;对乌(乌孜别克文)、哈(哈萨克)、柯(柯尔克孜)、土 (土耳其文)词干提取系统的开发打下了坚实的基础。
【专利附图】

【附图说明】
[0012]下面将结合附图对本发明作进一步说明。
[0013]图1是本发明的流程图。
【具体实施方式】
[0014]一种维吾尔语元音和谐处理方法,1.维吾尔语单词不仅附加成分发生形态变化,同时发生单词内部的语音变化,这些现象大致分为元音弱化、增音、脱落,因为发生增音和脱落的单词有限,大约有100个左右,本发明使用词典解决增音和脱落现象;2.根据维吾尔语元音弱化的规则总结的规则是若附加的词缀中任有一个包含前元音,则最后音节的“e,i”的原音为“a”。若附加的词缀中任有一个包含后元音,则最后音节的“e,i”的原音为根据这个规则实现基于规则的央音原音识别功能;3.维吾尔语中的很多单词的处理情况并完全符合规则,特别是维吾尔语名词,基于这种情况实现基于词干词典的央音原音识别功能;4.维吾尔语单词中的央音“e,i”同时代表“a,?”,实际上在具体的上下文文环境中“e,i”代表前元音和后元音,而规则在判断式中无法准确地加入不同上下文的多个制约和依据特征,根据这种情况实现基于最大熵的不规则单词央音原音识别功能。
[0015]如图1所示:语音和谐处理是词干提取系统必不可少的部分,对词干提取的影响有较大的影响。根据问题的特征,,增音和脱落使用词典解决,对央音原音的识别,采用规则和机器学方法。
[0016]如下表1是本发明维吾尔语弱化单词和词干。如表1所示,维吾尔语元音的弱化非常普遍,又非常灵活,尤其是外来词发生形态变化时,很难根据上下文恢复弱化的元音,这种现象使得计算机难以正确提取单词词干,导致维吾尔语词性标注、信息检索以及机器翻译等课题的研究中出现严重的数据稀疏。从表中可以看出维吾尔语中最频繁发生的弱化一般在词干最后音节发生,有的弱化可以使用规则进行处理,例如,
【权利要求】
1.一种维吾尔语元音和谐处理方法,1.使用词典解决增音和脱落现象;2.根据维吾尔语元音弱化的规则总结的规则是若附加的词缀中任有一个包含前元音,则最后音节的“e,i”的原音为“a”,若附加的词缀中任有一个包含后元音,则最后音节的“e,i”的原音为“?”,根据这个规则实现基于规则的央音原音识别功能;3.实现基于词干词典的央音原音识别功能;4.实 现基于最大熵的不规则单词央音原音识别功能。
【文档编号】G06F17/20GK103902510SQ201210579443
【公开日】2014年7月2日 申请日期:2012年12月28日 优先权日:2012年12月28日
【发明者】尼加提·纳吉米, 买合木提·买买提, 帕肉克·司地克, 马斌 申请人:新疆电力信息通信有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1