维吾尔语倒排索引文件的生成方法

文档序号:6493965阅读:383来源:国知局
维吾尔语倒排索引文件的生成方法
【专利摘要】本发明公开了维吾尔语倒排索引文件的生成方法,1.维吾尔语倒排索引的创建;2.输出创建好的维吾尔语倒排索引文件;3.检查创建的维吾尔语倒排索引文件的准确性;4.加密维吾尔语倒排索引;5.检查加密的维吾尔语倒排索引。本发明实现了符合维吾尔语独特语言现象的维吾尔语倒排索引创建、维吾尔语倒排索引文件的输出、检查维吾尔语倒排索引文件的准确性、加密维吾尔语倒排索引以及对其检查准确性的功能。
【专利说明】维吾尔语倒排索引文件的生成方法
【技术领域】
[0001]本发明涉及语言信息处理技术,特别是维吾尔语倒排索引文件的生成方法。
【背景技术】
[0002]近年来,随着少数民族信息化领域的发展,在新疆的少数民族语言信息处理也有了比较大的发展,特别是维吾尔语信息处理方面词法分析,维吾尔语句子边界识别有了较好的研究成果和已实现的系统。这些技术为维吾尔语信息检索,维吾尔语机器翻译等领域的实际系统的实现打下了坚实的基础。
[0003]倒排索引在信息检索以及基于实例的机器翻译(Example Based MachineTranslation, EBMT)中起到重要的作用。自从基于实例的翻译方法提出以来,找到相似实例句子已经成为该方法的一个研究重点。维吾尔语汉语基于实例的机器翻译中找维吾尔语相似实例也是个难点。维吾尔语属于阿尔泰语系突厥语族西匈语支,在结构特点上,属于黏着语。它是通过在词干上附加各种构词和构形词缀而改变词汇意义和语法意义的一种语言。这种特点对于维吾尔语倒排索引的创建带来了一定的困难。这困难主要在于维吾尔语词干上附加各种构词和构型词缀添加以后的维吾尔语单词形式各异,重复率低,不进行特殊处理的情况下,倒排索引庞大,无法满足快速找目的句子的目标。到目前为止还没有出现有关维吾尔语倒排索引文件生成工具,对其研究也处于试探阶段,更没有出现对倒排索引文件进行加密工具,对其研究还没有开始。
[0004]维吾尔语倒排索引的生成工具就是在上述背景下提出的,该工具解决了通用工具以及方法对维吾尔语不有效,甚至导致维吾尔语倒排索引存储空间的无限扩大问题,为实现维吾尔语检索系统、基于实例的维吾尔语机器翻译系统打下了良好的基础。该系统及其方法也可用于维吾尔语文本分类系统、维吾尔语问答系统、维吾尔语搜索引擎等系统。

【发明内容】

[0005]本发明的目的在于提供一种维吾尔语倒排索引文件的生成方法,实现了符合维吾尔语独特语言现象的维吾尔语倒排索引创建、维吾尔语倒排索引文件的输出、检查维吾尔语倒排索引文件的准确性、加密维吾尔语倒排索引以及对其检查准确性的功能,为实现维吾尔语基于实例的机器翻译系统的实现提供了基础性的帮助以及现成的工具,也为检索系统的实现提供了良好的现成工具,该工具及其方法也可用于维吾尔语问答系统、维吾尔语文本分类系统、维吾尔语搜索引擎等系统的基础部件的实现。
[0006]本发明的目的是这样实现的:一种维吾尔语倒排索引文件的生成方法,1.维吾尔语倒排索引的创建:为了提高基于实例的维吾尔语系统找相同实例句子的性能创建维吾尔语倒排索引,创建倒排索引时对维吾尔语句子的每一个单词进行词干提取;2.输出创建好的维吾尔语倒排索引文件:为了不依赖数据库软件,独立的设计维吾尔语倒排索引文件结构,并将维吾尔语倒排索引输出到符合该该文件中;3.检查创建的维吾尔语倒排索引文件的准确性:为了保证提供可靠地倒排索引文件,对创建的倒排索引文件进行检查,确保数据的正确性,可靠性;4.加密维吾尔语倒排索引:为了防止非法人员的盗用稀缺的维吾尔语语料,对倒排索引文件进行加密,对维吾尔语倒排索引文件加密时,先对维吾尔语词干符合维吾尔语语言特征的字符替换,然后给特定的密钥进行加密;5.检查加密的维吾尔语倒排索引:对为了实际系统准确的解密并准去的使用解密以后的倒排索引文件信息,对加密的维吾尔语倒排索引文件进行检查,并输出检查结果供给使用者参考。
[0007]本发明涉及维吾尔语倒排索引,其包含维吾尔语倒排索引的创建、输出维吾尔语倒排索引文件、检查维吾尔语倒排索引的准确性、对维吾尔语倒排索引进行加密以及检查加密语解密的准确性,属于自然语言处理中的信息检索以及机器翻译领域。本发明不仅考虑了维吾尔语单词词频特征,对不同的单词给予不同的权值,且考虑了维吾尔语的黏着性,即对维吾尔语单词进行词干提取,这样可以避免倒排索引存储空间的无限扩展因而出现倒排索引无效的问题。而且对倒排索引的词干条目进行符合维吾尔语的语言特点的加密,解决稀缺的维吾尔语语料被非法人员的盗用,并分别对维吾尔语倒排索引文件、加密解密的维吾尔语倒排索引文件进行检查,确保生成的文件的可靠性,为实现基于实例的维吾尔语汉语机器翻译系统、维吾尔语检索系统且提高其效率提供了良好的基础。
[0008]本发明实现了符合维吾尔语独特语言现象的维吾尔语倒排索引创建、维吾尔语倒排索引文件的输出、检查维吾尔语倒排索引文件的准确性、加密维吾尔语倒排索引以及对其检查准确性的功能,为实现维吾尔语基于实例的机器翻译系统的实现提供了基础性的帮助以及现成的工具,也为检索系统的实现提供了良好的现成工具,该工具及其方法也可用于维吾尔语问答系统、维吾尔语文本分类系统、维吾尔语搜索引擎等系统的基础部件的实现。
【专利附图】

【附图说明】
[0009]下面将结合附图对本发明作进一步说明。
[0010]图1是本发明维吾尔语倒排索引文件生成工具的总流程图;
图2是本发明检查维吾尔语倒排索引准确性的流程图;
图3是本发明加密维吾尔语倒排索引的流程图;
图4是本发明检查加密的维吾尔语倒排索引准确性的流程图。
【具体实施方式】
[0011]一种维吾尔语倒排索引文件的生成方法,1.维吾尔语倒排索引的创建:为了提高基于实例的维吾尔语系统找相同实例句子的性能创建维吾尔语倒排索引,创建倒排索引时对维吾尔语句子的每一个单词进行词干提取;2.输出创建好的维吾尔语倒排索引文件:为了不依赖数据库软件,独立的设计维吾尔语倒排索引文件结构,并将维吾尔语倒排索引输出到符合该该文件中;3.检查创建的维吾尔语倒排索引文件的准确性:为了保证提供可靠地倒排索弓I文件,对创建的倒排索引文件进行检查,确保数据的正确性,可靠性;4.加密维吾尔语倒排索引:为了防止非法人员的盗用稀缺的维吾尔语语料,对倒排索引文件进行加密,对维吾尔语倒排索引文件加密时,先对维吾尔语词干符合维吾尔语语言特征的字符替换,然后给特定的密钥进行加密;5.检查加密的维吾尔语倒排索引:对为了实际系统准确的解密并准去的使用解密以后的倒排索引文件信息,对加密的维吾尔语倒排索引文件进行检查,并输出检查结果供给使用者参考。
[0012]如图1所示,首先,对输入维吾尔语句子进行分词,对分词以后的结果即每一个维吾尔语单词进行词干提取并对维吾尔语词干进行按维吾尔语字母顺序进行排序,将对相同的词干纪录词干频率直到读完维吾尔语句子文件的所有句子内容。然后将维吾尔语词干、维吾尔语词干频率以及维吾尔语句子编号集写入到文件并输出维吾尔语倒排索引文件。根据使用该工具的人员的意愿确定是否对其进行准确性检查(具体步骤图2中描述),确定是否对对倒排索引文件进行加密(具体步骤图3中描述)以及对确定是否对加密的维吾尔语倒排索引的准确性进行检查(具体步骤图4中描述)。最后输出处理数据的结果。
[0013]如图2所示,首先,根据使用者的意愿确定是否对已生成的维吾尔语倒排索引文件的准确性进行检查。如果使用者选择为是,则读取维吾尔语倒排索引文件的每一个条目并将它和维吾尔语句子内容文件的相应内容进行比较,最后输出总的统计结果。如果使用者选择为否,则对维吾尔语倒排索引文件不进行任何操作。
[0014]如图3所示,首先,根据使用者的意愿确定是否对已生成的维吾尔语倒排索引文件进行加密。如果使用者选择是,则读取维吾尔语倒排索引的每一个条目,根据维吾尔语字母的特点对维吾尔语字母进行替换,并对维吾尔语词干频率以及句子编号也进行数字替换,然后以行号为密钥对每一个条目进行不同的加密,最后输出加密结果。如果使用者选择为否,则对维吾尔语倒排索引文件不进行任何操作。
[0015]如图4所示,首先,根据使用者的意愿确定是否对已生成好的加密的维吾尔语倒排索引文件的准确性进行检查。如果使用者选择为是,则读取加密的维吾尔语倒排索引文件的每一个条目并将行号为密钥进行不同的解密,然后解密的内容根据加密步骤中的规定替换相应的维吾尔语字母以及数字,将结果与原维吾尔语倒排索引文件的相应的条目进行比较,最后输出总的统计结果。如果使用者选择为否,则对加密的维吾尔语倒排索引文件不进行任何操作。
【权利要求】
1.一种维吾尔语倒排索引文件的生成方法,其特征是:1.维吾尔语倒排索引的创建:为了提高基于实例的维吾尔语系统找相同实例句子的性能创建维吾尔语倒排索引,创建倒排索引时对维吾尔语句子的每一个单词进行词干提取;2.输出创建好的维吾尔语倒排索引文件:为了不依赖数据库软件,独立的设计维吾尔语倒排索引文件结构,并将维吾尔语倒排索引输出到符合该该文件中;3.检查创建的维吾尔语倒排索引文件的准确性:为了保证提供可靠地倒排索引文件,对创建的倒排索引文件进行检查,确保数据的正确性,可靠性; .4.加密维吾尔语倒排索引:为了防止非法人员的盗用稀缺的维吾尔语语料,对倒排索引文件进行加密,对维吾尔语倒排索引文件加密时,先对维吾尔语词干符合维吾尔语语言特征的字符替换,然后给特定的密钥进行加密;5.检查加密的维吾尔语倒排索引:对为了实际系统准确的解密并准去的使用解密以后的倒排索引文件信息,对加密的维吾尔语倒排索引文件进行检查,并输出检查结果供给使用者参考。
【文档编号】G06F17/30GK103902584SQ201210579947
【公开日】2014年7月2日 申请日期:2012年12月28日 优先权日:2012年12月28日
【发明者】尼加提·纳吉米, 买合木提·买买提, 帕肉克·司地克, 马斌 申请人:新疆电力信息通信有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1