一种对中文句子输入法的优化系统及方法

文档序号:6334790阅读:334来源:国知局
专利名称:一种对中文句子输入法的优化系统及方法
技术领域
本发明涉及计算机的中文输入技术,特别涉及一种对中文句子输入法的优化系统及方法。
背景技术
目前,在计算机进行中文输入,出现了中文句子的输入。中文句子的输入就是计算机接收到用户输入的拼音串,将该拼音串翻译为对应的汉语句子。图1为现有技术的中文句子输入法的系统,包括输入法引擎模块、识别翻译模块、候选中文句子列表显示模块、选择模块及输出模块,其中,输入法引擎模块,用于按照设定的输入法解析得到用户输入的拼音串,发送给识别翻译模块;识别翻译模块,用于对输入法引擎模块输入的拼音串,进行识别翻译后,得到多个候选的中文句子,根据某种策略,比如依据汉语语言模型评分,进行排序,得到对应的候选中文句子列表,发送给候选中文句子列表显示模块;候选中文句子列表显示模块,用于显示候选中文句子列表,由选择模块控制选择得到一个中文句子,通过输出模块输出;选择模块,用于选择候选中文句子列表显示模块中的一个最符合用户要求的中文句子。在这个系统中,识别翻译模块是至关重要的,其作用实际上就是拼音串到中文句子的转换过程,可以采用噪声信道模型进行描述H = arg max Ρ(Η | Γ) = arg max (F 1 H,l耶) arg max P(F | H) P(付)公式⑴
HHP(7)H在公式(1)中,Y表示汉语拼音串,H表示汉字串。通常为了方便,称P(YlH)为音-字转换模型,称P(H)为汉语的语言模型。在中文句子的输入过程中,由于汉语中同音字及多音字很多,而且通常输入的拼音串不带音调,一个拼音对应很多汉字,所以一个拼音串对应的字就可以组合出很多的候选中文句子。为了从无数的候选中文句子中选择可能性最高的候选中文句子列表,就需要搜索过程,由于汉字组词灵活,搜索空间非常大,为了满足用户对响应时间的要求,搜索过程中就会不断剪枝,最后只能给出可能性最高的一个候选中文句子列表供用户选择,通常这种候选中文句子列表为n-best,表示最好的前η个候选中文句子。虽然现有的中文句子输入法的系统在生成候选中文句子列表的过程中采用了一些技术手段,比如采用公式(1)根据设置的汉语语言模型对候选中文句子进行翻译,但是还有如下问题1)对于一些因素或特征,比如语言模型,对候选中文句子的排序有很大影响,但是由于受响应时间或技术限制,更高阶的语言模型不能用来对候选中文句子进行排序;2)识别翻译模块使用的汉语语言模型和音-字转换模型都是采用设定的训练工具利用大众语料库训练出来的,由于大众语料库中汉语词汇和表达都很丰富,考虑到响应用户的时间要求,采用的短语的长度及模型的阶数都比较小,从而影响了对候选中文句子排序的准确性;3)识别翻译模块采用的汉语语言模型和音-字转换模型无法对中文句子的语法、 语义进行约束,所以会影响对候选中文句子排序的准确性。综上,采用现有技术提供的系统对候选中文句子的排序准确性不高,需要用户通过选择模块经过繁琐的选择后才能得到需要的中文句子,降低了效率和体验度。

发明内容
有鉴于此,本发明提供一种对中文句子输入法的优化系统,该系统能够引入额外特征优化候选的中文句子列表,提高候选的中文句子列表准确性。本发明还提供一种对中文句子输入法的优化方法,该方法能够引入额外特征优化候选的中文句子列表,提高候选的中文句子列表准确性。为达到上述目的,本发明实施的技术方案具体是这样实现的一种对中文句子输入法的优化系统,该系统包括输入法引擎模块、识别模块、重排序模块、候选中文句子列表显示模块、选择模块及输出模块,其中,输入法引擎模块,用于解析得到输入的拼音串,发送给识别模块;识别模块,用于对接收的拼音串,进行识别翻译后,得到多个候选的中文句子,发送给重排序模块;重排序模块,用于接收多个候选中文句子,对每个中文句子,根据生成的资源文件计算得到反应语言习惯、语法和语义的特征向量,与所训练的特征权重进行内积运算,得到每个中文句子的评分,根据各个中文句子的评分高低对多个候选中文句子排序,得到候选中文句子列表,发送给候选中文句子列表显示模块;候选中文句子列表显示模块,用于显示候选中文句子列表,由选择模块控制选择得到一个中文句子,通过输出模块输出;选择模块,用于选择候选中文句子列表显示模块中的一个最符合用户要求的中文句子。所述识别模块,还用于在得到多个候选的中文句子之后,发送给重排序模块之前对候选中文句子列表进行排序。所述系统还包括资源文件库和提供特征权重模块,其中,资源文件库,用于生成音-字转换表、互信息表、汉语语言模型和词性标注语言模型,提供给重排序模块;提供特征权重模块,用于生成特征权重,提供给重排序模块;重排序模块,对于每一个要排序的中文句子,还用于根据原排序得到基系统特征值,根据互信息表计算得到候选句子的互信息,根据音-字转换表得到词语字音转换概率、 逆向词语字音转换概率、字音转换概率和逆向字音转换概率,根据汉语语言模型计算得到候选句子的语言模型评分,根据词性标注语言模型计算得到候选句子的词性标注语言模型评分,根据中文句子的短语个数得到候选句子长度,然后再将所得到的特征向量与特征权重求内积,得到每个中文句子的评分,根据各个中文句子的评分高低对多个候选中文句子
5排序,得到候选中文句子列表,发送给候选中文句子列表显示模块。一种对中文句子输入法的优化方法,该方法包括生成计算特征向量所需的资源文件,训练特征权重,利用特征权重和表示候选句子的特征向量对候选句子进行评分,具体为将用户输入的拼音串进行识别翻译后,得到多个候选的中文句子;对每个中文句子,根据生成的资源文件计算得到反应语言习惯、语法和语义的特征向量,与所训练的特征权重进行内积运算,得到每个中文句子的评分,根据评分高低对多个候选中文句子进行排序,得到候选中文句子列表,提供给用户;根据用户的选择从候选中文句子列表中选择得到一个中文句子,输出。所述资源文件包括音-字转换表、互信息表、汉语语言模型和词性标注语言模型中的一种或多种组合,所述资源文件和所述特征权重采用同分布的汉语语言资源得到。所述特征向量的分量为以下一个或多个特征的组合基系统特征、互信息、词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率、汉语语言模型、词性标注语言模型和候选句子长度。其中,根据原排序的倒数得到基系统特征值,根据互信息表计算得到候选句子的互信息,根据音-字转换表得到词语字音转换概率、逆向词语字音转换概率、字音转换概率和逆向字音转换概率,根据汉语语言模型计算得到候选句子的语言模型评分,根据词性标注语言模型计算得到候选句子的词性标注语言模型评分,根据中文句子的短语个数得到候选句子长度,然后再将所得到的特征向量与特征权重求内积,得到每个中文句子的评分,根据各个中文句子的评分高低对多个候选中文句子排序,得到候选中文句子列表。由上述技术方案可见,本发明在得到多个候选的中文句子后,对于每个中文句子计算得到反应语言习惯、语法和语义的特征向量后,与所训练的特征权重进行内积运算后, 得到每个中文句子的评分,根据各个中文句子的评分对多个候选中文句子进行排序后,通过候选中文句子列表显示模块显示。由于采用本发明提供的排序方法得到的候选中文句子列表顺序是按照更符合用户语言习惯、语法和语义特征进行顺序排列的,从而优化候选的中文句子列表,提高候选的中文句子列表准确性。


图1为现有技术的中文句子输入法的系统示意图;图2为本发明提供的对中文句子输入法的优化系统示意图;图3为本发明提供的对中文句子输入法的优化系统实施例示意图;图4为本发明提供的对中文句子输入法的优化方法流程图。
具体实施例方式为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明作进一步详细说明。从背景技术可以看出,中文句子输入法系统中的候选中文句子列表显示模块输出的候选中文句子列表顺序准确性不高,使得用户首次选择命中率比较低,增加用户选择的次数的原因为在进行候选中文句子列表的排列过程中,只根据设置的汉语语言模型进行排序,而没有对中文句子的语言习惯、语法和语义特征进行考虑。因此,本发明针对中文的语言习惯、语法和语义特征,采用同分布的汉语语言资源生成资源文件并训练特征权重,在得到多个候选的中文句子后,对于每个中文句子,根据资源文件计算得到反应语言习惯、语法和语义的特征向量后,与所训练的特征权重进行内积运算后,得到中文句子的评分,根据各个候选中文句子的评分对多个候选中文句子进行排序后,通过候选中文句子列表显示模块显示。由于采用本发明提供的排序方法得到的候选中文句子列表顺序是按照更符合用户语言习惯、语法和语义特征进行顺序排列的,从而优化候选的中文句子列表,提高候选的中文句子列表准确性。在该实施例中,对每一个候选中文句子,计算得到的特征向量的分量为以下一个或多个特征值的组合基系统特征值、词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率、互信息、汉语语言模型、词性标注语言模型和候选句子长度。其中,互信息用于衡量候选句子中的长距离依赖和语义一致性,词语字音转换概率用于衡量词语的汉字串转换成其拼音串的可能性,逆向词语字音转换概率用于衡量从词语的拼音串转换成该词语汉字串的可能性,字音转换概率用于衡量词语中的汉字转换其拼音的可能性,逆向字音转换概率用于衡量词语中的拼音转换为其汉字的可能性,汉语语言模型用于衡量候选中文句子的流利度,词性标注语言模型用于衡量候选中文句子符合语法的程度。逆向词语字音转换概率、字音转换概率和逆向字音转换概率反应了中文句子的拼音和汉字之间转换的准确性,可以依据音-字转换表得到。互信息、汉语语言模型、词性标注语言模型和候选句子长度表明了中文句子的语法和语义习惯,互信息可以根据生成的互信息表计算得到,汉语语言模型、词性标注语言模型分别需要汉语语言模型和用汉语词性标注语料训练的词性标注语言模型得到,基系统特征可采用候选中文句子序号的倒数间接得到,从而不需要资源文件。词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率、 互信息及候选句子长度需要对候选中文句子进行分词,词性标注语言模型则需要对候选中文句子进行分词和词性标注。图2为本发明提供的对中文句子输入法的优化系统,包括输入法引擎模块、识别模块、重排序模块、候选中文句子列表显示模块、选择模块及输出模块,其中,输入法引擎模块,用于按照设定的输入法解析得到用户输入的拼音串,发送给识别模块;识别模块,用于对输入法引擎模块输入的拼音串,进行识别翻译后,得到多个候选的中文句子,发送给重排序模块;重排序模块,用于接收识别模块发送的多个候选中文句子,对于每个中文句子,根据资源文件计算得到反应语言习惯、语法和语义的特征向量,与所训练的特征权重进行内积运算,得到每个中文句子的评分,根据各个中文句子的评分对多个候选中文句子进行排序,得到候选中文句子列表,发送给候选中文句子列表显示模块;候选中文句子列表显示模块,用于显示候选中文句子列表,由选择模块控制选择得到一个中文句子,通过输出模块输出;
选择模块,用于选择候选中文句子列表显示模块中的一个最符合用户要求的中文句子。在本发明中,识别模块也可以采用现有的识别翻译模块,在得到多个候选的中文句子后,根据某种策略,比如依据语言模型评分,进行排序,得到对应的候选中文句子列表, 发送给重排序模块,由重排序模块引入额外特征对候选中文句子列表进行再次的重排序。 这样,本发明就是在图1所示的系统基础上增加了重排序模块,根据汉语的语言习惯、语法和语义对候选中文句子列表再次进行重新排序。在本发明中,重排序模块需要使用特征权重及资源文件,如图3所示,资源文件库、提供特征权重的模块为重排序模块提供资源文件及特征权重,而资源文件库中的资源文件及提供特征权重模块中的特征权重则是由同分布的汉语语言资源库提供的。具体地,汉语语言资源库,用于根据汉语语言资源,比如采用《人民日报》中的汉语句子,生成用于生成源文件的第一语料和生成特征权重的第二语料,分别提供给资源文件库及提供特征权重模块;资源文件库,用于根据第一语料分别生成音-字转换表资源文件、互信息表资源文件、汉语语言模型资源文件和词性标注语言模型资源文件,提供给重排序模块;提供特征权重模块,用于根据第二语料生成特征权重,提供给重排序模块;重排序模块,具体对于每一个要排序的中文句子,根据原排序得到基系统特征值, 根据互信息表计算得到候选句子的互信息,根据音-字转换表得到词语字音转换概率、逆向词语字音转换概率、字音转换概率和逆向字音转换概率,根据汉语语言模型计算得到对候选句子的语言模型评分,根据词性标注语言模型计算得到对候选句子的词性标注语言模型评分,根据中文句子的短语个数得到候选句子长度,然后再将所得到的特征向量与特征权重求内积,就得到了该中文句子的综合评分,按照评分的高低对多个候选中文句子进行排序,就可以得到最终的候选中文句子列表。在该实施例中,得到的特征的分量可以为上述的一个或多个特征的组合,这里不
再限定。在该实施例中,在具体进行汉语整句的重排序过程中,不用包括汉语语言资源库, 而是利用根据汉语语言资源在资源文件库中生成得到的资源文件,并在提供特征权重模块保存了所训练的特征权重。图4为本发明提供的对中文句子输入法的优化方法流程图,预先采用同分布的汉语语言资源训练特征权重及用于计算反应汉语语言习惯、语法和语义特征的资源文件,该方法还包括步骤401、中文句子输入法系统接收到用户输入的拼音串;步骤402、中文句子输入法系统将用户输入的拼音串进行识别翻译后,得到多个候选的中文句子;步骤403、中文句子输入法系统对于每个中文句子,根据准备的资源文件计算得到反应语言习惯、语法和语义的特征向量,与所训练的特征权重进行内积运算,得到每个中文句子的评分,根据评分高低对多个候选中文句子进行排序,得到候选中文句子列表,提供给用户;步骤404、中文句子输入法系统根据用户的选择从候选中文句子列表中选择得到一个中文句子,输出。以下结合具体实施例对如何得到反应汉语的语言习惯、语法和语义的源文件进行详细说明。准备第一语料第一语料是根据汉语语言资源得到的拼音-汉字句对,用于生成音-字转换表、互信息表、汉语语言模型及词性标注语言模型。准备第一语料的过程为第一步骤,从汉语语言资源,比如《人民日报》中随机抽取汉语句子,一句一行存储,作为文档a;第二步骤,将文档a中的汉语句子注音,将拼音一句一行存入文档b,文档b中每一行拼音和文档a中对应行的句子一一对应;第三步骤,从文档b中随机抽取约1000个句子串,一句一行,构成文档ΙΛ,然后从文档a和文档b中删除出现在文档ΙΛ中的句子;第四步骤,对已经删除文档ΙΛ中句子的文档a中的句子进行词语切分,采用空格隔开;第五步骤,根据已经删除文档ΙΛ中句子的文档a的分词,对已经删除文档ΙΛ中句子的文档b中对应拼音串进行相应分词,使得词语中字的拼音顺序连在一起,不同词语的拼音串用空格隔开,得到最终文档a和最终文档b。举一个例子说明已经删除文档ΙΛ中句子的文档a中的句子她是一个美丽的小姑娘。已经删除文档ΙΛ中句子的文档b中对应该句子的拼音串ta shi yigemei'li de xiao gu’ niarigo根据第一语料生成音-字转换表资源文件具体过程为第一步骤,顺序读取第一语料的最终文档a和最终文档b中的句子,组成句对;第二步骤,统计在最终文档a内句对中字和词的音-字转换次数,结果记录在设置的第一临时文件tempi中;第三步骤,继续执行第一步骤和第二步骤,直到将最终文档a和最终文档b中的句对都处理完;第四步骤,根据第一临时文件tempi中记录的音-字转换次数计算词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率,并将计算结果取以10为底的对数后与词语对一起存储,作为音-字转换表资源文件。在该过程中,第一临时文件tempi中数据格式为:ta | |她| | | 15579 ;ta'men | |她们| | 6891 ; 其中,第一个为最终文档b中的拼音串,第二个为最终文档a中对应的词语,第三个为对应的音-字转换次数;计算词语字音转换概率及逆向词语字音转换概率的公式为
权利要求
1.一种对中文句子输入法的优化系统,其特征在于,该系统包括输入法引擎模块、识别模块、重排序模块、候选中文句子列表显示模块、选择模块及输出模块,其中,输入法引擎模块,用于解析得到输入的拼音串,发送给识别模块;识别模块,用于对接收的拼音串,进行识别翻译后,得到多个候选的中文句子,发送给重排序模块;重排序模块,用于接收多个候选中文句子,对每个中文句子,根据生成的资源文件计算得到反应语言习惯、语法和语义的特征向量,与所训练的特征权重进行内积运算,得到每个中文句子的评分,根据各个中文句子的评分高低对多个候选中文句子排序,得到候选中文句子列表,发送给候选中文句子列表显示模块;候选中文句子列表显示模块,用于显示候选中文句子列表,由选择模块控制选择得到一个中文句子,通过输出模块输出;选择模块,用于选择候选中文句子列表显示模块中的一个最符合用户要求的中文句子。
2.如权利要求1所述的系统,其特征在于,所述识别模块,还用于在得到多个候选的中文句子之后,发送给重排序模块之前对候选中文句子列表进行排序。
3.如权利要求1所述的系统,其特征在于,所述系统还包括资源文件库和提供特征权重模块,其中,资源文件库,用于生成音-字转换表、互信息表、汉语语言模型和词性标注语言模型, 提供给重排序模块;提供特征权重模块,用于生成特征权重,提供给重排序模块;重排序模块,对于每一个要排序的中文句子,还用于根据原排序得到基系统特征值, 根据互信息表计算得到候选句子的互信息,根据音-字转换表得到词语字音转换概率、逆向词语字音转换概率、字音转换概率和逆向字音转换概率,根据汉语语言模型计算得到候选句子的语言模型评分,根据词性标注语言模型计算得到候选句子的词性标注语言模型评分,根据中文句子的短语个数得到候选句子长度,然后再将所得到的特征向量与特征权重求内积,得到每个中文句子的评分,根据各个中文句子的评分高低对多个候选中文句子排序,得到候选中文句子列表,发送给候选中文句子列表显示模块。
4.一种对中文句子输入法的优化方法,其特征在于,该方法包括生成计算特征向量所需的资源文件,训练特征权重,利用特征权重和表示候选句子的特征向量对候选句子进行评分,具体为将用户输入的拼音串进行识别翻译后,得到多个候选的中文句子;对每个中文句子,根据生成的资源文件计算得到反应语言习惯、语法和语义的特征向量,与所训练的特征权重进行内积运算,得到每个中文句子的评分,根据评分高低对多个候选中文句子进行排序,得到候选中文句子列表,提供给用户;根据用户的选择从候选中文句子列表中选择得到一个中文句子,输出。
5.如权利要求1所述的方法,其特征在于,所述资源文件包括音-字转换表、互信息表、汉语语言模型和词性标注语言模型中的一种或多种组合,所述资源文件和所述特征权重采用同分布的汉语语言资源得到。
6.如权利要求5所述的方法,其特征在于,所述特征向量的分量为以下一个或多个特征的组合基系统特征、互信息、词语字音转换概率、逆向词语字音转换概率、字音转换概率、逆向字音转换概率、汉语语言模型、词性标注语言模型和候选句子长度。其中,根据原排序的倒数得到基系统特征值,根据互信息表计算得到候选句子的互信息,根据音-字转换表得到词语字音转换概率、逆向词语字音转换概率、字音转换概率和逆向字音转换概率,根据汉语语言模型计算得到候选句子的语言模型评分,根据词性标注语言模型计算得到候选句子的词性标注语言模型评分,根据中文句子的短语个数得到候选句子长度,然后再将所得到的特征向量与特征权重求内积,得到每个中文句子的评分,根据各个中文句子的评分高低对多个候选中文句子排序,得到候选中文句子列表。
全文摘要
本发明公开了一种对中文句子输入法的优化系统及方法,在得到多个候选的中文句子后,对于每个中文句子计算所选特征的特征向量,得到反应语言习惯、语法和语义的特征向量,然后与所训练的特征权重进行内积运算,得到每个中文句子的评分,根据各个中文句子的评分对多个候选中文句子进行排序后,通过候选中文句子列表显示模块显示。由于采用本发明提供的排序方法得到的候选中文句子列表顺序是按照更符合用户语言习惯、语法和语义特征进行顺序排列的,从而优化候选的中文句子列表,提高候选的中文句子列表准确性。
文档编号G06F3/023GK102455786SQ20101052695
公开日2012年5月16日 申请日期2010年10月25日 优先权日2010年10月25日
发明者万磊, 周志彬, 周进华, 孙国勇, 赵丹尼, 陆灿江, 颜晓蔚 申请人:三星电子(中国)研发中心, 三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1