汉语音字转换方法及系统、区分性词典的构建方法

文档序号:6371616阅读:144来源:国知局
专利名称:汉语音字转换方法及系统、区分性词典的构建方法
技术领域
本发明涉及音字转换技术领域,特别涉及一种基于区分性词典的汉语音字转换方法及系统、区分性词典的构建方法。
背景技术
拼音是中文汉字的音素串。在很多系统中,拼音到汉字的转换都是其组成的关键部分,如中文的键盘输入,中文的语音识别系统等。由于在中文中大概只有410个不带调拼音,而与其对应的汉字则有6700个,所以如何从同一个拼音中选出其正确的对应汉字,便成了目前的一个研究课题。目前来看,解决该问题的最好的办法之一是利用统计语言模型来消除同音字词所 带来的歧义。统计语言模型的构建,需要解决两个重要的问题1.词典的选择;2.模型参数的优化。以最常用的三元统计模型为例,可以把词典的选择分为有监督和非监督两类。有监督的方法中词典的构建主要是通过手工编制的。然而中文并没有统一标准的词典,语言学家也许会对上万个词条达成一致,但是其余的字词则会引起很大的争议。由于这个原因,大量的非监督词典构建方法被提出,其中包括了最大似然法词典的构建,基于互信息词典的构建等。与手工词典相比,这些方法证明基于数据驱动的词典构建法在具体应用中,具有同样的可行性,且更节约成本。对于语言模型的参数优化问题,学者在过去几十年,主要依据的优化准则是最大似然或最小困惑度。在最近几年,为了提高中文语音识别的正确率,一些学者提出区分性训练的方法来优化语言模型。该方法的核心思想为候选字词的相对概率在音字转换中比绝对概率得分更具有对同音字词消歧的作用。在语言模型的训练过程中,根据音字转换的结果来不断调整模型的参数。但是在实现本发明的过程中,发明人发现现有技术的缺陷在于在上述传统的方法中,词典的构建主要是通过手工编制,或者从文本中直接获取,词典的构建并没有考虑到拼音串的信息,不能进一步提高音字转换的正确率。下面列出了对于理解本发明和常规技术有益的文献,通过引用将它们并入本文中,如同在本文中完全阐明了一样。参考文献I
Jianfeng Gao, Hai-Feng Wang, Mingjing Li, and Kai-FuLee, “A Unified Approach to Statistical Language Modeling for Chinese,,,IEEEICASSP2000, Istanbul, Turkey.June 5-9, 2000.参考文献2Lingyun Pan and Changsheng Yang, “An Auto-systemFor Converting HANYUPINYIN to Chinese Characters,,,Journal ofComputer, 13(4) : 271-275.参考文献3Ruiqiang Zhang, Zuoying Wang and Jianping Zhang, “ChinesePinyin-to-Text Translation Technique with Error Correction Used for ContinuousSpeech Recognition,,,Journal ofTsinghua University(Sci&Tech), 37(10):9-11, 1997.
参考文献4Ando,R.and Lee, “Mostly-unsupervised StatisticalSegmentation of Japanese:Application to Kanji,,,ANLP-NAACL. 2000.参考文献5Fuchun Peng, Dale Schuurmans, “Self-Supervised Chinese WordSegmentation,,,Proceedings of the 4th International Conference on Advances inIntelligent Data Analysis,p. 238-247, September 13-15, 2001.参考文献6ZhengChen, Kai-Fu Lee, Ming-jing Li, “Discriminative trainingon language model”,In Proc. ISCSLP 2000,Beijing, China, Oct 2000.参考文献7Hong-Kwang Jeff Kuo, et al “Discriminative Training ofLanguage Models for Speech Recognition,,,IEEE, ICASSP 2002, Orlando, Florida.参考文献8Jinsong Zhang, Wei Li, Yuxia Hou, Wen Cao, Ziyu Xiong, “AStudy On Functional Loads of Phonetic Contrasts Under Context Based On Mutual Information of Chinese Text And Phonemes,,,The 7th International Symposium onChinese Spoken Language Processing (ISCSLP), Tainan, Nov. 2010.参考文献9http: //www.speech.sri.com/projects/srilm/

发明内容
本发明实施例提供一种汉语音字的转换方法及系统、区分性词典的构建方法,目的在于进一步提高音字转换的正确率。根据本发明实施例的一个方面,提供一种汉语音字转换方法,基于区分性词典;所述汉语音字转换方法包括根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换。根据本发明实施例的又一个方面,提供一种区分性词典的构建方法,所述构建方法包括根据训练拼音串和初始词典构建字词网格,并用统计语言模型对所述字词网格进行解码以获得不同的拼音切换方式;从所述不同的拼音切换方式中确定互信息最大的拼音切换方式;根据所述互信息最大的拼音切换方式切割与所述训练的拼音串对应的文本,并统计切割后的文本以获得新的词典。根据本发明实施例的又一个方面,提供一种汉语音字转换系统,基于区分性词典;所述汉语音字转换系统包括第一生成单元,根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;路径获得单元,根据统计语言模型对所述字词网格解码,得到概率最大的转换路径以实现汉语音字的转换。本发明实施例的有益效果在于,通过基于文本与拼音的互信息而构建的区分性词典,来实现汉语音字的转换,可以进一步提高音字转换的正确率。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中图I是本发明实施例的转换方法的流程图;图2是本发明实施例的文本-拼音-文本传输模型的示意图; 图3是本发明实施例的解码过程的一个示例图;图4是本发明实施例的构建区分性词典的一个流程示意图;
图5是本发明实施例的构建区分性词典的又一个流程示意图;图6是本发明实施例的实验结果的一个示意图;图7是本发明实施例的实验结果的另一个示意图;图8是本发明实施例的汉语音字转换系统的构成示意图;图9是本发明实施例的词典构建单元的构成示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例作进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。实施例I本发明实施例提供一种基于区分性词典的汉语音字转换方法。图I是本发明实施例的转换方法的流程图,如图I所示,该汉语音字转换方法包括步骤101,根据输入的拼音串以及预先构建的区分性词典,生成与拼音串对应的字词网格;其中区分性词典基于文本与拼音的互信息而构建;步骤102,根据统计语言模型对字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换。在本实施例中,可以通过不断最大化拼音串和与其对应的文本的互信息来自动获得具有较强区分性的词典。在音字转换的过程中,首先根据给定的拼音串和词典生成与其对应的字词网格,然后再根据统计语言模型,对其动态解码,得到概率最大的转换路径。在本实施例中,如果在词典的构建过程中,把拼音与文本间的信息考虑进去,将会有助于音字转换率的提高。例如,给定拼音串“xiang wo men zhe yang de nian qingren”,在使用二元统计语言模型,传统词典的系统中转换结果为“向我们这样的年轻人”,而正确结果为“像我们这样的年轻人”。本发明可以通过向传统词典中加入词条“像我们”来避免此类错误,加入词条的过程在本发明中是完全基于数据驱动自动完成的,它的加入准则为拼音与其对应文本间的互信息。图2是本发明实施例的文本-拼音-文本传输模型的示意图,可以将音字转换过程形式化为信息解码的过程。如图2所示,W代表了一种语言,以文本形式进行标示,F带表了与其对应的拼音串,从F到W的转换描述了从拼音序列到汉字序列的转换,这个转换过程需要用到的高层知识包括词典和统计语言模型。给定一个拼音串,采用不同的词典和统计语言模型对其解码,也许将会得到不同的汉字串Wl, 2。最优的词典将会使W=Wi,词典的选择决定了最优拼首串的切分,可以用以下公式来描述最优的拼音串
权利要求
1.一种汉语音字转换方法,基于区分性词典;其特征在于,所述汉语音字转换方法包括 根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建; 根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换。
2.根据权利要求I所述的汉语音字转换方法,其中,所述汉语音字转换方法还包括通过文本和拼音的互信息调整语句中所有可能的字词边界,来构建所述区分性词典。
3.根据权利要求2所述的汉语音字转换方法,其中,通过文本和拼音的互信息调整语句中所有可能的字词边界,来构建所述区分性词典具体包括 根据训练拼音串和初始词典构建字词网格,并用统计语言模型对所述字词网格进行解码以获得不同的拼音切换方式;从所述不同的拼音切换方式中确定互信息最大的拼音切换方式; 根据所述互信息最大的拼音切换方式切割与所述训练拼音串对应的文本,并统计切割后的文本以获得新的词典。
4.根据权利要求3所述的汉语音字转换方法,其中,通过文本和拼音的互信息调整语句中所有可能的字词边界,来构建所述区分性词典具体还包括对所述训练拼音串和文本间的互信息进行评估; 若评估出的互信息的变化超过预设阈值,则选择新的训练拼音串对所述新的词典进行迭代训练。
5.—种区分性词典的构建方法,其特征在于,所述构建方法包括 根据训练拼音串和初始词典构建字词网格,并用统计语言模型对所述字词网格进行解码以获得不同的拼音切换方式; 从所述不同的拼音切换方式中确定互信息最大的拼音切换方式; 根据所述互信息最大的拼音切换方式切割与所述训练的拼音串对应的文本,并统计切割后的文本以获得新的词典。
6.根据权利要求5所述的构建方法,其中,所述构建方法还包括 对所述训练拼音串和文本间的互信息进行评估; 若评估出的互信息的变化超过预设阈值,则选择新的训练拼音串对所述新的词典进行迭代训练。
7.一种汉语音字转换系统,基于区分性词典;其特征在于,所述汉语音字转换系统包括 第一生成单元,根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建; 路径获得单元,根据统计语言模型对所述字词网格解码,得到概率最大的转换路径以实现汉语音字的转换。
8.根据权利要求7所述的汉语音字转换系统,其中,所述汉语音字转换系统还包括 词典构建单元,通过文本和拼音的互信息调整语句中所有可能的字词边界,来构建所述区分性词典。
9.根据权利要求7所述的汉语音字转换系统,其中,所述词典构建单元具体包括 第二生成单元,根据训练拼音串和初始词典构建字词网格,并用统计语言模型对所述字词网格进行解码以获得不同的拼音切换方式; 方式确定单兀,从所述不同的拼音切换方式中确定互信息最大的拼音切换方式;文本切割单元,根据所述互信息最大的拼音切换方式切割与所述训练拼音串对应的文本,并统计切割后的文本以获得新的词典。
10.根据权利要求7所述的汉语音字转换系统,其中,所述词典构建单元具体还包括 信息评估单元,对所述训练拼音串和文本间的互信息进行评估; 迭代判断单元,若评估出的互信息的变化超过预设阈值,则选择新的训练拼音串对所述新的词典进行迭代训练。
全文摘要
本发明实施例提供一种汉语音字转换方法以及系统、区分性词典的构建方法;所述汉语音字转换方法包括根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换。通过本发明实施例,可以进一步提高音字转换的正确率。
文档编号G06F17/22GK102750267SQ20121020247
公开日2012年10月24日 申请日期2012年6月15日 优先权日2012年6月15日
发明者张劲松, 曹文, 李伟, 解焱陆 申请人:北京语言大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1