一种汉语韵律词组词方法及装置的制作方法

文档序号:2829749阅读:277来源:国知局
专利名称:一种汉语韵律词组词方法及装置的制作方法
技术领域
本发明涉及汉语语音合成技术,特别涉及汉语语音合成系统中对汉语输 入句子进行韵律词组词的处理技术,具体的讲是一种汉语韵律词组词方法及 装置。
背景技术
当汉语中多个字组成词或词组而连续发音时,它们之间将会相互影响, 形成较独立、完整的韵律块,这些韵律块的韵律特征对语音的自然度起着非 常重要的作用,而不同韵律块组合在一起,往往可以形成不同的语调,使人 的发音具有不同的语气。 一般来说,汉语语音中主要韵律单元有韵律词、 韵律短语、语调短语。汉语的韵律是具有层次结构的,这种层次性的韵律结 构形成了汉语语音的节奏(韵律)。韵律单元的边界往往对应于语音中韵律 边界音节的停顿、基频变化或者音长变化。韵律是影响合成语音自然度和可 懂度的一个重要因素。在语音合成系统中,韵律结构为韵律参数预测模型提 供最重要的信息,通过对基频、音长、停顿等参数的预测,来达到控制语音 合成系统发音方式的目的,从而在合成语音中实现各级韵律单元的相应韵律 效果,使之发音自然、好听。
随着言语处理的不断深入,人们不但越来越需要了解自然话语的韵律结 构,而且力图寻找从文本预测韵律结构的方法,以便更加有效地提高合成语 音的自然度或语音识别的准确率,同时加深自然语言理解的程度。
韵律词指语音流中连续发音的一组音节,这些音节之间发音非常紧密且 其中没有听感上的停顿。韵律词是韵律层次结构中最低一级的要素, 一般来 说在韵律词边界有可感知的停顿。换句话说,在韵律词内部没有可感知的停 顿,而停顿只能出现在韵律词边界处。在真实的语音中,不是所有的韵律词
边界都有停顿。如果在韵律词边界有可感知的停顿是可接受的,但是,任何 韵律词内部的可感知的停顿会导致语音难以理解或者不自然。因此, 一个良 好的韵律词组词模块对于增加合成语音的自然度具有极其重要的意义。
在现有技术中,关于韵律词组词模块及其增加合成语音自然度的研究存 在多篇公开的论文和专利,例如
美国专利6,996,529 (Mimiis; Stephen; February 7, 2006, Speech synthesis with prosodic phrase boundary information);
美国专利6,173,262 (Hirschberg; Julia; January 9, 2001, Text-to-speech system with automatically trained phrasing rules );
美国专利6,003,005 (Hirschberg; Julia; December 14, 1999, Text-to-speech system and a method and apparatus for training the same based upon intonational feature annotations of input text );
美国专利5,850,629(Holm; Frode; Pearson; Steve; December 15, 1998, User interface controller for text-to-speech synthesizer);
美国专利6,978,239 (Chu; Min; Peng; Hu; December 20, 2005, Method and apparatus for speech synthesis without prosody modification );
文献,Shih, C. L., "The Prosodic Domain of Tone Sandhi in Mandarin Chinese", PhD Dissertation, UC San Diego, 1986;
文献,Chu M. and Qian Y., "Locating boundaries for prosodic constituents in unrestricted Mandarin texts", Journal of Computational Linguistics and Chinese Language Processing, 6(1), 61-82, 2001;
文献,Dong H., Tao丄and Xu b., "Prosodic word prediction using the lexical information", International Conference on Natural Language Processing and Knowledge Engineering, Wuhan, 2005;
文献,Shao Y., Han, J., Liu T. and Zhao Y., "Prosodic word boundaries prediction for Mandarin text-to-speech", International Symposium on Tonal
Aspects of Languages with Emphasis on Tone Languages, 159-162, Beijing, 2004;
文献,Dong M., Lua K.T. and Li H., "A probabilistic approach to prosodic word prediction for Mandarin Chinese TTS",她European Conference on Speech Communication and Technology, Lisbon, Portugal, 2005;
文献,Qin Shi and XiJun Ma, 2002. "Statistic prosody structure prediction", International Conference of the IEEE 2002 Workshop on Speech Synthesis, Santa Monica, Ca., 2002;
文献,Ying, Z., and Shi, X., "An RNN-based algorithm to detect prosodic phrase for Chinese TTS", International Conference on Acoustic, Speech and Signal Processing, 2001 。
上述专利文件和文献所公开的内容特被合并于此,作为本发明申请的现 有技术文件。
一般来说,汉语语音合成系统由三个模块组成,它们是文本分析模块、 韵律参数预测模块、后端合成模块。汉语文本分析模块包括分词、词性标注、 注音、韵律结构预测等。其中第一步就是分词。这是因为汉语文本与英语等 文本不同,在词与词之间没有空格作为分隔符来予以隔开。分词一般是基于
词类分析,即或体现一定的句法结构,也与韵律结构不完全相同。韵律结构 预测就是要找到一种有效的办法将文本内容映射为韵律结构,是为了建立从 文本到韵律特征(如停顿和语调)的预测模型以指导后续的韵律声学参数的 生成。
许多研究表明韵律词与词汇学中的词有很大的不同。原因之一就是韵律 词的形成不仅是基于词义而且也是基于语音的韵律需要。 一个韵律词可以包 含多于一个的词汇学上的词,也可以是相对比较长的词汇学上词的其中一部
分。分词和词性标注模块基于词汇学的知识对自然语言文本进行了分词和相 应的词性标注。
下面针对一个例句描述了文本分析模块的两个处理步骤,分词/词性标注 和韵律结构预测。如图1所示
输入文本"有一次,我们和外校搞联谊爬香山,我们的学生没有一个 掉队的,噌噌噌就爬上了山顶"。
分词和词性标注"有/v —/m次/q , /w我们/r和/p夕卜/f校 /Ng 搞/v 联谊/v 爬/v 香山/ns , /w 我们/r 的/u 学生/n 没有/v 一个/m个/q掉队/v 的/u , /w 噌噌噌/o 就/d爬/v 上/v 了/u 山顶 /n 。 /w "。
韵律结构"有/v —/m次/q III我们/r和/c |夕卜/f校/Ng ||搞/v联谊/v | 爬/v香山/nslH我们/r的/ul学生/nll没有/v —/m个/q |掉队/v的/u |||噌噌 噌/0||就/d爬/v上/v 了/ul山顶/nlH"。
其中,"l"表示韵律词边界,"II"表示韵律短语边界,"Hi"表示语调 短语边界。韵律短语边界和语调短语边界必然也是韵律词边界。韵律词组词 模块就是要在分词和词性标注的基础上进行韵律词边界的确定。另外,韵律 词组词也是更高层次韵律单元预测如韵律短语预测的基石。因此,韵律词组 词的好与坏对于合成语音的自然度有着极其重要的意义。
现有技术中,在汉语韵律词边界预测上提出了许多方法,如classification and regression tree(CART)方法、基于规则的方法,基于统计的方法和基于自 回归神经网络的方法等。在这些方法中,词性(Part of Speech, POS)和词长 信息被广泛采用。
总体来说,现有技术的韵律词边界预测的准确性不能说很高。边界预测 的错误类型通常分为两种 一种是插入型错误(insertion error),另外一种是 删除型错误(deletion error)。如前所说,在真实的语音中,不是所有的韵律 词边界都有停顿。如果在韵律词边界有可感知的停顿是可接受的,但是,任 何韵律词内部的可感知的停顿会导致语音难以理解或者不自然。因此,韵律 词组词模块引起的插入型错误会给合成语音带来很大的伤害。相反,删除型
错误给合成语音带来的伤害就会小许多。譬如上面例句中的最后一部分"蹭 蹭蹭就爬上了"的分词结果为"蹭蹭蹭就爬上了"(如图1所示)。其 中,词汇中的词"就"、"爬"、"上"和"了"均是单字词。它们应该被 组在一起成为一个完整的韵律词"就爬上了"。如果在韵律词层次,它们没 有被组在一起,那么合成语音中的这一段语音听起来会非常的不自然。在合 成语音中,它们在听感上像是逐字逐字地在发音并且其中有听感上的停顿。 这是因为韵律预测模型(基频预测和音长预测)对于当前音节是处于韵律词 边界还是韵律词内部非常敏感。相反,如果"就爬上了"作为一个韵律词, 它的基频曲线听起来就很自然,因为基频预测模型将会考虑更多的协同发 音。另外,音长模型也不会去拖长前三个音节"就"、"爬"和"上"的音 长,因为现在这三个音节的边界类型均属于韵律词内部类型。

发明内容
本发明的目的在于,提供一种汉语韵律词组词方法及装置,用以克服上 述的韵律词插入型错误会导致语音难以理解或者不自然的缺陷,减少韵律词 边界插入类型错误的数目。为了实现上述发明目的,本发明提供了 一种汉 语韵律词组词方法,所述方法包括以下步骤输入汉语文本;对输入的汉语 文本进行分词和词性标注处理,生成一初始的韵律词序列;在所述初始的韵 律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词 序列;根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅;根 据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅;删除所述隔 栅韵律词序列中实际需要删除的隔栅,并使剩余隔栅中的每两个隔栅之间的 词进行组词,生成韵律词。
对输入的汉语文本进行分词和词性标注处理生成分词结果,根据所述的 分词结果生成一初始的韵律词序列。
所述的根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅
是指根据多个韵律词组词手段对同一个隔栅韵律词序列中预备删除的隔栅 进行标注。
所述的根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅 是指根据多个韵律词组词手段综合判断预备删除的隔栅中实际需要删除的 隔栅。
所述的删除所述隔栅韵律词序列中实际需要删除的隔栅包括根据多个 韵律词组词手段对当前预备删除的隔栅进行综合判断,给出当前预备删除的 隔栅需要删除的置信度;根据所述的置信度判断当前预备删除的隔栅是否需
要删除,如果是则删除当前预备删除的隔栅。
本发明还提供了一种汉语韵律词组词装置,所述装置包括输入部,用 于输入汉语文本;分词和词性标注部,用于对输入的汉语文本进行分词和词 性标注处理,生成一初始的韵律词序列;韵律词隔栅插入部,用于在所述初 始的韵律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成一隔栅 韵律词序列;韵律词隔栅删除部,用于根据韵律词组词手段标注所述隔栅韵
律词序列中预备删除的隔栅;根据韵律词组词手段判断预备删除的隔栅中实 际需要删除的隔栅,删除所述隔栅韵律词序列中实际需要删除的隔栅;韵律 词生成部,用于使所述隔栅韵律词序列中剩余隔栅中的每两个隔栅之间的词 进行组词,生成韵律词。
所述装置还包括分词结果存储部,用于存储汉语文本分词和词性标注 处理后的分词结果,根据所述的分词结果生成一初始的韵律词序列。
所述的韵律词隔栅删除部包括多个韵律词组词手段单元,用于根据多个 韵律词组词手段对同一个隔栅韵律词序列中预备删除的隔栅进行标注。
所述的根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅 是指根据多个韵律词组词手段综合判断预备删除的隔栅中实际需要删除的 隔栅。
所述的韵律词隔栅删除部进一步包括隔栅删除置信度评价单元,根据
多个韵律词组词手段对当前预备删除的隔栅进行综合判断,给出当前预备删
除的隔栅需要删除的置信度;隔栅删除单元,根据所述的置信度判断当前预
备删除的隔栅是否需要删除,如果是则删除当前预备删除的隔栅。
所述装置还包括韵律词组词结果分析部,用于对所述韵律词生成部生 成的韵律词进行分析处理,生成韵律词组词分析结果。
本发明还提供一种汉语韵律词组词程序,所述程序包括输入汉语文本; 对输入的汉语文本进行分词和词性标注处理,生成一初始的韵律词序列;在
所述初始的韵律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成
一隔栅韵律词序列;根据韵律词组词手段标注所述隔栅韵律词序列中预备删
除的隔栅;根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔 栅;删除所述隔栅韵律词序列中实际需要删除的隔栅,并使剩余隔栅中的每 两个隔栅之间的词进行组词,生成韵律词。
本发明还提供一种存储汉语韵律词组词程序的可读存储介质,所述可读 存储介质存储有以下程序输入汉语文本;对输入的汉语文本进行分词和词 性标注处理,生成一初始的韵律词序列;在所述初始的韵律词序列中所有的 词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词序列;根据韵律词 组词手段标注所述隔栅韵律词序列中预备删除的隔栅;根据韵律词组词手段 判断预备删除的隔栅中实际需要删除的隔栅;删除所述隔栅韵律词序列中实 际需要删除的隔栅,并使剩余隔栅中的每两个隔栅之间的词进行组词,生成 韵律词。
本发明的有益效果是,通过采用隔栅删除策略,从而使得多个韵律词组 词手段能够一起协同工作。对输入自然语言文本的分词结果被视为一个初始 的韵律词序列,这里假设在所有的词边界上插入韵律词的隔栅。在这个基础 上,多个韵律词组词手段可以协同工作,因为每个韵律词组词方法均可以删 除它们各自认为在韵律词层面上不需要的隔栅。换句话说,如果任意一个韵 律词组词方法认为某个隔栅是不需要的,该隔栅即可被删除。本发明克服了
韵律词插入型错误而导致的语音难以理解或者不自然的缺陷,减少韵律词边 界插入类型错误的数目。本发明采用隔栅删除策略,从而使得多个韵律词组 词手段能够一起协同工作。这种架构使得一个新的韵律词组词方法很容易被 组合进来,利于系统的维护修改。


图1、为现有技术中文本的分词和词性标注及韵律结构示意图; 图2、为本发明装置结构框图; 图3、为本发明装置实施例的流程框图; 图4、为本发明的韵律词组词处理流程框图; 图5、为本发明的一栅隔删除处理流程框图; 图6、为本发明的另一栅隔删除处理流程框图。
具体实施例方式
下面结合

本发明的具体实施方式
。如图2所示,本发明为一种 汉语韵律词组词装置,所述装置包括输入部,用于输入汉语文本;分词和 词性标注部,用于对输入的汉语文本进行分词和词性标注处理,生成一初始 的韵律词序列;韵律词隔栅插入部,用于在所述初始的韵律词序列中所有的 词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词序列;韵律词隔栅 删除部,用于根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔 栅;根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅,删除 所述隔栅韵律词序列中实际需要删除的隔栅;韵律词生成部,用于使所述隔 栅韵律词序列中剩余隔栅中的每两个隔栅之间的词进行组词,生成韵律词。
所述装置还包括分词结果存储部,用于存储汉语文本分词和词性标注 处理后的分词结果,根据所述的分词结果生成一初始的韵律词序列。
所述的韵律词隔栅删除部进一步包括隔栅删除置信度评价单元,根据 多个韵律词组词手段对当前预备删除的隔栅进行综合判断,给出当前预备删
除的隔栅需要删除的置信度;隔栅删除单元,根据所述的置信度判断当前预
备删除的隔栅是否需要删除,如果是则删除当前预备删除的隔栅。
所述的韵律词隔栅删除部包括多个韵律词组词手段单元,用于根据多个 韵律词组词手段对同一个隔栅韵律词序列中预备删除的隔栅进行标注。所述 的根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅是指根 据多个韵律词组词手段综合判断预备删除的隔栅中实际需要删除的隔栅。
所述装置还包括韵律词组词结果分析部,用于对所述韵律词生成部生 成的韵律词进行分析处理,生成韵律词组词分析结果。
本发明可以在计算机、服务器或者计算机网络中实现,其中输入装置可 以是键盘、鼠标、通信接口等设备。
实施例
如图3所示,模块101为输入的任意文本。
分词和词性标记部(模块102)对输入文本进行分词和词性标注处理。 该模块是中文文本分析的基础,这是因为汉语文本与英语等文本不同,在词 与词之间没有空格作为分隔符来予以隔开。因此,首先需要对输入的文本进 行分词和词性标注处理,获得的结果写入模块103中,作为后续处理的基础。 在具体实施中,可将韵律词隔栅插入部、韵律词隔栅删除部和韵律词生 成部统一为一个韵律词组词部(模块104)即为本发明的主体部分。在其中, 该模块采用隔栅消除策略,从而可支持多个韵律词组词手段一起协同工作。 对输入文本的分词结果被视为一个初始的韵律词序列,这里假设在所有的词 边界上插入韵律词的隔栅。在这个基础上,多个韵律词组词手段协同工作, 对它们认为在韵律词层面上不需要的隔栅打上可消除标记。最后,统一判断 各个隔栅是否可以删除并进行实际的隔栅删除。 模块105为最终的韵律词组词分析结果。 图4详细描述了韵律词组词部(模块104)的处理流程。 模块201是韵律词初始化部,它根据模块103中存贮的分词和词性标注 结果进行韵律词的初始化。具体说来,就是把分词结果视为一个初始的韵律
词序列,并在所有的词边界上插入代表韵律词边界的隔栅。
模块202是根据韵律词组词手段1进行组词处理的模块。该模块202应 用韵律词组词手段1,以初始分词结果中的各个词为基本单元,进行韵律词 的组词。与此同时,在韵律词组词手段1中判定需要消除的隔栅将被模块203 (隔栅可消除标记部)打上可消除标记。
模块204至模块206为根据韵律词组词手段2至N进行组词处理的模 块。它们分别应用相应的韵律词组词手段2至N进行韵律词的组词。同时也 把在该韵律词组词归则中判定需要消除的隔栅在隔栅可消除标记部打上可消 除标记。该韵律词组词手段1至N可作为所述的韵律词隔栅删除部的组成部 分,S卩韵律词组词手段部;以根据多个韵律词组词手段对同一个隔栅韵律 词序列中预备删除的隔栅进行标注。
作为上述韵律词组词手段1至N的实施例,可采用
(1) 基于二叉韵律树的韵律词组词方法作为韵律词组词手段l:该韵律
词组词手段基于从一个大规模标注语料中训练得到的语言模型,对于一个输 入句子,通过递归二叉搜索来寻找最可能的语音停顿插入点,从而可以构造 出该句子对应的最优语音停顿二叉树。该二叉树可以称为韵律结构二叉树, 因为其中涵盖了层次性的语音停顿插入点信息。这个韵律结构二叉树将被作 为一个韵律词组词方法应用于基于隔栅删除策略的韵律词组词。拥有同一个 父结点的任意两个叶子结点之间的韵律词隔栅将被打上可删除标记。
(2) 基于统计概率的韵律词组词方法作为韵律词组词手段2,在该韵律 词组词手段中,词性(Part-of-Speech, POS)和词长信息被用来预测韵律词 的边界。该方法假设在预测韵律词的时候,词性信息和词长信息是独立无关 的。这样,任意两个语言学词之间可以被组成一个韵律词的概率由两部分组 成,即基于这两个词的词性考虑下被组韵律词的概率和基于这两个词词长 考虑下被组韵律词的概率。
(3) 基于规则的韵律词组词方法作为韵律词组词手段N(此例中N=3),针对一些经常使用的韵律词附着词等设计了相应的韵律词组词规则。在汉语 中,后缀词素"子、们、系、了"等,结构辅助词"的、得"、方位词"左 右、以后、以前、以上、以下、以内、以外、之后、之前、之上、之下、之 内、之夕卜、之间,,等以及趋向动词词组"起、至U、进、上、下"频繁出现在文 本中。这些词通常具有固定的韵律词组词模式,或者是在一定的条件T具有 固定的韵律词组词模式。例如"家长+们"、"走向+ 了世界"和"捣+—下" 等。如果这些词没有被正确地组词到适当的韵律词中,合成语音听起来会非 常的不自然。因此,可针对这些常用韵律附着词设计了有针对性地韵律词组 词规则,确保这些常用韵律附着词能够被正确地进行韵律词组词。
另夕卜,在汉语中动词有多种重叠形式,如"v — v" , "v 了 v"和"v 了-一v"("谈一谈","想了想","读了一读")。在分词处理中,它 们作为动词词组被切分开来,例如"谈i 一 i谈"。实际上,这些重叠形式 的动词词组在自然韵律上应该被视为一个完整的韵律词。因此,本文对于这 些动词重叠形式也设计了相应的韵律词组词规则以确保其被正确地组词为一 个韵律词。上述的多个韵律词组词手段共同作用于本发明的韵律词组词中。
模块207是隔栅去除部。该模块根据前面N种韵律词组词手段标记的隔 栅可消除标记进行综合判断,确定最终需要被删除的韵律词隔栅。最后,每 两个隔栅之间的词将被组词在一起,成为韵律词,分析结果存入模块208韵 律词组词分析结果中。
图5是隔栅去除部(模块207)的一个具体实现示例。
模块301负责遍历所有初始隔栅。
模块302负责检查有/无尚未被处理的隔栅。这里是个简单的顺序处理。 如果有未被处理的隔栅,将其交给模块303处理。如果全部处理完毕,结束。
模块303负责检查当前隔栅有没有被打上可消除标记,如发现当前隔栅 至少被其中一种韵律词组词方法打上可消除标记则转模块304。否则,转模 块301。
模块304是隔栅删除部,进行具体的隔栅删除工作。 图6是隔栅去除部(模块207)的一个更一般化的实现示例。其中与图5
的相同部分不再赘述。
模块401是隔栅删除置信度评价部。该模块根据N种韵律词组词方法对
当前隔栅是否可删除的标记,综合给出当前隔栅可删除的置信度。
模块402根据模块401的置信度评价结果,判断当前隔栅是否可删除。 如果可删除转模块304处理。否则,转模块301。
隔栅删除置信度评价部可以采用投票的机制来进行。 一个最简单的投票 机制可以是在N种韵律词组词手段中如果有一半以上的组词手段认为应该 删除当前隔栅,那么隔栅删除置信度评价部便认为当前隔栅应该被删除。
本发明通过釆用隔栅删除策略,从而使得多个韵律词组词手段能够一起 协同工作。对输入自然语言文本的分词结果被视为一个初始的韵律词序列, 这里假设在所有的词边界上插入韵律词的隔栅。在这个基础上,多个韵律词 组词手段可以协同工作,因为每个韵律词组词方法均可以删除它们各自认为 在韵律词层面上不需要的隔栅。换句话说,如果任意一个韵律词组词方法认 为某个隔栅是不需要的,该隔栅即可被删除。本发明通过减少韵律词边界插 入型错误的数目,尽量避免韵律词组词中插入型错误而导致的语音难以理解 或者不自然的缺陷,减少韵律词边界插入类型错误的数目。本发明采用隔栅 删除策略,从而使得多个韵律词组词手段能够一起协同工作。这种架构使得 -个新的韵律词组词方法很容易被组合进来,利于系统的维护修改。
以上具体实施方式
仅用于说明本发明,而非用于限定本发明。
权利要求
1.一种汉语韵律词组词方法,其特征是,所述方法包括以下步骤输入汉语文本;对输入的汉语文本进行分词和词性标注处理,生成一初始的韵律词序列;在所述初始的韵律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词序列;根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅;根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅;删除所述隔栅韵律词序列中实际需要删除的隔栅,并使剩余隔栅中的每两个隔栅之间的词进行组词,生成韵律词。
2.根据权利要求1所述的方法,其特征是,对输入的汉语文本进行分词和词性标注处理生成分词结果,根据所述的分词结果生成一初始的韵律词序列。
3. 根据权利要求1所述的方法,其特征是,所述的根据韵律词组词手段 标注所述隔栅韵律词序列中预备删除的隔栅是指根据多个韵律词组词手段 对同一个隔栅韵律词序列中预备删除的隔栅进行标注。
4. 根据权利要求1或3所述的方法,其特征是,所述的根据韵律词组词 手段判断预备删除的隔栅中实际需要删除的隔栅是指根据多个韵律词组词 手段综合判断预备删除的隔栅中实际需要删除的隔栅。
5. 根据权利要求4所述的方法,其特征是,所述的删除所述隔栅韵律词 序列中实际需要删除的隔栅包括根据多个韵律词组词手段对当前预备删除的隔栅进行综合判断,给出当 前预备删除的隔栅需要删除的置信度;根据所述的置信度判断当前预备删除的隔栅是否需要删除,如果是则删 除当前预备删除的隔栅。
6. —种汉语韵律词组词装置,其特征是,所述装置包括-输入部,用于输入汉语文本;分词和词性标注部,用于对输入的汉语文本进行分词和词性标注处理, 生成一初始的韵律词序列;韵律词隔栅插入部,用于在所述初始的韵律词序列中所有的词边界上插 入代表韵律词边界的隔栅,生成一隔栅韵律词序列;韵律词隔栅删除部,用于根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅;根据韵律词组词手段判断预备删除的隔栅中实际需要删 除的隔栅,删除所述隔栅韵律词序列中实际需要删除的隔栅;韵律词生成部,用于使所述隔栅韵律词序列中剩余隔栅中的每两个隔栅 之间的词进行组词,生成韵律词。
7. 根据权利要求6所述的装置,其特征是,所述装置还包括 分词结果存储部,用于存储汉语文本分词和词性标注处理后的分词结果,根据所述的分词结果生成一初始的韵律词序列。
8. 根据权利要求6所述的装置,其特征是,所述的韵律词隔栅删除部包 括多个韵律词组词手段单元,用于根据多个韵律词组词手段对同一个隔栅韵 律词序列中预备删除的隔栅进行标注。
9. 根据权利要求6或8所述的装置,其特征是,所述的根据韵律词组词 手段判断预备删除的隔栅中实际需要删除的隔栅是指根据多个韵律词组词 手段综合判断预备删除的隔栅中实际需要删除的隔栅。
10. 根据权利要求9所述的装置,其特征是,所述的韵律词隔栅删除部 进一步包括隔栅删除置信度评价单元,根据多个韵律词组词手段对当前预备删除的 隔栅进行综合判断,给出当前预备删除的隔栅需要删除的置信度;隔栅删除单元,根据所述的置信度判断当前预备删除的隔栅是否需要删 除,如果是则删除当前预备删除的隔栅。
11. 根据权利要求6所述的装置,其特征是,所述装置还包括韵律词组词结果分析部,用于对所述韵律词生成部生成的韵律词进行分析处理,生成韵律词组词分析结果。
12. —种汉语韵律词组词程序,其特征是,所述程序包括 输入汉语文本;对输入的汉语文本进行分词和词性标注处理,生成一初始的韵律词序列;在所述初始的韵律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词序列;根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅;根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅;删除所述隔栅韵律词序列中实际需要删除的隔栅,并使剩余隔栅中的每两个隔栅之间的词进行组词,生成韵律词。
13. —种存储汉语韵律词组词程序的可读存储介质,其特征是,所述可读存储介质存储有以下程序输入汉语文本;对输入的汉语文本进行分词和词性标注处理,生成一初始的韵律词序列;在所述初始的韵律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词序列;根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅;根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅; 删除所述隔栅韵律词序列中实际需要删除的隔栅,并使剩余隔栅中的每两个隔栅之间的词进行组词,生成韵律词。
全文摘要
本发明为一种汉语韵律词组词方法及装置,所述方法包括输入汉语文本;对输入的汉语文本进行分词和词性标注处理,生成一初始的韵律词序列;在初始的韵律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词序列;根据韵律词组词手段标注隔栅韵律词序列中预备删除的隔栅;根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅;删除隔栅韵律词序列中实际需要删除的隔栅,并使剩余隔栅中的每两个隔栅之间的词进行组词,生成韵律词。通过减少韵律词边界插入型错误的数目,尽量避免韵律词组词中插入型错误而导致的语音难以理解或者不自然的缺陷,减少韵律词边界插入类型错误的数目。
文档编号G10L13/00GK101202041SQ200610167040
公开日2008年6月18日 申请日期2006年12月13日 优先权日2006年12月13日
发明者片江伸之, 庆 郭 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1