用于汉语语音识别系统的连续语音处理方法和装置的制作方法

文档序号：2834365阅读：298来源：国知局

专利名称：用于汉语语音识别系统的连续语音处理方法和装置的制作方法
技术领域：
本发明涉及一种连续语音处理方法和装置，用于判定合成语音的连续语音以获得好的音质。
以汉语为例，用于汉语语音合成系统的合成单位大体上分为两类(1)单音节(408种，不包括4个音调)和(2)音素(包括21个汉语拼音辅音和38个元音)。作为合成的单位，不管是单音节还是音素，一些因素，例如音素、音调、词组结构、在词组中的位置、在句子中的位置和前后连接的音素，合成单位的这些因素正确地判定每种合成单位的连续语音，而这些因素都对合成语音的自然相似程度有很大影响。
传统的用于汉语语音识别系统的连续语音处理方法和装置已经在R.O.C．上公开。专利申请号80100559，标题为“用于Text-to-speech system的连续语音处理方装置。”，图9是一个以图解说明的根据音素、音调和在句子中的位置确定连续语音的连续语音处理装置的方框图。如图9所示，110表示一个记忆部分，用于储存不同数据。120表示一个拼音句子输入部分，用于输入任何长度、由拼音标识和音调标识组成的拼音句子。130表示音节检查部分，用于检查从拼音句子输入部分120输入的带音调标识的句子的音节。150表示音节-音素查找储存部分，用于储存由每个音节组成的音素。140表示音素检查部分，用于使用音节-音素查找储存部分150在输入拼音的句子检查音素，并检查在句子中每个音素的位置。170表示连续语音的数值数据储存部分，用于储存根据音素的种类、音素的音调和句子中音素的位置来定义的连续语音计算数据。160表示连续语音的检查部分，用于计算音节的连续语音通过使用被检查音素的指定数目，每个音素的音调和每个音素在句子中的位置作为索引关键字从连续语音的数值数据储存部分170中检索每个音素的连续语音的数字数据。
如上所述的连续语音处理装置，只考虑了音素、音调和在句子中音素的位置。至于合成单位是否组成词组和在词组中其位置的影响对于连续语音也同样应被考虑。例如，在一个三字词组中，第二个字的连续语音是最短的，接下来是第一个字，而第三个字的连续语音是最长的。在例句“我爷爷最喜欢那张小桌子”中，“我爷爷”组成一个三字词组。由传统的连续语音处理装置生成的连续语音第一个“爷”字和第二个“爷”字大约都是339ms。然而，用声音记录装置测量自然语言发音的连续语音分别是275ms和302ms，从而，出现了一个相对较大的差异。因此，仅考虑音素、音调和在句子中音素的位置而得到的连续语音会导致合成语音质量的降低。
因此，本发明的主要目的是提供一种用于汉语语音识别系统的能克服前述的缺点的连续语音处理方法和装置。
根据本发明的第一方面，用汉语音素作为基本处理单元的汉语语音识别系统的连续语音处理方法，它包括构造一个用于储存汉语词汇和相关信息的词典。例如语音标识、词性、扩展语法等；构造一个用于储存信息的音节-音素查找部分。例如对于所有汉语音节对应每一个音节的音素指定的数目(包括辅音数目和元音数目)等；构造一个基本的连续语音储存部分，其中，该部分用于储存按音素分类的基本连续语音信息；构造一个连续语音参数储存部分，根据每一个属于音素的音节的音调，词组构成，在词组中的位置，在句子中的位置和关联音素的种类来储存连续语音参数；在一个任何长度的输入句子里通过与储存在词典中的词汇相比较检查每一个词汇的音节的位置；根据储存在词典中的语音标识生成每个被检查词汇的语音；参考词典检查每个被检查词汇的词性和扩展语法；根据扩展语法和相邻词汇的词性的关系把句子中的词汇组合成词组；用音调标识在生成的文字语音标识中检查每一个音节；参照音节-音素查找部分的信息，检查每个被检查音节的音素格式。
从基本的连续语音储存部分检索每个被检查音素的连续语音；并且从基本的连续语音和与音调、词组构成，词组中的位置，句子中的位置和被检查音素的前后相邻音素的种类等相关的参数中计算组成每个被检查音节的每个被检查音素，并且计算被检查音素的连续语音获得每个被检查音节的连续语音。
根据本发明的第二个方面，用汉语音节作为基本处理单元的汉语语音识别系统的连续语音处理方法，它包括下述步骤构造一个用于储存汉语词汇和相关信息的词典。例如语音标识、词性、扩展语法等；构造一个基本的连续语音储存部分，其中，该部分用于储存按音节分类的基本的连续语音信息。
构造一个连续语音参数储存部分，根据每一个音节的音调，词组构成，在词组中的位置，在句子中的位置和连接的音节的种类来储存连续语音参数；在一个任何长度的输入句子里通过与储存在词典中的词汇相比较检查每一个词汇的音节的位置；根据储存在词典中的语音标识生成每个被检查词汇的每个音节的语音；参考词典检查每个被检查词汇的词性和扩展语法；根据扩展语法和相邻词汇的词性的关系把句子中的词汇组合成词组；用音调标识在生成的文字语音标识中检查每一个音节；从基本的连续语音储存部分检索每个被检查音节的连续语音；并且从基本的连续语音和与音调、词组构成，词组中的位置，句子中的位置和被检查音节的前后相邻音节的种类等相关的参数中计算每个被检查音节了连续语音。
根据本发明的第三个方面，用汉语音素作为基本处理单元的汉语语音识别系统的连续语音处理装置，它包括一个词典，用于储存汉语词汇和相关信息。例如语音标识、词性、扩展语法等。
一个音节-音素查找部分，用于储存信息。例如对于所有汉语音节对应每一个音节的音素指定的数目(包括辅音指定数目和元音指定数目)等；一个基本的连续语音储存部分，用于储存基本的按音素分类的连续语音信息；一个连续语音参数储存部分，用于根据属于每个音素的每一个音节的音调、词组构成、在词组中的位置、在句子中的位置和相连音素的种类储存连续语音参数；一个词汇检查部分，用于在一个任何长度的输入句子里通过与储存在词典中的词汇相比较检查每一个词汇的音节的位置；一个语音识别生成部分，用于根据储存在词典中的语音标识生成每个被检查词汇的每个音节的语音；一个词性和扩展语法检查部分，用于参考词典检查每个被检查词汇的词性和扩展语法；一个词组扩展部分，用于根据扩展语法和相邻词汇的词性的关系把句子中的词汇组合成词组；一个音调/音节检查部分，用音调标识在生成的文字语音标识中检查每一个音节；一个音素检查部分，用于参照音节-音素查找部分的信息检查每个被检查音节的音素格式；一个基本的连续语音判定部分，用于从基本的连续语音储存部分检索每个被检查音素的连续语音；并且一个音节连续语音计算部分，用于从基本的连续语音和与音调、词组构成、词组中的位置、句子中的位置和被检查音素的前后相邻音素的种类等相关的参数中计算组成每个被检查音节的每个被检查音素，并且计算被检查音素的连续语音获得每个被检查音节的连续语音。
根据本发明的第四个方面，用汉语音节作为基本处理单元的汉语语音识别系统的连续语音处理装置，它包括一个词典，用于储存汉语词汇和相关信息。例如语音标识、词性、扩展语法等。
一个基本的连续语音储存部分，用于储存基本的按音节分类的连续语音信息。
一个连续语音参数储存部分，用于根据每个音节的音调、词组构成、在词组中的位置、在句子中的位置和相连的音节的种类储存连续语音参数一个词汇检查部分，用于在一个任何长度的输入句子里通过与储存在词典中的词汇相比较检查每一个词汇的音节的位置；一个语音识别生成部分，用于根据储存在词典中的语音标识生成每个被检查词汇的每个音节的语音；一个词性/扩展语法检查部分，用于参考词典检查每个被检查词汇的词性和扩展语法；一个词组扩展部分，用于根据扩展语法和相邻词汇的词性的关系把句子中的词汇组合成词组；一个音调/音节检查部分，用音调标识在生成的文字语音标识中检查每一个音节；一个基本的连续语音判定部分，用于从基本的连续语音储存部分检索每个被检查音节的连续语音；并且一个音节连续语音计算部分，用于从基本的连续语音和与音调、词组构成、词组中的位置、句子中的位置和被检查音节的前后相邻音节的种类等相关的参数中计算每个被检查音节的连续语音。
根据数据结构和本发明第一方面的连续语音处理方法的处理步骤，一个等待语音合成的汉语句子的任何长度最初要经过一个词汇检查的步骤，在这里，句子中每个词汇的音节的位置通过与储存在前述的构造的词典中的词汇进行比较而被检验。因此，每个检查词汇经过一个语音标识生成的步骤，并根据储存在词典中的语音标识生成每个音节的语音。随后，通过一个词性/扩展语法的检查步骤，每个词汇的词性和扩展语法参照词典被检查。进一步地，一个词汇扩展步骤，在句子中相邻的词汇根据扩展语法和词性的关系被组合成词组。因此，通过音调/音节检查步骤，用音调标识来检查在句子中生成语音标识的每个音节。然后，一个音素检查步骤，每个音节的音素格式参照前述的构造的音节-音素查找部分被检查。接下来，通过一个基本的连续语音判定步骤，每个语音的连续语音参照前述的构造的基本连续语音储存部分被检查。最后，一个音节连续语音计算步骤，从基本的连续语音和与音调，词组结构，词组的位置，在句子中的位置和音素格式的前后相邻音素的种类相关的参数中计算在句子中每个组成音节的音素的连续语音，并且组成每个音节的音素的连续语音被累加获得音节的连续语音。从结果来看，对于等待语音合成的汉语句子可以获得遵从自然语音的音节连续语音。
根据数据结构和本发明的第二方面的连续语音处理方法的处理步骤，一个等待语音合成的汉语句子的任何长度最初要经过词汇检查的步骤，在这里句子中每个词汇的音节的位置通过与储存在前述构造的词典中的词汇进行比较而被检验。然后，每个检查的词汇经过一个语音标识生成的步骤根据储存在词典中的语音标识生成每个音节的语音。随后，通过一个词性/扩展语法的检查步骤，每个词汇的词性和扩展语法参照词典被检查。进一步地，一个词汇扩展步骤，在句子中相邻的词汇根据扩展语法和词性的关系被组合成词组。因此，通过音调/音节检查步骤，在句子中生成语音标识的每个音节用音调标识来检查。然后，通过一个基本的连续语音判定步骤，每个语音的连续语音参照前述的构造的基本连续语音储存部分被检查。最后，一个音节连续语音计算步骤，从基本的连续语音和与音调，词组结构，词组的位置，在句子中的位置和前后相邻音素的种类相关的参数中计算在句子中每个组成音节的音节的连续语音，从结果来看，对于等待语音合成的汉语句子可以获得遵从自然语音的音节连续语音。
根据本发明的第三方面的连续语音处理装置的结构，任何长度汉语句子的输入该装置后，一个词汇检查部分通过与储存在前述构造的词典中的词汇进行比较检查句子中每个词汇的音节的位置。然后，一个语音标识生成部分根据储存在词典中的语音标识检查每个的词汇生成每个音节的语音。随后，通过一个词性/扩展语法的检查部分，参照词典每个词汇的词性和扩展语法被检查。进一步地，一个词汇扩展部分，在句子中相邻的词汇根据扩展语法和词性的关系被组合成词组。其后，通过音调/音节检查部分，用音调标识来检查句子中生成语音标识的每个音节。然后，通过一个音素检查部分，每个音节的音素格式参照前述的构造的音节-音素查找部分被检查。接下来，通过一个基本的连续语音判定部分，每个音素的连续语音参照前述的构造的基本连续语音储存部分被检查。最后，通过一个音节连续语音计算步骤，从基本的连续语音和与音调，词组结构，词组的位置，在句子中的位置和音素格式的前后相邻音素的种类相关的参数中计算在句子中每个组成音节的音素的连续语音，并且组成每个音节的音素的连续语音被累加获得音节的连续语音。音节的连续语音被输出使用。
根据本发明的第四方面的连续语音处理装置的结构，任何长度的汉语句子输入该装置后，一个词汇检查部分检查句子中每个词汇的音节的位置通过与储存在前述构造的词典中的词汇进行比较。然后，一个语音标识生成部分检查每个的词汇根据储存在词典中的语音标识生成每个音节的语音。随后，通过一个词性/扩展语法的检查部分，每个词汇的词性和扩展语法参照词典被检查。进一步地，一个词汇扩展部分，在句子中相邻的词汇根据扩展语法和词性的关系被组合成词组。其后，通过音调/音节检查部分，用音调标识来检查句子中生成语音标识的每个音节。然后，通过一个基本的连续语音判定部分，每个音节的连续语音参照前述的构造出来基本连续语音储存部分被检查。最后，通过一个音节连续语音计算步骤，从基本的连续语音和与音调，词组结构，词组的位置，在句子中的位置和前后相邻音节的种类相关的参数中计算在句子中每个组成音节的音素的连续语音。音节的连续语音被输出使用。
附图的简单描述其他特点和本发明的优点在下面的参照附图的优选实施例的详细描述中变的显而易见，其中

图1是一个描述一个用于汉语语音识别系统的连续语音处理方法和装置的优选实施例的系统方框图，其中，该系统根据本发明使用音素作为基本的处理单元。
图2中的图2A到2D是本发明优选实施例的操作流程图。
图3是一个说明词典的结构的本发明优选实施例的示意图，在词典中汉语词条记录在“词汇”一栏中；与词汇相对应的语音储存在“语音”栏中；与词汇相对应的词性储存在“词性”栏中，N表示名词，V表示动词，J表示形容词，A表示副词，…；相邻词汇扩展成为词组的语法储存在“扩展语法”栏中，AN后面连接的名词，BN前面连接的名词，AV后面连接的动词，BV前面连接的动词，AA后面连接的副词，BA前面连接的副词AJ后面连接的形容词，BJ前面连接的形容词Ψ无扩展语法图4是本发明音节-音素查找部分的优选实施例的的结构图。
图5是根据本发明每个语音的基本连续语音储存部分的优选实施例的结构图。
图6是本发明音节-音素查找部分的优选实施例的结构图。
图7是本发明元音参数子部分的优选实施例的结构图。
图8是根据本发明元音环境影响子部分的优选实施例的结构图。其中该部分用于对前元音的连续语音的音素的影响。
图9是用于语音识别的传统的连续语音处理装置的方框图。
11表示一个词汇检查部分，通过与储存在词典中的词汇比较检查每个词汇的音节的位置。
12表示一个储存汉语词汇和相应的信息的词典，例如语音标识、词性、扩展句法等。如图3中所示说明词典12构造的示意图。
13表示一个语音标识生成部分，用于寻找与词典中每个被检查词汇相一致语音标识。
14表示词性/扩展语法检查部分，用于寻找与词典中每个检查词汇相一致词性和扩展语法。
15表示词组扩展部分，用于把相邻的词汇用每个词汇的词性和扩展语法组成词组。
16表示一个音调/音节检查部分，用于在生成的语音标识中使用音调标识检查音节，并且用于存储被检查的音调。
17表示一个音节-音素查找部分，用于储存每个单音节的语音标识，并用于储存组成相同音素的音素指定数目。如图4所示说明音节-音素查找部分的结构17的流程图。
18表示一个音素检查部分，用于使用音节-音素查找部分17的形成音调-检查音节的检查音素，并且用于存储音素数据。
19表示一个基本连续语音储存部分，用于储存从大量自然的语音数据的音素连续语音的统计分析中得到的基本的每个音素的连续语音。如图5所示说明基本的连续语音储存部分的19的结构的流程图，其中“@”表示无效的元音。
20表示一个基本的连续语音判定部分，用于检查从基本的连续语音储存部分19中的被检查音素。
21表示构造的连续语音参数储存部分，该部分使用的信息包括音调，词组结构和每个音素在词组中的位置，和在句子中的位置和相邻音素的种类等。在本优选实施例中，连续语音参数储存部分21包括3个储存子部分一个辅音参数子部分-一个元音参数子部分，该子部分用声调，短语结构和位置在词组中的位置，和在句子中的位置和对于每个音素来说相邻音素的种类构造出来，一个元音环境影响子部分，该子部分用元音根据元音的连续语音在后面连接音素的影响构造出来。如图6,7,8所示说明连续语音参数储存部分21的结构。
22表示一个音节连续语音计算部分用于检索音素的连续语音参数，用连续语音参数储存部分21中使用信息，包括音调，在词组中的位置，在句子中的位置和对于音素相邻音素的种类等，作为索引关键字；该部分用于从基本连续语音和参数中的每个音素的连续语音计算；并且用于音+素的连续语音类加以获得音节连续语音。
当使用本装置处理连续语音时，必须使用不同的寄存器和存储缓冲器区域。虽然他们在图1中被省略未显示，但在实际应用中它们是必须的，并且包括“TextBuffer”存储缓冲器区域一用于储存输入句子的文本数据；“Pinyin”存储缓冲器区域一用于储存输入句子的语音数据；
“wdi”寄存器一用于储存句子中词汇的指定数目(使用数字1,2,3,…等，1表示句子中的第一个词汇)；“wd”矩阵寄存器-用于储存在输入的句子中每个检查词汇的数值(词汇的起始位置，词汇的长度)。例如，wd[4]=(5,2)表示在句子中的第四个词汇起始自第五个音节并且有两个音节的长度；“wd_type”矩阵寄存器-用于储存在输入的句子中每个检查词汇的词性。例如wd_typewd_type[2]=N表示在句子中的第二个词汇的词性是名词；“wd expand”矩阵寄存器-用于储存在输入的句子中每个检查词汇的扩展语法。例如，wd_expand[1]=AN表在句子中的第一个词汇的扩展语法是后面连接名词；wd-expand[1]=AN“i_wd_phr“矩阵寄存器-用于储存在输入的句子中每个词组组成音节的数值(词组的长度，词组的位置)。例如，i_wd_phr[4]=(3,1)表示在句子中的第四一个音节形成了一个三音节词组的第一个音节；“phr_start”寄存器-用于储存在句子中词组的起始位置；“phr_end”寄存器-用于储存在句子中词组的结束位置；“phr_length”寄存器-用于储存在词组的长度，以音节为单位；“i”寄存器-用于储存在句子中音节的指定数目(使用数字1,2,3,…等)；“c”矩阵寄存器-用于储存根据输入句子的语音每个检查音节的辅音指定数目；“v”矩阵寄存器-用于储存根据输入句子的语音每个检查音节的元音指定数目；“t”矩阵寄存器-用于储存根据输入句子的语音每个检查音节的音调标识；“bc”矩阵寄存器-用于从基本连续语音储存部分根据t[i]音节储存一个(i)th音节的辅音基本连续语音；“tc”寄存器-用于储存一个根据t[i]的来自辅音参数子部分的的(i)th音节的音调参数TC；“sc”寄存器-用于储存位置影响参数Sc来自辅音参数子部分的根据位置坐标I(如果检测到c[I+1]和v[I+1]都等于0，这表示I已经在句子的尾部；“pc”寄存器-用于储存词组影响参数Pc检查来自辅音参数子部分根据I_wd_phr[I]；“dc”寄存器-用于储存在句子中一个(I)音节的辅音连续语音，在该句子中dc=bc*tc*sc*pc；“bv”寄存器-用于储存根据t[I]来自基本连续语音储存部分的一个(I)th音节音调参数Tv的储存；“tv”寄存器-用于储存根据v[I]来自元音参数子部分的一个(I)th音节的音调参数Tv的储存；“sv”寄存器-用于储存位置影响参数Sv检查来自辅音参数子部分的根据位置坐标I(如果检测到c[I+1]和v[I+1]都等于0，这表示I已经在句子的尾部；“pv”寄存器-用于储存根据I_wd_phr[I]检查来自元音参数子部分的词组影响参数Pv的储存；“f”寄存器-用于检查来自元音环境影响子部分的影响差数F使用c[I+1]作为检索关键字(如果c[I+1]=0，则使用v[I+1])；“dv”寄存器-用于储存在句子中一个(I)音节的元音连续语音，在该句子中dv=bv*tv*sv*pv+F；并且“d”矩阵寄存器-用于储存在d[I]的句子中的一个(I)音节的连续语音语，在这里，d[I]=dc+dv.
图2显示用于汉语语音识别系统的连续语音处理装置的优选实施例的操作流程图。在该装置中使用音素作为基本处理单位。如图2所示，在步骤S1中，句子的文本被输进TextBuffer存储缓冲器区域中。
在步骤S2检查是否目前输入的文本关键字是一个文本的结束关键字，则进行检查。如果是，流程进行步骤S3。否则，流程回到步骤S1。
在步骤S3中，检查句子中的文本通过与词典中词汇，在句子中的位置和储存在wd矩阵寄存器中的词汇的比较找出每个词汇。
在步骤S4中，根据在wd矩阵寄存器中的每个检查词汇，从词典找到与词汇相对应的语音，并依次储存在Pinyin储存缓存器区域。
在步骤S5中，根据在wd矩阵寄存器中的每个检查词汇，从字典中找到与每个词汇相对应的词性和扩展语法，并且储存分别储存在wd_type和wd_expand矩阵寄存器中。
在步骤S6中，根据在wd矩阵寄存器中的每个检查词汇，与词汇相对应的每个音节的组成数据储存在I_wd_phr矩阵寄存器中。
在步骤S7中，在wdi矩阵寄存器的数值设为1对词组扩展处理起始的第一个词汇。
在步骤S8中，确定wdi(th)词汇是否是扩展语法。(如果数值为Ψ，表示词汇没有扩展语法)如果是，流程进行步骤S9，否则，流程进行步骤S12。
在步骤S9中，根据扩展语法，确定wdi(th)相邻的前面或后面词汇的词性是否遵守，如果是，流程进行步骤S10，否则，流程进行步骤S12。
在步骤S10中，词组扩展操作开始。如果扩展过程向前进行，wdi-1被选择作为词汇被扩展，如果过程扩展向后进行，wdi+1被选择作为词汇被扩展，如果将要被扩展的词汇已被认为扩展成为词组，这个词组被认为是一个被扩展的词组。相邻的扩展词汇和将要被扩展的词汇结合组成一个扩展的词组。找到扩展词组的起始位置Phr_start和扩展词组的结束位置Phr end，并且扩展词组的长度计算如下Phr_length=Phr_end-Phr_start+1.起始位置Phr_start，结束位置Phr_end，和扩展词组的长度Phr_length随后分别储存在Phr_start,Phr_end,Phr_length中。
在步骤S11中，在i_wd_phr矩阵寄存器中的相应的音节的数值根据扩展词组更新。特别地，i_wd_phr[phr_start]=(phr_length,1)i_wd_phr[phr_start+1]=(phr_length,2)i_wd_phr[phr_end]=(phr_length,phr_length)在步骤S12中，确定wdi是否已达到最后一个词汇。如果是，流程进行步骤S14结束词组扩展操作，否则，流程进行步骤S13。
在步骤S13中，在wdi寄存器中的数值是以1为单位递增，并且流程顺序地返回步骤S8继续词组扩展操作。
在步骤S14中，在i寄存器中的数值设为1，用在矩阵寄存器中的储存音调，辅音，元音的坐标。
在步骤S15中，对于音调还在Pinyin储存缓存器区域被检查和储存的音节，音调用于找到单音节，而音节音调标识储存在t[i]中。
在步骤S16中，组成检查单音节的语音指定数目从音节-音素查找部分被找到，在那里辅音指定数目储存在c[i]中，元音指定数目储存在v[i]中。
在步骤S17中，确定是否句子的检查已完成。如果是，流程进行步骤S19。否则，流程进行步骤S18。
在步骤S18中，在寄存器i中的数值以1为递增单位，然后流程返回步骤S15。
在步骤S19中，在寄存器i中的数值被重设为1用于起始自第一个音节连续语音的处理。
在步骤S20中，确定是否(i)音节包括一个辅音部分。如果是，流程进行步骤S21。否则，流程进行步骤S26。
在步骤S21中，组成检查单辅音的指定数目作为索引关键字从基本的连续语音储存部分连续语音Bc被找到，并且被储存在寄存器中。
在步骤S22中，根据属于辅音的音节的音调，音调的辅音连续语音参数Tc被从辅音参数的子部分找到并且储存在tc寄存器中。
在步骤S23中，根据属于辅音的音节的位置，在词组中，从辅音参数子部分中辅音的词组影响参数Pc被找到并储存在pc寄存器中。
在步骤S24中，根据属于辅音的音节的位置，在句子中，从辅音参数子部分中辅音的句子影响参数Sc被找到并储存在Sc寄存器中。
在步骤S25中第(i)音节的辅音连续语音被计算(Dc=bc*tc*pc*sc)，并储存在dc寄存器中。流程进行步骤S27。
在步骤S26中，因为音节不包括辅音部分，在dc寄存器中的数值设为0。
在步骤S27中，用检查元音的指定数目作为索引关键字从基本的连续语音储存部分连续语音Bv被找到，并且被储存在寄存器bv中。
在步骤S28中，根据属于元音的音节的音调，从元音参数子部分中音调的元音连续语音Tv被找到并储存在tc寄存器中。
在步骤S29中，根据属于元音的音节的位置，在词组中，从元音参数子部分中辅音的词组影响参数Pc被找到并储存在pc寄存器中。
在步骤S30中，根据属于元音的音节的位置，在句子中，从元音参数子部分中辅音的句子影响参数Sv被找到并储存在sv寄存器中。
在步骤S31中，用元音的后面连接音素作为索引关键字从元音环境影响储存部分影响参数F被找到，并且被储存在寄存器f中。
在步骤S32中，第(i)音节的元音连续语音被计算(Dv=bv*tv*pv*sv+f)，并储存在dv寄存器中。
在步骤S33中，第(i)音节的连续语音被计算(D=dc+dv)，)，并储存在d矩阵寄存器中的第(i)位置。
在步骤S34中，确定是否在句子中每个音节的连续语音已被判定。如果是，流程进行步骤S36。否则，流程进行步骤S35。
在步骤S35中，在i寄存器中的数值是以1为单位递增，并且流程返回步骤S20继续下一个音节的连续语音数据处理。
在步骤S36中，整个句子的每个音节的连续语音被输出用于通过一个语音识别系统，并且装置的操作结束。
对于优选实施例的语音识别系统，说明前述的构造的连续语音处理装置的操作，用输入句子“我爷爷最喜欢那张小桌子”为例该例子的工艺流程如下在步骤S1中，如图1中说明用10句子输入部分输入句子，例如键盘，在步骤S2中，在文本中探测到一个结束关键字输入结束。这时句子的文本数据“我爷爷最喜欢那张小桌子”储存在TextBuffer[]储存缓存器区域。
因此，在步骤S3中，通过与词典12中的词汇比较，词汇检查部分11检查句子中的每个词汇“我、”“爷爷、”“最、”、“喜欢、”“那张、”“小、”“桌子、”并且记录句子中每个词汇的起始位置和在矩阵寄存器中的一系列数目对中的词汇字符数目(词汇起始位置，词汇长度)。因此，wd[1]=(1,1),…“我”wd[2]=(2,2),…“爷爷”wd[3]=(4,1),…“最”wd[4]=(5,2),…“喜欢”wd[5]=(7,2),…“那张”
wd[6]=(9,1),…“小”wd[7]=(10,1),…“桌子”按顺序，在步骤S4中，根据记录在wd[]中的每个词汇，语音标识生成部分在词典中找到与每个词汇相对应的语音，并依次同样地储存在PinyinBuffer[]。同时，储存在PinyinBuffer[]中的语音数据是"uo3ie2ie2zuei4xi3huanlna4zhanqlxiao3zhuolz5"然后，在步骤S5中，根据在记录在wd[]中的每个词汇，词性和扩展语法部分14从字典中找到与每个词汇相对应的词性和扩展语法，(词典的内容如图3所示)，并且储存分别储存在wd_type和we_expand矩阵寄存器中。因而，_wd type[1]=N,wd_expand[1]=AN；……“我”wd_type[2]=N,wd_expand[2]=Ψ；……“爷爷”wd_type[3]=A,wd_expand[3]=AV,AJ；…… “最”wd_type[4]=V,wd_expand[4]=Ψ；…… “喜欢”wd_type[5]=J,wd_expand[5]=AN；……. “那张”wd_type[6]=J,wd_expand[6]=AN；…… “小”wd_type[7]=N,wd_expand[7]=Ψ；…… “桌子”其次，词组扩展部分15用于启动词组扩展操作。最初，在步骤S6中，根据在wd矩阵寄存器中的每个检查词汇，对应的组成词汇的每个音节的组成信息以格式wd_phr[syllable position]+(phrase length,location in phrase)储存在I_wd_phr矩阵寄存器中。因此，wd[1]=(1,1),wd_phr[1]=(1,1)； wd[2]=(2,2),wd_phr[2]=(2,1)；wd_phr[3]=(2,2)； wd[3]=(4,1),wd_phr[4]=(1,1)； wd[4]=(5,2),wd_phr[5]=(2,1)；wd_phr[6]=(2,2)； wd[71=(10,2), wd_Phr[10]=(2,1)；wd_phr[11]=(2,2) 此后，在步骤S7中wdi寄存器的数值设为1开始第一个词汇“我”的扩展处理。在步骤S8中确定wd_expand[wdi]=An后，扩展语法的陈述语气随着一个后面连接的名词(≠Ψ)，在步骤S9中检查下一个词汇的词性。此时，wd_type[wdi+1]=N，遵守扩展语法AN,N的名词的陈述语气。因此，(wdi)th词汇“我”和(wdi+1)th词汇“爷爷”可以扩展成为词组从wd_phr[1],wd_phr[2]和wd_phr[3]扩展的新词组有一个起始位置Phr_start=1，一个结束位置Phr_end=3，和一个词组长度phr_length=3-1+1=3，分别储存在phr_start,phr_edn和phr_length寄存器中。在步骤10中。随后，包括3个音节的与这个词组相关的数值在步骤S11中在I_wd_phr矩阵寄存器更新如下然后，因为在步骤S12中确定wdi必须达到最后一个词汇，在步骤S13中wdi的数值以1为单位递增继续下一个词汇“爷爷”的扩展操作。在步骤S8中确定wd_expand[wai]=Ψ后，因为，在步骤S12中确定wdi必须达到最后一个词汇，在步骤S13中wdi的数值以1为单位重复递增，步骤S8再次执行。因此，第3个词汇，第4个词汇…直到第7个词汇“桌子”都重复步骤S8,S9,S10,S11,S12,S13的过程。探测到句子中最后一个词汇已达到步骤S12词组扩展操作结束。此时，在wd_phr矩阵寄存器中数值如下从前述可见，在词汇“我”，“爷爷”，“最”，喜欢“，“那张”，“小”，“桌子，”进行了词组扩展操作后，可以获得词组“我爷爷，”“最喜欢，”“那张，”“小桌子，”。
接下来，音调/音节检查操作开始。最初，在步骤S14中寄存器i的数值设为1。在步骤S15中，音调/音节检查部分16用于检查第一个音节“uo3,”而第3个音调储存在t[i]中。此后，在步骤S16中，与单音节“uo，”有关，语音检查部分18用于寻找音节-音素查找部分17(其中储存的内容如图4所示)，并且确定音素的指定数目，组成“Uo”为0(没有辅音)和47(uo)，他们分别储存在c[i]和v[i]中。因为在步骤S17中确定wdi必须达到最后句尾，在步骤S18中i的数值以1为单位递增，并且流程返回步骤S15。音调/音节检查部分16用于检查第二个音节“ie3,”而在步骤S16中第2个音调储存在t[i]中。随后，在步骤S16中，与单音节“ie，”有关，语音检查部分18用于寻找音节-音素查找部分17(其中储存的内容如图4所示)，并且确定音素的指定数目，组成”ie”为0(没有辅音)和37(ie)，他们分别储存在c[i]和v[i]中。重复步骤S8,S9,S10,S11,S12,S13直到到达句尾。此时，在不同的寄存器中数值如下t[1]=3,c[1]=0,v[1]=47；[uo3]t[2]=2,c[2]=0,v[2]=37；[ie2]t[31=2,c[3]=0,v[3]=37；[ie2]t[4]=4,c[4]=19,v[4]=49；[zuei4]t[5]=3,c[5]=14,V[5]=35；[xi3]t[6]=1,c[6]=11,v[6]=50；[huanl]′t[7]=4,c[7]=7,v[7]=22；[na4]t[8]=1,c[81=15,v[8]=32；[zhangl]t[9]=3,c[9] =14,v[9]=39；[xiao3]t[10]=1,c[10] =15,v[10]=47；[zhuol ]t[11]=5,c[11]=19,v[11]=59[z5]为清楚起见，单音节安排在图4为了让它们出现在典型的句子中。
在处理已达到句尾后，在步骤S19中寄存器i的数值再一次设为1从第一个音节开师始音节处理。因为在步骤S20中确定第一个音节不包括一个辅音(c[1]=0)，在步骤S26中辅音连续语音的数值设为0。
然后，计算第一个音节的元音部分的连续语音。根据元音的指定数目v[1]=47，从图5的剧本连续语音储存部分19中得到159ms的基本连续语音，并且在步骤S27中储存在bv中。接下来，下列参数从元音参数子部分(其内容如图7所示)中获得因为属于元音音节的音调示第3个音调，所以得到数值1.3并在步骤S28中储存在tv中。因为音节示三字符(wd_phr[1]=(3,1)；)的第一个音节，所以得到数值0.85，并且在步骤S29中储存在pv中。因为音节示在句子的开始，所以得到1.28且在步骤S30中储存在sv中。此后，用t[i+1]=37“ie，”元音的后面连接语音，作为检索关键字，如图8所示从元音环境影响因素子部分中获得参数值+5并在步骤S31中储存在f中。接着，在步骤S32中计算用于音节的元音部分的连续语音是dv=159*1.3*0.85*1.28+5=230ms。从而，计算第一个音节的连续语音结果是d[1]=0+230=230ms，并在步骤S33中储存该值。
因为在步骤S34中确定句子中的每个连续语音必须被判定，所以在步骤S35中i的数值以1为单位递增，并且流程返回步骤S20。用前述的过程确定第二个音节“ie2，”的连续语音，在步骤S32中储存在辅音连续语音dc寄存器和元音连续语音dv寄存器的数值分别是dc=0，而dv=271*1.25.0.8*1+5=276ms。从而，在步骤33中找到第二个音节的连续语音是d[2]=0+276=276ms。
同样的过程重复用于第3个单音节，第4个单音节，…直到第11个单音节“z5.”，当在步骤S34中确定已经达到句尾时，在步骤S36中输出每个音节连续语音，并且装置的操作此后结束。
在本例中“我爷爷最喜欢那张小桌子”"uo3ie2ie2zuei4xi3huanlna4zhanqlxiao3zhuolz5"从每个音节得到的连续语音分别时230,276,300,219,246,360,199,268,297,207,139，这样得到的数值与测得的自然语音连续语音非常接近，也就是229,275,302,216,243,362,195,269,293,205,140,因此，本连续语音处理装置可以提供自然连续语音的人工合成语音。
本发明不受前述的实施例的限制。例如可用单音节替代语音作为根据本发明的用于汉语语音识别的连续语音处理装置的基本连续语音计算单位。通过修改基本连续语音储存部分以便单音节的连续语音的储存，通过修改连续语音参数储存部分的参数与单音节的计算参数相一致，语音检查部分和音节-音素检查部分同时可以省略。此外，在本装置的词组扩展部分，除了使用词组扩展语法扩展相邻的词汇成为词组，在输入过程中可以增加词组标识。作为选择，创立高速缓冲存储器以至输入句子中的词组可通过比较方法检查。本发明的实施例以汉语为例，连续语音处理装置同样可以在其他语言的语音识别系统中实现。
如前所述，本发明不仅考虑了对于音素的连续语音的音素、音调、在句子中音素的位置和前后连接的音素的影响，而且也考虑了在集资中词组结构的影响和关于音素的连续语音的在词组中音素的位置。因此，可以克服以前技术中连续语音不标准的问题，而且合成语音的连续语音数据比用以前技术生成的数据更精确，从而提供高品质的语音合成。
在描述本发明的一种优选实施例的同时，还应理解本发明不受该特定实施例的限制，而在不违背本发明的精神的条件下可以作出一些变化和修改。为此，期待着用所附的权利要求书来覆盖本发明和任何的或全部的这种变化和修正。
权利要求
1．一种用汉语音节作为基本处理单元的汉语语音识别系统的连续语音处理方法，包括一个构造用于储存汉语词汇和相关信息的词典的程序，例如语音标识、词性、扩展语法等；一个构造用于储存信息的音节-音素查找部分的程序，例如对应于所有汉语音节每一个音节的指定的音素数目(包括辅音数目和元音数目)等；一个构造基本的连续语音储存部分的程序，其中，该部分用于根据音素储存基本连续语音的分类信息；一个构造连续语音参数储存部分的程序，其中，该部分用于根据每一个音节属于的音调储存连续语音参数，词组结构和在词组中的位置，在句子中的位置和相关音素的种类；一个在一个任何长度的输入句子里通过与储存在词典中的词汇相比较的检查每个词汇的音节的位置的程序；一个根据储存在词典中的语音标识每个检查词汇的音节生成语音的程序；一个用参考词典检查每个检查词汇的词性和扩展语法的程序；一个句子中的词汇根据扩展语法和相邻词汇的词性的关系组合成词组的程序；一个用音调标识在生成的文字语音标识识中检查每一个音节的程序；一个参照音节-音素查找部分的信息检查每个被检查的音素格式；一个从基本连续语音储存部分检索每个被检查的连续语音的程序；和一个计算每个被检查音素的连续语音的程序。从基本的连续语音和与音调、词组构成、词组中的位置、句子中的位置和被检查音素前后相邻音素的种类相关的参数被检查的音素组成每个被检查音节，并且计算被检查的音素的连续语音获得每个被检查音节的连续语音。
2．一种用汉语音节作为基本处理单元的汉语语音识别系统的连续语音处理方法，包括一个构造用于储存汉语词汇和相关信息的词典的程序，例如语音标识、词性、扩展语法等；一个构造基本的连续语音储存部分的程序，其中，该部分用于根据音节储存基本连续语音的分类信息；一个构造连续语音参数储存部分的程序，其中，该部分用于根据每一个音节的音调储存连续语音参数，词组结构和在词组中的位置、在句子中的位置和相关音节的种类；一个在一个任何长度的输入句子里通过与储存在词典中的词汇相比较的检查每个词汇的音节的位置的程序；一个根据储存在词典中的语音标识每个检查词汇的每个音节生成语音的程序；一个用参考词典检查每个被检查词汇的词性和扩展语法的程序；一个句子中的词汇根据扩展语法和相邻词汇的词性的关系组合成词组的程序；一个用音调标识在生成的文字语音标识识中检查每一个音节的程序；一个从基本连续语音储存部分检索每个被检查的连续语音的程序；和一个计算从基本的连续语音和与音调、词组构成、词组中的位置、句子中的位置和被检查音素前后相邻音素的种类相关的参数中每个被检查的音节的连续语音程序。
3．一种用汉语音素作为基本处理单元的汉语语音识别系统的连续语音处理装置，包括一个词典，用于储存汉语词汇和相关信息。例如语音标识、词性、扩展语法等；一个音节-音素查找部分，用于储存信息。例如对应于所有汉语音节每一个音节的指定的音素数目(包括辅音的指定数目和元音的指定数目)等；一个基本的连续语音储存部分，用于根据音素储存基本连续语音的分类信息；一个连续语音参数储存部分，用于根据每一个音节属于的音调储存连续语音参数，词组结构和在词组中的位置、在句子中的位置和相关音素的种类；一个词汇检查部分，用于在一个任何长度的输入句子里通过与储存在词典中的词汇相比较的检查每个词汇的音节的位置；一个语音标识生成部分，用于根据储存在词典中的语音标识生成检查每个被词汇的语音；一个词性/扩展语法检查部分，用于参考词典检查每个被检查词汇的词性和扩展语法的词性和扩展语法；一个词组扩展部分，用于根据扩展语法和相邻词汇的词性的关系把词汇组合成词组；一个音调/音节检查部分，用于在生成的文字语音标识识中用音调标识检查每一个音节；一个音素检查部分，用于参照音节-音素查找部分的信息检查每个被检查的音素格式；一个基本连续语音判定部分，从基本连续语音储存部分检索每个被检查音素的连续语音；和一个音素的连续语音计算部分，用于计算每个被检查音素的连续语音。从基本的连续语音和与音调、词组构成、词组中的位置、句子中的位置和被检查音素前后相邻音素的种类相关的参数被检查的音素组成每个被检查音节，并且计算被检查的音素的连续语音获得每个被检查音节的连续语音。
4．一种用汉语音节作为基本处理单元的汉语语音识别系统的连续语音处理装置，包括一个词典，用于储存汉语词汇和相关信息。例如语音标识、词性、扩展语法等；一个基本的连续语音储存部分，用于根据音节储存基本的连续语音分类信息；一个连续语音参数储存部分，用于根据每一个音节的音调，词组结构和在词组中的位置、在句子中的位置和相关音素的种类来储存连续语音参数；一个词汇检查部分，用于在一个任何长度的输入句子里通过与储存在词典中的词汇相比较的检查每个词汇的音节的位置；一个语音标识生成部分，用于根据储存在词典中的语音标识生成检查每个被词汇的语音；一个词性/扩展语法检查部分，用于参考词典检查每个被检查词汇的词性和扩展语法的词性和扩展语法；一个词组扩展部分，用于根据扩展语法和相邻词汇的词性的关系把词汇组合成词组；一个音调/音节检查部分，用于在生成的文字语音标识识中用音调标识检查每一个音节；一个基本连续语音判定部分，从基本连续语音储存部分检索每个被检查音素的连续语音；和一个音素的连续语音计算部分，用于计算从基本的连续语音和与音调、词组构成、词组中的位置、句子中的位置和被检查音素前后相邻音素的种类相关的参数被检查的音素组成每个被检查音节每个被检查音素的连续语音。
全文摘要
本发明的连续语音处理方法和装置中,分析了大量的自然语音,已知单音节的连续语音会随着一些因素变化,例如音素、音调、词组结构、在词组中的位置,在句子中的位置和前后连接的音素等、用这些变化因素建立起来一个“连续语音参数储存部分”,通过检索连续语音参数和在音节连续语音计算中结合音节的基本连续语音,在句子中可以精确地确定每个单音节的连续语音。本发明的语音识别系统可以采用自然的连续语音合成语音。
文档编号G10L13/00GK1315722SQ0013006
公开日2001年10月3日申请日期2000年10月26日优先权日2000年3月28日
发明者孙世章, 谢琴韵申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙世章;谢琴韵
技术所有人：松下电器产业株式会社
我是此专利的发明人

上一篇：乐器用基台的管路连接装置的制作方法
上一篇：实现多源文件的音频信号重放的方法和系统的制作方法