发音网络的制作方法

文档序号：2821470阅读：252来源：国知局

专利名称：发音网络的制作方法
背景技术：
文本到音素分析程序可产生书写字的发音串。这种文本到音素分析程序可用语音词典来产生文本的语音表达。语音词典可包括带语音表达和/或字的表达的语言(如英语、法语、西班牙语、日语等)的词汇。音素串也是字的发音。因此，可为语音词典的字装备一或多个发音串(音素串)。
自动的字母到音素分析程序可以是语音词典的替换物。自动的字母到音素分析程序适合于分析书写字。但是，该自动的字母到音素分析程序在被分析的字中会产生误差。字母到音素分析程序可提出书写字的几种不同的发音，以减少书写字的语音表达产生中的错误。但是众多的发音串要耗用存储器。
因此，需要有更好的方法提供字的语音表达，以减少上述的缺点。

有关本发明的主题内容已在本说明书的结论部分中特别地指出并明确地要求。然而通过结合附图参阅下述的详细说明后将能最好地了解本发明的组织和操作方法，以及目的、特征和其优点，附图中图1为根据本发明的例示性实施例的发音网络的示意图；图2为根据本发明的例示性实施例生成发音网络节点表的方法的流程图；图3为根据本发明的例示性实施例字“right”的发音网络的示意图；图4为根据本发明的例示性实施例的装置的示意图；和图5为根据本发明的例示性实施例的语言识别装置的示意图。
为图示的简单明了，图中画出的单元不一定按比例。例如，为清晰起见，一些单元相对于另一些单元被放大。而且，为表示对应的或类似单元，标注数字在图中可被重复。
具体实施例方式
在下面的详细说明中，提出许多具体细节以供对本发明的完全了解。但将为止内的技术人员所理解，没有这些具体细节，本发明也可实施。在另一些情况中，一些熟知的方法、程序、组件和电路未加细述，以免妨碍本发明。
下面的某些部分的细述，通过对计算机存储器中数据位或二进位数字信号操作的算法和符号表示来呈现。这些算法说明和表示可以是数据处理和语言处理方面的人员向其他技术人员传送内容的技术。
应该理解本发明可用于多种应用中。虽然本发明并不限于这方面，但这里所揭示的方法和技术可用于许多装置如语言识别系统，手提设备例如终端、无线电终端、计算机系统、蜂窝式电话机、个人数字助理(PDA)，等等。包括语言识别并打算包括在本发明范围内的应用和系统包括(仅作为例子)语音拨号、浏览因特网、口授电子邮件消息、等等。
参看图1，示出本发明的例示实施形态的书写字“McDonald”的例示发音网络100的示意图。虽然本发明不限于这方面，但发音网络100可包括节点120和箭头130。虽然本发明的范围不限于这方面，但节点120可包括音素122和标识符124。因此，箭头130可表明从一个节点到另一节点的连接，在生成发音路径上有所帮助。例如，如果愿意，字“McDonald”的至少一条发音路径可包括音素“M，AH，K，D，OW，N，AH，L，D”。但可产生字“McDonald”的其他发音路径。
虽然本发明的范围不限于这方面，但书写字“McDonald”的发音网络100(至少部分)可包括节点表，它包括音素“M，AH，K，D，AH，AA，OW，N，AH，AE，L，D”的节点。而且，本例中字母“Mc”可用音素“M”，“AH”和“K”表示，字母“O”可用音素“AH”，“AA”，“OW”中的至少一个来表示，字母“A”可用音素“AH”，或“AE”中的至少一个表示。节点120可包括标识符124。标识符124可以是节点120的标号。例如，包括音素“M”的节点120可以有标号“13”作为标识符124。附加地和/或替代地，如愿意，标识符124可以是标签如“P13”和/或其他表达。因此，本发明的实施形态中，节点120可用其标识符标注，尽管本发明的范围决不限于这方面。
参看图2，示出本发明例示实施形态的生成发音网络的节点表的方法。虽然本发明的范围不限于这方面，但该方法以接收书写字的发音串开始(方框200)。例如，字“RIGHT”发音串可包括音素节点串“R，AY，T”，和音素节点串“R，IH，G，T”和/或需要时，字“right”的其他音素节点串。在本发明的某些实施形态中，需要时至少语音词典、字母到音素(G2P)分析程序、语言到发音串模块的转换等中的一种可接收字“right”的发音串。
虽然本发明的范围不限于这方面，但音素节点串“R，AY，T”和“R，IH，G，T”可组成成包括两串的全部音素的单个音素节点串“R，IH，G，AY，T”，并包括在发音网络中(方框210)。例如，下述的将两或多个发音串的音素节点串组合成为音网络的示例算法，包括至少两阶段。示例算法的第一阶段可包括对至少在某些所需的字如“right”的某些发音串中的发音串的最短音素节点串的搜索。业内的技术人员应理解，最短音素节点串可包括至少其他发音串的一个音素节点。示例算法的第二阶段可根据第一阶段算法中建立的节点构建发音网络。
回到算法的第一阶段，包括两个发音串的节点串“R，AY，T”和“R，IH，G，T”的最短音素节点串是“R，IH，G，AY，T”。
寻求最短的共同发音节点串可用确定量化包括在候选的节点串中的部分发音串的得分来开始。例如建议的最短音素节点串“R，IH，AY，T”包括3音素串“R，AY，T”，因此相对于这一音素节点串的得分是3。而且，音素节点串“R，IH，AY，T”只包括“R，IH，G，T”的开头两个的音素。由于音素“G”缺失，故根据上述缺失的音素G相对于这一音素节串的得分是2。本例中，总分值是3+2＝5，而目标分值为两者发音串的音素节点串的长度的和即7。
下述的例示算法可生成其分值等于接收到的书写字的发音串的长度总和的最短音素节点串。
例示的算法如下1.接收多个长度为1的N音素节点串；2.在各节点串的末尾加所有M个可能音素，以接收新组M*N音素节点串；3.求出N*M音素节点串的1到N的得分；4.如最新的串达到目标分值，就停止；5.使N节点串有最高分值；6.返回到2。
以上述提出的算法中，N是节点串数，M是可能的音素数。
虽然本发明的范围不限于这方面，但在各语音系统中可能的音素数M是不同的，例如在英语中存在几种可能的语音组，其对应的M在40与50之间。在其他语言中，可能的语音数可以不同。
虽然本发明的不限于这方面，但对图3的发音网络300可提供组合的音素节点串，它包括字“RIGHT”的两个发音路径。例如，第一发音路径可包括发音串“R，AY，T”，第二发音路径可包括发音串“R，IH，G，T”。而且示明发音网络路径，(由箭头)表明音素节点串中音素的搜索次序，尽管本发明的范围不限于这方面。
上述算法的第二阶段，示出根据第一阶段生成的音素节点串构建发音网络的方法。虽然本发明不限于这方面，但如需要，可在计算机存储器中作为节点表表示发音网络300和发音网络300的发音路径。可对发音网络300的节点320加标识符310以识别发音网络的节点(方框320)。例如标识符310可以是音素节点串的音素的升序的数，与发音串“R，IH，G，AY，T”一起示出如下1T2AY3G4IH5R在方框250中，执行搜索求出第一发音路径和第一发音路径的标识符。标识符可以下列方式加到节点表上1T 22AY 53G4IH5R例如，表示第一发音路径“R，AY，T”的标识符2和5已加到节点表。
而且，继续搜索直至字“right”的发音网络的所有发音路径的标识符被加到节点表(方框240)。表1示出发音网络的节点表的例子
表1

虽然本发明不限于这方面，但发音网络300的节点表可存储到半导体存储器如闪存中，或任何其他合适的半导体存储器和/或硬盘存储媒体或任何其他合适的存储媒体中。
参看图4，示出本发明的例示实施形态的装置400的方框图。虽然本发明决不限于这方面，但装置400的实施形态可装入字母到语音执行程序(G2P)。G2P可用于多种应用和/或设备和/或系统中，例如文本到语音转换器、语音词典发生器等。
虽然本发明决不限于这方面，但装置400可包括文本发生器420，语音词典430，语音串发生器440，发音网络发生器450，以及存储设备如闪存460。
操作中，诸如手机、个人计算机、手写翻译器等的键盘的文本发生器420提供表示书写字的数字信号。在一个实施形态中，文本发生器420提供书写字到语音词典420和/或到语音串发生器440。语音串发生器440生成书写字的语音串，其中语音串可称为书写字的发音串。语音串发生器440提供有关给定字的不同发音的发音串。虽然本发明的范围不限于这方面，但语音串发生器440可以是基于HMM的文本到语音执行程序，字母到语音执行程序，等等。
附加地或替代地，本发明的一些实施形态可包括有字的发音串的语音词典430。例如该语音词典可以是CMMU(Carnegie Mellen University)发音词典。CMU发音词典包括接近127000个带其对应音素发音的英文字。CMU发音词典还确定英语中39个单个音素。也可用其他词典。在本发明的另一实施形态中，文本发生器420提供书写字到语音词典430和/或音素串发生器440。语音词典430和/或语音串发生器440可对发音网络发生器450提供书写字的发音串。
虽然本发明的范围不限于这方面，但发音网络发生器450可产生写字的发音网络。在本发明的一些实施形态中，发音网络发生器450可产生书写字的节点表，并将该表存入闪存460。虽然本发明的范围不限于这方面，但本发明的另一实施形态中，书写字的节点表可配置于数据库中，数据库被存入存储媒体如只读存储器(ROM)、小型盘(CD)、数字视频盘(DVD)、软盘和硬驱动器等。
虽然本发明的范围不限于这方面，但在本发明的一些实施形态中，可根据发音网络使用基于音素的语言识别法。在识别方面，表示给定字的发音网络可转换成隐式马尔科夫模型(HMM)。因此，发音网络的节点可转换成对应的音素的HMM。
参看图5，示出本发明的例示实施形态的语言识别装置500的示例方框图。虽然本发明的范围不限于这方面，但语音识别装置500可包括误音输入装置如话筒510、处理器如语音前端处理器520、根据HMM网络540、550、560的语音分类器530以及判决单元580。
操作中，从话筒510接收测试的语音并由语音前端处理器520处理。虽然本发明不限于这方面，但话筒510可以是各种型号话筒中的一种，包括炭粒话筒、动力(磁)话筒、压电晶体话筒以及光学话筒。在本发明的实施形态中，可用各类语音前端处理器520，如减少指令组计算机(RISC)，复合指令组计算机(CISC)，数字信号处理器等。
在本发明的实施形态中，可用HMM的随模模型如HMM网络540、550、560。为选择最佳区域测试语音的HMM网络，语音前端处理器520可将测试的语音分成N帧。然后可由HMM网络540、550、560计算N帧测试语音的得分。语音分类器530的HMM网络540、550、560可表示不同的字并可包括这些字的发音网络和/或节点表。由判决单元580执行最佳匹配语言的判断。判决单元580可选择有最高分值的HMM网络。例如，可将有最高分值的测试字认为是所要的字。而且可迭代地实行由HMM网络540、550、560中的一个计算得分。
虽然本发明的范围不限于这方面，但HMM网络540、550、560可对测试语音的节点装上如下的实体HMM模型、局部分数和总分数。在本发明的实施形态中，HMM模型可对应于节点的音素。局部分数可对局部HMM模型测量进入的测试语音的语音帧的可能性。总分数可对在当前语音上结束的音素的节点串测量测试字直至帧n的整个发音串的可能性。
示出测试的语音分值的示例性迭代计算对各帧n从1到n{对参与HMM网络540、550、560的全部HMM语音模型计算帧分值(local_score(frame(n)，phoneme(j).；对各节点i{global_score(node(i)，frame(n))＝max(over all nodes j that enter node(i)，including I itself)(global_score(node(j)，frame(n-1)+local_score(phoneme_ofnode_node(i)，frame(n))}}元素local_score(frame(n)，phoneme(j)对phoneme(j)(音素j)测量frame(n)(帧(n))的相似性。元素global_score(frame(n)，phoneme(j))测量具有属于该网络并在节点j上终止的音素串的全部语言数据直至帧n的相似性。
按照上述定义，上述计算的输出可供在global_score(node(o)，frame(N))中所需分值。识别的字可以是所有HMM网络540、550、560中具有最高分值的一个。
尽管在此说明并描述了本发明的某些特点，但对业内的技术人员而言可以出现许多修改、替代、变化和等效物。因此，应理解所附的要求被打算覆盖所有落入本发明的真正精神内的这种修改和变化。
权利要求
1.一种方法，包括通过组合两个或多个从书写字的发音串选入音素节点表的发音串，生成书写字的发音网络。
2.如权利要求1所述的方法，其特征在于，所述生成包括生成音素节点表的音素节点，其中所述音素节点包括发音网络的参考所述音素节点的第一标识符，书写字的音素以及先行的音素节点的第二标识符。
3.如权利要求2所述的方法，其特征在于，所述生成音素节点表包括以降序编号所述发音网络的节点，并对第一和第二标识符的至少一个提供参照号。
4.如权利要求3所述的方法，其特征在于，进一步包括以升序搜索发音路径的发音网络；和对音素节点表的节点附加第二标识符。
5.如权利要求1所述的方法，其特征在于，所述生成包括根据从字母到音素分析程序接收的书写字的发音串生成发音网络。
6.如权利要求1所述的方法，其特征在于，所述生成包括根据从语音词典接收的书写字的发音串生成发音网络。
7.如权利要求1所述的方法，其特征在于，所述生成包括根据从语音生成的书写字的发音串生成发音网络。
8.如权利要求1所述的方法，其特征在于，进一步包括根据发音网络识别语音。
9.一种装置，包括生成书写字的发音串的音素串发生器，和通过组合两或多个书写字的发音串到音素节点表示来生成发音网络的发音网络发生器。
10.如权利要求9所述的装置，其特征在于，进一步包括存储发音网络的存储器。
11.如权利要求9所述的装置，其特征在于，进一步包括对发音网络发生器提供书写字的发音串的语音词典。
12.一种装置，包括接收测试语音的电动式话筒；语音分类器，包括至少两个或多个对测试的语音计算得分的发音网络，并根据所述两个或多个发音网络比较所述得分；和根据所述得分识别所述测试语音的判决单元。
13.如权利要求12所述的装置，其特征在于，所述两个或多个发音网络的发音网络包括字的音素节点表。
14.如权利要求13所述的装置，其特征在于，所述音素节点表的节点包括对应于该节点的音素的随机模型。
15.如权利要求14所述的装置，其特征在于，所述随机模型是隐式马尔可夫模型，所述发音网络是隐式马尔夫模型网络。
16.如权利要求15所述的装置，其特征在于，所述隐式马尔可夫模型网络通过对音素节点表的节点附加下述内容是通过生成节点表的，这些内容是对应于节点的音素的隐式马尔可夫模型；对应于进入隐式马尔可夫模型的测试语音的语音帧的可能性测量的局部得分数；以及对应于测试语音的发音串的可能性测量的总得分数。
17.如权利要求12所述的装置，其特征在于，所述两个或多个发音网络是不同字的发音网络。
18.如权利要求16所述的装置，其特征在于，所述判决单元根据隐式马尔可夫模型网络提供的总得分识别测试语音。
19.一种物品，包括在其上存储有指令的存储媒体，当指令执行时，结果是通过组合从书写字的发音串选入音素节点表的两条或多条发音串，生成书写字的发音网络。
20.如权利要求19所述的物品，其特征在于，生成的指令当执行时，结果是生成音素节点表的音素节点，其中音素节点包括发音网络的参考所述音素节点的第一标识符、书写字的音素以及先行的音素节点的第二标识符。
21.如权利要求20所述的物品，其特征在于，所述生成音素节点表的指令，当执行时，结果是以降序编号发音网络的节点，和对节点的标识符提供参考号。
22.如权利要求21所述的物品，其特征在于，所述指令当执行时，结果进一步是以升序搜索发音路径的发音网络；和对音素节点表的节点附加第二标识符。
23.如权利要求19所述的物品，其特征在于，所述指令当执行时，结果是根据从字母到音素分析程序接收的书写字和发音串生成发音网络。
24.如权利要求19所述的物品，其特征在于，所述指令当接收时，结果是根据从语音词典接收的书写字的发音串生成发音网络。
25.如权利要求19所述的物品，其特征在于，所述指令当执行时，结果是根据从语音生成的书写字的发音串生成发音网络。
26.如权利要求19所述的物品，其特征在于，所述指令当执行时，结果是根据发音网络识别语音。
全文摘要
本发明提供产生书写字的发音网络的简单方法和装置。通过从能产生所述书写字的发音网络的音素串发生器中至少接收一个书写字的发音串，可以实现发音网络的生成。发音网络可包括根据书写字的不同发音串组合的音素的节点表，还提供根据发音网络的语音识别装置。
文档编号G10L15/14GK1732511SQ200380107684
公开日2006年2月8日申请日期2003年12月24日优先权日2002年12月30日
发明者M·格林尼尔斯蒂申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·格林尼尔斯蒂
技术所有人：英特尔公司
我是此专利的发明人

上一篇：音频处理系统的制作方法
上一篇：运动图像专家组音频编码方法及装置的制作方法