语音识别设备和方法

文档序号:2832213阅读:348来源:国知局
专利名称:语音识别设备和方法
技术领域
本发明涉及语音识别设备和语音识别方法。 背景絲
作为与语音识别设备相关的技术,可使用生成用于语音识别的语法的 技术。这里提到的语法(或语音识别语法)表示通过它提供一个或更多语 音识别目标词汇的数据或信息。这里提到的词汇表示一组字或句子。语音 识别设备将执行语音识别时通过语法提供的一个或更多词汇中的每一个看 作语音识别目标词汇。
作为语法生成技术之一,可用的方法是通过组合与情况对应的词汇(例 如,对应于设备的状态或模式)来生成语法。作为具体实例,将描述在车 辆导航系统中语音识别语法的生成方法的实例。在车辆导航系统中,在刚 刚打开电源之后的模式下(即,初始条件),语法仅包括用于车辆导航操 作命令的词汇。当在初始条件下用户输入命令时,其他模式被选择(例如, 地图检索模式或电话号码检索模式)。当实现所选模式时,与其他模式固 有的操作种类对应的一个或更多词汇被添加到初始条件下的语法中。此后, 依据进行了从哪个模式到哪个模式的转换,在所迷转换和/或一个或更多不 必要的词汇被从中删除之前,将一个或更多必要的词汇添加到语法。
在上文描述的实例中,语音识别语法仅是一组词汇。这里,假设语法为X,预先准备的词汇是Xi至Xn。当从&至Xn选择k个词汇《Xu,Xi2,…XnJ
时,语法X-W…+Xik。如果从k个词汇(Xu,Xi2,…XnJ选择了将 要删除的m个词汇{ Xdl, Xd2,...Xdm},则可通过X — X - Xdl - Xd2 - ... - Xdm 的删除搮作来更新语法。
作为更普通的情况,考虑其中句型被预先确定并且该句中的一个或更 多词汇是可变的语法。这里,将日语句型"Xno Y (X的Y),,作为实例 来说明。在该"XnoY"的句型实例中,可以在X中设置用于X的任意词 汇,并且可以在Y中设置用于Y的任意词汇,例如,如果分别将X和Y 设置为(KANREN陽GAISHA( affiliate company,联营公司),KOGAISHA (subsidiary company,子公司))和(JUSHO (地址),DENWABANGO (电话号码)},则获得用于表示4个句子"KANREN-GAISHA no JUSHO (联营公司的地址)"、"DENWABANGO no KANREN-GAISHA (联 营公司的电话号码)"、"KOGAISHA no JUSHO (子公司的地址),,、 "KOGAISHA no DENWABGANGO (子公司的电话号码)"的语法。而 且在该实例中,类似于前述车辆导航系统的实例,通it^预先准备的词汇 选择一些词汇,以及操作以组合所选词汇(操作以添加),例如X-Xu十 Xi2+... + Xim, Y-Y"+Yi2+…+Yin,和/或操作以删除词汇,来实现语法 的生成和更新。
作为用于表达语音识别中使用的词汇的方法,可使用以网络表达词汇 的方法(参见例如,Stephen E. Levinson: "Structural Methods in Automatic Speech Recognition" , IEEE ^H义录的73巻,No.ll, 1625 - 1650页,1985 年ll月)。当4吏用词汇网络时,也可发生词汇的添加/删除。
作为执行词汇网络的添加/删除的传统方法,可使用考虑合并复数个字 的共同的字头(common word head,共同字头)以及合并复数个字的共同 字尾(common word tail,共同字尾)的方法。通过合并共同字头/共同字 尾,可减少存储量和计算量。然而,该方法具有的问题是,需要相对更多
的计算时间用于考虑了合并的处理。
另一方面,作为用于执行词汇网络的添加/删除的另一方法,存在一种将复数个词汇网^彼此并联连接的方法。该方法具有另一问题,即尽管 处理简单,但是与考虑共同字头/共同字尾的合并的情况相比,需要更多的 存储量和计算量。
如上文所述,还没有有效地执行词汇的添加/删除的方法。

发明内容
根据本发明的一方面,提供一种使用提供一组识别目标字或句子的语
法网络的语音识别设备,包括存储单元,被配置为存储多个词汇,每个 所述词汇包括多个字体数据,通过从任意字或句子移除特定的字头来获得 每个所述字体数据,以及被配置为存储至少一个包括多个标记节点的字头 部分,以侵束示至少一个共同字头,所述共同字头对于所述多个词汇中的 至少两个是共同的;指令接收单元,被配置为接收来自所述多个词汇的用 于逸择目标词汇的第一指令,以及用于指示对所述目标词汇的操作内容的 第二指令;语法网络生成单元,被配置为当通过所述第一指令指示添加所 述目标词汇的处理时,生成包含所述字头部分、通过所述第二指令选择的 所述目标词汇和字头部分侧连接信息的语法网络,所述字头部分侧连接信 息指示每个包含在所述目标词汇中的所述多个字体数据,被连接至包含在
所述字头部分的所述多个标记节点的预先匹配的一个;以及语音识别单元, 被配置为使用生成的语法网g行语音识别。


图i是示出根据实施例的语音识别设备的配置实例的示图2是示出语法编辑单元的内部配置的实例的示图3是示出从词汇操作到记录的处理过程的实例的流程图4是示出语法框架的实例的示图5是示出字头部分和字尾部分的示图6是示出词汇网络的第一实例(字体部分)的示图7是示出词汇网络的第二实例(字体部分)的示图;图8是示出词汇网络的第三实例(字体部分)的示图9是示出语法网络生成的处理过程的实例的流程图IO示出图9中的附加例程的处理过程的实例;
图11示出图9中的删除例程的处理过程的实例;
图12示出通过初始设置过程处理的语法框架的网络结构;
图13是示出对其执行附加例程的语法框架的网络结构实例的示图14是示出语法框架的另一实例的示图15是示出可用于两个子网络的字体部分的结构实例的示图16是示出语法网络生成的处理过程的另一实例的流程图17是示出图16中的附加例程的处理过程实例的流程图18是示出图16中的删除例程的处理过程实例的流程图19是示出字头部分的另一实例的示图20是示出词汇网络的第四实例(字体部分)的示图21是示出词汇网络的第五实例(字体部分)的示图22是示出词汇网络的笫六实例(字体部分)的示图23是示出语法编辑单元的内部配置的另一实例的示图24是示出用于更新字头部分的处理过程实例的流程图25是示出图24中的合并例程的处理过程实例的流程图26是示出图25中的合并例程的处理过程实例的流程图27是说明传统词汇网络的添加操作/删除操作的第 一示图28是说明传统词汇网络的添加操作/删除操作的第二示图29是说明传统词汇网络的添加操作/删除操作的第三示图30是说明传统词汇网络的添加操作/删除操作的第四示图;以及
图31是说明传统词汇网络的添加操作/删除操作的第五示图。
下文中,将参考附图描述本发明的实施例。 (第一实施例)首先,将描述用网络表达词汇的方法,而且将基于该表达方法详细描 述现有技术的问题。
通常,用网络表达语音识别中使用的词汇具有下列两个优点。
(i) 具有共同字头的不同的字可共享共同字头的数据(网络的节点和 弧(are)),和/或具有共同字尾的不同的字可共享共同字尾的数据。因 此,可以更小的存储量保存词汇。
(ii) 通过共享共同字头和/或共同字尾,可共享语音识别所必须的字 分数(word score )计算。因此,可通过更小的计算量计算字分数。
同时,根据以树形结构表达词汇的方法,字头被共享而字尾没有被共 享。因此,树形结构是一种网络。
图27示出其中表达了复数个字的词汇网络实例。图27表达了三个日 语字(城市名)"ka-ma-ta"(图中的路线(route ) 201) , "ka-wa-sa-ki" (图中的路线202 ) ,"chi-ga-sa-ki"(图中的路线203 )。在图27中, 共享共同字头"ka",共享共同字尾"sa-ki"。
图28示出词汇网络的其他实例。图28表达了三个日语字"i-ki-sa-ki (目的地)"(图中的路线204 ) ,"ka-ku-te-i (确定)"(图中的路线 205 )和"se-n-ta-ku (选择)"(图中的路线206 )。在图28中,没有字 头和字尾被共享。
在用网络表达词汇时,实现词汇增加(词汇组合)的传统方法是对现 有词汇网络添加新的词汇网络,然后合并共同字头和/或共同字尾。
例如,如果将图28的词汇网络与图27的词汇网*并,则获得图29 所示的词汇网络。该词汇网络提供用于语音识别的语法(语法网络)。在 图27至29中具有相同标号的路线表示相同的字。
以与上i^目反的方式执行词汇的删除,例如,通过从图29的词汇网络 删除图28的词汇网络,获得图27的词汇网络。
然而,如上所述的添加词汇网络和合并共同字头和/或共同字尾要花费 相对多的计算时间,这是一个问题。 一旦执行合并,则所保持的合并网络 结构中不必要的词汇需要被删除,从而需要计算时间。因此,这种词汇网络的这种添加和删除方法不适合于字的数量较大或计算机的处理能力较低 的情况。
另一方面,在以网络表达词汇时,实现词汇添加的另一传统方法是预 先准备复数个词汇网络,并且仅并联地连接从这些词汇网络选择的两个或
更多词汇网络。图30示出选择两个词汇网络的情况。
例如,如果选择图27的词汇网络和图28的词汇网络,则获得图31 所示的词汇网络(或语法网络)。
根据上述方法,通过仅向/从网络添加/删除搮作目标词汇网络,来实现 词汇网络的添加/删除。从而实现高速操作(上述方法已经实际使用)。
然而,根据该方法,仅能在预先准备的每个词汇网络内完成共同字头 和/或共同字尾的共享。因此,如果网络的数量增加或计算机的处理能力较 低,则未合并部分的存储浪费或字分数计算占用的时间的浪费是不可忽视 的,这是另一个问题。
当关注X或Y时,上述问题存在于具有^^ "X的Y"句型的语法以及 仅是字集的总和的语法,并且对于其他语法也是如此。
下文中,将详细描述该实施例。
图1是示出该实施例的语音识别设备的配置实例的框图。
如图1所示,本实施例的语音识别设备包括语法存储单元ll、语法编 辑单元12和语音识别单元l3。
语法存储单元11存储一个或更多字头部分(图中的U2)、 一个或更 多字尾部分(图中的114 )、两个或更多字体部分(图中的116 )和一个或 更多语法框架(图中的118)。
在该实施例中,语音识别目标字或句子包括字头、字体和字尾中的全 部或一些(通常包括它们的全部)。
字或句子的字头是字或句子的字头侧特定范围中的部分(字头侧部 分),字或句子的字尾是字或句子的字尾侧特定范围中的部分(字尾侧部 分)。通过从该字或句子移除字头和/或字尾得到包含在词汇中的单独的字 或句子的字体。字头部分112包括一个或更多字头数据(即该实施例中被标记的节 点),并表示分别对至少两个词汇共同的一个或更多(共同的)字头,这 将在后面详细描述。
字尾部分116包括一个或更多字尾数据(即该实施例中被标记的节 点),并表示分别对至少两个词汇共同的一个或更多(共同的)字尾,这 将在后面详细描述。
词汇表达多个字或句子。
字体部分(即该实施例中的词汇网络)114包括多个字体数据(即该 实施例中的字体网络),并表示多个字或句子。当将字体数据与字头部分 的匹配字头数据以及字尾部分的匹配字尾数据组合时, 一个字体数据表示 与该字体数据对应的一个字或句子,这将在后面详细描述。
字头部分112的量Nh和字尾部分116的量Nb小于字体部分114的量 Nt。即,l《Nh<Nb,和"Nt《Nb。
语法框架118是定义了词汇之间的连接方法(句型)的网络,这将在 后面详细描述。
如图2所示,语法编辑单元12包括指令接收单元121、语法网络生成 单元122和输出单元123。语法网络生成单元122包括添加处理单元1221 和删除处理单元1222。
现在将参考图3描述通过语音识别设备的语法编辑单元12和语音识别 单元13,进行从对于语法网络的词汇操作到语法网络的记录的处理过程实 例。
指令接收单元121接收词汇选择指令,该词汇选择指令用于选择词汇 作为操作目标,以及接收操作选择指令,该操作选择指令用于选择对于该 词汇的操作内容(即添加和删除中的任何一个)(步骤S1)。作为通过它 用户输入期望的指令并且指令接收单元121接收该指令的方法,允许使用 诸如GUI的任何方法。
如果通过操作选择指令指示添加(步骤S2 ),则语法网络生成单元122 的添加处理单元1221将与词汇选择指令指示的词汇对应的字体部分的每个字体数据,连接至预先指定的字头部分的字头数据和预先指定的字尾部
分的字尾数据(步骤S3)。另一方面,如果指示删除(步骤S4),则语 法网络生成单元122的删除处理单元1222从字头数据和字尾数据断开每个 字体数据(步骤S5)。通过词汇的添加和/或删除,生成或更新语法网络。
输出单元123将生成或更新的语法网络输出至语音识别单元13,并在 语音识别单元13中记录语法网络.
可以对每个词汇实现或对复数个词汇全体地实现到指令接收单元121 的指令录入。在后一情况下,可以同时执行一个或更多词汇的添加和一个 或更多词汇的删除。可以同时执行复数个词汇的添加和复数个词汇的删除 中的任何一个。
当语音识别单元13收到来自语法编辑单元12的语法网络时,其在存 储器(未示出)中将该语法网络记录为初始或更新的语法网络(步骤S6)。 语音识别单元13使用当前记录的更新语法网g行对输入语音的语音识 别,并输出语音识别的结果。语音识别单元13可以是与传统的相同的结构。
接下来,将参考图4至11描述该实施例的语音识别设备的语法编辑单 元12的操作实例。图4至8是将要存储在语法存储单元11中的数据的概 念上的示图。图9至11是示出语法编辑单元12的操作实例的流程图。
语法框架是指示语音识别设备可接收的句型的网络模型。语法框架包 括至少一个或更多"其中词汇是可变的部分"。语法框架中的"其中词汇 是可变的部分"被称为"子网络"。语法框架可包括一个或更多"其中词 汇是固定的部分"。语法框架中的"其中词汇是固定的部分"被称为"词 汇固定节点"。
图4示出最简单的语法框架的实例。该语法框架指示词汇在X中祐:i殳 置。图4中通过双圓形表示的头节点(图中的81)指示初始条件下的节点, 通过双圆形表示的尾节点(图中的82)指示最终条件下的节点。为了从节 点区分子网络,以虛线表示子网络(图中的83),并且以实线(与其他图 中的相同)表示节点(图中的81、 82)。在图4的情况下,语法编辑单元 12通过向/从子网络X添加/删除词汇来生成语法网络。语法框架具有各种句型。例如,图14示出指示"XnoY" (no:指示 所有、所属和特性等的状态的小品词(particle))句型的语法框架的实例。 在图l4的情况下,语法编辑单元12通过在每个子网络X、 Y中设置一个 或更多词汇来限定语法网络。
为了阐明该实施例的特征,将举例说明其中提供了一个字头部分112 (即Nh = 1)和一个字尾部分116 (即Nt = 1)并且语法框架保持有子网络 X的情况。此外,将描述其中节点标记是日语KANA字母的情况。在这种 情况下,以罗马字母表达KANA字母。尽管将词汇提供了一组字的情况作 为实例来描述,但是其中词汇提供一組句子或一组字和句子的情况也是相 同的。
图5示出字头部分和字尾部分的实例。在图5中,头节点(图中的101) 指示初始务泮下的节点,并且尾节点(图中的102)指示最终条件下的节 点。在图5中,在初始条件下的五个被标记的孩子节点(图中的103)是 "字头部分节点",在最终条件下的五个被标记的双亲(parent)节点(图 中的104)是"字尾部分节点"。标识符"hid"指示字头部分节点标识符, 另一标识符"tid"指示字尾部分节点标识符。
由图5显然,字头部分是树形结构网络。另一方面,由于通过从最终 条件节点反转弧的方向获得树形结构,因此字尾部分U转方向指示的树 形结构网络。
图6至8示出词汇网络(词体部分的)的实例,这将净皮详细描述。图 6至8的实例的每个词汇网络包括三个字。
词汇网络中的每个字体数据組成网络,该网络通过保持有将被连接的 字头部分节点和字尾部分节点的信息以及没有包含在字头部分/字尾部分 的标记(label)的信息(例如KANA字符串),来提供字(或句子)。
更具体地,例如,对于属于词汇网络的字,其字体数据保持有字的标 识信息、可连接的字头部分节点的标识信息、可连接的字尾部分节点的标 识信息以及^皮标记的节点序列(通过一个或更多有向弧连接的^皮标记的节 点或被标记的节点序列),所述被标记的节点序列指示没有包含在字头部分/字尾部分的标记。有向弧指示节点的连接关系,即节点和标记的连接顺 序关系。然而,由于某些字仅包括字头和/或字尾,所以有时不存在被标记 的节点序列。每个节点序列具有线性结构,该线性结构不包含对于其他节 点序列的弧。字体数据被称为"字体网络"。
在图6至8中示出的每个字的字体网络的结构中,开始侧的矩形节点
(例如图中的节点131)保持有可连接的字头部分节点的标识符hid,结尾 側的矩形节点(例如图中的节点132)保持可连接的字尾部分节点的标识 符tid。标识符"wid"指示字的标识符。开始侧的虚线弧(例如图中的弧 134)指示,在具有该弧保持的字标识符wid (例如图中的wid 133)的字 中,实现从字头部分节点到"字体部分节点"(例如图中的节点135)的 连接,其中所述字头部分节点通过处于该弧的开始点的字体网络(例如图 中的节点131)的头节点(hid保持节点)保持的hid来指示,所迷"字体 部分节点"通过该弧的结尾点来指示。结尾側的虚线弧(例如图中的弧136 ) 指示,在具有该弧保持的字标识符wid (例如图中的widl33)的字中,实 现了从该弧的开始点指示的字体部分节点(例如图中的节点137)到字尾 部分节点的连接,所述字尾部分节点通过该弧的结尾点上的字体网络(例 如图中的节点132 )的尾节点(tid保持节点)保持的tid来指示。通过两 个弧(例如图中的弧134和136)相夹的部分(例如图中的节点135、弧 138和节点137 )是构成字体网络的标记节点序列。可使用节点的标识符tid
(未示出)来标识字体网络的每个节点。
事实上,hid保持节点(例如图中的131) 、 tid保持节点(例如图中 的132)和以虛线指示的弧(例如图中的134、 136)不仅是字体网络的节 点和弧,还是与每个字的字体网络关连的信息(数据)。因此,可将它们 称为"连接信息"(关于字头部分节点/字尾部分节点)。
在图6至8中,图6中举例说明的词汇网络(1)表达"ka-nm-ta,,
(wid=l) 、 "ka-wa-sa-ki,, (wid=2 )和"chi-ga-sa-ki" (wid=3)。 图7中举例说明的词汇网络(2)表达"i-ki-sa-ki"(wicN4)、 "ka-ku-te-i"
(wid=5 )和"se-n画ta画ku" (widN6 )。图8中举例说明的词汇网络(3 )表达例如位置名称"se-ta,, ( wid=7 )、 "a" (wicN8)和"n" (wid=9 )。这些是不存在字的字体部分节点的实 例(或字的所有标记包含在字头部分和/或字尾部分中)。由图8的hid保 持节点(图中的141)保持的标识符"0"指示字头部分的初始条件节点(头 节点或路线节点),由图8的tid保持节点(图中的142 )保持的标识符"0" 指示字尾部分的最终条件节点(尾节点或叶子节点)。
图5举例说明了与图6至8的实例对应的字头部分和字尾部分。
参照图5,对于字头部分,该树形结构保持有对于图6的词汇网络(1) 和图7的词汇网络(2)共同的字头处的KANA字母"ka"、对于图7的 词汇网络(2)和图8的词汇网络(3)共同的KANA字母"se"、以及包 含在三个词汇网络中的所有其他字的开头字母。对于字尾部分,该树形结 构保持有词汇网络(1)和词汇网络(2)共同的KANA字母"ki"、以及 包含在三个词汇网络中的所有其他字的末尾字母。
在图5的实例中,字头部分节点和字尾部分节点的每个标记的节点都 仅保持有KANA字母。然而,由标记的节点保持的字母数量不限于一个字 母。例如,可以在字尾部分节点中保持两个KANA字母的串"sa-ki"(即, 对于"ka-wa曙sa-ki" 、 "chi-ga画sa-ki" 、 "i画ki-sa-ki"共同的"sa-ki,,)。
接下来,参考图6至8,指示了词汇网络(1)中字标识符wid^的字 体网络的字体部分节点"ma",被连接至hid-3的字头部分节点(图5中 以"ka,,标记的节点)和tid=4的字尾部分节点(图5中以"ta"标记的 节点)。因此,通过将该字体网络连接至字头部分节点和字尾部分节点, 在语法网络中记录字"ka-ma-ta"。
由于如同词汇网络(3)的字那样由两个或更少的KANA字母组成的 字包含在字头部分节点和/或字尾部分节点中,因此视情况而定,不存在字 体网络的KANA字母。在这种情况下,每个字的字体网g是从字头部分 的节点到字尾部分的节点的连接信息。例如,在wid=7的字的情况下,hid=4 的字头部分节点(图5中的"se")和tid=4的字尾部分节点(图5中的"ta") 彼此直接连接,从而获得字"se-ta"。在该实例中,每个节点具有单个KANA字母作为节点标记。然而,该 节点不限于该实例,而是该节点标记可以是单个KANA字母,或者比单个 KANA字母更大的单元(例如字、字串等),或者比单个KANA字母更 小的单元(例如音素(phoneme) 、 HMM的状态ID),或者将上述要素 混合。
接下来,将描述通过对指示的词汇实现所指示的操作(添加和删除中 的任何一个),从语法框架、字头部分、字尾部分和字体部分生成语法的 处理过程的实例。
现在将在参考图9至11描述在该情况下的流程图的实例。图10示出 图9中的步骤S15的添加例程的处理过程的实例,图11示出图9中的步骤 S16的删除例程的处理过程的实例。
输入了子网络X (见图4)、以及词汇Xi和对该词汇Xj的操作Aj的 組的列表(Xi, Aj 。这里,N是词汇的数目,其中i=l,2,...N。
首先,如果对于初始词汇操作,语法框架的子网络是X-()),也就是如 杲对于X没有字被记录(步骤Sll),则执行初始i殳置处理(步骤S12 )。 也就是在初始设置处理中,从子网络X移除字头部分的初始条件节点(图 5中的101),作为替代,其被连接至语法框架的初始条件节点(图4中的 81)。同时,移除字尾部分的最终条件节点(图5中的102),作为替代, 其被连接至语法框架的最终条件节点(图4中的82 )。从而提供了两个分 离的网络。
图12示出此时的语法框架的网络结构。图12中以虚线指示的区域(图 中的83)指示子网络X。
为何如步骤S12的初始设置处理中所示,从X移除字头部分的初始条 件节点和字尾部分的最终条件节点,并将X连接至语法框架的初始M节
点和最终条件节点的原因是,在字头部分和字尾部分连接时,避免初始条 件节点和最终条件节点的交迭,并且不是必要的操作。
如果在步骤Sll中选择否,则跳过步骤S12。
接下来,在步骤S13, i被设置为l。此后,该处理被重复直到N个词汇被全部处理。
首先,在步骤S14,确定对第i个词汇Xj的操作Ai,并且在添加的情 况下,在步骤S15执行添加例程。另一方面,在删除的情况下,在步骤S16 执行删除例程。然后,除非在步骤S17中i = N,否则在步骤S18将i加l, 并且该过程返回至步骤S14,其中对下一个词汇的操作被执行。
最后,如果在步骤S17中i-N,则结束操作。
从而生成新的子网络X。
接下来,将描述图10中所示的添加例程(图9中的S15)。 在添加例程中,对属于词汇Xj的所有字的字体网络(节点和弧结构)
执行添加操作。这里,将属于词汇Xi的字的数目表示为Ni,并且将属于词
汇Xj的每个字表示为Wy (j-l, 2,…Ni)。
首先,在步骤S21,将j设置为l。此后,该处理被重复,直到Ni个
字被全部处理。
在步骤S22,生成从字头部分节点到对于字Wjj的头节点的下一个节 点的弧,其中所述字头部分节点具有第j个字Wjj的字体网络的头节点保 持的字头部分标识符hid。对所生成的弧分配由字体网络保持的字标识符 wid。
在步骤S23,生成从对于字Wij的字体网络的尾节点的在前节点到字 尾部分节点的弧,其中所述字尾部分节点具有由尾节点保持的字尾部分标 识符tid。
允许首先执行步骤S22或步骤S23,或同时执行它们。
然后,除非在步骤S24中j - N,否则在步骤S25将j加l,并且该过
程返回至步骤S22,其中对于下一个字的添加处理被执行。 最后,如果在步骤S24中j-Nj,则结束该添加例程。 作为实例,图13示出其中字"ka-wa-sa-ki" 、 "se-ta" 、 "a" 、 "n" (见图6至8)被连接至字头部分/字尾部分(见图5)的情形下的语法框
架的网络结构。在图13中,粗线(图中的151至155)指示通过添加操作
生成的弧。接下来,将描述图11中所示的删除例程(图9中的步骤S16)。 在删除例程中,对属于词汇Xi的所有字Wij的字体网,行删除操作。 首先,在步骤S31,将j设置为l。此后,该处理被重复,直到Nj个 字被全部处理。
在步骤S32,删除从字头部分节点到对于字Wy的头节点的下一个节
点的弧,其中所述字头部分节点具有第j个字Wij的字体网络的头节点(hid
保持节点)^呆持的字头部分标识符hid。
在步骤S33,删除从对于字Wij的字体网络的尾节点(tid保持节点)
的在前节点到字尾部分节点的弧,其中所迷字尾部分节点具有字Wij的尾
节点保持的字尾部分标识符tid。
允许首先执行步骤S32或步骤S33,或同时执行它们两者。
然后,除非在步骤S34中j = N,否则在步骤S35将j加l,并且该过
程返回至步骤S32,其中对下一个字的删除操作被执行。 最后,如果在步骤S34中j-Nj,则结束该删除例程。 通过上文描述的添加/删除处理,语法框架的子网络X被更新,并且基
于接下来的添加/删除操作,对该更新的子网络X的另外的添加/删除操作
被执行。
通过添加/删除处理生成的语法框架被作为用于语音识别的语法网络 记录到语音识别单元13中。语音识别单元13使用该语法网络在输入的语 音上执行语音识别。尽管这里省略了相关描述,但是使用语法网络进行语 音识别的具体方法详细地公开在Stephen E. Levinson: "Structural Methods in Automatic Speech Recognition" , IEEE ^i义录的73巻,No.ll, 第1625 - 1650页,1985年11月。
如果在图6至8的实例中仅使用词汇网络(1)和词汇网络(2),则 在没有初始条件节点101的情况下不存在连接到图5中的字头部分节点'V, 的任何节点,并且在没有最终条件节点102的情况下不存在连接到图5中 的字尾部分节点"n"的任何节点(当使用词汇网络(3)时,节点"a"和 节点"n"是必要的)。显然,依据词汇的组合,如果从该节点相继追踪到子/双亲节点,则存在某些不能到达字体网络的节点的节点。这样的节点在 语音识别时是不必要的节点,因此字头部分节点/字尾部分节点的每个节点
被提供标记符(flag),标记符指示其对于语音识别是否是必要的,并且 对于语音识别是必要的节点被设置为1,而不必要的节点被设置为0。然后, 在语音识别时,仅标记符被设置为1的节点可被使用。
通过使用上述字头部分和字尾部分,复数个词汇的共同部分被合并, 而每个词汇仅保持有字体部分。因此,与传统方法相比,可以减少存储词
汇所需的存储容量。
通过仅将字体连接至合适的字头/字尾来执行词汇的添加,并通过仅断 开字头/字尾和字体之间的连接来执行词汇的删除。因此,相对快速的词汇 添加和删除是可能的。
在该实施例中,给出了优选方式用以阐明基本特性而不是表明存储减 少的效果,并且作为特定的实例,描述了字的数目较小并且字头部分和字 尾部分两者都具有单个KANA字母的筒单实例。不必说的是,如杲词汇中 字的数目增加或者由字头部分/字尾部分共享的字符数目增加,则存储减少 的效果将明显地显现。
如上文所述,该实施例实现了快速的词汇添加/删除操作,并同时实现 了在词汇网络之间合并(以减少必要的存储容量)。 (第二实施例)
下文中,将围绕不同于第一实施例的主要点来描述第二实施例。 该实施例与第一实施例的不同在于,不需要拥有任何作为独立数据的 语法4匡架。
在筒单句型的情况下,在该简单句型中语法框架仅包^(口同第一实施 例那样的子网络X,语法框架不需要被存储在语法存储单元11中。就是说, 显然从上述描迷中,即使语法框架没有被存储为数据,通过直接对字头部 分/字尾部分添加/删除词汇来生成语法网络,可获得与使用语法框架时相同 的语法网络。通过与图9至11中相同的处理过程来实现词汇的添加/删除。
才艮据该实施例,可建立像第一实施例那样的语法网络,并且可获得与第一实施例相同的效果。 (第三实施例)
下文中,将围绕与第一实施例的主要不同点描述第三实施例。 尽管围绕存在单独的用于操作词汇的子网络的实例描述了第一实施
例,但是还可围绕使用包含复数个子网络的语法框架的情况来描述该实施例。
图14示出包含复数个子网络的语法框架的实例。图14是表达 "X-no-Y" Uo)句型的语法框架的实例。该实例也是包含词汇固定节点 的实例。
在图14中,头节点(图中的161)指示初始条件节点,尾节点(图中 的162)指示最终条件节点。X (图中的163)和Y (图中的165)是子网 络。就是il该语法框架指示在子网络X和Y中的每一个设置词汇。用"no" 标记的节点(图中的164)是词汇固定节点,并且该实例指示X和Y与节 点"no"连接。
在图14的情况下,语法编辑单元12对子网络X和子网络Y的每个执 糊汇操作(添加操作/删除操作)。
关于字头部分,该实施例需要一个或更多字头部分用于X,以及一个 或更多字头部分用于Y。同样,关于字尾部分,需要一个或更多字尾部分 用于X,以及一个或更多字尾部分用于Y。用于X/Y的字头部分/字尾部分 的配置可以与图5中的相同,并且他们中的每个都是网络的一部分,所述 网络包含对于两个或更多词汇共同的字头/字尾。
对于字体部分,存在对图6至8增加的特征。即,用于使用的词汇包 括在子网络X和Y两者中使用的词汇,以及仅在X和Y中的任一个中使 用的词汇。因此,根据该实施例,表示字体部分的每个字的字体网络的头 节点/尾节点,都需要保持有像笫一实施例那样的可连接的字头部分节点的 标识符hid/可连接的字尾部分节点的标识符tid,以及额外地保持有用于标 识其可,皮连接到的子网络的标识信息(sid)。
如果某个词汇可用于图14的实例中的子网络X和Y两者,则其指示关于字头部分/字尾部分的连接的头节点/尾节点,保持有在用于子网络X
时可被连接的字头部分节点的标识符hid和字尾部分节点的标识符tid两者
/在用于子网络Y时可被连接的字尾部分节点的标识符tid和字头部分节点 的标识符hid。
图15示出这种情况的字体网络的字结构的实例。
图15的实例示出如果该字体网络用于子网络X,则连接hid二5的字头 部分节点和tid=2的字尾部分节点,并且如果其用于子网络Y,则连接hid=3 的字头部分节点和ticH4的字尾部分节点(图中的171、 172)。
语法编辑单元12的语法生成过程需要包括词汇、将被连接的子网络 (在该实例中X或Y)和操作{词汇、连接子网络、^^乍}三者的组,而不 是图9至11中所迷的词汇和操作的組。
接下来,将描述通过对所指示的词汇执行所指示的操作(添加和删除 中的任一个),从语法框架、字头部分、字尾部分和字体部分生成语法和 连接子网络的处理过程。
现在描述在参考图16至18的这种情况下的流程图的实例。图17示出 用于图16的步骤S115的添加例程的处理过程的实例,图18示出图16的 步骤S116的删除例程的处理过程的实例。
输入子网络X、 Y (见图14),以及词汇Xj、词汇应该净皮连接到的子 网络Si和对词汇Xi的搮作Aj的组的列表(Xi, Si, AJ 。这里,N是词汇 的数目,其中i-l,2,…N。
图16的流程基本与图9的流程相同。然而,步骤S112的初始设置处 理如下。在图14的实例中,对于子网络X,从中移除字头部分的初始M 节点,作为替代,语法框架的初始条件节点(图14中的161)被连接到那 里。同时,移除字尾部分的最终^Hf节点,作为替代,语法框架的词汇固 定节点(图14中的164)被连接。同样,对于子网络Y,从中移除字头部 分的初始条件节点,作为替代,语法框架的词汇固定节点被连接。同时, 移除字尾部分的最终条件节点,作为替代,语法框架的最终条件节点(图 14中的162)被连接。当然,像第一实施例那样,该操作不是必要的操作。接下来,将描述图17中所示的添加例程(图16中的S115)。 图17中的添加例程基本与图10的添加例程相同。在图17的添加例程 中,对通过复数个子网络Si指示的子网络执行添加操作。
接下来,将描述图18中所示的删除例程(图16中的S116)。 图18的删除例程基本与图11的删除例程相同。然而,图18的删除例 程对通过复数个子网络Si指定的子网,行删除操作。
显然从上述描述,在使用存在复数个子网络的语法框架的情况下,以 及在使用存在单个子网络的语法框架的情况下,都可以以极好的存储器效 率快速生成语法网络。此外,在提供了复数个语法框架的情况下可完成相 同的事件,并且在这种情况下显然可获得相同的效果。
由于该实施例的语法是简单句型"X-no-Y",所以像第二实施例那样, 语法框架不需要被存储到语法存储单元11中。如果没有提供语法框架作为 独立数据,则在通过语法编辑单元12根据图16至18的处理过程生成X 和Y的每个之后,在子网络X和子网络Y之间插入表示KANA字母"no" 的词汇固定节点,以便生成语法网络。在能够有规律地生成语法网络的情 况下,语法框架是不必要的。 (第四实施例)
下文中,将围绕与第一至第三实施例的主要不同点描述第四实施例。 通常,对于语音识别,树形结构是特定的一个其经常被用作词汇网络。 在使用树形结构网络的情况下,构成词汇网络使得对于复数个字共同的字 头被共享,但是不共享字尾。这种情况下,字尾部分是不必要的。通过从 该字或句子移除字头(字头侧部分),来得到包含在词汇中的单独的字或 句子的字体。
图19至22示出以树形结构网络实现图5至8的词汇的实例。图19 示出字头部分的实例,图20至22示出词汇网络的实例。在图19至22的 实例中,与图5至8的实例相比,没有字尾部分,作为替代,字体的尾部 被连接至最终条件节点(图中的181)。
语法框架可以与上述实施例中的相同(见图4和14)。如果使用了树形结构,如果在上述实施例中取消对字尾部分的操作,
则显然语法编辑单元12可通过相同的处理来生成语法。更具体地,可以通 过从上述实施例的流程图移除对字尾部分的操作(图10的步骤S23/图11 中的步骤S33,图17中的步骤S123/图18中的步骤S133),来获得操作 词汇的流程图。
而且,如果语法框架是像上述各实施例那样的简单句型,则没有语法 框架需要被存储在语法存储单元ll中。
在傳浙形结构那样没有提供字尾部分的情况下,可通过共享字头来获 得与上述各实施例相同的存储减少的效果。 (第五实施例)
下文中,将围绕与第一至笫四实施例的主要不同点描迷第五实施例。 尽管在上述实施例中,描述了词汇网络的节点标记是单个KANA字母 的实例,但是节点标记不限于该实例,节点标记可以是单个KANA字母, 或者比单个KANA字母更大的单元(例如字、字串等),或者比单个KANA 字母更小的单元(例如音素、HMM的状态ID)。
这里,将描述在上述各实施例中词汇网络的节点处于HMM状态的情况。
实际上,词汇网络和语法网络通常由隐马尔可夫模型(HMM)构成。 根据通常使用的方法,字由音素HMM接合点(joint)构成,并且语法网 络的每个节点指示音素HMM的状态。更具体地,这一点已经在例如 "Lawrence Rabiner, Biing國Hwang Jauang: 'Fundamentals of Speech Recognition* , Prentice Hall International Editions, 1993"中公开。
如果在笫一至第四实施例中使用上述网络,则其操作本质上没有不同 于以上描述,并且在以上描述中,用音素HMM的状态而非KANA字母 代替节点标记。因此,根据该实施例,像上述实施例那样构成字头部分/ 字尾部分和字体部分,从而可有效地执行词汇的添加/删除。 (第六实施例)
下文中,将围绕与第一至第五实施例的主要不同点描述第六实施例。在以上实施例中,字头部分/字尾部分被预先指定和固定。
当用户实际使用具有笫一实施例的语法框架的语音识别设备时,假设
用户A经常使用子网络X由词汇X1和词汇X2构成的情形,而用户B经 常使用子网络X由词汇X3、词汇X4和词汇X5构成的情形。在这种情况 下,如果用户A使用字头部分/字尾部分,其中适用于词汇XI和词汇X2 的节点净皮共享,而用户B^f吏用字头部分/字尾部分,其中适用于词汇X3、 词汇X4和词汇X5的节点被共享,而不是像现在那样使用预先提供的字头 部分/字尾部分,则可提高字头部分/字尾部分的存储效率。
除了上文提及的实例之外,通过将字头部分/字尾部分的节点的共享更 新为适用于所需要的使用的词汇,可进一步提高存储效率,而不是像现在 那样使用固定的字头部分/字尾部分。在该实施例中,将描述字头部分/字尾 部分的更新方法。可在适当的时间自动进行字头部分/字尾部分的更新处 理,例如,在用户对语音识别设备直接给出更新指令或在语音识别设备进 入特定的务降时。
该实施例的语音识别设备的配置与图1中的相同。
图23示出该实施例的语法编辑单元12的内部配置的实例。在具有图 2的结构的该实施例的语法编辑单元12中,语法网络生成单元122还包括 更新单元1223。
下文中,将描述在更新单元1223中更新字头部分的处理过程的实例。 图24至26示出在这种情况下的流程图的实例。图25示出图24的步骤S217 的合并例程的处理过程的实例,图26示出图25的步骤S224的合并执行例 程的处理过程的实例。
作为执行该处理的前提,假设语音框架的子网络X为空(X^小),即 词汇械/没置。此外,对于字头部分,假^L初始条件节点的字头部分节点标 识符hid为0,以从1开始的序号,对除了初始务ft节点中的之外的字头 部分的每个节点分配标识符hid。同样,对于字尾部分,假设最终条件节 点的字尾部分节点标识符tid为0,以从1开始的序号,对除了初始条件中 的之外的字尾部分的每个节点分配标识符tid。在图24的处理过程中,输入子网络。
首先在步骤S211,在BAG中记录连接到字体部分的节点,即该子网 络的字头部分的节点。这里,可以从连接信息获得与字体部分连接的节点, 所述连接信息关于属于与子网络连接的字体部分的每个字的字头部分。
此后,重复该处理,直到记录在BAG中的所有节点都#>处理(即, 直到在步骤S218中BAG变为空(())))。
首先,在步骤S212,从BAG选出4壬意的节点V。
接下来,在步骤S213,获得选出的节点V的所有孩子节点,并且它们 被看作集合C。在步骤S214,确定C是否为空。除非C为空,否则过程 进行到步骤S215,其中从C选出任意节点n。在步骤S216,通过输入的 节点V、集合C和节点n,执行随后描述的合并例程。通过合并例程更新 集合C。在步骤S217,如果存在通过合并例程新生成的节点x,则将其添 加至BAG,并且该过程返回至步骤S214。
在步骤S218,检查BAG,并且除非BAG-小,否则该过程返回至步骤 S212,其中对下一个节点V的操作被执行。最后,如果在步骤S218中BAG=(|),则结束该字头部分的更新处理。
从实际应用的角度,如果在步骤S216中处理被重复直到BAG变为空, 则花费大量的时间,从而产生用户在该段时间不能使用语音识别设备的不 便。为此,作为步骤S218的停止条件,允许使用如果从步骤S212至步骤 S217的处理^_过预定时间地重复,则即使BAG不为空也终止处理的条 件,或者如果在开始字头部分的更新处理之后经过X或更多秒,则即使 BAG不为空(()))也终止该处理的M。
接下来,将描述图25中所示的合并例程(图24的步骤S327)。
在图25的处理过程中,输入节点V、节点集合C和节点n。
首先,在步骤S221,假设X是具有与C中的n相同的节点标记的所 有节点的集合,从而
S—{n}+X
C —c一x如果在步骤S222,不存在具有与节点n相同的节点标记的节点,即, S = {n},则过程进行到步骤S223。在步骤S223,通过输出x,建立指示没 有节点存在的小。
如果在步骤S222中,S^Mn),即存在具有与n相同的节点标记的节点, 则过程进行到步骤S224。在步骤S224,执行合并执行例程,并且作为其 输出,获得节点x。
接下来,将说明合并执行例程(图25的步骤S224 )。
在图26的处理过程中,在步骤S231,生成字头部分的节点x,并生成 对于从节点组S的双亲节点V到x的弧。在步骤S231,将节点x的节点标 识符hid设置为字头部分的节点数目+1。
此后,该处理被重复,直到S的所有节点被处理(即,直到在步骤S236 中S变为空(小))。
首先,在步骤S232,从S选出任意节点y。由于V是字头部分的节点, 并且y是某个字的字体网络的节点,所以从V到y的弧具有像图13中以 粗线指示的弧(图13中的151至155)那样的字标识符wid。因此,可通 过该字标识符wid获得该字的字体网络。该节点y是处于该字的字体网络 的标记节点序列的头部的标记节点(例如图6中的135)。
接下来,在步骤S233,删除从V到y的弧,并通过参考由该弧保持的 字标识符wid,获得该字的字体网络。
接下来,在步骤S234,删除处于字体网络的标记节点序列的头部的标 记节点y。
然后,在步骤S235,更新关于字的字头部分的连接信息。就是说,如 果在字体部分中存在节点y的孩子节点,则对于关于字体网络的字头部分 的连接信息,将从字头部分的连接改变为从新节点x到节点y (例如图6 中的135)的孩子节点(例如图6中的137)的连接。除非字体中存在节点 y的孩子节点(即,如果字体只有y),否则通过参考关于字体网络的字尾 部分的连接信息,更新关于字尾部分的连接信息,使得新节点x被直接连 接到字尾部分(见图8的词汇网络(3)的"se-ta")。除非在步骤S236中S = (|),否则过程返回至步骤S232,其中对下一个 节点的处理,支执行。
最后,如果在步骤S236中S - ((>,则结束该合并执行例程。
因此,对于字体部分,具有相同节点标记的节点被合并并组合为字头 部分的节点(在步骤S231中的节点x),从而提高存储效率。
尽管上文提及的处理是对于单个子网络的处理,但是如果存在多个子 网络,可对每个子网g行相同的处理。
提到执行字头部分的更新的时间,当在子网络中设置了具有高可用性 的词汇的組合时,优选地更新字头部分。然后,允许在语法编辑单元12 中记录对于每个子网络的词汇的组合和使用的频率,并当某个子网络中的 词汇的组合超过预定次数时,更新字头部分。
尽管上迷处理是对于字头部分的更新处理,但是显然可对字尾部分采 用相同的更新处理,并省略其详细描述。
根据该实施例,通过根据需要优化字头部分/字尾部分,可实现更有效 的网络。
(笫七实施例)
下文中,将围绕与第六实施例的主要不同点描迷第七实施例。 显然从第六实施例中所示的更新处理过程,可以仅从字头部分/字尾部 分的初始条件/最终条件开始更新处理过程,以便通过该更新处理生成字头 部分/字尾部分。由于字头部分/字尾部分不需要^皮预先创建,所以该方法是 便利的。
该语音识别设备可通过使用通用计算机作为基本硬件来实现。就是说, 可通过使加载在计算机单元上的处理器执行程序,来实现语法编辑单元和 语音识别单元。此时,可通过在计算机上安装程序或通过在例如CD-ROM 的存储介质中存储该程序,然后经过网络分发该程序并在计算机单元上适 当地安装该程序,来实现语音识别设备。可使用诸如在内部安装的或与计 算机单元、硬盘、CD-R、 CD-RW、 DVD-RAM和DVD-R适当地外部连 接的存储器的存储介质,来实现语法存储单元ll。对于本领域普通技术人员,容易实现其他优点和修改。因此,本发明 在其更广泛的方面不限于这里所示和描述的特定的细节和代表的实施例。 因此,在不背离通过所附权利要求及其等同物限定的发明总体概念的精神 或范围的情况下,可以进行各种修改。
权利要求
1.一种使用提供一组识别目标字或句子的语法网络的语音识别设备,包括存储单元,被配置为存储多个词汇,每个所述词汇包括多个字体数据,通过从任意字或句子移除特定的字头来获得每个所述字体数据,以及存储至少一个包括多个被标记的节点的字头部分,以便表示至少一个共同字头,所述共同字头对于所述多个词汇中的至少两个是共同的;指令接收单元,被配置为接收第一指令,用于从所述多个词汇选择目标词汇,以及第二指令,用于指示对所述目标词汇的操作的内容;语法网络生成单元,被配置为当通过所述第一指令指示用于添加所述目标词汇的处理时,生成包含所述字头部分、通过所述第二指令选择的所述目标词汇以及字头部分侧连接信息的语法网络,所述字头部分侧连接信息指示包含在所述目标词汇中的每个所述多个字体数据,被连接至包含在所述字头部分中的所述多个被标记的节点中的预先匹配的一个;以及语音识别单元,被配置为使用所生成的语法网络执行语音识别。
2. 才艮据权利要求1所述的语音识别设备,其中当指示用于删除所述 目标词汇的处理时,所述语法网络生成单元从所述语法网络删除所述目标 词汇以;Sj t应于所述目标词汇的所述字头部分側连接信息。
3. 根据权利要求2所迷的语音识别设备,其中每个所述字体数据由 包含被标记的节点序列的网络构成,以及所述语音识别设备还包括更新单元,被配置为更新所述字头部分,以 便减少包含在两个或更多所述字体数据中的被标记的节点的数量,以及更 新所述两个或更多所述字体数据,以便适合于更新的字头部分。
4. 根据权利要求3所述的语音识别设备,其中所述字头部分由包含 带有充当路线节点的初始条件节点的所述标记的节点的网络构成;以及以仅包含所述初始条件节点的所述字头部分的初始条件,执行所述字 头部分的更新和所述字体数据的更新。
5,根据权利要求2所述的语音识别设备,其中所述存储单元还存储 语法框架,所述语法框架是所述语法网络的模型,其限定在所迷语法网络 中词汇是可变的那些部分中的至少一个,以及所述语法网络生成单元通过用作模型的所迷语法框架生成所述语法网络。
6. 根据权利要求5所述的语音识别设备,其中每个所述字体数据由 包含被标记的节点序列的网络构成;以及所述语音识别设备还包括更新单元,被配置为更新所述字头部分,以 减少包含在两个或更多所述字体数据中的被标记的节点的数量,以及更新 所述两个或更多所述字体数据,以适合于更新的字头部分。
7. 根据权利要求6所述的语音识别设备,其中所述字头部分由包含 所述被标记的节点的网络构成,所述被标记的节点带有充当路线节点的初始条件节点;以及以仅包含所述初始条件节点的所述字头部分的所述初始条件,执行所 述字头部分的更新和所述字体数据的更新。
8. 根据权利要求1所述的语音识别设备,其中通过从任意字或句子移除特定的字头和特定的字尾来获得每个所述字体数据,所述存储单元还存储包括多个被标记的节点的至少一个字尾部分,以 ^t表示至少一个共同字尾,所述共同字尾对于所述多个词汇中的至少两个是共同的;以及当通过所述第一指令指示用于添加所述目标词汇的处理时,所述语法 网络生成单元生成包含所述字头部分、所述字尾部分、通过所迷第二指令 选择的所述目标词汇、字头部分侧连接信息以及字尾部分侧连接信息的语 法网络,其中所述字头部分侧连接信息指示包含在所迷目标词汇中的每个 所述多个字体数据,被连接至包含在所述字头部分中的所述多个被标记的 节点中预先匹配的一个,所述字尾部分侧连接信息指示包含在所述目标词 汇中的每个所述多个字体数据,被连接至包含在所述字尾部分中的所述多 个净皮标记的节点中预先匹配的 一个。
9. 根据权利要求7所述的语音识别设备,其中当指示用于删除所述 目标词汇的处理时,所述语法网络生成单元从所述语法网络删除所述目标 词汇、以及对应于所述目标词汇的字头部分侧连接信息和字尾部分侧连接 信息。
10. 根据权利要求9所述的语音识别设备,其中每个所述字体数据由 包含被标记的节点序列的网络构成,以及所述语音识别设备还包括更新单元,,皮配置为更新所述字头部分和所 述字尾部分,以减少包含在两个或更多所述字体数据中的所述被标记的节 点的数量,以及更新所述两个或更多字体数据,以适合于更新的字头部分 和字尾部分。
11. 根据权利要求10所述的语音识别设备,其中所述字头部分由包 含所述被标记的节点的网络构成,其中所述被标记的节点带有充当路线节 点的初始^节点,所述字尾部分由包含所述被标记的节点的网络构成,所述被标记的节 点带有充当叶子节点的最终条件节点,以及分别以仅包含所述初始条件节点和所述最终条件节点的所述字头部分 和所述字尾部分的所述初始条件,执行所述字头部分和所述字尾部分的更 新以及所述字体lt据的更新。
12. 根据权利要求9所述的语音识别设备,其中所述存储单元还存储 语法框架,所述语法框架是所迷语法网络的模型,其限定所述语法网络中 所述词汇是可变的那些部分中的至少一个,以及所述语法网络生成单元通过用作模型的所述语法框架生成所述语法网络。
13. 根据权利要求12所述的语音识别设备,其中每个所述字体数据由包含被标记的节点序列的网络构成;以及所述语音识别设备还包括更新单元,被配置为更新所述字头部分和所 述字尾部分,以减少包含在两个或更多所述字体数据中的被标记的节点的 数量,以及更新所述两个或更多所述字体数据,以适合于更新的字头部分和字尾部分。
14. 根据权利要求13所述的语音识别设备,其中所述字头部分由包含所述^:标记的节点的网络构成,所述被标记的节点带有充当路线节点的 初始条件节点,所述字尾部分由包含所述被标记的节点的网络构成,所述被标记的节 点带有充当叶子节点的最终条件节点,以及分别以仅包含所述初始条件节点和所述最终条件节点的所迷字头部分 和所述字尾部分的所述初始条件,执行所述字头部分和所述字尾部分的更 新和所述字体数据的更新。
15. 根据权利要求1所述的语音识别设备,其中当通过所述第一指令 指示用于添加所述目标词汇的处理时,在将要初始生成语法网络的情况下, 所述语法网络生成单元生成仅包含所述字头部分的语法网络,然后向生成信息,以及在所述语法网络已经存在的情况下,所迷语法网络生成单元向 现有的语法网络添加所述目标词汇以及对应于所迷目标词汇的所述字头部 分側连接信息。
16. 根据权利要求8所述的语音识别设备,其中当通过所述第一指令 指示用于添加所述目标词汇的处理时,在将要初始生成语法网络的情况下,络,然存问^夙的特 所述字头部分侧连接信息和所述字尾部分侧连接信息,以及在所述语法网 络已经存在的情况下,所述语法网络生成单元向现有的语法网络添加所述 目标词汇以^J"应于所述目标词汇的所述字头部分側连接信息和所述字尾 部分侧连接信息。
17. —种语法网络生成方法,包括存储多个词汇,每个所述词汇包括多个字体数据,通it^任意字或句 子移除特定的字头来获得每个所述字体数据,以及存储至少一个包括多个 被标记的节点的字头部分,以便表示至少一个共同字头,所述共同字头对、、/词标应以匚*、y词标络语的于所述多个词汇中的至少两个是共同的;接收第一指令,用于从所述多个词汇选择目标词汇,以及第二指令, 用于指示对所述目标词汇的操作的内容;当通过所述第一指令指示用于添加所述目标词汇的处理时,生成包含 所迷字头部分、通过所述笫二指令选择的所述目标词汇以及字头部分侧连 接信息的语法网络,所述字头部分侧连接信息指示包含在所述目标词汇中 的每个所述多个字体数据,被连接至包含在所述字头部分中的所述多个被 标记的节点中的预先匹配的一个;以及使用所生成的提供一组识别目标字或句子的语法网g行语音识别。
18. —种存储计算机程序的指令的计算机可读存储介质,当所述计算 机程序的指令被计算机执行时,使得包括下列步骤的执行存储多个词汇,每个所述词汇包括多个字体数据,通it^M壬意字或句 子移除特定的字头来获得每个所述字体数据,以及存储至少一个包括多个 被标记的节点的字头部分,以便表示至少一个共同字头,所述共同字头对 于所述多个词汇中的至少两个是共同的;接收第一指令,用于从所述多个词汇选择目标词汇,以及第二指令, 用于指示对所述目标词汇的"^作的内容;当通过所述第一指令指示用于添加所述目标词汇的处理时,生成包含 所述字头部分、通过所述第二指令选择的所迷目标词汇以及字头部分侧连 接信息的语法网络,所述字头部分侧连接信息指示包含在所述目标词汇中 的每个所述多个字体数据,被连接至包含在所述字头部分中的所述多个被 标记的节点中的预先匹配的一个;以及使用所生成的提供一组识别目标字或句子的语法网^行语音识别。
全文摘要
一种语音识别设备,包括存储词汇的存储单元,每个词汇包括复数个字体数据,通过从字或句子移除特定的字头来获得每个所述字体数据,以及存储至少一个包括被标记的节点的字头部分,以表示至少一个共同字头,所述共同字头对于所述词汇中的至少两个是共同的;指令接收单元,其接收目标词汇的指令和操作的指令;语法网络生成单元,当指示添加时,其生成包含所述字头部分、所述目标词汇和连接信息的语法网络,所述连接信息指示包含在所述目标词汇中的每个所述字体数据,被连接至包含在所述字头部分中的所述被标记的节点中的特定的一个;以及语音识别单元,其使用所生成的语法网络执行语音识别。
文档编号G10L15/22GK101540169SQ20091012805
公开日2009年9月23日 申请日期2009年3月19日 优先权日2008年3月19日
发明者田中信一, 馆森三庆 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1