终端器、服务器及语音辨识方法

文档序号:2835823阅读:184来源:国知局
专利名称:终端器、服务器及语音辨识方法
技术领域
本发明所涉及的是终端器、服务器及语音辨识方法。更具体地讲,是一种为进行自适应于各个使用者、各种利用环境的语音辨识处理的终端器、服务器及语音辨识方法。
背景技术
近年来,人们期待着在移动电话、移动终端、汽车电子自动导向系统、个人电脑等方面能够使用语音辨识技术,从而提高使用者的方便性。
语音辨识技术被各种各样的使用者利用于各种各样的环境中。移动电话、移动终端等所接受的利用环境中的背景杂音,其种类等时时刻刻都在发生着变化。即便是被固定放置的家庭内部的终端器等,由于电视接收机的声音等亦可导致背景杂音的种类时时刻刻发生着变化。因此,在这种环境下的使用者的语音就被附加上各种各样的杂音,从而,应被辨识的语音数据的音响特性也时时刻刻地发生着变化。还有,即便是同一环境中的相同使用者,由于健康状态、衰老情况等变化,使用者的音质也会发生改变,所以应辨识语音数据的音响特性也在发生着变化。还有,由于安装在语音辨识部分上的话筒的种类的不同,应辨识语音数据的音响特性也发生变化。
为了使不同音响特性的语音数据的辨识率接近于100%,开发了各种各样的自适应化技术。
例如,做为最大似然线性回归算法(Maximum Likelyhood LinearRegressionMLLR)的自适应化方法,C.J.Leggetter and P.C.Woodland,“Maximum likelihood linear regression for speaker adaptationof continuous density hidden Markov models”,Computer Speech andLanguage,1995,Vol.9,No.2,pp.171-186等被提案。做为最大似然线性回归算法是,利用大量的使用者语音数据,进行自适应系数的推定,再根据这些自适应系数通过变形音响模型来进行自适应。
还有,做为讲话者组合的自适应化方法,加藤恒夫,黑岩真吾,清水彻,樋口宜男,“使用了多数讲话者的电话语音数据库的讲话者组合”,信学技报,SP2000-10,pp.1-8,2000等被提案。还有,做为使用充分的统计量和讲话者间的语音差异的自适应化方法,芳泽伸一,马场朗,松浪加奈子,米良佑一郎,山田实一,鹿野清宏,“利用充分的统计量和讲话者间的语音差异的语音模型的无教师学习”,信学技报,SP2000-89,pp.83-88,2000等被提案。据讲话者组合的方法,使用充分的统计量和讲话者间的语音差异的方法,基本上,事先将在各种各样的利用环境中各种各样讲话者的大量发音数据储存起来,再利用这些大量的数据事先构筑成音响模型备用。如此,在自适应时,利用音响模型进行自适应。做为制作音响模型的发音数据,因为利用储存在数据库的近似于使用者的音响特性的发音数据,使用者不再需要进行大量的发音(准备),这样就可以减轻使用者的负担。还有,因为事先构筑了音响模型,在自适应处理时不再需要为构筑音响模型的处理时间,这样,可以在短时间内进行自适应。
还有,将应合讲话者语音的声谱沿着周波数轴方向伸缩的手法(VocalTract Normalization)等被提案。例如,Li lee and Richard C.Rose,“Speaker Normalization using efficient frequency warping procedures”,ICASSP-96,IEEE International Conference on Acoustics,Speech and Signal Processing,pp.171-186等被提案。在特开2000-276188号公报的图1中,展示了利用声谱变换进行讲话者自适应的语音辨识部分。在这个语音辨识部分中,安装着储存了进行语音辨识的讲话者自适应化系数的,附加/消除可能的自适应化系数储存部分,据那些自适应化系数进行自适应。

发明内容
发明所要解决的课题是在做为最大似然线性回归算法中,因为利用了大量的使用者语音数据进行自适应,所以,使用者为了自适应的需要,就必须大量朗读文章。为此,使用者的负担很大。
据讲话者组合的方法,用充分的统计量和讲话者间的语音差异的自适应方法,为了对应各种各样的音响特性所要对应的语音数据,就必须在语音辨识部分中储存大量的音响模型。为此,语音辨识部分中必须拥有庞大的储存用容量,而对于移动电话、个人数码助理(Personal Digital AssistantPDA)等仅仅只有有限的储存用容量的终端器来讲,则难以实现。
沿周波数轴方向伸缩应合讲话者声谱的手法,在特开2000-276188号公报的图1中所揭示的技术中,进行了讲话者特性的自适应,但是,对于杂音、讲话者的音质变化等的各种各样的音响特性的变化用声谱变换来进行自适应则是困难的。还有,在特开2000-276188号公报所揭示的技术中,为了自适应大量的各种各样的杂音、各种各样的使用者的音质等的音响特性,就有必要准备储存了各自的自适应系数的巨大数量的,且可能附加/消除的自适应化系数的储存部分。还有,使用者还必须将所选择的判断杂音的种类、现在的音质的上述自适应化系数储存部分安装于语音辨识部分。
本发明的目的在于提供一种可以减小必要的储存用容量的终端器。
从这个发明的一个侧面来讲,终端器是包括送信部分、收信部分、第1储存部分和语音辨识部分。送信部分,把使用者所发出的语音和环境杂音发送给服务器。收信部分,接收来自服务器的自适应于上述使用者语音和环境杂音的音响模型。第1储存部分,储存由收信部分接收的音响模型。语音辨识部分利用储存于第1储存部分的音响模型进行语音辨识。
上述的终端器,因为从服务器取得自适应于使用者的发音和环境杂音的音响模型并将其储存于第1储存部分中,所以没有必要事先在第1储存部分中储存对应于可能遇到的(实际上大多数是遭遇不上的)所有的情况的音响模型。因此,可能减小必要的储存用容量。
最好的是,上述收信部分还从服务器接收上述使用者将来有可能利用的音响模型。
最好的是,上述终端器中还包括有判断部分。判断部分,是将附加了上述环境杂音的上述使用者语音与既存于第1储存部分中的音响模型的相似程度和所定的阈值进行比较。上述送信部分,在上述相似程度小于所定阈值时,向服务器发送上述使用者语音及环境杂音。
上述终端器,因为在上述相似程度大于所定阈值时,利用既存于第1储存部分音响模型进行语音辨识,所以,可减少向服务器的信息发送/及从服务器的信息接收过程。
最好的是,上述判断部分,在上述相似程度小于阈值时,敦促上述使用者判断是否取得音响模型。上述送信部分,当上述使用者的判断为取得音响模型时,向服务器发送上述使用者语音及上述环境杂音。
上述终端器,因为只限于使用者的判断为取得音响模型时才向服务器发送这个使用者语音及环境杂音,所以,可减少向服务器的信息发送/及从服务器的信息接收。
最好的是,上述终端器还包括第2储存部分。第2储存部分,储存使用者所发出的语音。上述送信部分,在取得了环境杂音后,向服务器发送这个环境杂音和既存于第2储存部分的使用者语音。
上述终端器,可以在第2储存部分中储存使用者在周围杂音极其少的时候的发音。如此,服务器,或者是终端器,可以制作/利用更高精度的自适应模型。还有,上述终端器,可以在第2储存部分中储存在寂静环境中的复数个人的发音。因此,即便是对于复数个人利用的终端器,也可以利用高精度的音响模型。还有,因为使用者语音一旦被储存,在制作自适应模型时的发音工作就不再有必要,所以,使用者的负担不大。
从本发明的另一个侧面来讲,终端器是包括送信部分、收信部分、第1储存部分、制作部分和语音辨识部分。送信部分,把使用者所发出的语音和环境杂音发送给服务器。收信部分,接收来自服务器的自适应于上述使用者语音和环境杂音的音响模型。第1储存部分,储存由收信部分接收的制作用数据。制作部分,利用既存于第1储存部分中的制作用数据,制作自适应于上述使用者的发音及上述环境杂音的音响模型。语音辨识部分,利用由制作部分所制作的音响模型进行语音辨识。
上述的终端器,因为能从服务器取得自适应于使用者所发出的语音和环境杂音的音响模型储存于第1储存部分中,也就没有必要事先在第1储存部分中储存对应于可能遇到的所有情况的音响模型。因此,可能减小必要的储存用容量。
最好的是,上述收信部分,还能从服务器中接收上述使用者将来有可能利用的制作用数据。
最好的是,上述终端器,敦促使用者从各种各样环境中选择所希望的环境,在所选择的环境中重现具有特征的语音。
从本发明的另一个侧面来讲,服务器包括储存部分、收信部分、选择部分和送信部分。储存部分,储存复数个音响模型。复数个音响模型中的每一个,都是自适应于所对应的讲话者及环境的模型。收信部分,接收来自终端器的使用者的发音和环境杂音。选择部分,从储存部分选择由收信部分所接收的,自适应于使用者语音和环境杂音的音响模型。送信部分,向上述终端器发送由选择部分所选择的音响模型。
上述的服务器,因为设置了储存复数个音响模型的储存部分,并从储存部分选择自适应于终端器使用者语音和环境杂音的音响模型发送给终端器,所以可以减小终端器所必须的储存用容量。
还有,因为可以在储存部分中储存用近似于使用者发音数据的音响特性的大量数据所制作的音响模型,使用者就不必为制作音响模型而进行大量的发音工作,所以使用者的负担小。
还有,因为可以在储存部分中储存事先制作的近似于使用者发音数据的音响特性的大量数据所制作的音响模型,就可以不再需要制作音响模型的时间,而缩短自适应处理的时间,所以在短时间内终端器就可获得自适应模型。
最好的是,上述选择部分,从储存部分中选择上述终端器的使用者将来有可能使用的音响模型。
从本发明的另一个侧面来讲,服务器包括储存部分、收信部分、制作部分和送信部分。储存部分,储存复数个音响模型。复数个音响模型中的每一个,是自适应于所对应的讲话者及环境的模型。收信部分,接收来自终端器的使用者发音和环境杂音。制作部分,基于接收信号部分接收的使用者语音、环境杂音和储存于储存部分中的复数个音响模型,制作自适应于上述使用者发音及环境杂音的音响模型。送信部分,向上述终端器发送由制作部分所制作的音响模型。
上述服务器中,因为设置了储存复数个音响模型的储存部分,向终端器发送所制作的自适应于终端器使用者语音和环境杂音的音响模型,所以就可能减小终端器所必须的储存用容量。
最好的是,上述制作部分,制作上述终端器使用者将来可能利用的音响模型。
从本发明另一个侧面来讲,服务器包括储存部分、收信部分、选择部分和送信部分。储存部分储存复数个音响模型。复数个音响模型的每一个,是自适应所对应的讲话者及环境的模型。收信部分,接收从终端器发送的,使用者的发音和环境杂音。选择部分,是从储存部分中选择由收信部分所接收的,为制作自适应于使用者语音和环境杂音的音响模型的制作用数据。制作用数据,至少包含2个音响模型。送信部分,向上述终端器发送由选择部分所选择的制作用数据。
上述的服务器,因为从储存部分选择制作自适应于终端器使用者语音和环境杂音的音响模型的制作用数据发送给终端器,所以可以减小终端器所必备的储存用容量。
最好的是,上述选择部分,从储存部分中选择上述终端器使用者将来可能利用的制作用数据。
最好的是,在上述储存部分中储存的复数个音响模型中的每一个,亦自适应所对应的讲话者的语调。
上述的服务器,因为在储存部分中储存了自适应讲话者语调的音响模型,所以,终端器使用者可以获得更高的辨识率。
最好的是,上述储存部分所储存的复数个音响模型的每一个,在制作这个音响模型时为得到讲话者的发音数据,亦自适应输入方法的特性。
上述服务器,因为在储存部分中储存了自适应于输入方法特性的音响模型,终端器的使用者可以获得更高的辨识率。
从本发明的另一个侧面来讲,语音辨识包括步骤(a)~(c)。步骤(a),准备复数个音响模型。复数个音响模型中的每一个,为自适应于讲话者、环境及语调的模型。步骤(b),基于使用者的发音、环境杂音及上述复数个音响模型,获得自适应于上述使用者语音和环境杂音的音响模型。步骤(c),利用上述获得的音响模型进行语音辨识。
上述的语音辨识方法,因为准备了自适应于讲话者语调的音响模型,使用者可以获得更高的辨识率。
最好的是,上述复数个音响模型中的每一个,在制作这个音响模型的时候,为了得到讲话者的语音,也自适应于输入方法的特性。
上述的语音辨识方法,因为准备了自适应于输入方法特性的音响模型,使用者可以获得更高的辨识率。


图1是表示本发明实施例1的语音辨识系统的全体构成方框图。
图2是表示图1所示语音辨识系统的操作流程的流程图。
图3是表示图1所示储存于服务器的数据储存部分的音响模型一例的图。
图4是表示本发明实施例2的语音辨识系统的全体构成方框图。
图5是表示图4所示语音辨识系统的操作流程的流程图。
图6是表示储存于个人数码助理的储存部分中的音响模型及高斯混合模型一例的图。
图7是表示本发明实施例3的语音辨识系统的全体构成方框图。
图8是表示图7所示语音辨识系统的操作流程的流程图。
图9是表示利用环境杂音自适应算法的制作自适应模型的制作处理流程图。
图10是表示本发明实施例4的语音辨识系统的全体构成方框图。
图11是表示图10所示语音辨识系统的操作流程的流程图。
图12是表示触屏所显示画面的一例的图。
图13是表示本发明实施例5的语音辨识系统的个人数码助理的构成方框图。
图14是为说明本发明实施例5的语音辨识系统的操作的流程图。
图15是为说明本发明实施例6的语音辨识系统的移动电话构成的方框图。
图16是为说明本发明实施例6的语音辨识系统的操作的流程图。
图17是表示本发明实施例7的语音辨识系统的全体构成方框图。
图18是为说明图17所示的语音辨识系统的操作的流程图。
具体实施形态以下,参照图纸来详细说明本发明的实施形态。尚且,图中相同或相当部分标注以同样的符号,不再重复说明。
(实施例1)<语音辨识部分的构成>
第1实施例的语音辨识部分的全体构成由图1来表示。该语音辨识部分包括个人数码助理11和服务器12。个人数码助理11及数据保管计算机12是介于信息通道131,进行相互之间的数据发送和接收的。
个人数码助理11包括话筒111,送信部分112,收信部分113,储存部分114及语音辨识部分115。话筒111,是输入个人数码助理11的使用者所发出的语音,个人数码助理11周围的杂音(环境杂音)等的数据输入方法。送信部分112,把话筒111输入的数据发送给数据保管计算机12。收信部分113,接收从数据保管计算机12传来的自适应模型。由收信部分113接收的自适应模型储存于储存部分114。语音辨识部分115利用储存于储存部分114的自适应模型进行语音辨识。
数据保管计算机12包括收信部分121,送信部分122,自适应模型选择部分123和数据储存部分124。数据储存部分124中,储存附加了对应的复数个音响模型和复数个选择模型。复数个选择模型,是为选择所对应的音响模型的模型。收信部分121接收来自个人数码助理11的数据。自适应模型选择部分123,从储存在数据储存部分124中的复数个音响模型中选择自适应化了的个人数码助理11的利用环境及/或者利用状态的音响模型。在这儿所说的利用环境,是表示利用个人数码助理11的场所的周围杂音等。还有,利用状况,是表示由于个人数码助理11的语音辨识部分115的语音辨识处理而操作的应用程序的用途等。送信部分122向个人数码助理11发送由自适应模型选择部分123所选择的自适应模型。
<语音辨识部分的操作>
接下来,参照图2说明有关如上所构成的语音辨识系统的操作。在这里,以使用者在展览会场中利用个人数码助理11的情况为例加以说明。
(ST10101步骤)使用者依靠装在个人数码助理11上的话筒111输入“取得音响模型”,“希望自适应”,“语音辨识”等语音数据。与此同时,在使用者语音的数据上附加了展览会场中的噪音。
(ST10102步骤)个人数码助理11敦促使用者判断是否取得音响模型。当使用者的判断为取得音响模型时,在ST10101步骤得到的附加了杂音的语音数据由个人数码助理11的送信部分112发送给服务器12。然后进入ST10103步骤。另一方面,当使用者的判断为不取得音响模型时,就不向服务器12发送信息而进入ST10105步骤。
(ST10103步骤)在服务器12的数据储存部分124中事先储蓄了复数个音响模型。所谓复数个音响模型,就是自适应在制作各种各样的杂音环境中的各种各样讲话者的、讲话者各种各样语调的、音响模型时,为得到讲话者发出的语音所使用的话筒的特性。在数据储存部分124中事先储蓄音响模型的一个例子用图3表示。在此所储蓄的是,汽车内、家庭内、展览会场内等的杂音环境中的A、B、C、Z等讲话者的通常语音、嘶哑语音、鼻音等的语调使用话筒A、话筒B、话筒C、话筒D等用所发出的语音数据制作的复数个音响模型(夹杂着杂音的模型)。复数个音响模型的每一个包含有复数个隐马尔可夫模型(HMM)。各个音响模型所包含的音素音响模型的个数、种类,是根据语音辨识的精确度(依赖于上下文的联贯性、不依赖于上下文的联贯性等)、语言(日语、英语等)、应用程序等的不同而不同。还有,为了选择做为自适应模型的复数个音响模型内的自适应于个人数码助理11利用环境及/或者利用状况的音响模型,在数据储存部分124中事先储蓄了高斯混合模型(Gaussian Mixture Model)。高斯混合模型是用制作音响模型时所利用的语音数据,在不区别音素的情况下制作的。高斯混合模型与音响模型成对,它是表现所对应的音响模型的特征的单纯模型。
服务器12的收信部分121,接收来自个人数码助理11使用者的夹杂着杂音的数据。自适应模型选择部分123,将由收信部分121所接收的使用者夹杂着杂音的数据,输入给既存于数据储存部分124中的,附随于各音响模型的高斯混合模型中。这样,自适应模型选择部分123,选择附随于具有最大似然值(Maximum Likelyhood)的高斯混合模型的音响模型做为自适应模型。被选择的音响模型是最适合周围杂音和使用者的模型。
(ST10104步骤)服务器12的送信部分122,向个人数码助理11发送由自适应模型选择部分123所选择的自适应模型133。
个人数码助理11的收信部分113,接收来自服务器12的自适应模型133。由收信部分113接收的自适应模型133储存于储存部分114中。这时,以前被储存于储存部分114的音响模型(自适应模型)被新下载了的自适应模型所置换。
(ST10105步骤)语音辨识部分115,用储存于储存部分114的自适应模型进行语音辨识。在ST10102步骤,使用者的判断为取得音响模型的情况下,在ST10103步骤用自服务器12下载的自适应模型进行语音辨识。在ST10102步骤,使用者的判断为不取得音响模型的情况下,不进行音响模型的下载,用既存于储存部分114的自适应模型进行语音辨识。
<效果>
据实施例1的语音辨识系统,在服务器12中进行自适应,在个人数码助理11中进行辨识。因为服务器12的记忆容量很大,可以利用复杂模型自适应。因此,可以提高辨识率。还有,即便是发生服务器12死机、串线等现象,在个人数码助理11中仍然可以使用辨识机能。
还有,因为没有必要在个人数码助理11的储存部分114中储存对应于所有可能遭遇的情况(实际上很多情况不会遭遇)的自适应模型,只需要从服务器12获取自适应于所遭遇了的状况的自适应模型,储存到个人数码助理11的储存部分114即可,所以,就可以削减个人数码助理11的储存部分114的容量。
还有,个人数码助理11的使用者,因为由自适应了个人数码助理11周围的杂音、使用者的讲演特性、使用者的语调、话筒的特性的自适应模型能够进行语音辨识,所以可以得到高辨识率。
还有,因为在服务器12的数据储存部分124中事先保存了和使用者的发音数据的音响特性相近的大量数据所制作的音响模型,所以使用者就不必为制作音响模型而再进行大量的发音(工作)。
还有,因为在服务器12的数据储存部分124中事先保存了和使用者的发音数据音响特性相近的大量数据制作的音响模型,所以就不再需要为制作音响模型的处理时间。
还有,因为在个人数码助理11的储存部分114中保存了以前所利用过的自适应模型,所以可以再利用自适应模型。
<变形例子>
尚且,在向个人数码助理11的储存部分114中储存从服务器12所下载的自适应模型时,既存于储存部分114的自适应模型被新下载的自适应模型所置换(ST10103步骤)。变换一下做法,在既存于储存部分114中的自适应模型的基础上,把新下载的自适应模型追加到储存部分114中的做法亦可。这种情况,在ST10105步骤中的语音辨识处理进行如下所述的过程。在ST10102步骤中,使用者的判断为取得音响模型的情况时,在ST10103步骤中用自服务器12下载了的自适应模型进行语音辨识。在ST10102步骤中,使用者的判断为不取得音响模型的情况时,不进行音响模型的下载,从ST0101步骤中积存于储存部分114的自适应模型中选择已被输入的接近于语音数据的自适应模型,用所选择的自适应模型进行语音辨识。
还有,服务器12的自适应模型选择部分123,亦可对应于利用状况选择音响模型。例如,在利用有关安全措施的应用程序(据语音辨识处理机密情报的应用程序、据语音辨识进行汽车驾驶的应用程序等)的情况中,选择更高精度的自适应化音响模型亦可。这种情况的个人数码助理11既可以将起动着的应用程序信息传送给服务器12的自适应模型选择部分123用以通知利用状况(语音辨识的重要程度)亦可,或是让使用者输入重要程度,并将该信息(利用状况)传送给服务器12的自适应模型选择部分123亦可。
还有,音素的音响模型不只限于隐马尔可夫模型。
还有,也可以把“取得音响模型”等的试发音数据从个人数码助理11传送给服务器12亦可。做为这种情况的一个例子,因为使用由在试发音中的只包含音韵的语音数据所制作并特化了的高斯混合模型,可以由只用上述音韵所构成的发声数据来选择自适应模型,所以就可以高精度地选择自适应模型。在从所有的音韵发声对每个讲演者制作了高斯混合模型的情况下,用高斯混合模型所可以表现的讲话者特性就有可能变得含糊不清。
还有,亦可将变换了的使用者的发音数据的倒谱系数(Cepstrum系数)等的特征量从个人数码助理11传送给服务器12。
还有,在服务器12的数据保存部分124中不储存高斯混合模型,在自适应模型选择部分123中取代高斯混合模型而使用音响模型,亦可选择音响模型的似然值为最大值的音响模型做为自适应模型。
还有,在个人数码助理11中,使用和输入个人数码助理一侧的信息132的话筒相同的话筒进行语音辨识亦可。这种情况下,用考虑了话筒特性的自适应模型可以进行语音辨识。
还有,亦可以个人数码助理11做为电视接收机、个人电脑、以及汽车电子自动导向系统等的固定终端。
还有、信息通路131亦可借用电话线、因特网线、有线电视线等的有线、通讯网、BS/CS数码播放或地面波数码播放等的播放网络。
还有,亦可用服务器12做为电视接收机或者是机顶盒(Set-Top Box),个人数码助理11(终端)做为电视接收机的遥控器,使服务器和终端共存于接近的空间。
(实施例2)<语音辨识系统的构成>
第2实施例的语音辨识系统的全体构成由图4来表示。该语音辨识系统包括个人数码助理11和服务器42。个人数码助理11及数据保管计算机42是介于信息通道131进行相互间的数据的存入读取。
数据保管计算机42包括收信部分121,送信部分122,自适应模型选择部分123,数据储存部分124和时间表数据库421。在时间表数据库421中,保存着个人数码助理11的使用者的日程安排(目的地、时日等)。
<语音辨识系统的操作>
接下来,参照图5说明有关如上所构成的语音辨识系统的操作。在这里,以使用者X在展览会场中利用个人数码助理11的情况为例加以说明。
使用者X,与第1实施例所说明的一样的做法,向个人数码助理11的储存部分114下载自适应于展览会场的噪音和使用者X的正常发音的音响模型及该模型的高斯混合模型(ST10101~ST10104)。
(ST10111步骤)个人数码助理11敦促使用者X判断是否取得将来有可能使用的音响模型。若是使用者X的判断为取得音响模型时,从个人数码助理11的送信部分112向服务器42发出要求信号,进入ST10112步骤。另一方面,若是使用者X的判断为不取得音响模型的话,就不发送要求信号而进入ST10114步骤。在此,设定使用者X的判断为取得将来所要利用自适应模型。
(ST10112步骤)来自个人数码助理11的要求信号介于服务器42的接受信息部分121传给自适应模型选择部分123。接受了要求信号的自适应模型选择部分123预测使用者有可能遭遇的情况,并从数据储存部分124选择自适应这种情况的音响模型。具体的选择过程如下。上述的ST10101~ST10104步骤中,用自适应于展览会场的噪音和使用者的正常语音的音响模型做为音响模型下载到个人数码助理11的储存部分114。据此,自适应模型选择部分123选择做为自适应于使用者X今后有可能遭遇的情况的音响模型的“自适应于展览会场噪音和使用者X的感冒时的语音的音响模型”、“自适应于展览会场噪音和使用者X的快速讲话时的语音的音响模型”、“自适应于展览会场噪音和使用者X的窃窃私语时的语音的音响模型”、“自适应于近似于展览会场噪音的会场噪音和使用者X的正常语音的音响模型”。还有,做为别的选择方法,参照收存在时间表数据库421中的使用者X的时间表,自适应模型选择部分123选择音响模型。例如,做为使用者今后的时间表,在时间表数据库421中收存了“工程现场的临时工”、“居酒屋(小酒店)的宴会”、“欧洲旅行(英语及法语圈)”。这种情况下,做为自适应于使用者今后有可能遭遇的情况的音响模型,自适应选择部分123选择“自适应于工程现场的噪音和使用者X的正常语音的音响模型”、“自适应于居酒屋的杂音和使用者X的正常语音的音响模型”、“自适应于展览会场噪音和使用者X的英语正常语音的音响模型”、“自适应于展览会场噪音和使用者X的法语正常语音的音响模型”。
(ST10113步骤)
如上所述做法所选择的音响模型(自适应模型)和与该模型对应的高斯混合模型从服务器42的送信部分122发送给个人数码助理11。个人数码助理11的收信部分113接收由服务器42所发送的自适应模型和高斯混合模型。由收信部分113接收的自适应模型和高斯混合模型被储存在储存部分114中。在此,在既存于储存部分114的音响模型及高斯混合模型的基础上追加新被下载的音响模型及高斯混合模型。如此做法,储存在储存部分114上的音响模型及高斯混合模型的一例如图6所示。
(ST10114步骤)语音辨识部分115,用既存于储存部分114的自适应模型进行语音辨识。在ST10102步骤,使用者的判断为取得音响模型的情况时,ST10103步骤中用自服务器42下载的自适应模型进行语音辨识。在ST10102步骤,使用者的判断为不取得音响模型的情况时,用既存于储存部分114的自适应模型进行语音辨识。
接下来是使用者X在做临时工的工程现场利用语音辨识的情况。使用者X在工程现场利用个人数码助理11的话筒111进行输入使用者语音数据(ST10101)。使用者X不要求下载自适应模型(ST10102)。语音辨识部分115将被输入的语音数据输入到储存于储存部分114的各个高斯混合模型中,选择对应于该语音数据的似然值最大的高斯混合模型的音响模型(ST10111)。语音辨识部分115用所选择的自适应模型进行语音辨识(ST10114)。
接下来说明和使用者X一起做临时工的朋友使用者Y在工程现场利用个人数码助理11的情况。使用者Y在工程现场利用个人数码助理11的话筒111输入使用者语音数据(ST10101)。使用者Y要求下载自适应模型(ST10102)。自适应于工程现场的噪音和使用者Y的正常语音的音响模型(自适应模型)及该模型的高斯混合模型被下载到个人数码助理11的储存部分 114上(ST10103~ST10104)。还有,使用者Y不要求将来必要的音响模型(ST10111)。使用者Y利用下载到储存部分114的自适应模型由语音辨识部分115进行辨识(ST10104)。
<效果>
按照实施例2的语音系统的做法,在实施例1的结果的基础上还能得到以下结果。
因为事先在个人数码助理11的储存部分114上储存了所预测的有可能遭遇的情况的自适应模型,所以个人数码助理11的使用者不用通过与服务器42交换信息而可以利用自适应模型。还有,因为可以在个人数码助理11的储存部分114上储存复数个使用者的自适应模型,所以,个人数码助理11的复数使用者不用通过与服务器42的交换信息而可以利用自适应模型。
<变形例子>
尚且,在此例子中是遵从个人数码助理11的使用者的判断取得将来有可能使用的自适应模型,但是也可以设定为由服务器42的自适应模型选择部分123自动取得自适应模型。例如,参照储存于时间表数据库421的使用者的时间表(日程),进行如下的取得自适应模型。以个人数码助理11的使用者X的时间表为‘从10点开始工程现场的临时工’的情况为例。在这种情况下,在比所第定的时刻10点钟早的时刻,如在9点50分时,自适应模型选择部分123从数据储存部分124选择“自适应于工程现场的噪音和使用者X的正常语音的音响模型”。所选择的模型由送信部分122发送给个人数码助理11,储存在储存部分114中。由此,在开始临时工的10点钟就可以在个人数码助理11上进行利用“自适应于工程现场噪音和使用者X的正常语音的音响模型”的语音辨识。还有,在个人数码助理11上装载了全球定位系统(Global Positioning System·GPS)功能的情况下,移动了个人数码助理11的使用者X在一定程度上接近临时工工程现场时,亦可由自适应模型选择部分123从数据储存部分124选择“自适应于工程现场噪音和使用者X的正常语音的音响模型”。
还有,在此是举了在服务器42内设置了时间表数据库的例子,亦可设置在个人数码助理11中。
还有,对应于由自适应模型选择部分123所选择的自适应模型的高斯混合模型不下载到个人数码助理11,亦可利用从个人数码助理11的储存部分114选择自适应模型时的自适应模型。
还有,在ST10101步骤进行语音输入时,输入使用者的姓名,把下载的自适应模型和使用者的姓名之间附加上相对应的关系数据备用。这样,在ST10114步骤中的选择自适应模型时,亦可采用输入使用者姓名的方法进行选择。
还有,亦可用服务器42做为电视接收机或是机顶盒,个人数码助理11(终端)做为电视接收机的遥控器,个人数码助理11(终端)做为电视接收机的遥控器,使服务器和终端共存于接近的空间。
(实施例3)<语音辨识系统的构成>
第3实施例的语音辨识系统的全体构成由图7来表示。这个语音辨识系统包括移动电话21和服务器22。移动电话21及数据保管计算机22是介于信息通道231,进行相互间的数据读出存入的。
移动电话21包括数据输入部分211、送信部分212、收信部分213、储存部分214和语音辨识部分215。数据输入部分211是为输入移动电话21的使用者的语音,或是移动电话21周围的杂音等信息的数据输入部分。数据输入部分211包括语音发音按钮和话筒。语音发声按钮是为了区别输入使用者的语音和环境杂音的按钮。话筒,输入移动电话21的使用者的语音及移动电话21周围的杂音等。发送信息部分212是向服务器22发送由数据输入部分211所输入的数据。收信部分213接收来自服务器22的自适应模型。由收信部分213所接收的自适应模型储存于储存部分214。语音辨识部分215利用既存于储存部分214的自适应模型进行语音辨识。
服务器22包括收信部分221、送信部分222、自适应模型制作部分223、数据储存部分224和时间表数据库421。在数据储存部分224中储存着自适应模型制作用数据。自适应模型制作用数据中包含着复数个音响模型及它们所对应的高斯混合模型和复数个讲话者的语音数据。收信部分221接收来自移动电话21的数据。自适应模型制作部分223,基于收信部分221所接受的数据及数据储存部分224所储存的数据,制作自适应模型。发送信息部分222,向移动电话21发送由自适应模型制作部分223所制作的自适应模型。
<语音辨识系统的操作>
接下来,参照图8说明有关如上所构成的语音辨识系统的操作。在这里,以使用者在电车内利用移动电话21的情况为例加以说明。
(ST10201步骤)移动电话21的使用者,利用装在移动电话21上的话筒及发音按钮,区别使用者发音时的数据和没有发音时周围的杂音数据并进行输入。使用者按着语音发发音按钮并进行发音,使用者语音就输入到话筒中。还有,若不按语音发音按钮,周围的杂音就通过话筒被输入。做为使用者的发音数据,输入当电车停车时的使用者语音,而做为周围的杂音,则在电车运行时输入噪音和周围人的喧嚣声。
(ST10202步骤)移动电话21,敦促使用者判断是否取得音响模型。若是使用者的判断为取得音响模型时,在ST10201步骤中,从数据输入部分211被输入的数据由移动电话21的发送信息部分212发送给服务器22。然后进入ST10203步骤。另一方面,若是使用者的判断为不取得音响模型时,就不发送信息而进入ST10214步骤。
(ST10203步骤)服务器22的收信部分221,接收来自移动电话21的使用者语音和周围的杂音。
自适应模型制作部分223,基于既存于数据储存部分224的音响模型中至少两个音响模型和由收信部分221所接收的数据,制作自适应于移动电话21一侧的利用环境的音响模型。
自适应模型制作部分223,利用环境杂音自适应算法(山田实一、马场朗、芳泽伸一、米良佑一郎、李晃伸、猿渡洋、鹿野清宏、“环境杂音算法大词汇连续语音辨识的评价”,信息处理学会研究报告书,2000-SLP-35,pp.31-36,2001)制作自适应模型。接下来,参照图9说明有关利用环境杂音自适应算法制作自适应模型的过程。在服务器22的数据储存部分224中,事先储存了复数个音响模型和复数个讲话者的发音数据。环境杂音自适应算法,由发声数据,利用充分的统计量和讲话者间的语音差异进行讲话者自适应。基于充分的统计量和讲话者间的语音差异的适应化方法,从数据储存部分224选择(ST73)在音响上接近于短时间使用者的发音数据的讲话者的音响模型,利用所选择的音响模型,用充分的统计量和讲话者间的语音差异的适应化方法进行讲话者自适应(ST71)。由于可以用由移动电话21所接受的不含杂音的发音数据进行讲话者自适应,所以可以进行高精度的讲话者自适应。在那以后,从数据储存部分224选出(ST74)在音响上接近于短时间使用者的发音数据的讲话者的音响模型,生成在所选择的发音数据上附加了由移动电话21所接受的周围杂音数据的附加杂音数据。而且,由附加杂音数据用做为最大似然值线性回归算法的方法进行杂音自适应(ST72)。如此做法,自适应模型就被制作了。
(ST10204步骤)由自适应模型制作部分223所制作的自适应模型233,通过发送信息部分222发送给移动电话21的收信部分213。移动电话21的收信部分213所接收的自适应模型233,被储存于储存部分214。在这里,在储存部分214中的既存音响模型及高斯混合模型的基础上,追加了新下载的音响模型及高斯混合模型。
(ST10211步骤)移动电话21,敦促使用者判断是否取得将来有可能使用的音响模型。若是使用者的判断为取得音响模型时,从移动电话21的发送信息部分212向服务器22发出要求信号,进入ST10212步骤。另一方面,若是使用者的判断为不取得音响模型时,就不发送要求信号而进入ST10214步骤。
(ST10212步骤)接收了来自移动电话21的要求信号的自适应模型制作部分223,制作使用者预测的可能遭遇的状况,并自适应该状况的音响模型。应制作的音响模型的选择,如图5所示的ST10112步骤所说明的同样的方式进行。模型的制作,如上述ST10203步骤所说明的同样的方式进行。
(ST10213步骤)如上所述做法所制作的音响模型(自适应模型)和与该音响模型相对应的高斯混合模型从服务器22的发送信息部分222发送给移动电话21。移动电话21的收信部分213,接收由服务器22所发送的自适应模型及高斯混合模型。由收信部分213所接收的自适应模型及高斯混合模型,被储存在储存部分214中。在此,在储存部分214中的既存音响模型及高斯混合模型的基础上追加新被下载的音响模型及高斯混合模型。
(ST10214步骤)语音辨识部分215,如图5所示的ST10114所说明的同样做法,用既存于储存部分214的自适应模型进行语音辨识。
<效果>
按照如上说明的实施例3的做法,因为没有必要在移动电话21的储存部分214中储存所有的对应于有可能遭遇的情况(实际遭遇不到的情况为多)的自适应模型,只需要从服务器22获得并储存自适应于所遭遇到的情况的自适应模型即可,所以,可以消减移动电话21的储存部分214的容量。
还有,移动电话21的使用者,因为能够做到根据自适应于移动电话周围的杂音、使用者的讲话者性质、使用者语音性质等的自适应模型进行语音辨识,所以能获得高辨识率。
还有,在服务器22中,因为可以在考虑移动电话21一侧的情况下制作自适应模型,所以,还可以向移动电话21发送更自适应于移动电话21的利用状况的自适应模型。
<变形例子>
尚且,做为区别使用者的语音数据和使用者未发声时的周围的杂音数据的方法,利用语音辨识模型和杂音辨识模型自动进行亦可。
还有,音响模型不受隐马尔可夫模型的限制。
还有,自适应模型制作部分223中,在改良用充分的统计量和讲话者间的语音差异方法(芳泽伸一,马场朗,松浪加奈子,米良佑一郎,山田实一,鹿野清宏,“利用充分的统计量和讲话者间的语音差异的音韵模型的无教师学习”,信学技报,SP2000-89,pp.83-88,2000)的基础上,代替有关复数讲话者音响模型的,进行由关于复数讲话者和杂音的音响模型和附属于这些音响模型的高斯混合模型进行自适应化的方法亦可。
还有,在自适应模型制作部分223中,用最大后验概率算法(Maximum a posterioriMAP)推定,做为最大似然线性回归算法的改良法等的利用音响模型的其他自适应化手法亦可。
还有,做为移动电话21一侧的信息232,“取得音响模型”等的试发音数据发送给服务器22以便利用亦可。
还有,做为移动电话21一侧的信息232,变换了发音数据的倒谱系数等的特征量发送给服务器22亦可。
还有,取代做为终端器的移动电话21,使用电视接收机,个人电脑,汽车电子自动导向系统等的放置型终端等亦可。
还有,信息通路,借用电话线、因特网线、有线电视线等的线路,通讯网、BS/CS数码播放、地面波数码播放等的播放网络亦可。
还有,将服务器22做为电视接收机或是机顶盒,移动电话21(终端)做为电视接收机的遥控器,使服务器和终端共存于接近的空间亦可。
(实施例4)<语音辨识系统的构成>
第4实施例的语音辨识系统的全体构成由图10来表示。该语音辨识系统包括移动终端31和服务器32。移动终端31及数据保管计算机32是介于信息通道331进行相互间的数据的读取存入的。
移动终端31包括数据输入部分311、送信部分312、收信部分313、储存部分314、自适应模型制作部分316和语音辨识部分315。数据输入部分311是输入移动终端31的使用者的语音,移动终端31周围的杂音等信息的。数据输入部分311包括话筒和浏览器(Web Browser)。话筒,输入使用者的语音及周围的杂音。浏览器,输入有关使用者语音和环境杂音的信息。发送信息部分312,是向服务器32发送由数据输入部分311所输入的数据。收信部分313,接收来自服务器32的自适应模型制作用数据。由收信部分313所接收的自适应模型被储存于储存部分314。自适应模型制作部分316利用既存于储存部分314自适应模型制作用数据制作自适应模型。语音辨识部分315利用由自适应模型制作部分316所制作的自适应模型进行语音辨识。还有,在储存部分314中记忆了各种状态(环境)下的特征语音的数据。如,记忆了超级市场、展览会场中的有特征性的声音,汽车、地铁等的有特征性的声音数据。这些数据,是在移动终端3 1进行声音辨识处理前,事先从服务器32下载到移动终端31的储存部分314中的。
服务器32包括收信部分321、发送信息部分322、选择部分323、数据储存部分324和时间表数据库421。在数据储存部分324中,储存着复数个音响模型和为选择该模型用的选择模型(高斯混合模型)。收信部分321,接收来自移动终端31的数据。选择部分323从数据储存部分324选择为自适应移动终端31的利用环境等所必要的自适应模型制作用数据。发送信息部分322,向移动终端31发送由选择部分323所选择的自适应模型制作用数据。
<语音辨识系统的操作>
接下来,参照图11说明有关如上所构成的语音辨识系统的操作。在这里,以使用者在超级市场内利用移动终端31的情况为例加以说明。
(ST10401步骤)移动终端31的使用者,通过数据输入部分311的话筒输入“今天的饭菜做什么呢?”等语音数据。数据输入部分311的浏览器,如图12所示,在移动终端3 1的触屏上表示敦促输入周围的状态(环境)、语调等信息画面。移动终端31的使用者,通过用软笔等选定触屏上的“超级市场”的项目和“有点感冒”的项目,输入周围的状态(环境)、语调等信息。此时移动终端31的使用者选定“听这个语音”,在选定状态(环境)下的特征性声音数据从储存部分314被读出后被重现。这种情况下,超级市场的特征音响被重现。
(ST10402步骤)移动终端31,敦促使用者判断是否取得制作用数据。若是使用者的判断为取得制作用数据时,在ST10401步骤中的被输入的信息332由移动终端31的发送信息部分312发送给服务器32。然后进入ST10403步骤。另一方面,若是使用者的判断为不取得制作用数据时,就不向服务器32发送信息而进入ST10408步骤。
(ST10403步骤)服务器32的数据储存部分324中,如图3所示,事先储存了附加了对应关系的复数个音响模型和复数个高斯混合模型。
服务器32的收信部分321,接收来自移动终端31的移动终端一侧的信息332。选择部分323,基于来自移动终端一侧的信息332,从储存在数据储存部分324的音响模型中选择至少两个音响模型和与该音响模型相对应的高斯混合模型。用由选择部分323所选择的音响模型及高斯混合模型做为“自适应模型制作用数据”。在此,选择部分323,用与实施例1中自适应模型选择部分123基本相同的方法,基于短时间使用者的发音选择自适应模型制作用数据。但是,利用由移动终端一侧的信息332内的由触屏输入的信息,在所选择的音响模型上附加上制约。尚且,在此所说的制约为过滤的意思。如,由触屏所输入的信息为“有点感冒”和“超级市场”时,用附随于有关“有点感冒”和“超级市场”的音响模型的高斯混合模型进行选择。
(ST10404步骤)发送信息部分322,将由选择部分323所选择的自适应模型制作用数据333发送给移动终端31。
由移动终端31的收信部分313所接收的自适应模型制作用数据333,储存于储存部分314。在这里,在储存部分314中既存的自适应模型制作用数据基础上追加新下载的自适应模型制作用数据。
(ST10405步骤)移动终端31,敦促使用者判断是否取得将来有可能使用的,为制作自适应模型的自适应模型制作用数据。若是使用者的判断为取得自适应模型制作用数据时,从移动终端31的发送信息部分312向服务器32发出要求信号,进入ST10406步骤。另一方面,若是使用者的判断为不取得自适应模型制作用数据的话,就不发送要求信号而进入ST10408步骤。
(ST10406步骤)接收了来自移动终端31的要求信号的选择部分323,预测使用者有可能遭遇的状况,并从数据储存部分324选择为制作自适应该状况的音响模型的自适应模型制作用数据(至少2种音响模型和与其对应的高斯混合模型)。应制作的音响模型的选择,如图5所示的ST10112步骤所说明的同样的方法进行。自适应模型制作用数据的选择,如上述ST10403步骤所说明的同样的方法进行。
(ST10407步骤)如上所述做法所选择的自适应模型制作用数据从服务器32的发送信息部分322被送给移动终端31。由移动终端31的收信部分313所接收自适应模型制作用数据储存于储存部分314。在此,在储存部分314中的既存自适应模型制作用数据的基础上追加新被下载的自适应模型制作用数据。
(ST10408步骤)自适应模型制作部分316,用迄今为止储存于储存部分314的自适应模型制作用数据制作自适应模型。在此,基于用充分的统计量和讲话者间的语音差异方法(芳泽伸一,马场朗,松浪加奈子,米良佑一郎,山田实一,鹿野清宏,“利用充分的统计量和讲话者间的语音差异的音韵模型的无教师学习”,信学技报,SP20 00-89,pp.83-88,2000)制作自适应模型。自适应模型制作部分316,制作与服务器32的选择部分323一样,基于由数据输入部分311的话筒输入的语音数据,从储存部分314选择复数音响模型。所选择的音响模型,为最自适应于现在利用环境中的周围杂音和讲话者语音的复数模型。用所选择的复数个隐马尔可夫模型的平均、分散、转变概率、EM计算的统计计算制作自适应模型。自适应模型的隐马尔可夫模型的平均、分散、转变概率、EM计算是所选择的音响模型全体隐马尔可夫模型的各种状态下各种混合分布的平均、分散和所选择的音响模型全体的转变概率。具体的计算方法由以下的数式1~3表示。自适应模型的隐马尔可夫模型的各种状态的正规分布的平均、分散各自为μiadp(i=1、2、…Nmix),Viadp(i=1、2、…Nmix)。在此的Nmix为混合分布数。还有,aadp[i][j](i=1、2、…Nstate)为状态变化概率。在此Nstate为状态数,aadp[i][j]表示状态i变为状态j的转变概率。数式1μiadp=Σj=1NselCmixjμijΣj=1NselCmixj(i=1,2,...Nmix)]]>数式2viadp=Σj=1NselCmixj(vij+(μij)2)Σj=1NselCmixj-(μiadp)2(i=1,2,...Nmix)]]>数式3aadp[i][j]=Σk=1NselCstatek[i][j]Σj=1NstateΣk=1NselCstatek[i][j](i,j=1,2,...Nstate)]]>在此,Nsel为所选择的音响模型的数字,μij(i=1、2、…Nmix,j=1、2、…Nsel),Vij(i=1、2、…Nmix,j=1、2、…Nsel)为各个音响模型的平均、分散。还有,Cjmix(j=1、2、…Nsel)、Ckstate[i][j](k=1、2、…Nsel,i、j=1、2、…Nstate)为各个正规分布中的E-M计算(度数),是关于状态转变的E-M计算。
(ST10409步骤)语音辨识部分315,用自适应模型制作部分316所制作的自适应模型进行语音辨识。
<效果>
按照如上说明的实施例4的做法,因为不必在移动终端31的储存部分314中储存对应于所有的有可能遭遇的情况(实际遭遇不到的情况为多)的自适应模型制作用数据,只需要从服务器32获取为制作自适应于所遭遇到情况的自适应模型制作用数据并储存起来即可,所以,可以减少移动终端31的储存部分314的容量。
还有,移动终端31的使用者,因为能够做到根据自适应于移动电话周围的杂音、使用者的讲话者性质、使用者语音性质等的自适应模型辨识语音,所以可以获得高辨识率。
还有,一旦将所遭遇的状况的自适应模型制作用数据储存于移动终端31的储存部分314,在遭遇到相同情况时,不必和服务器32交换信息即可制作自适应模型。
<变形例子>
尚且,在图1及图4所示个人数码助理11及图7所示移动电话21的内部设置自适应模型制作部分316,用储存于储存部分114、214、314的音响模型中至少两个音响模型来制作自适应模型亦可。
还有,在储存部分314中储存复数使用者的制作用数据来制作自适应模型亦可。这种情况下,输入使用者语音/指定使用者的名字来选择特定的使用者的制作用数据制作自适应模型。
还有,音响模型不受隐马尔可夫模型的限制。
还有,做为移动终端31的信息332,变换了发音数据的倒谱系数等的特征量发送给服务器32亦可。
还有,使用自适应模型制作及语音辨识的自适应化方法,用音响模型的其他自适应化方法亦可。
还有,输入自适应模型制作及语音辨识所用语音数据的话筒,使用与数据输入部分311的话筒不相同的话筒亦可。
还有,取代移动终端31的,使用电视接收机,个人电脑,汽车电子自动导向系统等的放置型终端等亦可。
还有信息通路,借用电话线、因特网线、有线电视线等的线路,通讯网、BS/CS数码播放网、地面波数码播放网等的播放网亦可。
还有,将服务器32做为电视接收机或是机顶盒,移动终端31做为电视接收机的遥控器,使服务器和终端共存于接近的空间亦可。
(实施例5)<语音辨识系统的构成>
第5实施例的语音辨识系统,取代图1所示的个人数码助理11而使用图13的个人数码助理61,其余的构成与图1所示的音响辨识系统相同。
图13所示的个人数码助理61,是在图1所示的个人数码助理11的基础上还加上初期设定部分601和判断部分602。还有,在储存部分114中,储存了n组(n为正整数)通过收信部分113已接受了的音响模型及该音响模型的高斯混合模型。初期设定部分601,将阈值Th提供给判断部分602。阈值Th的值,既可以由初期设定部分601自动设定,也可以根据使用者的指示由初期设定部分601设定。判断部分602,将通过话筒111得到的,附加了环境杂音的使用者的语音变换为所定的特征量,该特征量与既存于储存部分114的各个音响模型的高斯混合模型的似然值与来自初期设定部分601的阈值Th进行比较。既存于储存部分114中的所有音响模型的似然值均小于阈值Th时,判断部分602将控制信号传送给发送信息部分112。回应判断部分602的控制信号的发送信息部分112,将由话筒111得到的使用者语音及环境杂音送给服务器12。另一方面,储存部分114中既存的任何一个音响模型的似然值高于阈值Th时,判断部分602不向发送信息部分112发送控制信号。还有,发送信息部分112不向服务器12发送信号。
<语音辨识系统的操作>
接下来,参照图14说明有关如上所构成的语音辨识系统的操作。
如上所述,个人数码助理61的储存部分114中,储存了n组(n为正整数)通过收信部分113已接受了的音响模型及该音响模型的高斯混合模型。
然后,由个人数码助理61的初期设定部分601决定的阈值Th发送给判断部分602(ST701)。阈值Th由对应于利用语音辨识的应用决定。例如,初期设定部分601,在利用关于安全措施的应用(由语音辨识处理信息的应用、由语音辨识进行的汽车驾驶的应用等)的情况下,将阈值Th设定为大值,而这些以外的应用的情况下,将阈值Th设定为小值。初期设定部分601,在选定了所要利用的应用时,将对应于该应用的阈值提供给判断部分602。
接下来,附加了环境杂音的使用者语音通过个人数码助理61的话筒111被输入(ST702)。
接下来,由话筒111得到的附加了环境杂音的使用者语音通过个人数码助理61的判断部分602被变换为所定的特征量。然后,在既存于储存部分114的各个音响模型,即高斯混合模型(GMM1~GMMn)中被输入这些特征量,各自的似然值被计算(ST703)。
接下来,由判断部分602判断在ST703步骤被计算的最大值是否比阈值Th小(ST704)。
既存于储存部分114的所有的高斯混合模型(GMM1~GMMn)的似然值比阈值Th小的时候(yes),进入ST705步骤。而且,判断部分602将控制信号发送给发送信号部分112。对应于来自判断部分602的控制信号,发送信息部分112将通过话筒111得到的使用者语音及环境杂音发送给服务器12(ST705)。服务器12采用与实施例1相同的做法,将最适合该使用者语音及环境杂音的音响模型发送给个人数码助理61。这个音响模型由个人数码助理61的收信部分所接受,被储存于储存部分114。而且,语音辨识部分115,用储存于储存部分114中的这个音响模型进行语音辨识。
另一方面,在ST703步骤所计算的似然值的任何一个大于阈值Th时(no)。判断部分602不向发送信息部分112发送控制信号。因此,发送信息部分112不进行向服务器12发送信号。而且,语音辨识部分115用ST704步骤所计算的最高似然值的高斯混合模型的音响模型进行语音辨识。
<效果>
如上所述的实施例5的语音辨识系统,只限于附加了环境杂音的使用者语音和事先储存于个人数码助理61的储存部分114的音响模型的似然值比所定的阈值小的时候,使用者语音和环境杂音从个人数码助理61传给服务器12。由此,可减少个人数码助理61和服务器12之间的数据的读出存入。
<变形例子>
尚且,对于图7所示移动电话21及图10所示移动终端31,同样设置初期设定部分601及判断部分602亦可。
还有,将服务器12做为电视接收机或是机顶盒,个人数码助理61做为电视接收机的遥控器,使服务器和终端共存于接近的空间亦可。
(实施例6)<语音辨识系统的构成>
第6实施例的语音辨识系统,取代图1所示的个人数码助理11而使用图15的个人数码助理81,其余的构成与图1所示语音辨识系统相同。
图15所示的个人数码助理81,在图1所示的个人数码助理11的基础上还有判断部分801。还有,在储存部分114中,储存了n组(n为正整数)通过收信部分113已接受了的音响模型及该音响模型的高斯混合模型。判断部分801,将通过话筒111得到的,附加了环境杂音的使用者语音变换为所定的特征量,该特征量与既存于储存部分114的各个音响模型的高斯混合模型的似然值进行比较。储存部分114中既存的所有的音响模型的似然值均小于阈值时,判断部分801敦促使用者判断是否下载音响模型。当使用者判断为下载音响模型时,发送信息部分112将由话筒得到的使用者语音及环境杂音送给服务器12。当使用者判断为不下载音响模型时,发送信息部分112不向服务器12发送控制信号。还有,既存于储存部分114的任何一个音响模型的似然值高于阈值时,发送信息部分112不向服务器12发送信号。
<语音辨识系统的操作>
接下来,参照图16说明有关如上所构成的语音辨识系统的操作。
如上所述,个人数码助理81的储存部分114中,储存了n组(n为正整数)通过收信部分113已接受了的音响模型及该音响模型的高斯混合模型。
然后,附加了环境杂音的使用者语音通过个人数码助理81的话筒111被输入(ST901)。
接下来,由话筒111得到的附加了环境杂音的使用者语音通过个人数码助理81的判断部分801被变换为所定的特征量。然后,在既存于储存部分114的各个音响模型高斯混合模型(GMM1~GMMn)中输入这些特征量,各自的似然值被计算(ST902)。
接下来,由判断部分801判断在ST902步骤被计算的最大值是否比阈值小(ST903)。
既存于储存部分114的所有的高斯混合模型(GMM1~GMMn)的似然值比阈值小时(yes),进入ST904步骤。而且,判断部分801敦促使用者判断是否下载音响模型(ST904)。当使用者的判断为下载音响模型时(yes),发送信息部分112将由话筒得到的使用者语音及环境杂音送给服务器12(ST905)。服务器12采用与实施例1相同的做法,将最适合该使用者语音及环境杂音的音响模型发送给个人数码助理81。这个音响模型由个人数码助理81的收信部分所接受,被储存于储存部分114。而且,语音辨识部分115用储存于储存部分114中的这个音响模型进行语音辨识。
另一方面,在ST902步骤所计算的似然值的任何一个大于阈值Th(ST903步骤中为no),及,使用者判断为不应下载音响模型时(ST904步骤中为no)时,发送信息部分112不进行向服务器12发送信息。而且,语音辨识部分115用ST902步骤所计算的最高似然值的高斯混合模型的音响模型进行语音辨识。
<效果>
如上所述的实施例6的语音辨识系统,只限于附加了环境杂音的使用者语音和事先储存于个人数码助理81的储存部分114的音响模型的似然值比所定的阈值小时,且使用者的判断为应下载音响模型时,使用者语音和环境杂音从个人数码助理81传给服务器12。由此,可减少个人数码助理81和服务器12之间的数据的读出存入。
<变形例子>
尚且,对于图7所示移动电话21及图10所示移动终端31,同样设置判断部分801亦可。
还有,将服务器12做为电视接收机或是机顶盒,个人数码助理81(终端)做为电视接收机的遥控器,使服务器和终端共存于接近的空间亦可。
(实施例7)<语音辨识系统的构成>
第7实施例的语音辨识系统的构成由图17表示。该语音辨识系统包括取代图7所示的移动电话21为移动电话101。其余的构成与图7所示语音辨识系统相同。
图17所示的移动电话101,在图7所示的移动电话21的基础上还包括储存部分1001。储存部分1001储存通过数据输入部分211输入的使用者语音及环境杂音。发送信息部分212将既存于储存部分1001的使用者语音及环境杂音发送给服务器22。
<语音辨识系统的操作>
接下来,参照图18说明有关如上所构成的语音辨识系统的操作。
在安静的环境中利用使用者语音制作音响模型的情况与利用重叠了杂音的语音制作音响模型的情况相比,可以制作高精度的音响模型。拿着移动电话101步行时,在很多时间段中存在汽车的噪音、周围人的话音、办公室内的风扇声等的杂音。但是,在公园等休息的时候,也有在一定的时间段内极少有噪音的情况。在这种时机下,移动电话101的使用者一边按着发音按钮一边讲话。如此,安静环境中的使用者语音被储存于储存部分1001中(ST1101)。
使用者若要利用语音辨识机能时,移动电话101敦促使用者判断是否下载音响模型(ST1102)。使用者的判断为应下载音响模型时(yes),使用者不按语音发音按钮通过话筒输入环境杂音。通过话筒输入的环境杂音就被储存于储存部分1001(ST1103)。
接下来,发送信息部分212将既存于储存部分1001的使用者语音和环境杂音发送给服务器22(ST1104)。服务器22,与实施例3同样的做法,将最适合该使用者语音及环境杂音的音响模型发送给移动电话101。该音响模型通过由移动电话101的收信部分213接收,储存于储存部分214中。而且,语音辨识部分215用储存于储存部分214的音响模型进行语音辨识。
<效果>
实施例7的语音辨识系统中,因为在移动电话101内设置了储存部分1001,在较少杂音的环境中可以进行由使用者语音的讲话者的自适应。因此可以进行高精度的讲话者自适应。
还有,因为使用者语音只要被保存一次,在制作自适应模型时使用者就不需要再进行发音工作,使用者的负担很少。
<变形例子>
尚且,在安静的环境下储存部分1001储存复数个人的语音亦可。这种情况下,复数个人的各自在安静环境中的语音和姓名附加上关系,储存于储存部分1001。在获得自适应模型时,指定姓名决定使用者语音数据制作音响模型。由此,即便是对于如电视接收机的遥控器等复数个人利用的器械,也可以利用高精度的自适应模型。
还有,在此的ST1104步骤中,尽管只是将既存于储存部分1001的使用者语音和环境杂音发送给服务器22,但是,将既存于储存部分1001的附加了环境杂音的安静环境中的使用者语音数据发送给服务器22亦可。
还有,将服务器22做为电视接收机或是机顶盒,移动电话101(终端)做为电视接收机的遥控器,使服务器和终端共存于接近的空间亦可。
权利要求
1.一种终端器,它包括送信部分、收信部分、第1储存部分和语音辨识部分,其中上述送信部分将使用者所发的语音和环境杂音发送给服务器;上述收信部分接收来自上述服务器的,适应于上述使用者语音和环境杂音的音响模型;上述第1储存部分储存由上述收信部分所接受的音响模型;上述语音辨识部分利用上述第1储存部分所储存的音响模型进行语音辨识。
2.根据上述权利要求第1项所述终端器,其中还从上述服务器接受上述使用者将来可能利用的音响模型。
3.根据上述权利要求第1项所述终端器,还包括比较上述附加了环境杂音的使用者发音与既存于上述第1储存部分的音响模型的相似程度和所定阈值的判断部分,其中上述送信部分,在上述相似程度比上述阈值小时,将上述使用者语音及上述环境杂音发送给服务器。
4.根据上述权利要求第3项所述终端器,其中上述判断部分敦促上述使用者判断,当上述相似程度比上述阈值小的时候,是否取得音响模型;上述送信部分,在上述使用者的判断为取得音响模型时,向服务器发送上述使用者语音及上述环境杂音。
5.根据上述权利要求第1项所述终端器,它还包括储存上述使用者所发语音的第2储存部分,其中上述送信部分,当取得了环境杂音后,向服务器发送该当环境杂音和既存于上述第2储存部分的使用者语音。
6.一种终端器,它包括送信部分、收信部分、第1储存部分、制作部分和语音辨识部分,其中上述送信部分将使用者所发语音和环境杂音发送给服务器;上述收信部分接受来自上述服务器的,为制作适应于上述使用者的语音和环境杂音的音响模型的制作用数据;上述第1储存部分储存由上述收信部分所接受的制作用数据;上述制作部分利用既存于上述第1储存部分的制作用数据制作适应于上述使用者语音和环境杂音的音响模型;上述语音辨识部分用由上述制作部分所制作的音响模型进行语音辨识。
7.根据上述权利要求第6项所述终端器,其中上述收信部分还从上述服务器中接受上述使用者将来可能使用的制作用数据。
8.根据上述权利要求第1和第6项所述终端器,其中上述终端器敦促使用者从各种各样环境状况中选择所希望的环境状况,在所选择的环境状况中重放特征语音。
9.一种服务器,它包括储存部分,收信部分,选择部分和送信部分,其中上述储存部分储存自适应于各自对应的讲话者及环境的复数个音响模型;上述收信部分接受由终端器发送的,使用者的发音及环境杂音;上述选择部分从上述储存部分选择由上述收信部分所接受的自适应于上述使用者语音和环境杂音的音响模型;上述送信部分向上述终端器发送由上述选择部分所选择的音响模型。
10.根据上述权利要求第9项所述服务器,其中上述选择部分从上述储存部分选择由上述选择部分所选择的音响模型。
11.一种服务器,它包括储存部分,收信部分,制作部分和送信部分,其中上述储存部分储存自适应于各自对应的讲话者及环境的复数个音响模型;上述收信部分接受由终端器发送的,使用者的发音及环境杂音;上述制作部分基于由上述收信部分所接收的上述使用者语音及环境杂音和既存于上述储存部分的复数个音响模型,制作适应于上述使用者语音及环境杂音的音响模型;上述送信部分向上述终端器发送由上述制作部分所制作的音响模型。
12.根据上述权利要求第11项所述服务器,其中上述制作部分制作上述终端器使用者将来可能利用的音响模型。
13.一种服务器,它包括储存部分,收信部分,选择部分和送信部分,其中上述储存部分储存自适应于各自对应的讲话者及环境的复数个音响模型;上述收信部分接受由终端器发送的,使用者的发音及环境杂音;上述选择部分从上述储存部分选择,为制作由上述收信部分所接受的自适应于上述使用者语音和环境杂音的音响模型的制作用数据;上述送信部分向上述终端器发送由上述选择部分所选择的制作用数据。
14.根据上述权利要求第13项所述服务器,其中上述选择部分从上述储存部分中选择上述终端器使用者将来可能利用的制作用数据。
15.根据上述权利要求第9、11、13项中的任何一项所述的服务器,其中既存于上述储存部分的复数个音响模型中的每一个,也自适应于所对应的讲话者的语调。
16.根据上述权利要求第9、11、13项中的任何一项所述的服务器,其中既存于上述储存部分的复数个音响模型中的每一个,亦自适应于为了在该模型在制作时得到讲话者的语音。
17.一种语音辨识方法,其中准备了对应自适应于各自讲话者,环境及语调的复数个音响模型;基于使用者所发的语音及环境杂音和上述复数个音响模型,获得适应于上述使用者语音和上述环境杂音的音响模型;用上述所获得的音响模型进行语音辨识。
18.根据上述权利要求第17项所述的语音辨识方法,其中上述复数个音响模型的每一个,亦自适应于为了在该模型在制作时得到讲话者的语音。
全文摘要
本发明公开了一种有关终端器、服务器以及语音辨识的方法。其目的在于提供一种可减小必要储存容量的终端器。由个人数码助理的话筒所输入的,附加了杂音的使用者语音数据从送信部分发送给服务器。服务器的数据储存部分中事先储存了复数个音响模型。服务器的自适应模型选择部分,从既存于数据储存部分的音响模型中选择由收信部分所接受的最适合于附加了杂音数据的音响模型。所选择的自适应模型由送信部分发送给个人数码助理。个人数码助理的接受信息部分从服务器接受自适应模型。所接收的自适应模型被储存在储存部分中。语音辨识部分用既存于储存部分的自适应模型进行语音辨识。
文档编号G10L15/30GK1409527SQ0213166
公开日2003年4月9日 申请日期2002年9月12日 优先权日2001年9月13日
发明者芳泽伸一 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1