语音识别装置、语音识别方法及存储语音识别程序的记录介质的制作方法

文档序号:2829632阅读:411来源:国知局
专利名称:语音识别装置、语音识别方法及存储语音识别程序的记录介质的制作方法
技术领域
本发明涉及用于识别用户说出的连续的多个单词的语音识别装置、语音识别方法以及语音识别程序。
背景技术
在主存储装置(主存储器(以下称为“存储器”))内布置有语音识别装置,其中中央处理器(CPU)可直接读取或写入包含大量单词的词典数据,从而用于语音识别处理。在常规的语音识别装置中,将词典分成多个文件并记录到辅助存储装置(例如HDD、DVD或ROM)中,仅将所需文件从辅助存储装置读取到用于识别处理的存储器。这样可以削减(suppress)要用于语音识别处理的存储器的容量。但是,在将词典数据从辅助存储装置读取(加载)到存储器的过程中,识别处理不能继续进行。这会导致语音识别处理中的延迟。
例如,在地址识别装置中,将辖区名字典和城市名字典分别作为文件记录到辅助存储装置中。当对其中依次说出辖区名和城市名(例如,“AICHIKEN”,“NAGOYASHI”)的语音进行识别时,地址识别装置识别出辖区名“AICHIKEN”,并且随后将对应于该辖区名的城市名字典读取到存储器。在读取该城市名字典的过程中,地址识别装置不能继续进行识别处理,直到读取完成为止。因此,在地址识别处理中会造成延迟。
已经提出一种采取措施克服这种延迟的语音识别装置(参见,例如,JP2002-268673A)。在从诸如DVD的辅助存储装置中读取字典数据的过程中,语音识别装置利用提前从RAM读取的匹配数据执行匹配处理。将读取的字典数据记录到延迟匹配数据记录装置中,并在完成读取之后,执行利用该延迟匹配数据记录装置内记录的数据的匹配处理。在此之后,合并延迟匹配数据和匹配数据。
但是,上述语音识别装置需要将匹配过程中的结果与具有延迟的匹配之后所得到的结果进行合并。因此,就需要一种方法,该方法用于通过与上述语音识别装置的方法不同的方法,来减少由于从辅助存储装置中读取字典数据的等待时间所造成的处理中的延迟。

发明内容
因此,基于上述想法,本发明的目的是提供一种能够减少由从辅助存储装置读取字典数据的等待时间所造成的语音识别处理中的延迟的语音识别装置,语音识别程序和语音识别方法。
根据本发明的语音识别装置对输入的语音中所包含的多个连续关联的单词进行识别,并且输出其识别结果。该语音识别装置包括声学模型读取部分,用于将预先记录在辅存储装置内的声学模型读入主存储装置内;字典管理部分,用于将包括起始部分字典、结尾部分字典、词序数据和对应关系数据的字典数据从辅助存储装置读取到主存储装置,其中起始部分字典表示作为要识别的单词的候选项(candidate)的一组单词的起始部分,结尾部分字典表示该组单词的结尾部分,词序数据表示单词顺序,对应关系数据表示起始部分字典和结尾部分字典之间的对应关系;和识别部分,利用读入主存储装置内的声学模型和对应数据,通过将由读入主存储装置内的起始部分字典和结尾部分字典表示的该组单词与所输入的语音进行匹配,对在所输入的语音内包含的多个连续关联的单词进行依次识别。该字典数据包括至少一个起始部分字典,其存储有表示多个单词的起始部分的数据;和一组结尾部分字典,其将表示与由起始部分字典表示的一组起始部分对应的一组结尾部分的数据作为多个结尾部分字典存储进行存储。字典管理部分将词序数据和起始部分字典(其包含要作为输入语音内包含的多个单词中的至少一个单词的候选项的一组单词的起始部分)读入主存储装置内,并且在该识别部分正利用读入主存储装置内的起始部分字典对单词进行识别时,基于该词序数据读取结尾部分字典和/或起始部分字典。
辅助存储装置是声学模型读取部分、字典管理部分和识别部分不能针对其进行高速读取或写入的存储设备,辅助存储装置的示例包括硬盘、DVD、MO、CD、软盘、磁带和ROM。也可以将辅助存储装置称为外部存储设备。
字典管理部分或声学模型读取部分读数据的操作指的是将记录到辅助存储装置内的数据加载到主存储装置(主存储器,以下仅称为“存储器”)的操作。该存储器是声学模型读取部分、字典管理部分和识别部分能够针对其直接和快速地进行读取或写入数据的存储器。作为存储器,例如,采用利用半导体装置电式记录数据的记录介质。存储器的示例包括RAM。
起始部分字典包括以逻辑组织的方式记录的表示多个单词的起始部分的数据。结尾部分字典包括以逻辑组织的方式记录的表示多个单词的结尾部分的数据。例如,一个起始部分字典或一个结尾部分字典可以由一个文件构成或者可以由数据库内的一个表构成。另选地,例如,一个文件可以包括多个起始部分字典或结尾部分字典。
字典管理部分将词序数据和起始部分字典读入存储器内,其中该起始部分字典包括一组单词的起始部分,这组单词是在所输入的语音中包含的多个单词中的至少一个单词的候选项。因此,识别部分可将与在所输入的语音内包括的多个单词的起始部分对应的部分与存储器的起始部分字典进行匹配。在识别部分正对单词的起始部分进行识别时,字典管理部分可基于词序数据读取结尾部分字典或起始部分字典。这就减少了由于为了进行语音识别而从辅助存储装置中读取字典数据所造成的语音识别处理中的延迟。尤其是,在其中由于对存储器的限制而不能将用于语音识别的所有字典数据都记录到主存储装置上的语音识别装置中,可减少由于从辅助存储装置中读取字典数据所造成的语音识别处理中的延迟。
在根据本发明的语音识别装置中,以下情况是优选的。起始部分字典存储关于一整组单词(其作为要识别的多个连续关联的单词的候选项)的起始部分。在识别部分开始识别所输入的语音之前,字典管理部分读取一组单词(其作为在所述语音中包含的多个单词中的第一个单词的候选项)的起始部分字典和结尾部分字典。当识别部分识别第N(N=1,2,3,…)个单词时,字典管理部分基于第N个单词和词序数据,从多个结尾部分字典中选择包括作为第(N+1)个单词的候选项的一组单词的结尾部分的结尾部分字典,并开始读取。在读取过程中,识别部分利用起始部分字典对第(N+1)个单词的起始部分进行识别。
起始部分字典存储关于一整组单词(其作为要识别的多个连续的单词的候选项)的起始部分。因此,当字典管理部分基于第N个单词和词序数据,正进行读取包含作为第(N+1)个单词的候选项的一组单词的结尾部分字典时,识别部分可利用起始部分字典识别第(N+1)个单词。因此,字典管理部分可根据由识别部分识别的单词,在适当时机读取所需的结尾部分字典。因此,在削减存储器上的结尾部分字典内数据量的同时,可执行有效的语音识别。
在根据本发明的语音识别装置中,优选地,在识别部分开始识别之前,字典管理部分读取结尾部分字典(其包括作为在所输入的语音中包含的多个单词中的第一个单词的候选项的一组单词的结尾部分)和起始部分字典(其包括作为第一和第二个单词的候选项的一组单词的起始部分),当识别部分识别第N(N=1,2,3,…)个单词时,字典管理部分读取包括作为第(N+1)个单词的候选项的一组单词的结尾部分的结尾部分字典和包括作为第(N+2)个单词的候选项的一组单词的起始部分的起始部分字典。
根据上述结构,字典管理部分读取包括作为第一个单词的候选项的一组单词的结尾部分的结尾部分字典和包括作为第一与第二个单词的候选项的一组单词的起始部分的起始部分字典。因此,在识别部分识别第一个连续单词时,可以开始对第二个单词的识别处理。另外,当识别部分识别第N个单词时,字典管理部分读取包括作为第(N+1)个单词的候选项的一组单词的结尾部分的结尾部分字典和包括作为第(N+2)个单词的候选项的一组单词的起始部分的起始部分字典。由此,识别部分可以通过与识别第二个及后续单词相同的方式开始识别后续单词。更特别地是,字典管理部分可根据由识别部分识别的单词,在适当时机读取由识别部分要求的结尾部分字典和起始部分字典。
在根据本发明的语音识别装置中,优选地,当识别部分利用读入主存储装置内的起始部分字典,将单词的起始部分的一部分与语音进行匹配时,字典管理部分基于该匹配结果,开始读取结尾部分字典和/或起始部分字典。
根据上述结构,字典管理部分可读取与匹配结果所显示的结尾部分的一部分对应的结尾部分字典。这能够实现有效地读取适当的结尾部分字典。
在根据本发明的语音识别装置中,优选地,将词序数据记录到结尾部分字典中,从而与各个单词结尾部分对应,作为表示起始部分字典(其包括可能在单词结尾部分之后的一组单词的起始部分)或结尾部分字典(其包括该组单词结尾部分)的字典识别数据,并且字典管理部分基于与识别部分所识别的单词的结尾部分对应的字典识别数据,读取该起始部分字典或该结尾部分字典。
字典管理部分使用与识别部分识别的单词的结尾部分相关联的字典识别数据,从而读取起始部分字典(其包括可能在该单词之后的一组单词的起始部分)或结尾部分字典(其包括该组单词的结尾部分)。
在根据本发明的语音识别装置中,优选地,字典数据包括多个起始部分字典,并且基于与所识别单词的结尾部分对应的字典识别数据,识别部分从多个起始部分字典中选择包括可能在所识别单词之后的一组单词的起始部分的起始部分字典,并利用所选的起始部分字典,对所识别单词之后的单词进行识别。
识别部分可基于与已识别的单词的结尾部分相关联的字典识别数据,选择包括可能在随后识别的单词之后的一组单词的起始部分的起始部分字典。因此,利用适当的起始部分字典,可以有效地执行对已识别单词之后的单词进行识别的处理。
在根据本发明的语音识别装置中,优选地,字典管理部分从主存储装置中删除读入到主存储装置内的结尾部分字典和起始部分字典中的、在识别部分用于识别单词之后变成不需要的结尾部分字典或起始部分字典。删除存储器上不需要的数据,从而可删除可用存储器的容量。
在根据本发明的语音识别装置中,优选地,字典数据包括可能包含在语音中的一组单词,其中,根据音位数、音节数、摩尔(molar)数、单词出现频率和可用存储器容量中的至少一个,将这些单词划分成起始部分和结尾部分,并将所述起始部分和结尾部分以分别包含到起始部分字典和结尾部分字典中的方式进行记录。
根据本发明的语音识别方法使计算机对所输入的语音中包含的多个连续关联的单词进行识别并输出其识别结果,该方法包括声学模型读取操作,使计算机将预先记录到辅助存储装置内的声学模型读入主存储装置内;字典管理操作,使计算机将字典数据从辅助存储装置读取到主存储装置,所述字典数据包括表示作为要识别单词的候选项的一组单词的起始部分的起始部分字典,表示该组单词的结尾部分的结尾部分字典,表示词序的词序数据以及表示起始部分字典和结尾部分字典之间的对应关系的对应关系数据;以及识别操作,使计算机通过利用读入主存储装置的声学模型和对应关系数据,将由读入主存储装置的起始部分字典和结尾部分字典所表示的一组单词与所输入的语音进行匹配,来连续识别在所输入的语音中包含的多个连续关联的单词。该字典数据包括至少一个起始部分字典,其存储有表示多个单词的起始部分的数据;和一组结尾部分字典,其存储有表示与所述起始部分字典表示的一组起始部分对应的一组结尾部分的数据,作为多个结尾部分字典。在字典管理操作中,计算机将词序数据和起始部分字典(其包括一组单词的起始部分,这组单词是在所输入的语音中包含的多个单词中的至少一个单词的候选项)读入主存储装置内,并且当在识别操作中,正利用读入主存储装置内的起始部分字典识别单词时,计算机基于该词序数据读取结尾部分字典和/或起始部分字典。
根据本发明的记录在记录介质上的语音识别程序使计算机执行以下处理对所输入的语音中包括的多个连续关联的单词进行识别并输出其识别结果。该程序使计算机执行声学模型读取处理,将在辅助存储装置内预先记录的声学模型读入主存储装置内;字典管理处理,将字典数据从辅助存储装置读取到主存储装置,所述字典数据包括起始部分字典(表示作为要识别单词的候选项的一组单词的起始部分),结尾部分字典(表示该组单词的结尾部分),词序数据(表示单词顺序)和对应关系数据(表示起始部分字典和结尾部分字典之间的对应关系);和识别处理,利用读入主存储装置内的声学模型和对应关系数据,通过将由读入主存储装置的起始部分字典和结尾部分字典所表示的一组单词与所输入的语音进行匹配,来对在所输入的语音中包含的多个连续关联的单词进行连续识别。所述字典数据包括至少一个起始部分字典(存储有表示多个单词的起始部分的数据),以及一组结尾部分字典(存储有表示与由起始部分字典表示的一组起始部分对应的一组结尾部分的数据,作为多个结尾部分字典)。在所述字典管理处理中,所述程序使计算机将词序数据和起始部分字典(其包括作为在所输入的语音内包含的多个单词中的至少一个单词的候选项的一组单词的起始部分)读入主存储装置内,并且当在识别处理中正利用读入主存储装置内的起始部分字典对单词进行识别时,所述程序使计算机基于所述词序数据读取所述结尾部分字典和/或起始部分字典。
根据本发明,可提供一种语音识别装置、语音识别程序和语音识别方法,其中可减少由于从辅助存储装置中读取字典数据的等待时间所造成的语音识别处理中的延迟。


图1是示出了实施例1中的语音识别装置的示例性结构的功能性框图;图2是示出了在字典数据中包含的起始部分字典和结尾部分字典的具体示例的图;图3是示出了语音识别装置识别语音的示例性处理的流程图;图4是表示图3中所示处理相对于时间轴的执行状态的图;图5是示出了一个示例性情况的图,在该情况中将在图2中所示的结尾部分字典20b-1中包含的结尾部分分成多个结尾部分字典。
图6是表示图3中所示处理相对于时间轴的另一个执行状态的图;图7是示出了实施例2中的起始部分字典和结尾部分字典的具体示例的图;图8是示出了实施例2中的识别语音的示例性处理的流程图;图9是示出了实施例3中的起始部分字典和结尾部分字典的具体示例的图;图10是示出了实施例3中的识别语音的示例性处理的流程图;图11是示出了起始部分字典、结尾部分字典和语法文件的示例的图。
具体实施例方式
实施例1图1是示出了本实施例中的语音识别装置的示例性配置的功能性框图。图1中所示的语音识别装置1对在输入语音中包含的多个序列单词进行识别并输出其识别结果。语音识别装置1可对通过诸如扩音器的输入装置输入的语音进行识别,并将识别结果输出到诸如显示器、扬声器或打印机的输出装置。另外,如另一个示例,语音识别装置1可从上级应用程序(higher-order application)中接收语音数据,并将语音数据的识别结果返回到该上级应用程序。
语音识别装置1包括语音分析部分3、声学模型读取部分5、识别部分7、存储器8和字典管理部分9。将语音识别装置1连接到辅助存储装置2。在本实施例中,辅助存储装置2存储有声学模型11和字典数据12。
语音识别装置1由至少包括CPU和存储器8的计算机构成。当CPU执行加载到存储器8内的预定程序时,实现了语音分析部分3、声学模型读取部分5、识别部分7和字典管理部分9的各自功能。尽管图1示出了这样的配置声学模型读取部分5、识别部分7和字典管理部分9针对一个存储器8进行读取数据或写入数据,但可以设置多个存储器8。
辅助存储装置2可以是例如通过总线连接到语音识别装置1的CPU的存储装置,或者是通过网络连接到语音识别装置1的存储装置。
语音识别装置1可以是由例如通用计算机(诸如个人计算机)构成。另外,语音识别装置1也可以由置入电子装置(例如汽车导航装置、移动电话、个人数字助理(PDA)或显示器)的计算机构成。
字典管理部分9从字典数据12中读取所需数据。更具体地,字典管理部分9在任何时间从字典数据12中仅读取识别处理所需的数据,并将其配置到语音识别装置1的计算机内设置的存储器8上。字典数据12表示作为要识别的单词的候选项的一组单词。字典数据12包括,例如各单词的字符串数据、表示对各单词的读取的信息以及表示各单词顺序的语法信息。表示对各单词的读取的信息的示例包括诸如音位串、音节串和音符串的数据。另外,表示各单词顺序的语法信息的示例包括上下文无关(context-free)语法和有限状态语法。
字典数据包括至少一个起始部分字典和多个结尾部分字典。起始部分字典是表示多个单词起始部分的数据。结尾部分字典是表示与起始部分字典表示的一组起始部分对应的一组结尾部分的数据。将一组结尾部分分别地记录到多个结尾部分字典中。下面将对字典数据的具体示例进行说明。
声学模型11例如是其中针对各音位以统计的方式对语音特性建模的数据。声学模型11的示例包括隐式马尔可夫模型(Hidden Markov Model(HMM))。声学模型读取部分5将声学模型11从辅助存储装置2读入到主存储装置内。
识别部分7从字典管理部分9中接收作为要识别单词的候选项的一组单词的起始部分和结尾部分的音位串。识别部分7从声学模型11中提取对应于所接收的起始部分和结尾部分的音位串的数据,并生成起始部分的声学模型串和结尾部分的声学模型串。
当将语音输入到语音识别装置1时,语音分析部分3分析所输入的语音并将其转换成语音特征值。将该语音特征值提供给识别部分7。
识别部分7将所输入语音的语音特征值与起始部分组的声学模型串和结尾部分组的声学模型串进行匹配,由此针对作为候选项的各个单词的起始部分和结尾部分计算出相似性。基于这些相似性,识别出在语音中包含的单词。识别部分7从输入语音的前沿开始按顺序连续识别单词,直到该语音结束为止。识别部分7将表示所识别单词的数据提供给字典管理部分9。
字典管理部分9根据由识别部分7识别的单词,读取作为下一个要说出的单词的候选项的一组单词的起始部分或结尾部分的音位串,并将音位串提供给识别部分7。识别部分7和字典管理部分9重复以上识别处理,直到所输入的语音结束为止。当所输入的语音结束时,识别部分7输出所识别的单词串作为识别结果。将该识别结果例如作为字符串数据输出。
(字典数据的具体示例)图2是示出了在字典数据12中包括的起始部分字典和结尾部分字典的具体示例的图。图2示出了在将地址作为语音输入到语音识别装置1的情况中用于识别日本地址的字典数据的示例。表示该地址的语音包括多个连续的单词(例如,表示辖区名的单词→表示城市名的单词→表示行政区名的单词→表示区域名的单词)。在此,假设该区域名为排在城市/行政区/城镇/村庄名之后并且不包括街道编号和住宅编号的地名。
图2中所示的起始部分字典10是表示可能包含在语音中的整组单词的起始部分的数据。在起始部分字典10中,针对各起始部分记录有起始部分的音位串和将起始部分与结尾部分相关联的数据。例如,起始部分字典10中的第一个数据“ai→1”是其中将单词“AICHIKEN”中的起始部分“AI”的音位串“ai”与数字“1”相关联(为了将起始部分“AI”和结尾部分“CHIKEN”相关联)的数据。在图2中,部分地省略了起始部分字典10的内容的显示。
结尾部分字典20a、20b-1、20b-2、20c-1和20c-2是表示与由起始部分字典10表示的起始部分对应的结尾部分的数据。结尾部分字典20b-1、20b-2、20c-1和20c-2包含用于识别各个结尾部分字典的字典识别数据“C1”、“C2”、“E1”和“E11”。
在结尾部分字典20a、20b-1、20b-2、20c-1和20c-2中,针对各结尾部分,记录结尾部分的音位串、将结尾部分与起始部分相关联的数据、由结尾部分表示的单词的字符串以及与结尾部分相关联的字典识别数据。例如,与结尾部分相关联的字典识别数据表示包含作为在该结尾部分之后的单词的候选项的一组单词的结尾部分字典。
例如,在结尾部分字典20a中,收集有表示辖区名的结尾部分的数据。结尾部分字典20a中的第一个数据“1.tiken→AICHIKENC1”包含结尾部分的音位串“tiken”、用于将结尾部分“CHIKEN”与起始部分“AI”相关联的数字“1”、表示单词的字符串“AICHIKEN”以及字典识别数据“C1”。字典识别数据“C1”表示包含作为“AICHIKEN”之后的单词的候选项的一组单词的结尾部分字典(在此,其为城市名AICHIKEN的结尾部分字典20b-1)。
结尾部分字典20b-1包含用于识别结尾部分字典的识别数据“C1”和表示AICHIKEN内的城市名(包括城镇和村庄)的结尾部分的数据。类似地,结尾部分字典20b-2包含识别数据“C2”和表示城市名(包括城镇、村庄和县)的结尾部分的数据。结尾部分字典20c-1包含识别数据“E1”和表示NAGOYASHI内的行政区名的数据。结尾部分字典20c-2包含识别数据“E11”和表示AOMORISHI内的区域名的结尾部分的数据。
可将起始部分字典10和结尾部分字典20a、20b-1、20b-2、20c-1和20c-2例如记录为用于各字典的文件或者记录为用于各字典的表。另外,可将多个字典记录作为一个文件,或者可在将一个字典分成多个文件的情况下进行记录。此外,例如,也可以将可同时读取的一组字典记录到一个文件或表中,如在辖区名的起始部分字典10和结尾部分字典20a之间的组合。也就是,可将字典数据构成,使得当字典管理部分9从字典数据12中读取所需数据时,可针对各字典识别数据。
因此,考虑到单词的意义,将在语音中可能包含的这组单词的结尾部分在被分成多个结尾部分字典的情况下进行记录。在图2所示的示例中,没有示出与起始部分字典10对应的所有结尾部分字典,并且被部分地省略掉。另外,也部分地省略掉对包含在各结尾部分字典内的数据的显示。此外,结尾部分字典和起始部分字典的数据结构并不限于图2中所示的示例。
(将单词分成起始部分和结尾部分的方法)如图2中所示,为了生成起始部分字典和结尾部分字典,必须在将单词分成起始部分和结尾部分的情况下记录该单词。在此,对用于将单词分成起始部分和结尾部分的方法的示例进行说明。作为一种方法,在声学模型(音位、音节或摩尔数)的基础上划分单词,并且可将任何划分位置设定为起始部分和结尾部分的划分位置。例如,在以音节划分单词的情况中,可将从单词前沿起的两个音节设定为起始部分,并且可将第三个及后续的音节设定为结尾部分。可根据例如存储器8的可用容量、从外部存储装置读取的时间、出现频率等,来确定应该将从该前沿起的哪个或哪些音节设定为起始部分。另外,在具有足够可用存储容量的情况中,可通过延长起始部分来增加处理延迟的减少量。例如,对于具有比其他单词更高的说出频率的单词,与其他单词相比,可增加该单词起始部分的长度。
(语音识别装置的操作示例)图3是示出了其中语音识别装置1识别语音的示例性处理的流程图。在该操作示例中,以具体示例的方式对将日本地址作为语音输入并进行识别的情况进行说明。该操作示例中的语音识别装置1识别语音的前提是在所输入的语音中包含的第一个单词表示辖区名,随后的单词表示在该辖区内包括的城市、城镇、县或村庄的名称,并且再随后的单词表示在该城市、城镇、县或村庄内包括的行政区或区域的名称。因此,在本实施例中,前提是通过表示词序等的语法将作为要识别的多个独立连续的单词的候选项的一组单词进行关联。以下对关联的具体示例进行说明,其示出了日本的辖区、Aichi辖区内的城市、Nagoya市内的行政区等。
在将语音输入到语音识别装置1之前,首先,字典管理部分9将起始部分字典从辅助存储装置2读入作为主存储装置的存储器8内(Op1)。在此要读取的起始部分字典包括表示可能包含在该语音中的所有单词的起始部分的数据。
字典管理部分9还读取包含一组单词(其作为在所输入语音的起始部分内可能说出的单词的候选项)的结尾部分的结尾部分字典(Op2)。依据语音识别装置1的规格,预先确定作为在最前面部分中可能说出的单词的候选项的该组单词。例如,在语音识别装置1的规格为识别地址的情况中,将要在最前面部分中说出的单词确定为辖区名。作为Op1和Op2的具体示例,字典管理部分9首先读取图2中所示的表示所有单词的起始部分的起始部分字典10和表示辖区名的结尾部分的结尾部分字典20a。
声学模型读取部分5将声学模型11从辅助存储装置2读入存储器8(Op3)。由此,针对至少最前面的单词的起始部分和结尾部分,识别部分7可利用读入存储器8的声学模型、起始部分字典和结尾部分字典来执行识别处理。另外,针对在最前面部分中的单词之后的单词的起始部分,可利用读入存储器8内的声学模型和起始部分字典来执行识别处理。
当开始语音输入时(Op4),语音分析部分3分析所输入的语音并将其转换成语音特征值(Op5)。在此,语音分析部分3将所输入的语音沿着时间轴划分为一些帧,并针对各帧计算语音特征值。语音特征值的示例包括频谱和倒频谱(cepstrum)。
识别部分7将变量i初始化为1(Op6)。识别部分7将由在Op1中读入存储器8的起始部分字典表示的单词的起始部分与对应于从所输入语音的前沿起的第i个单词的开始部分的那一帧的语音特征值进行匹配(Op7)。在该匹配中,使用在Op3中读取的声学模型。
在起始部分字典中,以音位串表示各起始部分。识别部分7利用声学模型11,生成与包含在起始部分字典中的各音位串对应的声学模型串。在图2所示的示例中,生成与包含在起始部分字典10内的各个音位串“ai”、“ao”、“ak”、“na”…(省略了后续音位串)对应的声学模型串。识别部分7将对应于各音位串的声学模型串与对应于从所输入的语音的前沿起的第i个单词的起始部分的那一帧的语音特征值进行匹配,由此计算对应于各音位串的声学模型串与语音特征值之间的相似性。在i=1的情况中,识别部分7计算对应于所输入的语音的前沿的那一帧的特征值与声学模型串之间的相似性。
下面,识别部分7利用声学模型,对由读入存储器8内的结尾部分字典表示的单词的结尾部分和对应于从所输入的语音的前沿起的第i个单词的结尾部分的那一帧的语音特征值进行匹配(Op8)。在此,用于匹配的结尾部分字典是包含作为识别部分7要在第i个时间进行识别的单词的候选项的一组单词的结尾部分的结尾部分字典(以下,称为“第i个单词的结尾部分字典”)。如果还没有将第i个单词的结尾部分字典读入存储器8内,则识别部分7等待,直到字典管理部分9完成该读取为止。在i=1的情况中,在Op2中已读取第一个单词的结尾部分字典20a。因此,识别部分7可利用结尾部分字典20a识别第一个单词的结尾部分而不需要等待。在图2所示的示例中,计算对应于已读取的辖区名的结尾部分字典20a的各音位串“tiken”、“moriken”、“itaken”…(省略后续音位串)的声学模型串,以及这些声学模型串与对应于第一个单词结尾部分的那一帧的语音特征值之间的相似性。
识别部分7基于在Op7中计算的起始部分字典的各音位串的相似性和在Op8中计算的结尾部分字典的各音位串的相似性,来识别从所输入语音的前沿起的第i个单词(Op9)。在例如通过将起始部分字典中包含的多个起始部分和结尾部分字典中包含的多个结尾部分进行组合所得到的多个单词中,识别部分7可将其中起始部分的相似性和结尾部分的相似性之和最高的音位串的单词识别作为第i个单词。
在图2所示的示例中,在i=1的情况中,识别部分7将在起始部分字典10中包含的起始部分和在结尾部分字典20a中包含的结尾部分进行组合以生成辖区名的音位串。在此,例如,在起始部分字典10中的音位串“ai”中,记录有将起始部分和结尾部分相关联的数据“1”。因此,识别部分7可将起始部分字典10的起始部分“ai”和结尾部分字典20a中的结尾部分“1.tiken”进行组合,以生成辖区名的音位串“aitiken”。
因此,针对由此生成的辖区名的各个音位串“aitiken”、“aomoriken”、“akitaken”、“naganoken”…(省略了后续的音位串),计算起始部分的声学模型串的相似性和结尾部分的声学模型串的相似性之和,由此将具有最高相似性的音位串的辖区名识别为所输入语音的第一个单词。
还可执行如下。计算所连接的声学模型串(其中将起始部分的声学模型串连接到结尾部分的声学模型串)和所输入的语音之间的相似性,并且将与具有最高相似性的所连接的声学模型串对应的单词识别为所输入语音的单词。
识别部分7将如上所述识别的单词提供给字典管理部分9。字典管理部分9基于所给定的单词,确定包括作为第(i+1)个单词的候选项的一组单词的结尾部分字典(Op10)。基于与已读取的结尾部分字典中的给定单词的结尾部分相关联的字典识别数据,字典管理部分9可确定第(i+1)个结尾部分字典。将该字典识别数据记录成与结尾部分字典中的各结尾部分相关联,并且表示包括作为该结尾部分之后的单词的候选项的一组单词的结尾部分字典。
例如,在图2所示的辖区名的结尾部分字典20a中,记录有分别对应于音位串“tiken”、“moriken”…(省略了后续的音位串)的字典识别数据“C1”、“C2”…。在图2所示的示例中,字典识别数据“C1”和“C2”分别表示结尾部分字典20b-1和20b-2。例如,在将“aitiken”提供给字典管理部分9作为第i个单词的情况下,字典管理部分9查询与结尾部分字典20a的音位串“tiken”相关联的字典识别数据“C1”。由此,字典管理部分9确定,以“C1”作为字典识别数据的结尾部分字典20b-1(包含AICHIKEN的城市名的结尾部分字典)是包含作为随后的第(i+1)个单词的候选项的一组单词的结尾部分字典(例如,第(i+1)个单词的结尾部分字典)。由此,通过确定用于识别随后的单词的结尾部分字典,可以在适当的时间仅读取识别单词所需的结尾部分字典。
另外,例如,在图2所示的结尾部分字典20c-1和20c-2中,可能存在没有指定后续字典的情况。在这种情况下,确定要识别的所有单词都已进行了识别,并且结束语音识别处理。更具体地,在不存在第(i+1)个单词的结尾部分字典的情况中(Op11为否),结束语音识别处理。
当确定了第(i+1)个单词的结尾部分字典时(Op11为是),字典管理部分9从存储器8中删除用于匹配第i个单词的结尾部分字典。从存储器8中删除不再使用的字典可削减可用存储器的容量。例如,当将辖区名识别为所输入的语音的第一个单词(i=1)时,字典管理部分9从存储器8中删除辖区名的结尾部分字典20a。
在Op11之后,变量i递增1(Op12)。之后,字典管理部分9开始读取在Op10中确定的结尾部分字典(例如,第i个单词的结尾部分字典)(Op13)。与结尾部分字典的读取(Op13)几乎同时地,识别部分7将由起始部分字典表示的单词的起始部分与对应于第i个单词的那一帧的语音特征值进行匹配(Op7)。
对将辖区名“aitiken”(AICHIKEN)识别为图2所示示例中的第一个单词的情况(i=2)进行说明。在该情况中,字典管理部分9将由结尾部分字典20a的“tiken”的字典识别数据“C1”所表示的结尾部分字典20b-1从辅助存储装置2读入存储器8内。与此几乎同时地,识别部分7将结尾部分字典10中的音位串与对应于从所输入的语音的前沿起的第二个单词的那一帧的语音特征值进行匹配。由此,基于在识别部分7内识别的辖区名,与字典管理部分9执行的对要在辖区名之后说出的城市名的结尾部分字典20b-1的读取处理并行地,识别部分7执行对城市名的起始部分的匹配。
重复从Op7至Op13的处理,直到在Op11中确定没有后续字典为止。由此,连续识别在该语音中包含的连续单词串。例如,在i=2时,在将从所输入的语音的前沿起的第二个单词识别为由起始部分“na”(参见图2中的起始部分字典10)和结尾部分“goyasi”(参见结尾部分字典20b-1)组合的单词“nagoyasi”的情况中,字典管理部分9读取表示在Nagoya市中的行政区名的结尾部分字典20c-1。与此同时,识别部分7将行政区名的起始部分与起始部分字典10匹配。另外,识别部分7利用所读取的结尾部分字典20c-1,对行政区名的结尾部分进行匹配。例如,假设得到“nakaku”作为识别结果。在不存在包含作为行政区名之后的行政区的候选项的一组单词的结尾部分字典的情况中(Op11为否),输出“AICHIKEN、NAGOYASHI、NAKAKU”作为识别结果。由此,连续识别出表示辖区名、城市名和行政区名的单词。
图4是表示图3中所示的处理相对于时间轴的执行状态的图。在图4中,T轴表示时间。在图4中,分别由箭头表示在执行图3中所示的从Op7至Op13的处理过程的时间。作为示例,分别由箭头表示出在i=1时在Op7、8、9、10-12中的处理的执行时间以及在i=2时在Op13、7和8中的处理的执行时间。在i=1时,在Op7、8、9和Op10-12中的处理是连续执行的,并且在T1完成了Op12中的处理。使Op13的将第二个单词的结尾部分字典读入存储器8的处理和Op7的匹配第二个单词的起始部分的处理同时开始。在此,即使在Op13中在对结尾部分字典进行读取的处理期间,也仍然继续Op7中的处理,从而减少处理中的延迟。在时间T2完成Op13中的处理。更具体地,在时间T2完成对结尾部分字典的读取。从时间T2开始,利用在Op13中读取的结尾部分字典来执行Op8中的匹配处理。
图4中所示的处理的执行时间是一个示例,并且语音识别装置1的操作并不限于此。例如,在图4中,尽管在i=2时,Op7中的处理完成得早于Op13中的处理,但Op13中的处理也可能完成得早于Op7中的处理。
另外,在图3中所示的上述处理也示出了语音识别装置1的操作的示例,并且根据本发明的语音识别装置的操作并不限于此。例如,在图3所示的处理中,基于利用起始部分字典计算的相似性和利用结尾部分字典计算的相似性之和,识别部分7识别单词。另选地,可以实现如下利用起始部分字典仅识别起始部分,以及利用结尾部分字典仅识别结尾部分,由此将通过将所识别的起始部分和结尾部分进行组合所得到的单词确定为识别结果。
另外,在字典数据12中包含的起始部分字典和结尾部分字典的结构并不限于图2中所示的那些。图2中所示的结尾部分字典具有这样的结构将表示包含在一个上位概念中的下位概念的多个单词收集到一个结尾部分字典中。更具体地,在图2所示的示例中,提供了表示辖区名的单词的结尾部分,并且此外,针对各辖区提供了表示在各辖区内包含的城市的单词的结尾部分字典。但是,可将具有不同概念的多个单词包含在一个字典中。例如,可以在一个字典中包括作为某一单词之后的多个候选项的一组单词,并且可利用将该字典和单词相关联的数据来记录该字典。
(结尾部分字典的改进例)另外,作为图2中所示的结尾部分字典的改进例,也可以将表示包含在一个上位概念中的多个下位概念的多个单词在根据这些单词的起始部分而划分成多个结尾部分字典的情况下进行记录。图5是示出了其中将在图2中所示的结尾部分字典20b-1中包括的结尾部分划分成多个结尾部分字典的示例性情况的图。在图5中,将包括在结尾部分字典20b-1中的结尾部分在被划分成结尾部分字典20b-11(包含与起始部分“n”对应的结尾部分“goyasi”、“gakutecho”…)、结尾部分字典20b-12(包含与起始部分“t”对应的结尾部分“yotasi”、“yohasisi”、“yokawasi”…)以及其他结尾部分字典(未示出)的情况下进行记录。
由此,通过记录其中收集有对应于各起始部分的结尾部分的结尾部分字典,每当识别部分7对单词起始部分的一部分进行匹配时,基于匹配结果,字典管理部分9可选择要读取的结尾部分字典。例如,识别部分7将表示城市名的单词的起始部分的第一个音位识别为“n”,字典管理部分9可选择图5中所示的结尾部分字典20b-11作为要读取的结尾部分字典。这就减少了要读取的结尾部分字典的大小。因此,缩短了用于读取结尾部分字典的时间,并且可节省可用存储器的容量。
图6是表示图3中所示的处理相对于时间轴的执行状态的图,其中基于单词起始部分的上述匹配结果来选择要读取的结尾部分字典。在图6所示的执行状态中,尽管在i=1时Op10-12完成的时间T1上开始i=2时Op7中的处理,但Op13中的处理没有开始。在时间T1’开始Op13。时间T1’是由Op7中的匹配处理获得第二个单词的起始部分的匹配结果的时间。基于第二个匹配结果执行Op13中的结尾部分字典读取处理。
实施例2在实施例1中,对在字典数据内仅包括一个起始部分字典的情况中的语音识别处理已经进行了说明。在实施例2中,对在字典数据中包括多个起始部分字典的情况中的语音识别处理进行说明。在本实施例中,识别部分1通过从多个起始部分字典中适当地选择合适的起始部分字典,来执行语音识别处理。本实施例中语音识别装置的结构与图1中所示的语音识别装置1的相同。
图7示出了实施例2中的包括在字典数据中的起始部分字典和结尾部分字典的具体示例。在图7中,包括与图2中所示的字典相同内容的字典由与图2中相同的标号表示,并省略对其的说明。图7中所示的字典数据中的起始部分字典包括多个起始部分字典100-1、100-2、100-3和100-4。这些起始部分字典是这样的数据将可能包含在所输入的语音中的所有单词的起始部分在被划分成多个起始部分字典的情况下进行记录。在此,作为示例,将一组单词的起始部分在被划分成起始部分字典100-1(包括表示辖区名的单词的起始部分)、起始部分字典100-2、100-3…(包括表示在各辖区中包含的城市、城镇和村庄的名称的单词的起始部分)以及起始部分字典100-4(包括表示在各城市中包含的行政区名或区域名的单词的起始部分)的情况下进行记录。
如以下所述,在将一组单词的起始部分划分成多个起始部分字典的情况下记录该组单词的起始部分的目的是为了使识别部分7能够根据要识别的单词的候选项,仅参考所需的那组起始部分。因此,优选地,对应于作为要识别的各个连续的单词的候选项的一组单词,提供起始部分字典。
可将多个起始部分字典100-1、100-2、100-3和100-4例如记录为用于各字典的文件,或者可记录为用于各字典的表。此外,可将多个字典记录到一个文件中,或者可以在将一个字典划分成多个文件的情况下进行记录。另外,可将可同时读取的一组字典(例如,辖区名的起始部分字典100-1和辖区名的结尾部分字典20a的组合)记录在一个文件或表中。
图8是示出了实施例2中的语音识别装置识别语音的示例性处理的流程图。在图8中,用与图2中相同的标号表示与图2中所示的相同的处理,并且省略详细说明。
如图8中所示,字典管理部分9首先将在字典数据12中包含的所有的多个起始部分字典读入存储器8内(Op12)。将在所输入的语音中可能包含的所有单词的起始部分在被划分成多个起始部分字典(此处所读取的)的情况下进行记录。要读取的多个起始部分字典的一部分的具体示例是起始部分字典100-1、100-2、100-3和100-4(图7中所示)。
Op2至6中的处理和图2中的相同。在Op7a中,识别部分7利用声学模型,将由起始部分字典表示的单词的起始部分和与从所输入的语音的前沿起的第i个单词的起始部分对应的那一帧的语音特征值进行匹配。此匹配中所使用的起始部分字典是包括作为第i个单词的候选项的一组单词的起始部分的起始部分字典(以下称为第i个单词的起始部分字典)。识别部分7将与在第i个起始部分字典内包括的各音位串对应的声学模型串和与从所输入的语音的前沿起的第i个单词的起始部分对应的那一帧的语音特征值进行匹配,以计算两者之间的相似性。
在i=1的情况中,第一个起始部分字典的具体示例为图7中所示的起始部分字典100-1。起始部分字典100-1包括表示辖区名(可能在语音中首先说出)的单词的起始部分的音位串“ai”、“ao”、“ak”…(省略后续的音位串)。识别部分7计算与各音位串对应的声学模型串和与语音的最前面部分对应的那一帧的特征值之间的相似性。
下面,识别部分7利用声学模型,对由结尾部分字典表示的单词的结尾部分和与第i个单词的结尾部分对应的那一帧的语音特征值进行匹配(Op8)。在此用于匹配的结尾部分字典为第i个单词的结尾部分字典。
识别单元7基于在Op7a中计算的起始部分字典的各音位串的相似性以及在Op8中计算的结尾部分字典的各音位串的相似性,来识别从所输入的语音的前沿起的第i个单词(Op9)。
当识别出第i个单词时,字典管理部分9基于第i个单词,确定包含作为第(i+1)个单词的候选项的一组单词的结尾部分的结尾部分字典(以下称为“第(i+1)个单词的结尾部分字典”)(Op10)。在存在第(i+1)个单词的结尾部分字典的情况中(Op11为是),字典管理部分9还确定包含作为第(i+1)个单词的候选项的一组单词的起始部分的起始部分字典(以下称为“第(i+1)个单词的起始部分字典”)(Op10a)。字典管理部分9可基于与已读取的结尾部分字典中的给定单词的结尾部分相关联的字典识别数据,来确定第(i+1)个起始部分字典和第(i+1)个结尾部分字典。
例如,在图7所示的辖区名的结尾部分字典20a中,记录有与音位串“tiken”…(省略后续音位串)对应的字典识别数据“C1”。在图7所示的示例中,字典识别数据“C1”表示结尾部分字典20b-1和起始部分字典100-2。例如,在将“aitiken”提供给字典管理部分9作为第一个单词的情况中,字典管理部分9可确定以“C1”作为字典识别数据的起始部分字典100-2为随后第(i+1)个单词的起始部分字典。另外,字典管理部分9确定以“C1”作为字典识别数据的结尾部分字典20b-1为第(i+1)个结尾部分字典。通过确定用于识别后续单词的起始部分字典和结尾部分字典,可以在适当时机仅将识别单词所需的结尾部分字典读入存储器8内,并且可以通过仅参考识别所需的起始部分字典来识别单词。
在Op10之后,字典管理部分9从存储器8内删除用于匹配第i个单词的结尾部分字典。在i=1的情况中,当针对第一个单词的Op10中的处理完成时,字典管理部分9从存储器8内删除辖区名的起始部分字典100-1和辖区名的结尾部分字典20a。因此,通过从存储器8内删除已由识别部分7识别的单词的起始部分字典和结尾部分字典,可节省可用存储器的容量。
之后,变量i递增1(Op12),并且与字典管理部分9读取结尾部分字典(Op13)几乎同时地,识别部分7对由Op10a中确定的起始部分字典(例如,第i个单词的起始部分字典)所表示的单词的起始部分和对应于第i个单词的那一帧的语音特征值进行匹配(Op7a)。
对其中i=2时将辖区名“aitiken”(AICHIKEN)识别为图7中所示示例中的第一个单词的情况进行说明。在该情况中,字典管理部分9将由结尾部分字典20a的“tiken”的字典识别数据“C1”所表示的结尾部分字典20b-1从辅助存储装置2读入存储器8内。几乎与此同时,识别部分7将由字典识别数据“C1”表示的起始部分字典100-2中的音位串与对应于第二个单词的那一帧的语音特征值进行匹配。由此,基于识别部分7所识别的辖区名,执行对可能在辖区名之后说出的城市名的结尾部分字典20b-1进行读取的处理。另外,与此并行地,识别部分7对可能在辖区名之后说出的城市名的起始部分字典100-2与对应于该辖区名之后的语音的那一帧的语音特征值进行匹配。因此,识别部分7可以仅针对多个起始部分字典中进行识别所需的起始部分字典执行匹配处理(Op7a)。因此,缩短了语音识别处理所需的时间。
重复Op7a至Op13的处理,直到在Op11中确定没有后续字典为止。由此,对语音中包含的连续的单词串进行了连续识别。
实施例3在实施例1和2中,对预先读取包含所有单词起始部分的起始部分字典的情况中的语音识别处理已经进行了说明。在实施例3中,字典管理部分9预先读取在字典数据12中包含的多个起始部分字典的一部分。更具体地,在本实施例中,字典管理部分9根据识别部分7内的处理,在任何时机读取适当的起始部分字典。本实施例中的语音识别装置的结构与图1中所示的语音识别装置1的相同。
图9示出了实施例3中的在字典数据内包含的起始部分字典和结尾部分字典的具体示例。在图9中,采用与图7内相同的标号来表示包含与图7中所示的字典内的相同内容的字典,并且省略详细说明。图9中所示的字典数据中的起始部分字典包括多个起始部分字典100-1、100-2、100-3、100-4和100-5。
其中,在输入语音之前由字典管理部分9预先读取的起始部分字典是辖区名的起始部分字典100-1和各辖区内的城市名(也包括城镇名)的起始部分字典100-2和100-3。因此,字典管理部分9读取包括作为两个连续单词(例如,表示辖区名的单词和表示城市名的单词)的候选项的一组单词的起始部分的起始部分字典。
图10是示出了实施例3中的语音识别装置识别语音的示例性处理的流程图。在图10中,采用与图8中相同的标号来表示与图8中所示的相同的处理,并且省略对其的详细说明。
如图10中所示,字典管理部分9首先将包含作为两个连续的单词的候选项的一组单词的起始部分字典读入存储器8内(Op1b)。将处于所输入语音的前沿的单词和作为第二个单词的候选项的所有单词的起始部分在被划分成多个起始部分字典(读入存储器8)的情况下进行记录。要读入存储器8内的多个起始部分字典的具体示例为起始部分字典100-1、100-2和100-3(图9中所示)。在图9所示的示例中,起始部分字典100-1包括作为表示语音前沿处辖区名的单词的候选项的一组单词的起始部分。起始部分字典100-2、100-3…包括作为表示城市、城镇、县或村庄的名称(其可能在辖区名之后说出)的单词的候选项的一组单词的起始部分。
Op2至Op11的处理与图8中的相同。
在存在第(i+1)个结尾部分字典的情况中(Op11为是),在Op10b中字典管理部分9确定第(i+1)个起始部分字典。另外,字典管理部分9还确定包括作为第(i+2)个单词的候选项的一组单词的起始部分的起始部分字典(以下,也称为第(i+2)个单词的起始部分字典)。在已读取的结尾部分字典中,基于与给定单词的结尾部分相关联的字典识别数据,字典管理部分9可确定第(i+2)个起始部分字典。
例如,在图9所示的辖区名的结尾部分字典20a中,对与结尾部分的音位串“tiken”…(省略后续的音位串)相关联的字典识别数据“C1”进行记录。在图9所示的示例中,字典识别数据“C1”表示结尾部分字典20b-1和起始部分字典100-2。例如,在将“aitiken”提供给字典管理部分9作为第一个单词的情况中,字典管理部分9可确定,字典识别数据中具有“C1”的起始部分字典100-2是随后的第(i+1)个起始部分字典。另外,字典管理部分9确定,以“C1”作为字典识别数据的结尾部分字典20b-1是第(i+1)个结尾部分字典。
另外,字典管理部分9参考与在结尾部分字典20b-1中包括的结尾部分的各音位串相关联的字典识别数据“E1”和“E2”。基于这些字典识别数据,字典管理部分9确定第(i+2)个单词的起始部分字典。在此情况中,第(i+2)个单词的起始部分字典为由字典识别数据“E1”和“E2”表示的起始部分字典100-4和100-5。关于在结尾部分字典20b-1中包括的结尾部分,为简便起见仅显示了两个结尾部分“goyasi”和“gakute”,并省略其余显示。
在Op10b之后,字典管理部分9从存储器8内删除用于匹配第i个单词的起始部分字典和结尾部分字典。在图9所示的示例中,在i=1时将辖区名识别为第一个单词的情况中,字典管理部分9从存储器8内删除辖区名的起始部分字典100-1和辖区名的结尾部分字典20a。
在Op10b之后,变量i递增1(Op12),并且字典管理部分9开始读取在Op10中所确定的结尾部分字典,即,第i个单词的结尾部分字典(Op13b)。另外,在Op13b中,字典管理部分9还开始读取在Op10b中所确定的第(i+1)个单词的起始部分字典。
与起始部分字典和结尾部分字典的读取(Op13b)几乎同时地,识别部分7对Op11b中确定的起始部分字典(即,由第i个单词的起始部分字典表示的单词的起始部分)和对应于第i个单词的那一帧的语音特征值进行匹配(Op7a)。
对i=2时将辖区名“aitiken”(AICHIKEN)识别为图9中所示示例中的第一个单词的情况进行说明。在该情况中,字典管理部分9将由字典识别数据“C1”(与结尾部分字典20a的“tiken”相关联)表示的结尾部分字典20b-1从辅助存储装置2读入存储器8内。另外,字典管理部分9还将起始部分字典100-4和100-5读入存储器8内。几乎与此同时地,识别部分7对由字典识别数据“C1”表示的起始部分字典100-2的语音串和对应于第二个单词的那一帧的语音特征值进行匹配。
由此,基于识别部分7所识别的辖区名,执行读取城市名(在辖区名之后可能说出的)的结尾部分字典20b-1的处理。另外,还执行读取在该城市名之后可能说出的单词的起始部分字典100-4和100-5的处理。此外,与这些处理并行地,识别部分7对城市名(在辖区名之后可能说出的)的起始部分字典100-2和与该辖区名之后的语音对应的那一帧的语音特征值进行匹配。
如上所述,根据本实施例,除了结尾部分字典以外,还根据识别处理在任何时间读取起始部分字典。因此,不必预先读取关于所有单词的候选项的起始部分字典。仅仅通过读取关于至少两个连续的单词的候选项的起始部分字典,在任何时间(如果需要的话)读取起始部分字典。这样能够节省可用存储器的容量。
在本实施例中,尽管对读取关于两个连续的单词的候选项的起始部分字典的示例已经进行了说明,但要读取的起始部分字典并不限于用于两个连续的单词的候选项的起始部分字典。如果字典管理部分9将包括一组单词(作为至少两个连续的单词的候选项)的起始部分的起始部分字典读入存储器内,则识别部分7可将与在所输入的语音中包含的至少两个连续的单词的起始部分对应的部分与读入存储器的起始部分字典进行匹配。因此,在识别部分7识别一个单词之后,当字典管理部分9正根据所识别单词读取结尾部分字典和/或起始部分字典时,所识别单词之后的语音能够与包括作为所识别单词之后的单词的候选项的单词的起始部分的起始部分字典相匹配。
在语音识别装置由如并入的设备的具有较少资源(CPU、存储器)的平台构成的情况中,根据实施例1-3的语音识别装置明显表现出减少响应(从讲话结束到给出识别结果的时间)的效果。
在上述实施例1-3中,尽管对识别地址的示例已经进行了说明,但作为根据本发明的语音识别装置的对象的语音的内容并不限于地址。本发明可应用于识别包括连续的单词(其中作为各单词的候选项的一组单词与前面的单词相关联)的语音的语音识别装置。说出这种连续单词的情况的示例包括连续说出艺术家姓名、画册名称和标题名称的情况,连续说出公司名、部门名、标题名和全名的情况,以及连续说出的所需时间或距离和设施名的情况。
另外,在上述实施例1-3中,对通过一个接一个地识别单词来识别多个单词的情况已经进行了说明。但是,识别连续单词的处理并不限于这种处理。
(表示词序的数据的改进例)另外,在实施例1-3中,将表示词序的数据记录到结尾部分字典中,作为与各结尾部分相关联的字典识别数据。但是,在表示词序的数据被包含在结尾部分字典内的情况下,不必对这些数据记录。例如,可以提供存储有表示词序的数据的语法文件。
图11是示出了起始部分字典、结尾部分字典以及表示字典内包含的词序的语法文件30的示例的图。在图11所示的起始部分字典中,分别记录有“0”、“23”、“12”、“13”和“2301”作为字典识别数据。另外,在与这些起始部分字典对应的结尾部分字典中,还记录有“1”、“23”、“12”、“13”和“2301”作为字典识别数据。
在语法文件30中,第一行中记录有包含作为在所输入语音中要首先识别的单词的候选项的一组单词的字典的字典识别数据“0”。更具体地,将要首先读取的字典的字典识别数据记录在第一行中。第二行中的“0-1”表示由字典识别数据“0”表示的字典内的第一个单词。在图2中,“0-1”表示由起始部分字典“0”中的第一个起始部分“ai”和结尾部分字典“0”内的第一个结尾部分“tiken”组成的单词“aitiken”。“0-1”旁边的“23”(两者之间插入有→)是包含作为在“aitiken”之后的单词的候选项的一组单词的字典的字典识别数据。
在语法文件30的第三至第五行中,通过与第二行相同的方式,将表示某单词的数据和包含作为在所述某单词之后的单词的候选项的一组单词的字典的字典识别数据以彼此相关联的方式进行记录。第六行中的“2301-1→-1”意思是,在由字典识别数据“2301”表示的字典中在第一个单词“nakaku”后面没有单词,并且完成了要识别的单词。由此,例如,识别部分7可识别出按照“aitiken”、“nagoyasi”、“nakaku”的顺序说出的语音。
通过参考语法文件30,字典管理部分9可获得要首先读取的字典、识别部分7在识别单词之后要读取的字典以及表示识别单词完成的信息。另外,如果重写语法文件30的内容,则可利用相同的起始部分字典和相同的结尾部分字典来识别不同的发音。例如,在可能首先说出单词“nakaku”、然后说出“nagoyasi”的情况中,可将包括“nakaku”的字典的字典识别数据“2301”记录到语法文件30的第一行内。通过将“2301-1→23”记录到第二和后续的行内,以使作为在“nakaku”之后的单词的候选项的字典为包括“nagoyasi”的字典,可以通过记录“2301-1→23”来识别发音“nakaku nagoyasi”。
本发明用作语音识别装置、语音识别程序、语音识别方法以及存储所使用的字典数据的记录介质,其能够在对用户说出的连续单词进行识别的语音识别处理(其中不能将所有的语音识别字典放在主存储装置上并对存储器有所限制)中,减少由于从具有用于进行单词识别的单词字典的辅助存储装置进行加载的等待时间所造成的识别时间中的延迟。
在不脱离本发明的精神或基本特点的情况下可以通过其他方式实施本发明。要从各个方面考虑该申请中揭示的实施例,作为示例但并不限定。本发明的范围由所附权利要求而非上述说明来表明,并且在权利要求等同物的意义和范围之内的所有变化都应该包括在内。
权利要求
1.一种语音识别装置,用于识别包含在所输入的语音中的多个连续关联的单词并输出其识别结果,所述装置包括声学模型读取部分,用于将预先记录在辅助存储装置内的声学模型读入主存储装置内;字典管理部分,用于将字典数据从所述辅助存储装置读入主存储装置内,所述字典数据包括起始部分字典,表示作为要识别单词的候选项的一组单词的起始部分;结尾部分字典,表示所述一组单词的结尾部分;词序数据,表示单词顺序;以及对应关系数据,表示所述起始部分字典与所述结尾部分字典之间的对应关系;以及识别部分,用于通过利用读入所述主存储装置内的所述声学模型和所述对应关系数据,将由读入所述主存储装置内的所述起始部分字典和所述结尾部分字典表示的所述一组单词与所述输入语音进行匹配,来连续识别包含在所述输入语音中的所述多个连续关联单词,其中所述字典数据包括至少一个起始部分字典,所述起始部分字典存储有表示多个单词起始部分的数据;和一组结尾部分字典,所述结尾部分字典存储有表示与由所述起始部分字典表示的一组起始部分对应的一组结尾部分的数据,作为多个结尾部分字典,并且所述字典管理部分将所述词序数据和所述起始部分字典读入主存储装置,所述起始部分字典包括作为包含在所述输入语音中的多个单词中的至少一个单词的候选项的一组单词的起始部分,并且当所述识别部分利用读入所述主存储装置内的所述起始部分字典识别单词时,所述字典管理部分基于所述词序数据,读取所述结尾部分字典和/或所述起始部分字典。
2.根据权利要求1所述的语音识别装置,其中所述起始部分字典存储有针对作为要识别的多个连续关联单词的候选项的整组单词的起始部分,并且在所述识别部分开始识别所述输入语音之前,所述字典管理部分读取作为包含在所述语音中的多个单词中的第一个单词的候选项的一组单词的所述起始部分字典和所述结尾部分字典,当所述识别部分识别第N个单词时,其中N为自然数,所述字典管理部分基于所述第N个单词和所述词序数据,从所述多个结尾部分字典中选出包括作为第(N+1)个单词的候选项的一组单词的结尾部分的所述结尾部分字典,并开始读取,以及在所述读取过程中,所述识别部分利用所述起始部分字典,来识别所述第(N+1)个单词的起始部分。
3.根据权利要求1所述的语音识别装置,其中在所述识别部分开始识别之前,所述字典管理部分读取包括作为包含在所述输入语音中的多个单词中的第一个单词的候选项的一组单词的结尾部分的所述结尾部分字典,和包括作为第一与第二个单词的候选项的一组单词的起始部分的所述起始部分字典,当所述识别部分识别第N个单词时,其中N为自然数,所述字典管理部分读取包括作为第(N+1)个单词的候选项的一组单词的结尾部分的所述结尾部分字典,和包括作为第(N+2)个单词的候选项的一组单词的起始部分的所述起始部分字典。
4.根据权利要求1所述的语音识别装置,其中当所述识别部分利用读入所述主存储装置内的所述起始部分字典,将所述单词的所述起始部分的一部分与所述语音进行匹配时,所述字典管理部分基于所述匹配结果,开始读取所述结尾部分字典和/或所述起始部分字典。
5.根据权利要求1所述的语音识别装置,其中将所述词序数据以与各个单词结尾部分相对应的方式记录到所述结尾部分字典内,作为字典识别数据,所述字典识别数据表示包括可能跟在所述单词结尾部分之后的一组单词的起始部分的起始部分字典或者包括所述一组单词的结尾部分的结尾部分字典,并且所述字典管理部分基于与由所述识别部分识别的所述单词的所述结尾部分对应的所述字典识别数据,来读取所述起始部分字典或所述结尾部分字典。
6.根据权利要求5所述的语音识别装置,其中所述字典数据包括多个起始部分字典,并且基于与所述所识别单词的所述结尾部分对应的所述字典识别数据,所述识别部分从所述多个起始部分字典中选择出包括可能跟在所识别单词之后的一组单词的起始部分的所述起始部分字典,并利用所选择的起始部分字典,识别所述跟在所识别单词之后的单词。
7.根据权利要求1所述的语音识别装置,其中所述字典管理部分从所述主存储装置中删除读入所述主存储装置内的所述结尾部分字典和所述起始部分字典中的、在用于识别部分识别单词之后变为不需要的所述结尾部分字典或所述起始部分字典。
8.根据权利要求1所述的语音识别装置,其中在根据音位数、音节数、摩尔数、单词出现频率和可用存储器的容量中的至少一个来将可能包含在语音中的一组单词划分成多个起始部分和多个结尾部分的情况下,所述字典数据包含有所述一组单词,并且将所述起始部分和所述结尾部分以分别被包括在所述起始部分字典和所述结尾部分字典中的方式进行记录。
9.一种语音识别方法,用于使计算机识别包含在所输入语音中的多个连续关联的单词并且输出其识别结果,所述方法包括声学模型读取操作,使所述计算机将预先记录在辅助存储装置内的声学模型读入主存储装置内;字典管理操作,使所述计算机将字典数据从所述辅助存储装置读入主存储装置内,所述字典数据包括起始部分字典,表示作为要识别单词的候选项的一组单词的起始部分;结尾部分字典,表示所述一组单词的结尾部分;词序数据,表示单词顺序;以及对应关系数据,表示起始部分字典与结尾部分字典之间的对应关系;以及识别操作,使所述计算机通过利用读入所述主存储装置内的所述声学模型和所述对应关系数据,将由读入所述主存储装置内的所述起始部分字典和所述结尾部分字典表示的一组单词与所述输入语音进行匹配,来连续识别包含在所述输入语音中的多个连续关联的单词,其中所述字典数据包括至少一个起始部分字典,所述起始部分字典存储有表示多个单词的起始部分的数据;和一组结尾部分字典,所述结尾部分字典存储有表示与由所述起始部分字典表示的一组起始部分对应的一组结尾部分的数据,作为多个结尾部分字典,并且在所述字典管理操作中,所述计算机将所述词序数据和所述起始部分字典读入主存储装置,所述起始部分字典包括作为包含在所输入语音的所述多个单词中的至少一个单词的候选项的一组单词的起始部分,并且当在所述识别操作中利用读入所述主存储装置内的所述起始部分字典识别单词时,所述计算机基于所述词序数据来读取所述结尾部分字典和/或所述起始部分字典。
10.一种存储有语音识别程序的记录介质,所述语音识别程序用于使计算机执行对包含在输入语音中的多个连续关联单词进行识别并输出其识别结果的处理,所述语音识别程序使所述计算机执行声学模型读取处理,将预先记录在辅助存储装置内的声学模型读入主存储装置内;字典管理处理,将字典数据从所述辅助存储装置读入所述主存储装置内,所述字典数据包括起始部分字典,表示作为要识别单词的候选项的一组单词的起始部分;结尾部分字典,表示所述一组单词的结尾部分;词序数据,表示单词顺序;以及对应关系数据,表示所述起始部分字典与所述结尾部分字典之间的对应关系;以及识别处理,通过利用读入所述主存储装置内的所述声学模型和所述对应关系数据,将由读入所述主存储装置内的所述起始部分字典和所述结尾部分字典表示的一组单词与所述输入语音进行匹配,来连续识别包含在所述输入语音中的多个连续关联的单词,其中所述字典数据包括至少一个起始部分字典,所述起始部分字典存储有表示多个单词的起始部分的数据;和一组结尾部分字典,所述结尾部分字典存储有表示与由所述起始部分字典表示的一组起始部分对应的一组结尾部分的数据,作为多个结尾部分字典,并且在所述字典管理处理中,所述程序使所述计算机将所述词序数据和所述起始部分字典读入主存储装置,所述起始部分字典包括作为包含在所述输入语音中的所述多个单词中的至少一个单词的候选项的一组单词的起始部分,并且当在所述识别处理中利用读入所述主存储装置内的所述起始部分字典识别单词时,所述计算机基于所述词序数据来读取所述结尾部分字典和/或所述起始部分字典。
全文摘要
语音识别装置、语音识别方法及存储语音识别程序的记录介质。一种语音识别装置,用于识别包含在语音中的多个连续关联的单词,该装置包括声学模型读取部分,用于读取声学模型;字典管理部分,用于从字典数据中读取所需数据;和识别部分,用于利用所述声学模型,通过将由字典数据表示的一组单词与所输入的语音进行匹配来连续识别所述多个连续单词,其中,所述字典数据包括表示单词起始部分的起始部分字典和存储有表示结尾部分的数据的一组结尾部分字典,根据所述识别部分识别的所述单词来读取所述结尾部分字典和/或所述起始部分字典,并且当所述字典管理部分读取所述结尾部分字典和/或所述起始部分字典时,所述识别部分将后续语音与包含在所述起始部分字典内的单词起始部分进行匹配。由此,所述语音识别装置可消除由于从对存储器有所限制的设备内的辅助存储装置中读取单词字典所造成的语音识别处理中的延迟。
文档编号G10L15/06GK101046957SQ20061010898
公开日2007年10月3日 申请日期2006年7月31日 优先权日2006年3月30日
发明者原田将治 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1