语音识别系统和语音识别装置的制作方法

文档序号：20167419发布日期：2020-03-24 21:55阅读：159来源：国知局

本发明涉及语音识别系统和语音识别装置。

背景技术：

以往，作为与语音识别有关的技术，例如，提出有专利文献1的认知功能评价装置、专利文献2的发声内容的掌握系统等。

在专利文献1的认知功能评价装置中，话音素分析部接收对象数据，该对象数据遍及对象期间示出了对象者的语音中所包含的特定音素的瞬时声压的时间变动。然后，话音素分析部将对象期间分割为多个帧，针对2个以上的对象帧分别求出特定的话音素的频率。特征分析部针对按照每个对象帧而求出的特定的话音素的频率求出特征量。评价部根据特征量来评价对象者的认知功能。

在专利文献2中，公开了基于针对所录制的语音数据取出核心词的、发声内容的掌握系统以及使用该掌握系统的索引方法和发声内容的掌握方法等，该掌握系统针对所录制的语音数据进行音素基准的语音识别并保存附加了索引的数据，使用该数据掌握基于核心词的发声内容，由此，准确、轻松并且迅速地进行发声内容的掌握。

现有技术文献

专利文献

专利文献1：日本特开2018-50847号公报

专利文献2：日本特开2015-539364号公报

技术实现要素：

发明要解决的课题

这里，在与语音识别有关的技术中，可期待在各种领域中的应用，另一方面，作为课题，列举有提高识别精度这样的课题。为了提高识别精度，使用音素的方法受到关注，但由于从语音数据取得音素的排列时的偏差等，提高识别精度仍然只是课题。

关于此点，在专利文献1中，针对基于对象者的语音的特定的话音素频率求出特征量，根据特征量评价对象者的认知功能，由此，实现了精度的提高。但是，在专利文献1公开的技术中，无法识别对象者发出的语音的内容。

此外，在专利文献2中，公开了通过掌握基于核心词的发声内容来实现发声内容的掌握的技术。但是，在专利文献2公开的技术中，在发声内容中包含音素类似的核心词的情况下，识别精度有可能变差。由于这样的状况，期望得到能够提高识别精度的语音识别的相关技术。

因此，本发明正是鉴于上述问题点而构思出的，其目的在于提供一种能够提高识别精度的语音识别系统和语音识别装置。

用于解决课题的手段

第1发明的语音识别系统的特征在于，具有：取得单元，其取得至少一个语音数据；提取单元，其提取所述语音数据中所包含的无音开始区间和无音结束区间，并提取夹在所述无音开始区间与所述无音结束区间之间的音素和休止区间的排列来作为识别对象数据；字符串数据库，其存储有预先取得的字符串信息、与所述字符串信息相关联的音素信息和赋予给所述字符串信息的种类id；检测单元，其参考所述字符串数据库，选择与所述识别对象数据所具有的所述排列对应的所述音素信息，并检测出多个与所选择的所述音素信息相关联的所述字符串信息和所述种类id来作为候选数据；语法数据库，其存储有语法信息，该语法信息表示预先取得的所述种类id的排列顺序；计算单元，其参考所述语法数据库，生成根据所述语法信息将多个所述候选数据进行组合而得到的语句，计算与所述语句中所包含的每个所述候选数据对应的可靠度；选择单元，其根据所述可靠度，从多个所述候选数据中选择出评价数据；以及生成单元，其根据所述评价数据生成识别信息。

第2发明的语音识别系统的特征在于，在第1发明中，所述提取单元从1个所述语音数据提取多个所述识别对象数据，多个所述识别对象数据具有各自不同的、所述音素和所述休止区间的所述排列。

第3发明的语音识别系统的特征在于，在第1发明或者第2发明中，所述计算单元生成多个所述语句，所述候选数据的种类和组合中的至少任意一个在多个所述语句中是各自不同的。

第4发明的语音识别系统的特征在于，在第1发明～第3发明中的任意一项中，所述语音识别系统还具有参考数据库，所述参考数据库存储有预先取得的所述字符串信息、由所述字符串信息组合而成的参考语句、和赋予给每个所述字符串信息的阈值，所述生成单元具有：指定单元，其参考所述参考数据库，指定所述参考语句中的、对应于所述评价数据的第1参考语句；以及、比较单元，其对对应于所述评价数据的所述可靠度和赋予给所述第1参考语句中所包含的第1字符串信息的第1阈值进行比较，所述生成单元根据所述比较单元的比较结果，生成所述识别信息。

第5发明的语音识别系统的特征在于，在第4发明中，所述语音识别系统还具有更新单元，所述更新单元对根据多个所述候选数据和多个所述可靠度，对所述参考数据库中所存储的所述阈值进行更新。

第6发明的语音识别系统的特征在于，在第4发明或者第5发明中，所述语音识别系统还具有反映单元，所述反映单元取得对所述识别信息进行了评价的使用者的评价结果，并将该评价结果反映在所述参考数据库的所述阈值中。

第7发明的语音识别系统的特征在于，在第1发明～第6发明中的任意一项中，所述取得单元取得条件信息，该条件信息表示生成所述语音数据的条件。

第8发明的语音识别系统的特征在于，在第7发明中，所述检测单元根据所述条件信息，筛选所要参考的所述字符串数据库的内容。

第9发明的语音识别系统的特征在于，在第1发明～第8发明中的任意一项中，所述语音识别系统还具有输出单元，该输出单元输出所述识别信息，所述识别信息包含用于对车辆的行驶速度进行控制的信息。

第10发明的语音识别系统的特征在于，在第1发明～第9发明中的任意一项中，所述休止区间包含呼吸音和唇音中的任意一个。

第11发明的语音识别系统的特征在于，在第1发明～第10发明中的任意一项中，所述字符串信息包含两国以上的语言。

第12发明的语音识别装置的特征在于具有：取得部，其取得至少一个语音数据；提取部，其提取所述语音数据中所包含的无音开始区间和无音结束区间，并提取夹在所述无音开始区间与所述无音结束区间之间的音素和休止区间的排列来作为识别对象数据；字符串数据库，其存储有预先取得的字符串信息、与所述字符串信息相关联的音素信息和赋予给所述字符串信息的种类id；检测部，其参考所述字符串数据库，选择与所述识别对象数据所具有的所述排列对应的所述音素信息，并检测出多个与所选择的所述音素信息相关联的所述字符串信息和所述种类id来作为候选数据；语法数据库，其存储有语法信息，该语法信息表示预先取得的所述种类id的排列顺序；计算部，其参考所述语法数据库，生成根据所述语法信息将多个所述候选数据进行组合而得到的语句，计算与所述语句中所包含的每个所述候选数据对应的可靠度；选择部，其根据所述可靠度，从多个所述候选数据中选择出评价数据；以及生成部，其根据所述评价数据，生成识别信息。

发明效果

根据第1发明～第11发明，提取单元提取音素和休止区间的排列作为识别对象数据。此外，检测单元选择与识别对象数据所具有的排列对应的音素信息，检测候选数据。因此，与仅考虑识别对象数据中的音素针对排列来检测候选数据的情况相比，能够减少错误识别。由此，能够实现识别精度的提高。

此外，根据第1发明～第11发明，字符串数据库中存储有与音素和休止区间的排列对应的音素信息、以及与音素信息相关联的字符串信息。因此，与为了针对音素整体进行模式匹配而存储的数据相比，能够实现数据容量的削减、数据累积的简化。

特别是，根据第2发明，提取单元从1个语音数据中提取多个识别对象数据。因此，即使在取得了在音素和休止区间的排列中会产生偏差的语音数据的情况下，也能够抑制识别精度的下降。由此，能够实现识别精度的进一步提高。

特别是，根据第3发明，计算单元生成多个语句。即，即使在存在多个由候选数据组合得到的模式的情况下，也能够生成与全部模式对应的语句。因此，例如，与模式匹配的搜索方法等相比，能够减少错误识别。由此，能够实现识别精度的进一步提高。

特别是，根据第4发明，比较单元对可靠度与第1阈值进行比较。因此，通过对从多个候选数据中相对地选择出的评价数据也进行基于阈值的判定，能够进一步减少错误识别。由此，能够实现识别精度的进一步提高。

特别是，根据第5发明，更新单元根据候选数据和可靠度，对阈值进行更新。因此，与始终使用预先设定的阈值的情况相比，能够生成与要取得的语音数据的质量对应的识别信息。由此，能够扩展可利用的环境的范围。

特别是，根据第6发明，反映单元将评价结果反映到阈值中。因此，在识别信息相对于使用者的识别发生了偏差的情况下，能够容易地实施改善。由此，能够实现持续的识别精度的提高。

特别是，根据第7发明，取得单元取得条件信息。即，取得单元将取得语音数据时的周边环境、语音数据中包含的杂音、选取语音的语音收集装置的种类等各种条件作为条件信息取得。因此，能够实施与条件信息对应的各单元、各数据库的设定。由此，无论使用的环境等如何，都能够实现识别精度的提高。

特别是，根据第8发明，检测单元根据条件信息，筛选所要参考的字符串数据库的内容。因此，字符串数据库中存储有按照每个条件信息而不同的字符串信息等，由此，能够检测适合于每个条件信息的候选数据。由此，能够实现针对每个条件信息的识别精度的提高。

特别是，根据第9发明，输出单元输出识别信息。即，伴随识别精度的提高，能够用作使用者的驾驶辅助等。由此，能够应用于较大范围的用途。

特别是，根据第10发明，休止区间包含呼吸音和唇音中的任意一个。因此，对于仅通过音素难以判断的语音数据的差异，也能够容易地判断，并能够提取识别对象数据。由此，能够实现识别精度的进一步提高。

根据第12发明，提取部提取音素和休止区间的排列作为识别对象数据。此外，检测部选择出与识别对象数据具有的排列对应的音素信息，检测出候选数据。因此，与仅考虑识别对象数据中的音素而针对排列检测候选数据的情况相比，能够减少错误识别。由此，能够实现识别精度的提高。

此外，根据第12发明，字符串数据库中存储有与音素和休止区间的排列对应的音素信息、以及与音素信息相关联的字符串信息。因此，与为了针对音素整体进行模式匹配而存储的数据相比，能够实现数据容量的削减、数据累积的简化。

附图说明

图1是示出本实施方式的语音识别系统的结构的一例的示意图。

图2的(a)是示出本实施方式的语音识别装置的结构的一例的示意图，图2的(b)是示出本实施方式的语音识别装置的功能的一例的示意图，图2的(c)是示出本实施方式的生成部的一例的示意图。

图3是示出本实施方式的语音识别装置的各功能的一例的示意图。

图4是示出字符串数据库、语法数据库和参考数据库的一例的示意图。

图5的(a)是示出本实施方式的语音识别系统的动作的一例的流程图，图5的(b)是示出生成单元的一例的流程图，图5的(c)是示出反映单元的一例的流程图。

图6是示出更新单元的一例的示意图。

图7的(a)是示出更新单元的一例的流程图，图7的(b)是示出设定单元的一例的流程图。

图8是示出条件信息的一例的示意图。

图9是示出参考数据库的变形例的示意图。

具体实施方式

以下，参照附图来说明本发明的实施方式的语音识别系统和语音识别装置的一例。

(语音识别系统100的结构)

参照图1～图4来说明本实施方式的语音识别系统100的结构的一例。图1是示出本实施方式的语音识别系统100的整体结构的示意图。

语音识别系统100参考根据使用者的用途而构建的字符串数据库和语法数据库，生成与使用者的语音对应的识别信息。字符串数据库中存储有设想使用者会说出的字符串(字符串信息)和对应于字符串的音素(音素信息)。因此，能够通过储存上述字符串和音素来生成与用途对应的识别信息，并能够扩展到各种用途中。

特别是，发明人发现：通过将字符串数据库所存储的音素的排列(音素信息)基于语音中包含的休止区间进行分类，能够显著地提高针对语音的识别信息的精度。

语法数据库中存储有生成由字符串信息组合而成的语句所需的语法信息。语法信息包含多个表示与每个字符串信息相关联的种类id的排列顺序的信息。通过参考语法数据库，在基于根据休止区间而被分类的音素的排列对字符串信息进行检测之后，能够容易地组合各字符串信息。由此，能够生成考虑了语音的语法的识别信息。其结果，能够高精度地实现基于使用者等发出的语音的内容的语音识别。

如图1所示，语音识别系统100具有语音识别装置1。在语音识别系统100中，例如使用语音收集装置2等来收集使用者等的语音，使用语音识别装置1生成与语音对应的识别信息。识别信息除了包含语音被转换成字符串而得到的文本数据等以外，还包含例如对控制装置3等进行控制的信息、和用于应答使用者的语音信息等。

在语音识别系统100中，语音识别装置1除了直接与语音收集装置2、控制装置3连接以外，例如也可以经由公共通信网4而连接。此外，语音识别装置1例如也可以经由公共通信网4而与服务器5、或由使用者等拥有的用户终端6连接。

<语音识别装置1>

图2的(a)是示出语音识别装置1的结构的一例的示意图。作为语音识别装置1，除了可以使用raspberrypi(注册商标)等单板计算机以外，也可以使用例如个人计算机(pc)等电子设备。语音识别装置1具有壳体10、cpu(centralprocessingunit：中央处理器)101、rom(readonlymemory：只读存储器)102、ram(randomaccessmemory：随机存取存储器)103、保存部104和i/f105～107。各结构101～107被内部总线110连接。

cpu101控制整个语音识别装置1。rom102存储cpu101的动作代码。ram103是在cpu101工作时使用的工作区域。保存部104保存字符串数据库等各种信息。作为保存部104，除了可以使用例如sd存储卡以外，还可以使用例如hdd(harddiskdrive：硬盘驱动器)、ssd(solidstatedrive：固态硬盘)等。

i/f105是用于在与语音收集装置2、控制装置3、公共通信网4等之间进行各种信息的收发的接口。i/f106是用于在与根据用途而连接的输入部分108之间进行各种信息的收发的接口。作为输入部分108，例如可以使用键盘，进行语音识别系统100的管理等的使用者等经由输入部分108而输入或者选择各种信息或者语音识别装置1的控制命令等。i/f107是用于与根据用途而连接的输出部分109进行各种信息的收发的接口。输出部分109输出保存部104所保存的各种信息、识别信息、语音识别装置1的处理状况等。作为输出部分109，可以使用显示器，例如，也可以是触摸面板式。在该情况下，可以构成为输出部分109包含输入部分108。另外，i/f105～i/f107例如也可以使用同一接口。

图2的(b)是示出语音识别装置1的功能的一例的示意图。语音识别装置1具有取得部11、提取部12、存储部13、检测部14、计算部15、选择部16、生成部17和输出部18。语音识别装置1例如也可以具有反映部19。另外，图2的(b)所示的各功能通过由cpu101将ram103作为工作区域执行保存部104等所存储的程序来实现。此外，各功能的一部分也可以使用例如julius等公知的语音识别引擎、如python等公知的通用编程语言来实现，并进行各种数据的提取、生成等处理。此外，各功能的一部分也可以利用人工智能来进行控制。这里，“人工智能”可以是基于任意公知的人工智能技术的技术。

<取得部11>

取得部11取得至少一个语音数据。取得部11取得对使用例如语音收集装置2等而收集到的语音信号进行了pcm(pulsecodemodulation：脉冲编码调制)等脉冲调制后的数据来作为语音数据。取得部11也可以与语音收集装置2的种类对应地一次取得例如多个语音数据。

取得部11可以例如同时取得多个语音数据。在该情况下，语音识别装置1除了与多个语音收集装置2连接以外，还可以与能够同时收集多个语音的语音收集装置2连接。另外，取得部11除了取得语音数据以外，还经由例如i/f105、i/f106而从语音收集装置2等取得各种信息(数据)。

<提取部12>

提取部12提取语音数据中包含的无音开始区间和无音结束区间。此外，提取部12提取无音开始区间与无音结束区间之间的音素和休止区间的排列来作为识别对象数据。

提取部12提取例如100毫秒以上1秒以下的非发声状态(无音区间)来作为无音开始区间和无音结束区间。提取部12针对无音开始区间与无音结束区间之间的区间(语音区间)分配音素和休止区间。提取部12提取被各自分配的音素和休止区间的排列来作为识别对象数据。

音素是包含母音和子音的公知的音素。休止区间表示比无音开始区间和无音结束区间短的区间，例如表示与音素的区间相同程度的区间(长度)。提取部12例如也可以在判定了各音素的长度或者识别对象数据整体的长度之后设定休止区间的长度，在此基础上提取分配有音素和休止区间的排列来作为识别对象数据。即，提取部12也可以根据音素的长度或者识别对象数据整体的长度而对应地设定休止区间的长度。

例如，如图3所示，提取部12提取无音开始区间“silb”和无音结束区间“sile”，并提取语音区间中的排列“a/k/a/r/i/*/w/o/*/ts/u/k/e/t/e”(*表示休止区间)来作为对象识别数据。提取部12例如也可以从1个语音数据提取多个各自不同的排列的对象识别数据。在该情况下，能够实施考虑了伴随于提取部12中的音素和休止区间的分配的偏差的语音识别。例如，提取部12通过提取1个以上5个以下的对象识别数据，能够在抑制处理时间并且能够提高识别精度。另外，提取部12例如也可以提取包含无音开始区间和无音结束区间中的至少任意一个的排列来作为对象识别数据。

休止区间例如也可以包含呼吸音和唇音中的至少任意一个。即，提取部12例如也可以提取休止区间中所包含的呼吸音和唇音中的至少任意一个来作为识别对象数据。在该情况下，通过使后述的字符串数据库中所存储的音素信息包含呼吸音和唇音中的至少任意一个，能够生成精度更高的识别信息。

<存储部13、数据库>

存储部13使保存部104存储各种数据，或者从保存部104取出各种数据。存储部13根据需要取出保存部104中所存储的各种数据库。

例如，如图4所示，保存部104中存储有字符串数据库和语法数据库，例如，也可以存储有参考数据库。

字符串数据库中存储有预先取得的字符串信息、与字符串信息相关联的音素信息和赋予给字符串信息的种类id。字符串数据库在检测部14检测候选数据时使用。

音素信息包含多个设想使用者会发出的音素的排列(例如，第1音素信息“a/k/a/r/i”等)。音素的排列除了对应于被休止区间分离的区间以外，例如，也可以如“h/i/*/i/t/e”那样包含休止区间，是根据利用条件任意设定的。另外，音素信息例如也可以包含无音开始区间和无音结束区间中的至少任意一个。

字符串信息包含与各音素的排列相关联的字符串(例如，第1字符串信息“明かり”等)。因此，字符串信息除了可以使用单词、词素等具有意义的表达要素以外，还可以使用不具有意义的字符串。另外，字符串信息除了日语以外，例如也可以包含两国以上的语言，还可以包含数字、和在使用地点所使用的简称等字符串。此外，也可以针对相同的字符串信息关联不同的音素的排列。

种类id与字符串信息相关联，表示设想基于语法使用字符串信息的单词等时，该字符串信息的单词等所处的排列位置(例如第1种类id“1”等)。例如，在语音的语法(语句)能够表示为“对象”+“助词”+“动作”的情况下，针对作为语音的“对象”的字符串信息使用“1”来作为种类id，针对作为语音的“助词”的字符串信息使用“2”来作为种类id，针对作为语音的“动作”的字符串信息使用“3”来作为种类id。

语法数据库中存储有表示预先取得的多个种类id的排列顺序的语法信息。语法数据库在利用计算部15计算可靠度时使用。例如，在使用第1语法信息“1、2、3”作为语法信息的情况下，能够生成表示“对象”+“助词”+“动作”的语句作为语音的候选。语法信息例如包含第1语法信息“1、2、3”、第2语法信息“4、5、6”、第3语法信息“2、1、3”等多个排列顺序(种类id的排列顺序)。

参考数据库中存储有预先取得的字符串信息、由字符串组合而成的参考语句、针对每个字符串信息赋予的阈值，例如也可以存储与字符串信息相关联的音素信息。参考数据库根据需要在由生成部17生成识别信息时使用。另外，能够通过使参考数据库所存储的字符串信息和音素信息例如等同于字符串数据库中所存储的字符串信息和音素信息，从而减少数据容量。

<检测部14>

检测部14参考字符串数据库，选择与识别对象数据所具有的音素的排列对应的音素信息。此外，检测部14检测多个与所选择的音素信息相关联的字符串信息和种类id来作为候选数据。

例如，如图3所示，检测部14选择与识别对象数据对应的音素信息“a/k/a/r/i”、“w/o”、“ts/u/k/e/t/e”，并检测出与各音素信息相关联的字符串信息和种类id“明かり/1”、“を/2”、“つけて/3”分别作为候选数据。这时，候选数据的数量对应于识别对象数据的数量而相应地增加。另外，各音素的排列除了预先按照每个休止区间划分并分类以外，也可以根据包含音素和休止区间在内的音素信息进行分类。

<计算部15>

计算部15参考语法数据库，生成根据语法信息组合多个候选数据而成的语句。此外，计算部15计算与语句中所包含的每个候选数据对应的可靠度。

例如，如图3所示，计算部15使第1语法信息“1、2、3”中所包含的每个种类id与各候选数据“明かり/1”、“を/2”、“つけて/3”的种类id对应，生成语句“明かり/1”“を/2”“つけて/3”。这时，例如，在语法信息为“3、1、2”的情况下，会生成“つけて/3”“明かり/1”“を/2”作为语句。

计算部15计算与语句中包含的各候选数据“明かり/1”、“を/2”、“つけて/3”对应的可靠度“0.982”、“1.000”、“0.990”。计算部15针对各候选数据，按照0.000以上且1.000以下的范围来计算可靠度。计算部15例如也可以针对各语句设定表示优先级的等级(在图3中，等级1～等级5)。通过设定等级，能够从评价对象中排除被分级为任意的等级以下的语句(例如，等级6以下)。因此，能够减少被选择作为后述的评价数据的候选数据的数量，能够实现处理速度的提高。

例如，计算部15可以在内容不同的语句中包含相同的候选数据的情况下，计算对于各候选数据分别不同的可靠度。例如，在计算出与第1语句中包含的各候选数据“明かり/1”、“を/2”、“つけて/3”对应的可靠度“0.982”、“1.000”、“0.990”的情况下，计算与第2语句中所包含的各候选数据“明かり/1”、“を/2”、“弾いて/3”对应的可靠度“0.942”、“1.000”、“0.023”。即，即使是对于相同的候选数据“明かり”，也可以根据语句的内容、组合的顺序而被计算成不同的可靠度。

作为可靠度，除了可以使用预先设定的值以外，例如还可以使用与由检测部14所检测出的候选数据的种类和数量对应的相对值。例如，随着相对于1个种类id，候选数据的种类变多，能够计算成较低的可靠度。

<选择部16>

选择部16根据可靠度从多个候选数据选择评价数据。选择部16例如选择多个候选数据中的、各个种类id被计算出最高可靠度的候选数据来作为评价数据。例如，选择部16选择相同的种类id“3”的候选数据“つけて/3/0.990”、“弾いて/3/0.023”中的、具有最高的可靠度的候选数据“つけて/3/0.990”来作为评价数据。另外，选择部16例如也可以针对1个种类id选择多个候选数据来作为评价数据。在该情况下，也可以由后述的生成部17从多个候选数据中选择1个候选数据。

<生成部17>

生成部17根据评价数据生成识别信息。生成部17除了例如将评价数据转换为文本形式并作为识别信息生成，例如还可以将评价数据转换为语音数据形式或用于对控制装置3进行控制的控制数据形式并作为识别信息生成。即，识别信息包含用于对控制装置3进行控制的信息(例如，用于对车辆的行驶速度进行控制的信息)。另外，转换为基于评价数据的文本形式、语音数据形式或者控制数据形式的方法可以使用公知的技术，也可以根据需要使用储存有各数据形式的数据库等。

生成部17例如也可以具有指定部17a和比较部17b。指定部17a参照参考数据库，指定参考语句中的、对应于评价数据的第1参考语句。例如，在选择了“明かり/1”、“を/2”、“つけて/3”作为评价数据的情况下，指定部17a指定图4所示的第1参考语句。在该情况下，作为第1参考语句中包含的各字符串信息(第1字符串信息)，指定与评价数据中包含的候选数据等同的字符串。

比较部17b对对应于评价数据的可靠度与赋予给第1字符串信息的阈值(第1阈值)进行比较。比较部17b对例如评价数据“明かり”、“を”、“つけて”的可靠度“0.982”、“1.000”、“0.990”是否为第1字符串信息“明かり”、“を”、“つけて”的第1阈值“0.800”、“0.900”、“0.880”以上进行比较。在该情况下，生成部17根据比较结果生成识别信息。例如，生成部17可以在可靠度为第1阈值以上的情况下，生成识别信息。例如，生成部17还可以根据可靠度为第1阈值以上的情况和小于第1阈值的情况对应地生成不同的生成信息。

<输出部18>

输出部18输出识别信息。输出部18经由i/f105而将识别信息输出至控制装置3等。输出部18也可以经由例如i/f107而将识别信息输出至输出部分109。输出部18除了识别信息，还将各种信息(数据)经由例如i/f105、i/f107而输出至控制装置3等。

<反映部19>

反映部19取得评价了识别信息的使用者等的评价结果，并反映到参考数据库的阈值上。例如，在评价结果相对于识别信息较差的情况下(即，针对语音数据获得的识别信息与使用者等的请求背离的情况下)，反映部19通过变更阈值来实现识别信息的改善。这时，例如，也可以使用公知的机械学习方法等将评价结果反映到阈值中。

<语音收集装置2>

语音收集装置2除了具有公知的麦克风以外，例如，还可以具有dsp(digitalsignalprocessor：数字信号处理器)。在语音收集装置2具有dsp的情况下，语音收集装置2生成对由麦克风收集到的语音信号进行pcm等进行脉冲调制后的数据，并发送到语音识别装置1。

语音收集装置2例如除了直接与语音识别装置1连接以外，例如还可以经由公共通信网4而连接。另外，在语音收集装置2仅具有麦克风的情况下，可以由语音识别装置1生成进行脉冲调制后的数据。

<控制装置3>

控制装置3表示能够从语音识别装置1接收识别信息并进行控制的装置。作为控制装置3，除了例如led等照明装置以外，还可以使用例如车载装置(例如，为了控制车辆的行驶速度而与制动系统直接连接的装置)、能够变更显示语言的自动售货机、上锁装置、音频设备、按摩机等。控制装置3例如除了直接与语音识别装置1连接以外，例如还可以经由公共通信网4而连接。

<公共通信网4>

公共通信网4是经由通信电路而与语音识别装置1连接的互联网等。公共通信网4也可以由所谓的光纤通信网构成。此外，公共通信网4不限定于有线通信网，也可以通过无线通信网等公知的通信网实现。

<服务器5>

服务器5中存储有上述的各种信息。服务器5中例如储存有经由公共通信网4发送而来的各种信息。服务器5中例如可以存储与保存部104相同的信息，并经由公共通信网4而与语音识别装置1进行各种信息的收发。即，语音识别装置1也可以用服务器5来替代保存部104。特别是，服务器5通过对上述的各数据库进行更新，能够将语音识别装置1中的更新功能、和要储存的数据容量抑制为最小。因此，能够在通常不与公共通信网4连接的状态下使用语音识别装置1，能够以仅在需要更新的情况下与公共通信网4连接的方式来使用。由此，能够大幅度地扩大语音识别装置1的利用目的地。

<用户终端6>

用户终端6例如表示语音识别系统100的使用者等所具有的终端。作为用户终端6，主要使用移动电话(便携终端)，除此以外，也可以使用智能手机、平板型终端、可佩戴终端、个人计算机、iot(internetofthings：物联网)器件等电子设备、以及所有的由电子设备中实现的用户终端。用户终端6除了经由例如公共通信网4而与语音识别装置1连接以外，也可以例如直接与语音识别装置1连接。使用者等除了经由例如用户终端6而从语音识别装置1取得识别信息以外，也可以例如代替语音收集装置2而使用用户终端6来收集语音。

(语音识别系统100的动作的一例)

接着，对本实施方式的语音识别系统100的动作的一例进行说明。图5的(a)是示出本实施方式的语音识别系统100的动作的一例的流程图。

<取得单元s110>

首先，取得至少一个语音数据(取得单元s110)。取得部11从语音收集装置2等取得语音数据。取得部11例如经由存储部13而将语音数据保存到保存部104中。

<提取单元s120>

接着，提取识别对象数据(提取单元s120)。提取部12例如经由存储部13而从保存部104取出语音数据，提取语音数据中所包含的无音开始区间和无音结束区间。此外，提取部12提取夹在无音开始区间与无音结束区间之间的音素和休止区间的排列来作为识别对象数据。提取部12例如经由存储部13而将识别对象数据保存到保存部104中。另外，提取部12也可以一次取得多个语音数据。

提取部12例如从1个语音数据提取多个识别数据。这时，多个识别数据具有分别不同的、音素和休止区间的排列(例如，图3的排列a～排列c)。提取部12除了设定例如各自不同的条件以外，例如还在按照同一条件进行了设定时的偏差的范围内提取多个识别数据。

另外，例如，在休止区间包含呼吸音和唇音中的至少任意一个时，提取部12也可以提取包含呼吸音和唇音中的至少任意一个的排列来作为识别对象数据。

<检测单元s130>

接着，根据识别对象数据检测候选数据(检测单元s130)。检测部14例如经由存储部13而从保存部104取出识别对象数据。检测部14参考字符串数据库，选择与识别对象数据所具有的排列对应的音素信息。此外，检测部14检测多个与所选择的音素信息相关联的字符串信息和种类id来作为候选数据。检测部14例如经由存储部13而将候选数据保存到保存部104中。另外，识别对象数据所具有的排列例如也可以表示一对休止区间之间的音素的排列，在一对休止区间之间可以排列有其他休止区间。

<计算单元s140>

接着，计算与各候选数据对应的可靠度(计算单元s140)。计算部15例如经由存储部13而从保存部104取出候选数据。计算部15参考语法数据库，生成根据语法信息组合多个候选数据而得到的语句。此外，计算部15计算与语句中包含的每个候选数据对应的可靠度。计算部15例如经由存储部13而将各候选数据和可靠度保存到保存部104中。也可以通过使用例如julius等公知的语音识别引擎来作为计算部15，实现语句的生成和可靠度的计算。

计算部15能够根据语法数据库的语法信息的种类对应地生成多个语句。此外，计算部15能够通过选择语法信息的种类而高精度地实施适合状况的语音识别。

<选择单元s150>

接着，根据可靠度来选择评价数据(选择单元s150)。选择部16例如经由存储部13而从保存部104取出候选数据和可靠度。选择部16例如选择多个候选数据中的、各个种类id被计算出最高可靠度的候选数据来作为评价数据。选择部16例如经由存储部13而将评价数据保存到保存部104中。

<生成单元s160>

接着，根据评价数据生成识别信息(生成单元s160)。生成部17例如经由存储部13而从保存部104取出评价数据。生成部17例如使用上述的公知的技术将评价数据转换为任意的数据，并作为识别信息生成。

例如，如图5的(b)所示，生成单元s160也可以具有指定单元s161和比较单元s162。

指定单元s161指定对应于评价数据的第1参考语句。指定部17a参照参考数据库，指定参考语句中的、对应于评价数据的第1参考语句。

比较单元s162对对应于评价数据的可靠度与赋予给第1参考语句中所包含的第1字符串信息的第1阈值进行比较。例如，如图3所示，比较部17b可以在评价数据的可靠度为第1阈值以上的情况下，判断为识别正确。然后，根据比较部17b的判断(比较结果)生成识别信息。另外，在由比较部17b判断为评价数据的可靠度小于第1阈值从而判断为识别错误的情况下，直接结束或者由提取单元s120再次实施，除此以外，例如也可以生成督促使用者等再次发出语音的识别信息。

<输出单元s170>

然后，根据需要输出识别信息(输出单元s170)。输出部18除了经由i/f107而在输出部分109上显示识别信息以外，还经由例如i/f105而输出用于对控制装置3等进行控制的识别信息。

<反映单元s180>

另外，也可以取得例如评价了识别信息的使用者等的评价结果，并反映到参考数据库的阈值中(反映单元s180)。在该情况下，反映部19经由取得部11而取得使用者等制成的评价结果。反映部19根据评价结果中包含的评价值等变更阈值，使得比较单元s162中的比较结果得到改善(识别精度提高)。

另外，反映部19除了将评价结果反映到参考数据库中，例如也可以将评价结果反映到字符串数据库和语法数据库中的至少任意一个中。此外，计算部15也可以将评价结果反映到可靠度的计算中。

由此，本实施方式的语音识别系统100的动作结束。

根据本实施方式的语音识别系统100，提取单元s120提取音素和休止区间的排列作为识别对象数据。此外，检测单元s130选择与识别对象数据具有的排列对应的音素信息，检测出候选数据。因此，与仅考虑识别对象数据中的音素针对排列检测候选数据的情况相比，能够减少错误识别。由此，能够实现识别精度的提高。

此外，由于能够提高识别精度，所以无需实施事先语音输入以提高精度。这里，事先语音输入表示在取得语音数据之前，用于开始语音识别的语音。通过使用事先语音输入，能够提高识别精度，另一方面，会导致便利性的下降。关于此点，根据本实施方式的语音识别系统100，由于无需实施事先语音输入，从而能够实现便利性的提高。

另外，根据本实施方式的语音识别系统100，也可以根据需要实施事先语音输入。由此，能够实现识别精度的进一步提高。

此外，根据本实施方式的语音识别系统100，字符串数据库中存储有与音素和休止区间的排列对应的音素信息、以及与音素信息相关联的字符串信息。因此，与为了对音素整体进行模式匹配而存储的数据相比，能够实现数据容量的削减、数据累积的简化。

特别是，通过基于语音识别系统100的使用环境筛选字符串数据库所存储的字符串信息，能够削减数据容量，无需与例如公共通信网4连接，能够增大利用的范围。此外，能够大幅度地缩短从取得语音数据起到生成识别信息为止的时间。

此外，根据本实施方式的语音识别系统100，提取单元s120从1个语音数据提取多个识别对象数据。因此，即使在取得了音素和休止区间的排列会产生偏差的那样的语音数据的情况下，也能够抑制识别精度的下降。由此，能够实现识别精度的进一步提高。

此外，根据本实施方式的语音识别系统100，计算单元s140生成多个语句。即，即使在由候选数据组合而成的模式存在多个的情况下，也能够生成与全部模式对应的语句。因此，例如与模式匹配的搜索方法等相比，能够减少错误识别。由此，能够实现识别精度的进一步提高。

此外，根据本实施方式的语音识别系统100，比较单元s162对可靠度与第1阈值进行比较。因此，通过对从多个候选数据相对地选择出的评价数据也进行基于阈值的判定，能够进一步减少错误识别。由此，能够实现识别精度的进一步提高。

此外，根据本实施方式的语音识别系统100，反映单元s180将评价结果反映到阈值中。因此，在识别信息偏离于使用者的识别的情况下，能够容易地实施改善。由此，能够实现持续的识别精度的提高。

此外，根据本实施方式的语音识别系统100，输出单元s170输出识别信息。如上所述，本实施方式的语音识别系统100能够生成精度比现有的系统高的识别信息。因此，在根据识别信息实施控制装置3等的控制的情况下，能够大幅度地抑制控制装置3等的错误工作。例如，在使用语音识别系统100来控制车辆的制动的情况下，能够实现不对通常的行驶带来障碍的程度的精度。即，伴随识别精度的提高，能够用作使用者的驾驶辅助等。由此，能够应用于广泛的用途。

此外，根据本实施方式的语音识别系统100，休止区间包含呼吸音和唇音中的至少任意一个。因此，对于仅通过音素难以判断的语音数据的差异，也能够容易地判断出，并能够提取识别对象数据。由此，能够实现识别精度的进一步提高。

根据本实施方式的语音识别装置1，提取部12提取音素和休止区间的排列作为识别对象数据。此外，检测部14选择与识别对象数据所具有的排列对应的音素信息，并检测出候选数据。因此，与仅考虑识别对象数据中的音素而针对排列检测候选数据的情况相比，能够减少错误识别。由此，能够实现识别精度的提高。

此外，根据本实施方式的语音识别装置1，字符串数据库中存储有与音素和休止区间的排列对应的音素信息、以及与音素信息相关联的字符串信息。因此，与为了对音素整体进行模式匹配而存储的数据相比，能够实现数据容量的削减、数据储存的简化。

(语音识别系统100的结构的第1变形例)

接着，对本实施方式的语音识别系统100的第1变形例进行说明。上述的实施方式与第1变形例的不同在于，生成部17具有更新部17c。另外，对与上述的结构相同的结构省略说明。

例如，如图6所示，生成部17所具有的更新部17c根据候选数据和可靠度，对参考数据库中所存储的阈值进行更新。即，能够将阈值更新为与候选数据和可靠度的内容对应的值。

更新部17c例如计算与各种类id相关联的多个可靠度的平均值。更新部17c根据计算出的平均值对阈值进行更新。

在对阈值进行更新的情况下，除了使用计算出的平均值作为阈值以外，也可以将以预先设定的系数乘以平均值所得的值用作更新后的阈值。此外，也可以针对更新前的阈值，使用对将系数乘以平均值所得的值进行四则运算后的结果的值作为更新后的阈值。

通过根据候选数据和可靠度的内容对阈值进行更新，即使在例如语音数据中容易包含噪声等的情况下，也能够设定与语音数据的质量对应的阈值。此外，即使在检测出多个与1个种类id相关联的字符串信息并且各字符串信息的可靠度较低的情况下，也能够防止全部可靠度小于阈值。

更新部17c例如也可以计算与各种类id相关联的多个可靠度中的、除了最低的可靠度以外的可靠度的平均值。在该情况下，更新后的阈值示出比更新前的阈值高的倾向。由此，能够减少错误识别。

更新部17c例如也可以计算与各种类id相关联的多个可靠度中的、除了最低的可靠度和最高的可靠度以外的可靠度的平均值。在该情况下，更新后的阈值示出比更新前的阈值低的倾向。由此，能够提高识别率。此外，能够抑制更新前后的阈值的变动。

(语音识别系统100的动作的第1变形例)

接着，对本实施方式的语音识别系统100的第1变形例进行说明。图7的(a)是示出第1变形例中的更新单元s163的一例的流程图。

如图7的(a)所示，在使上述的选择单元s150进行了动作之后，根据多个候选数据和多个可靠度，对参考数据库中所存储的阈值进行更新(更新单元s163)。更新部17c例如经由存储部13而从保存部104取出候选数据、可靠度和参考数据库。

例如，如图6所示，更新部17c计算出与等级1、2、4中包含的种类id“1”相关联的多个可靠度“0.982”、“0.942”、“0.897”的平均值“0.940”。然后，更新部17c例如将以计算出的平均值乘以系数(例如0.9)所得的值“0.846”用作更新后的阈值。

然后，使上述的指定单元s161等实施动作，本实施方式的语音识别系统100的动作结束。

根据本变形例，更新单元s163中的更新部17c根据候选数据和可靠度，对阈值进行更新。因此，与始终使用预先设定的阈值的情况相比，能够生成与要取得的语音数据中的质量对应的识别信息。由此，能够扩展可利用的环境的范围。

(语音识别系统100的动作的第2变形例)

接着，对本实施方式的语音识别系统100的第2变形例进行说明。上述的实施方式与第2变形例的不同在于具有设定单元s190。另外，对于与上述的结构相同的结构，省略说明。

例如，如图7的(b)所示，在生成单元s160之后，使设定单元s190实施动作。设定单元s190根据识别信息，筛选所要参考的各数据库的内容。在实施设定单元s190的动作之后，实施取得单元s110的动作。

例如，在设定单元s190生成了“音乐模式”的情况下，在之后的检测单元s130中，检测部14筛选并参考字符串数据库中的、归类为“音乐模式”的音素信息、字符串信息和种类id。因此，与不实施设定单元s190的情况相比，能够限定参考特定内容的音素信息等。由此，能够显著地提高识别精度。

(取得单元s110的变形例)

接着，对本实施方式的取得单元s110的变形例进行说明。上述的实施方式与本变形例的不同在于，取得部11取得条件信息。另外，对于与上述的结构相同的结构，省略说明。

在取得单元s110中，取得部11取得条件信息，该条件信息表示生成语音数据的条件。例如，如图8所示，条件信息具有环境信息、噪声信息、语音收集装置信息、使用者信息和声音特性信息。另外，也可以与上述的设定单元s190同样，例如由检测部14根据条件信息筛选要参考的字符串数据库和语法数据库中的至少任意一个的内容。此外，例如，反映部19也可以在参考数据库的阈值的更新中使用条件信息。

条件信息除了例如由语音收集装置2生成以外，例如，也可以由使用者等预先制成。例如，取得部11也可以取得语音数据的一部分作为条件信息。

环境信息具有与语音收集装置2的设置环境有关的信息，表示例如屋外、屋内的大小等。通过使用环境信息，能够考虑例如屋内的语音的反射条件等，能够提高被提取的识别对象数据等的精度。

噪声信息具有与语音收集装置2所能够收集到的杂音有关的信息，表示例如除了使用者等以外的声音、空调声音等。通过使用杂音信息，能够预先去除语音数据中包含的无用数据，能够提高被提取的识别对象数据等的精度。

语音收集装置信息具有与语音收集装置2的种类、性能等有关的信息，还包含例如麦克风的数量、麦克风的种类等。通过使用语音收集装置信息，能够选择与生成语音数据的状况对应的数据库等，能够提高语音识别的精度。

使用者信息具有与使用者等的人数、国籍、性別等有关的信息。声音特性信息具有与声音的声量、声压，习惯、活舌的状态等有关的信息。通过使用使用者信息，能够预先限定语音数据的特征，能够提高语音识别的精度。

根据本变形例，取得单元s110取得条件信息。即，取得单元s110取得、取得语音数据时的周边环境、语音数据中包含的杂音、收集语音的语音收集装置2的种类等各种条件来作为条件信息。因此，能够实施与条件信息对应的各单元、各数据库的设定。由此，无论使用的环境等如何，都能够实现识别精度的提高。

此外，根据本变形例，检测单元s130根据条件信息来筛选要参考的字符串数据库的内容。因此，字符串数据库中预先存储有按照每个条件信息而不同的字符串信息等，由此，能够检测与每个条件信息相对应的候选数据。由此，能够实现每个条件信息的识别精度的提高。

(参考数据库的变形例)

接着，对本实施方式的参考数据库的变形例进行说明。上述的实施方式与本变形例的不同在于，参考数据库所存储的信息的内容不同。另外，对于与上述的结构相同的结构省略说明。

例如，如图9所示，参考数据库中存储有预先取得的过去的评价数据、与过去的评价数据相关联的参考语句、和过去的评价数据与参考语句之间的相关度。

生成部17例如参照参考数据库，选择过去的评价数据中的、对应于评价数据的第1评价数据(图9的“过去的评价数据”内的虚线框)。然后，生成部17取得参考语句中的、对应于第1评价数据的第1参考语句(图9的“参考语句”内的虚线框)。此外，生成部17取得相关度中的、第1评价数据与第1参考语句之间的第1相关度(图9的“65％”等)。另外，第1评价数据和第1参考语句也可以包含多个数据。

生成部17根据第1相关度的值生成识别信息。生成部17例如对第1相关度与预先取得的阈值进行比较，参考与超过阈值的第1相关度相关联的第1参考语句来生成识别信息。

作为过去的评价数据，除了选择与评价数据部分一致或者完全一致的信息以外，例如，也可以使用类似(包含同一概念等)的信息。在用多个字符串间的组合表示评价数据和过去的评价数据的情况下，例如，可以使用名词-动词、名词-形容词、形容词-动词、名词-名词中的任意一个的组合。

利用例如百分率等以3个阶段以上来表示相关度(第1相关度)。例如，在参考数据库由神经网络构成的情况下，第1相关度表示与所选择的过去的评价对象信息相关联的权重变量。

在使用上述的参考数据库的情况下，其特征在于：能够根据被设定为3个阶段以上的相关度来实现语音识别。例如能够用0～100％的数值记述相关度等，但不限于此，只要能够用3个阶段以上的数值记述即可，可以由任意阶段构成。

根据这样的相关度等，能够在被选定为评价数据的识别信息的候选的第1参考语句中，按照相关度等从高到低或者从低到高的顺序选择第1参考语句。通过以这样的方式按照相关度的顺序选择，能够优先选择符合状况的可能性较高的第1参考语句。另一方面，由于没有排除符合状况的可能性较低的第1参考语句，该语句仍然能够选择，因此没有被作为舍弃对象，仍然能够选定为识别信息的候选。

除上述以外，例如，即使是相关度等为1％的非常低的评价也不会漏掉，仍然能够选择。即，即使相关度等是非常低的值，作为少许的迹象也示出了相关联的情况，能够抑制过度的舍弃对象的选择和错误识别。

虽然对本发明的多个实施方式进行了说明，但这些实施方式是作为例子而示出的，没有意图限定发明的范围。这些新的实施方式能够以其它各种方式实施，能够在不脱离发明主旨的范围内进行各种省略、置换和变更。这些实施方式及其变形被包含在发明的范围或主旨内，并且被包含在权利要求书所记载的发明以及其均等的范围内。

标号说明

1：语音识别装置；2：语音收集装置；3：控制装置；4：公共通信网；5：服务器；6：用户终端；10：壳体；11：取得部；12：提取部；13：存储部；14：检测部；15：计算部；16：选择部；17：生成部；17a：指定部；17b：比较部；17c：更新部；18：输出部；19：反映部；100：语音识别系统；101：cpu；102：rom；103：ram；104：保存部；105：i/f；106：i/f；107：i/f；108：输入部分；109：输出部分；110：内部总线；s110：取得单元；s120：提取单元；s130：检测单元；s140：计算单元；s150：选择单元；s160：生成单元；s161：指定单元；s162：比较单元；s163：更新单元；s170：输出单元；s180：反映单元；s190：设定单元。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：菊田敦;越田高广
技术所有人：菱洋电子株式会社
我是此专利的发明人

上一篇：一种用于语音识别的系统和方法与流程
上一篇：用于提供温度相关公共电极电压的电路的制作方法