本发明的实施方式涉及信息处理装置、信息处理方法以及记录介质。
背景技术:
识别用户发出的命令并进行设备的操作的声音识别装置被实用化。在这样的装置中,进行如下动作:在检测到表示基于特定的关键词的发声等的声音识别开始的触发时,进行之后发出的声音识别。
然而,以往,在进行了连续发话的情况下,有时无法进行在触发的检测以及触发之后发出的声音的声音识别。
现有技术文献
专利文献
专利文献1:日本特开2015-194766号公报
技术实现要素:
本发明要解决的问题涉及能够实现声音识别的提高的信息处理装置、信息处理方法以及记录介质。
实施方式的信息处理装置具备检测部和声音识别部。检测部从声音信号检测表示声音识别开始的触发。声音识别部使用与检测到的所述触发对应的带触发的声音识别词典,对包含所述触发的触发音区间的后续的识别音区间进行声音识别。
附图说明
图1是信息处理装置的功能框图。
图2a是示出触发词典的数据结构的一个例子的示意图。
图2b是示出多个触发词典的数据结构的一个例子的示意图。
图3是触发检测和声音识别处理的一个例子的说明图。
图4a是单位区间的一个例子的说明图。
图4b是单位区间的一个例子的说明图。
图4c是单位区间的一个例子的说明图。
图5是声音识别处理的一个例子的说明图。
图6是示出声音识别处理的次序的一个例子的流程图。
图7a是现有技术的声音识别的说明图。
图7b是现有技术的声音识别的说明图。
图8a是声音识别的说明图。
图8b是声音识别的说明图。
图9是示出硬件结构例的框图。
(附图标记说明)
10:信息处理装置;12b:检测部;12c:声音识别部;12d:输出控制部;12e:受理部;26b:带触发的声音识别词典;26c:声音识别词典。
具体实施方式
以下,参照附图,详细地说明信息处理装置、信息处理方法以及记录介质。
图1为本实施方式的信息处理装置10的功能框图的一个例子。信息处理装置10对声音信号进行声音识别。
信息处理装置10具备控制部12、接收部15、输出部17、输入部22、声音存储部24以及存储部26。控制部12与接收部15、输出部17、输入部22、声音存储部24以及存储部26以能够交换数据、信号的方式连接。
接收部15受理声音信号。声音信号是表示声音的信号。声音信号由音信号的时间序列集合表示。音信号是表示在某个定时收集到的音的信号。即,声音信号由在各定时收集到的音信号的时间序列集合表示。
在本实施方式中,以声音信号是表示用户发出的声音的信号的情况为一例进行说明。此外,声音信号也可以包含由机器等物体产生的声音。另外,声音信号也可以包含用户发出的声音以及由物体产生的声音这双方。
接收部15包括麦克风14以及通信部16中的至少一方。麦克风14收集声音,变换为电信号,作为声音信号而输出到控制部12。通信部16经由网络等通过有线或者无线而与外部装置进行通信。在通信部16作为接收部15发挥功能的情况下,通信部16从该外部装置接收存储于外部装置或者由外部装置收集到的声音的声音信号。
输出部17输出各种信息。在本实施方式中,输出部17输出基于控制部12的声音识别结果(详细内容将在后面叙述)。
输出部17包括通信部16、显示器18以及扬声器20中的至少1个。在通信部16作为输出部17发挥功能的情况下,通信部16经由网络等将声音识别结果发送到外部装置。显示器18显示表示声音识别结果的信息。显示器18是公知的液晶显示装置、有机el(电致发光)显示器等。此外,显示器18也可以为一体地具备输入功能和显示功能的触摸面板。
输入部22受理由用户进行的操作输入。输入部22为键盘、鼠标、指向设备等。
此外,麦克风14、显示器18、扬声器20以及输入部22中的至少一个也可以与信息处理装置10分开地构成。例如,麦克风14、显示器18,扬声器20以及输入部22中的至少1个也可以经由网络等通过有线或者无线而与信息处理装置10能够通信地连接。另外,也可以将麦克风14、显示器18搭载于经由网络而与信息处理装置10连接的终端装置等。
声音存储部24存储各种数据。声音存储部24为公知的存储介质。在本实施方式中,声音存储部24作为存储由接收部15接收到的声音信号的缓冲器发挥功能。此外,声音存储部24为能够存储超过声音信号所包含的触发的触发音区间的长度的声音信号的容量即可。在此,触发是指成为用于开始某些动作的契机的命令、信号,触发以及触发音区间的详细内容将在后面叙述。
存储部26存储各种数据。存储部26为公知的存储介质。在本实施方式中,存储部26预先存储触发词典26a、带触发的声音识别词典26b以及声音识别词典26c。
图2a是示出触发词典26a的数据结构的一个例子的示意图。触发词典26a是预先登记有1个或者多个触发的词典。触发是指成为表示声音识别开始的关键词的声音。触发可以为表示触发的词(触发词),也可以是表示触发的音量变化的模式。在本实施方式中,以触发是触发词的情况为一例进行说明。此外,触发也可以是表示声音识别开始,并且表示针对电子设备的指示命令。
存储部26将预先决定的多个触发登记于触发词典26a。此外,登记于触发词典26a的触发也可以形成为能够根据用户进行的输入部22的操作指示等适当地变更。
在图2a中,作为触发的一个例子而示出了“型号”、“请求”。此外,触发不限定于它们。
此外,关于触发,存在阶段性地发出的情况。例如,用户有时在发出表示概要的指示的触发词之后,朝向更详细的指示阶段性地发出触发词。因此,存储部26也可以顺着触发的发出顺序,层次性地存储多个触发词典26a。
图2b是示出多个触发词典26a的数据结构的一个例子的示意图。例如,存储部26将表示向电子设备的概要的指示的触发登记于触发词典26a1。而且,存储部26与登记于该触发词典26a1的多个触发分别对应地,存储登记有表示接下来发出的更详细1个阶段的指示的触发的触发词典26a2(触发词典26a2a、触发词典26a2b)。进而,存储部26与登记于触发词典26a2的多个触发分别对应地,存储登记有表示接下来发出的进一步更详细1个阶段的指示的触发的触发词典26a3。
这样,存储部26也可以层次性地存储多个触发词典26a。
返回到图1,继续说明。接下来,说明带触发的声音识别词典26b以及声音识别词典26c。
存储部26针对每个触发,预先存储与触发对应的带触发的声音识别词典26b以及声音识别词典26c。在本实施方式中,存储部26针对登记于触发词典26a的每个触发,预先存储与触发对应的带触发的声音识别词典26b以及声音识别词典26c。
例如,存储部26与辨别登记于触发词典26a的触发的触发id对应地,预先存储带触发的声音识别词典26b以及声音识别词典26c。
带触发的声音识别词典26b是用于从触发音区间以及识别音区间导出识别音区间的声音识别结果的词典。
触发音区间表示声音信号中的、表示触发的声音的区间。区间表示时间上的长度(期间)。即,触发音区间由表示触发的音信号的时间序列集合表示。识别音区间是指声音信号中的、在触发的触发音区间的后面连续的区间。
带触发的声音识别词典26b具体而言是定义有为了进行声音识别而使用的语法的语法数据。带触发的声音识别词典26b是将触发音区间以及识别音区间用作输入数据的词典。即,带触发的声音识别词典26b是如下词典:该词典用于通过将触发音区间以及识别音区间作为输入数据而输入到该带触发的声音识别词典26b,对该输入数据所包含的触发音区间以及识别音区间进行声音识别,得到识别音区间的声音识别结果。
声音识别词典26c是用于从有音区间导出该有音区间的声音识别结果的词典。有音区间是指声音信号中的、包含声音的区间。包含声音意味着包含预先决定的阈值以上的音量的声音。该阈值为表示用于区分无音和有音的音量的值即可,预先决定即可。即,有音区间由表示有音的某些音信号的时间序列集合表示。
声音识别词典26c是定义有为了进行声音识别而使用的语法的语法数据。声音识别词典26c是将有音区间用作输入数据的词典。即,声音识别词典26c是如下词典:该词典用于通过作为输入数据而输入有音区间,依照该声音识别词典26c对该有音区间进行声音识别,得到该有音区间的声音识别结果。
在本实施方式中,带触发的声音识别词典26b以及声音识别词典26c针对登记于触发词典26a的每个触发而预先制作,与触发的触发id对应起来预先存储于存储部26。即,在存储部26中,针对登记于触发词典26a的每个触发而预先登记有带触发的声音识别词典26b以及声音识别词典26c。
此外,也可以将声音存储部24以及存储部26作为1个存储部而构成。另外,也可以将存储于存储部26的数据中的至少一部分存储于外部服务器等外部装置。
接下来,说明控制部12。控制部12控制信息处理装置10。控制部12具有声音获取部12a、检测部12b、声音识别部12c、输出控制部12d以及受理部12e。
声音获取部12a、检测部12b、声音识别部12c、输出控制部12d以及受理部12e例如由1个或者多个处理器实现。例如上述各部分也可以通过使cpu(centralprocessingunit,中央处理单元)等处理器执行程序而实现,即通过软件而实现。上述各部分也可以通过专用的ic(integratedcircuit,集成电路)等处理器而实现,即通过硬件而实现。上述各部分也可以并用软件以及硬件而实现。在使用多个处理器的情况下,各处理器既可以实现各部中的1个,也可以实现各部中的两个以上。
声音获取部12a获取声音信号。在本实施方式中,声音获取部12a从麦克风14或者通信部16获取声音信号。声音获取部12a将获取到的声音信号存储于声音存储部24。
如上所述,声音存储部24为能够存储超过触发音区间的长度的声音信号的容量。另外,声音信号为音信号的时间序列集合。因此,在声音存储部24的容量占满的情况下,声音获取部12a从旧的音信号起依次删除存储于声音存储部24的构成声音信号的音信号,盖写新的音信号而存储。因此,在声音存储部24中存储最新的声音信号。
检测部12b从声音信号检测表示声音识别开始的触发。检测部12b顺着时间序列而读取存储于声音存储部24的声音信号,确定与登记于触发词典26a的任意的触发一致的音信号的时间序列集合,从而检测触发。此外,检测部12b按照公知的方法来检测触发即可。例如,检测部12b按照时间序列从开头依次读取声音信号,将存储于触发词典26a的触发分别与变换为音信号的时间序列集合的变换信号进行比较,判别与该变换信号一致的区间的有无,从而检测触发即可。
此外,如上所述,声音存储部24也可以层次性地存储多个触发词典26a。在该情况下,检测部12b优选顺着时间序列读取声音信号,每当检测到触发时,将与检测到的触发对应的低一个阶段的层次的触发词典26a(例如,触发词典26a2)用于接下来的触发的检测。这样,检测部12b从层次性地存储的多个触发词典26a的上位层次向下位层次依次读取触发词典26a,用于接下来的触发的检测,从而应检测的触发的候补少,所以能够实现触发检测精度的提高。
检测部12b当检测到触发时,将检测到的触发的触发id和表示该触发的触发音区间的起始端的起始端信息通知给检测部12b。触发音区间的起始端表示触发音区间中的、时间序列的最上游侧端部。触发音区间的起始端信息是表示触发音区间的起始端的信息即可。起始端信息例如用表示触发音区间的起始端的起始端时刻表示。以下,有时将起始端以及起始端信息称为起始端时刻而进行说明。
声音识别部12c使用与由检测部12b检测到的触发对应的带触发的声音识别词典26b,对声音信号中的、检测到的触发的触发音区间的后续的识别音区间进行声音识别。换言之,声音识别部12c对检测到的触发的触发音区间以及该触发音区间的后续的识别音区间,依照与该触发音区间的触发对应的带触发的声音识别词典26b进行声音识别,从而得到该识别音区间的声音识别结果。在本实施方式中,检测部12b以及声音识别部12c并行地执行检测处理和声音识别处理。
详细而言,声音识别部12c与由检测部12b进行的声音信号的读取以及检测处理并行地按照时间序列顺序从声音存储部24读取声音信号。声音识别部12c在从检测部12b受理了触发id以及触发音区间的起始端信息时,判断为检测到触发。然后,声音识别部12c从存储部26读取与从检测部12b受理的触发id对应的带触发的声音识别词典26b。
然后,声音识别部12c使用读取的该带触发的声音识别词典26b、和声音信号中的、从检测到的触发的触发音区间的起始端至比该触发音区间靠后的预先决定的结束端为止的单位区间,对作为该单位区间中的该触发音区间的后续的区间的识别音区间进行声音识别。
单位区间是声音识别部12c进行使用了带触发的声音识别词典26b的声音识别处理时的、成为声音识别的单位的区间。换言之,单位区间是在声音识别部12c使用带触发的声音识别词典26b来进行声音识别处理时输入到声音识别词典26c的、声音信号40的区间的单位。单位区间的结束端比检测到的触发的触发音区间靠后即可。
图3是触发检测和声音识别处理的一个例子的说明图。例如,设想成通过用户u的发话,声音获取部12a获取到“型号aa电压20v”这样的声音信号40。另外,设想成该声音信号40中的“型号”以及“电压”为表示触发的触发词。另外,设想成这些触发预先登记于触发词典26a。
检测部12b按照时间序列顺序从开头读取声音信号40,执行触发的检测处理(参照箭头a1)。检测部12b在读取到声音信号40中的触发“型号”的触发音区间t1时,检测触发“型号”。触发音区间t1为触发音区间t的一个例子。然后,检测部12b将检测到的触发“型号”的触发id和触发音区间t1的起始端时刻t1通知给声音识别部12c。
声音识别部12c当从检测部12b受理了检测到的触发“型号”的触发id和触发音区间t1的起始端时刻t1时,读取声音信号40中的、从触发音区间t1的起始端时刻t1至比该触发音区间t1靠后的结束端为止的单位区间b1。单位区间b1为单位区间b的一个例子。然后,声音识别部12c使用与该触发“型号”的触发id对应的带触发的声音识别词典26b和包括该触发音区间t1的单位区间b1,进行单位区间b1的声音识别,输出单位区间b1内的识别音区间s1的声音识别结果。识别音区间s1为识别音区间s的一个例子,是单位区间b1中的、触发音区间t1的后续的区间。
另一方面,检测部12b并行地执行声音信号40的读取和检测处理(参照箭头a2),在读取到触发“电压”的触发音区间t2时,检测触发“电压”。然后,检测部12b将检测到的触发“电压”的触发id和触发音区间t2的起始端时刻t3通知给声音识别部12c。触发音区间t2为触发音区间t的一个例子。然后,进而,检测部12b继续进行声音信号40的读取和检测处理(参照箭头a3)。
声音识别部12c当从检测部12b受理了检测到的触发“电压”的触发id和触发音区间t2的起始端时刻t3时,读取声音信号40中的、从触发音区间t2的起始端时刻t3至比该触发音区间t2靠后的结束端为止的单位区间b2。单位区间b2为单位区间b的一个例子。然后,声音识别部12c使用与该触发“电压”的触发id对应的带触发的声音识别词典26b、和单位区间b2,进行单位区间b2的声音识别,输出单位区间b2内的识别音区间s2的声音识别结果。识别音区间s2为识别音区间s的一个例子,是单位区间b2中的、触发音区间t2的后续的区间。
这样,声音识别部12c不仅使用识别对象的识别音区间s,还使用包括触发音区间t以及识别音区间s这双方的单位区间b作为输入到与触发对应的带触发的声音识别词典26b的输入数据,从而依照该带触发的声音识别词典26b而输出识别音区间s的声音识别结果。
此外,如上所述,单位区间b为声音信号40中的、从检测到的触发的触发音区间t的起始端至比该触发音区间t靠后的预先决定的结束端为止的区间即可。
例如,单位区间b为从检测到的触发的触发音区间t的起始端起超过该触发音区间t的预先决定的长度的区间。另外,例如,单位区间b为从检测到的触发的触发音区间t的起始端至在该触发音区间t的后面相邻的其它触发音区间t的起始端为止的区间。另外,例如,单位区间b为从检测到的触发的触发音区间t的起始端至在该触发音区间t的后面相邻的无音区间为止的区间。
图4a、图4b以及图4c是单位区间b的一个例子的说明图。
如图4a所示,例如,单位区间b为从检测到的触发的触发音区间t的起始端起超过该触发音区间t的预先决定的长度l的区间。在该情况下,单位区间b1为从触发“型号”的触发音区间t1的起始端时刻t1起长度l的区间。单位区间b2为从触发音区间t2的起始端时刻t2起长度l的区间。此外,该长度l预先决定为超过登记于触发词典26a的触发的触发音区间中的最长的触发音区间的长度的长度即可。
在此,在单位区间b为从检测到的触发的触发音区间t的起始端起预先决定的长度l的区间的情况下,有时在单位区间b所包含的识别音区间s(例如,识别音区间s1)中包括接下来检测的触发的触发音区间t(例如,触发音区间t2)。在本实施方式中,单位区间b为将时间序列的开头作为触发音区间t的区间即可,也可以在该触发音区间t的后续的识别音区间s内包括其它触发音区间t。
在该情况下,声音识别部12c能够每当由检测部12b检测到触发时,使用相互相同的长度l的单位区间b,进行声音识别处理。
如图4b所示,单位区间b也可以为从检测到的触发的触发音区间t的起始端至在该触发音区间t的后面相邻的其它触发音区间t的起始端为止的区间。在该情况下,单位区间b1为从触发音区间t1的起始端时刻t1至接下来的触发音区间t2的起始端时刻t3为止的区间。另外,单位区间b2为从触发音区间t2的起始端时刻t3至接下来的触发音区间t3的起始端时刻t4为止的区间。
在单位区间b为从检测到的触发的触发音区间t的起始端至在该触发音区间t的后面相邻的其它触发音区间t的起始端为止的区间的情况下,成为在单位区间b所包含的识别音区间s(识别音区间s1、识别音区间s2)中不包括其它触发音区间t的方式。
在该情况下,声音识别部12c能够针对每个触发,关于在触发的后面连续且不包含其它触发的识别音区间s,进行声音识别处理。即,声音识别部12c能够以触发为单位,对在该触发的后面连续的识别音区间s进行声音识别。
此外,单位区间b也可以为从检测到的触发的触发音区间t的起始端至在该触发音区间t的后面相邻的其它触发音区间t的结束端为止的区间。在该情况下,成为在单位区间b所包含的识别音区间s中包括其它触发音区间t的方式。
如图4c所示,单位区间b也可以为从检测到的触发的触发音区间t的起始端至在该触发音区间t的后面相邻的无音区间n为止的区间。在该情况下,如图4c所示,单位区间b1为从触发音区间t1的起始端时刻t1至在该触发音区间t1的后面相邻的无音区间n1为止的区间。无音区间n1为无音区间n的一个例子。此外,单位区间b1的结束端也可以为从该无音区间n1的起始端时刻t2至结束端时刻t3为止的任意的时刻。另外,单位区间b2为从触发音区间t2的起始端时刻t3至在该触发音区间t2的后面相邻的无音区间n2为止的区间即可。无音区间n2为无音区间n的一个例子。单位区间b2的结束端与单位区间b1的结束端同样地,也可以为从该无音区间n2的起始端时刻至结束端时刻为止的任意的时刻。
在该情况下,声音识别部12c能够针对每个无音区间n而划分地对声音信号40进行声音识别处理。
此外,声音识别部12c使用公知的方法来判断声音信号40中的无音区间n即可。此外,也可以用检测部12b进一步检测声音信号40中的无音区间n。在该情况下,声音识别部12c通过从检测部12b受理表示无音区间n的信息,而判断无音区间n即可。另外,也可以将确定声音信号40中的无音区间n的公知的检测器搭载于信息处理装置10。在该情况下,声音识别部12c通过从该检测器获取无音区间n的确定结果,而判断无音区间n即可。
返回到图1,继续说明。这样,在本实施方式中,声音识别部12c依照与检测到的触发对应的带触发的声音识别词典26b,对声音信号40中的检测到的触发的触发音区间t和该触发音区间t的后续的识别音区间s进行声音识别,从而得到该识别音区间s的声音识别结果。
因此,本实施方式的信息处理装置10能够关于声音信号40所包含的所有的触发,不遗漏地执行触发的触发音区间t的后续的识别音区间s的声音识别。即,即使在连续地发出包含多个触发的多个单词的情况下,本实施方式的信息处理装置10也能够关于在该发出的声音信号40所包含的所有的触发各自的后面连续的识别音区间s,执行声音识别。
此外,如上所述,设想成将作为声音识别部12c使用带触发的声音识别词典26b来进行声音识别的单位的单位区间b作为从检测到的触发的触发音区间t的起始端至在该触发音区间t的后面相邻的无音区间n为止的区间。而且,设想成声音信号40在单位区间b的后面包括在起始端不包括触发音区间t的有音区间。在该情况下,不根据带触发的声音识别词典26b对该有音区间进行声音识别处理。
因而,在该情况下,声音识别部12c调换带触发的声音识别词典26b和声音识别词典26c而执行声音识别处理。
详细而言,声音识别部12c使用与检测到的触发对应的带触发的声音识别词典26b和声音信号40中的、从检测到的该触发的触发音区间t的起始端至在该触发音区间t的后面相邻的无音区间n为止的单位区间b,对该单位区间b中的识别音区间s进行声音识别。然后,声音识别部12c使用与检测到的该触发对应的声音识别词典26c,对声音信号40中的、该无音区间n的后续的有音区间进行声音识别。
图5是切换带触发的声音识别词典26b和声音识别词典26c而进行声音识别处理的情况下的一个例子的说明图。如图5所示,检测部12b按照时间序列顺序从开头读取声音信号40,执行触发的检测处理(参照箭头a1)。然后,检测部12b在读取到声音信号40中的触发“型号”的触发音区间t1时,检测触发“型号”。然后,检测部12b将检测到的触发“型号”的触发id和触发音区间t1的起始端时刻t1通知给声音识别部12c。
声音识别部12c当从检测部12b受理了触发“型号”的触发id和触发音区间t1的起始端时刻t1时,读取声音信号40中的、从触发音区间t1的起始端时刻t1至在该触发音区间t1的后面相邻的无音区间n1为止的单位区间b1。然后,声音识别部12c使用与该触发id对应的带触发的声音识别词典26b、和单位区间b1,进行单位区间b1内的识别音区间s1的声音识别。
然后,声音识别部12c使用与在刚刚之前检测到的触发“型号”对应的声音识别词典26c,对在该单位区间b1的结束端的无音区间n1的后面连续的有音区间v1进行声音识别。有音区间v1为有音区间v的一个例子,为存在于无音区间n1与无音区间n2之间的有音区间v。
然后,声音识别部12c在检测部12b检测到接下来的触发(在为图5的例子的情况下,为触发“电压”)为止,关于单位区间b1的后续的有音区间v(有音区间v1、有音区间v2)的每一个有音区间,使用与在刚刚之前检测到的触发“型号”对应的声音识别词典26c,执行声音识别。
此外,声音识别部12c在从检测部12b受理了新的触发id以及根据该触发id辨别的触发的触发音区间t的起始端时刻时,判断为检测部12b检测到接下来的触发即可。
即,检测部12b并行地执行声音信号40的读取和检测处理(参照箭头a2),在读取接下来的触发“电压”的触发音区间t2时,检测触发“电压”。然后,将检测到的触发“电压”的触发id和触发音区间t2的起始端时刻t3通知给声音识别部12c。然后,进而,检测部12b继续进行声音信号40的读取和检测处理(参照箭头a3)。
当受理了新的触发“电压”的触发id以及触发音区间t2的起始端时刻t3时,声音识别部12c结束使用了与触发“型号”对应的声音识别词典26c的有音区间v的声音识别处理。然后,声音识别部12c读取声音信号40中的从触发音区间t2的起始端时刻t3至在该触发音区间t2的后面相邻的无音区间n为止的单位区间b2。然后,声音识别部12c与上述同样地,使用与该触发“电压”的触发id对应的带触发的声音识别词典26b、和单位区间b2,进行单位区间b2内的识别音区间s2的声音识别即可。
在这样将单位区间b作为从触发音区间t的起始端至在该触发音区间t的后面相邻的无音区间n为止的区间的情况下,声音识别部12c切换带触发的声音识别词典26b和声音识别词典26c地进行声音识别处理,从而关于声音信号40所包含的在所有的触发各自的后面连续的识别音区间s、以及在触发的后面非连续的有音区间v,能够不错过地执行声音识别。
返回到图1,继续说明。输出控制部12d将声音识别部12c的声音识别结果输出到输出部17。例如,输出控制部12d经由通信部16将声音识别结果发送到外部装置。另外,例如,输出控制部12d将声音识别结果显示于显示器18。另外,例如,输出控制部12d从扬声器20输出表示声音识别结果的音。
此外,如上所述,声音识别部12c针对声音信号40所包含的每个触发,导出与触发的触发音区间t连续的识别音区间s的声音识别结果。因此,声音识别部12c导出多个声音识别结果。
在此,如使用图4a所说明那样,声音识别部12c有时将从检测到的触发的触发音区间t的起始端起超过该触发音区间t的预先决定的长度l的区间用作单位区间b。在该情况下,有时在1个单位区间b所包含的识别音区间s中,包括接下来检测的触发音区间t、在该触发音区间t的后面连续的识别音区间s。即,在该情况下,有时在针对每个触发而导出的声音识别结果中,包含声音信号40中的、重复的区间的声音识别结果。
因而,输出控制部12d也可以关于多个声音识别结果的每一个声音识别结果,输出从声音识别结果去除了声音信号40中的与该声音识别结果对应的区间的后面的区间的其它声音识别结果而得到的结果。
具体而言,也可以如图4a所示,输出控制部12d将从识别音区间s1的声音识别结果去除了接下来的触发音区间t2以及识别音区间s2的声音识别结果而得到的结果用作在触发“型号”的后面连续的识别音区间s1的声音识别结果。
返回到图1,继续说明。另外,输出控制部12d也可以选择多个声音识别结果中的、输出对象的声音识别结果,将选择出的声音识别结果输出到输出部17。
在该情况下,受理部12e从输入部22受理输出对象的声音识别结果的选择输入。例如,输出控制部12d将基于声音识别部12c的多个声音识别结果的一览显示于显示器18。用户通过操作输入部22,从显示于显示器18的多个声音识别结果选择输出对象的声音识别结果。此外,选择输出对象的声音识别结果的用户优选是与声音信号40的发话者不同的用户。具体而言,选择输出对象的声音识别结果的用户优选是信息处理装置10的管理者。
然后,当受理部12e从输入部22受理了输出对象的声音识别结果的选择输入时,输出控制部12d将由声音识别部12c进行了声音识别的多个声音识别结果中的、由受理部12e受理的输出对象的声音识别结果输出到输出部17即可。
例如,有时发出声音的用户在发出错误的触发词之后,发出正确的触发词。在这样的情况下,通过由管理者进行的输入部22的操作指示来选择输出对象的声音识别结果,从而输出控制部12d能够选择性地输出适当的声音识别结果。
接下来,说明本实施方式的信息处理装置10执行的声音识别处理的次序的一个例子。
图6是示出信息处理装置10执行的声音识别处理的次序的一个例子的流程图。此外,在图6中,以声音获取部12a将从检测到的触发的触发音区间t的起始端至在该触发音区间t的后面相邻的无音区间n为止的区间用作单位区间b的情况为一例而示出。
声音获取部12a当从接收部15获取到声音信号40时(步骤s100),存储于声音存储部24(步骤s102)。每当接收部15接收到声音信号40时,声音获取部12a继续执行声音信号40向声音存储部24的存储(盖写)。
接下来,检测部12b开始存储于声音存储部24的声音信号40的顺着时间序列的读取(步骤s104)。然后,检测部12b反复进行否定判断,直至检测到登记于触发词典26a的任意的触发为止(步骤s106:否)。检测部12b当检测到触发时(步骤s106:是),将检测到的触发的触发id以及触发音区间t的起始端时刻通知给声音识别部12c。
输出控制部12d将在步骤s106或者后述步骤s116中检测到的触发输出到输出部17(步骤s108)。
每当由检测部12b检测到新的触发时,声音识别部12c执行步骤s110~步骤s112的处理。
详细而言,声音识别部12c从存储部26获取与检测到的触发对应的带触发的声音识别词典26b(步骤s110)。声音识别部12c从存储部26读取与在刚刚之前从检测部12b受理的触发id对应的带触发的声音识别词典26b,从而获取带触发的声音识别词典26b。
接下来,声音识别部12c使用声音信号40中的、从在刚刚之前从检测部12b受理的触发音区间t的起始端时刻至在该触发音区间t的后面相邻的无音区间n为止的单位区间b、和在步骤s110中获取到的带触发的声音识别词典26b,对该单位区间b所包含的识别音区间s进行声音识别(步骤s112)。
接下来,输出控制部12d将步骤s112或者后述步骤s122的声音识别结果输出到输出部17(步骤s114)。
接下来,声音识别部12c判断是否检测到新的触发(步骤s116)。声音识别部12c通过判别从检测部12b是否受理了新的触发id以及触发音区间t的起始端时刻,进行步骤s116的判断。
在未检测到新的触发的情况(步骤s116:否)下,进入到步骤s118。在步骤s118中,声音识别部12c判断接着声音信号40中的在刚刚之前进行了声音识别的单位区间b或者在刚刚之前进行了声音识别的有音区间v之后是否存在有音区间v(步骤s118)。
如果在步骤s118中进行了否定判断(步骤s118:否),则返回到上述步骤s116。如果在步骤s118中进行了肯定判断(步骤s118:是),则进入到步骤s120。
在步骤s120中,声音识别部12c从存储部26获取与在刚刚之前检测到的触发对应的声音识别词典26c(步骤s120)。
然后,声音识别部12c使用在步骤s120中获取到的声音识别词典26c,进行在步骤s118中确定的有音区间v的声音识别处理(步骤s122)。然后,返回到上述步骤s114。
另一方面,如果在步骤s116中进行了肯定判断(步骤s116:是),则检测部12b判断在步骤s116中检测到的触发是否为表示声音识别处理的结束的结束触发(步骤s124)。如果在步骤s124中进行了否定判断(步骤s124:否),则返回到上述步骤s108。另一方面,如果在步骤s124中进行了肯定判断(步骤s124:是),则进入到步骤s126。
在步骤s126中,输出控制部12d将基于上述声音识别处理的声音识别结果输出到输出部17(步骤s126)。然后,结束本例程。
如以上说明,本实施方式的信息处理装置10具备检测部12b和声音识别部12c。检测部12b从声音信号40检测表示声音识别开始的触发。声音识别部12c使用与检测到的触发对应的带触发的声音识别词典26b,对包含触发的触发音区间t的后续的识别音区间s进行声音识别。
这样,在本实施方式的信息处理装置10中,依照与检测到的触发对应的带触发的声音识别词典26b,声音识别部12c对声音信号40中的检测到的触发的触发音区间t和该触发音区间t的后续的识别音区间s进行声音识别,从而得到该识别音区间s的声音识别结果。另外,带触发的声音识别词典26b是用于不仅是触发音区间t,还从触发音区间t以及识别音区间s导出识别音区间s的声音识别结果的词典。
因此,本实施方式的信息处理装置10能够关于声音信号40所包含的所有的触发,不遗漏地执行触发的触发音区间t的后续的识别音区间s的声音识别。即,即使在连续地发出包含多个触发的多个单词的情况下,本实施方式的信息处理装置10也能够关于该发出的声音信号40所包含的所有的触发各自的后面连续的识别音区间s,执行声音识别。
在此,在现有技术中,关于连续地发出包含多个触发的多个单词的声音信号40,难以进行声音识别。
图7a以及图7b是现有技术的声音识别的说明图。例如,设想通过用户u的发话,对“请求开空调请求温度28度”这样的声音信号400进行声音识别的情况。另外,设想成该声音信号400中的“请求”为触发。
例如,如图7a所示,设想成隔开间隔分别发出触发和除了触发以外的单词。在该情况下,在现有技术中,按照时间序列顺序从开头读取声音信号400,在检测到声音信号400中的触发“请求”之后(参照箭头a10),识别在该触发的后面连续的单词“开空调”(参照箭头s10)。然后,进而,在还检测到触发“请求”之后(参照箭头a11),识别在该触发的后面连续的单词“温度28度”(参照箭头s11)。在这样隔开间隔分别发出触发和除了触发以外的单词的情况下,即使是现有技术,也对在各个触发之后发出的单词进行声音识别。
但是,在如图7b所示连续地发出包含多个触发的多个单词的情况下,在现有技术中,难以进行声音信号400的声音识别。详细而言,在现有技术中,当检测到声音信号400所包含的第1个触发“请求”时,对之后的声音信号所包含的“开空调请求温度28度”进行声音识别。因此,能够在检测到第1个“请求”时在画面上显示检测到“请求”的意思,但无法显示检测到第2个“请求”的意思。另外,在如图3那样可知第1个触发为“型号”,第2个触发为“电压”,“型号”为英文字母,“电压”为数字+单位的情况下,与型号相当的部分“aab”使用仅识别英文字母的声音识别词典来进行声音识别,与电压相当的部分“20v”使用仅识别数字+单位的声音识别词典来进行声音识别,从而能够提高声音识别精度。但是在现有技术中,在与型号相当的部分和与电压相当的部分,使用1个声音识别词典来进行声音识别,所以未能提高声音识别精度。
另外,在其它现有技术中,当检测到声音信号400所包含的触发“请求”时(参照箭头a10),开始该触发“请求”的后续的区间s10’的声音识别。然后,当在该区间s10’的声音识别过程中检测到接下来的触发“请求”时(参照箭头a11),使该区间s10’的声音识别成为无效,未对第2个检测到的触发“请求”的后续的区间s11’进行声音识别。
另外,在现有技术中,当在触发与触发后的发话之间、发话与接下来的触发之间,不加入停顿地进行连续的发话的情况下,有时无法进行触发的检测以及触发后的发话的声音识别。
因此,在现有技术中,在连续地发出包含多个触发的多个单词的情况下,在不对声音信号400所包含的多个触发各自的后面连续的单词中的至少一部分进行声音识别的情况下,存在触发的后续的发话的声音识别精度下降的情况。
另外,在现有技术中,仅将不包含触发音区间的词典(即,相当于本实施方式的声音识别词典26c)用于声音信号400的声音识别。因此,在现有技术中,有时由于在触发的后面相邻的单词的起始端的缺失、噪声的混入等所致的触发的结束端、该单词的起始端的确定不良等,不进行该单词的声音识别。
另一方面,在本实施方式的信息处理装置10中,声音识别部12c依照与检测到的触发对应的带触发的声音识别词典26b,对声音信号40中的检测到的触发的触发音区间t和该触发音区间t的后续的识别音区间s进行声音识别,从而得到该识别音区间s的声音识别结果。另外,带触发的声音识别词典26b是用于不仅是触发音区间t,还从触发音区间t以及识别音区间s导出识别音区间s的声音识别结果的词典。
因此,本实施方式的信息处理装置10能够关于声音信号40所包含的所有的触发,不遗漏地执行触发的触发音区间t的后续的识别音区间s的声音识别。即,即使在连续地发出包含多个触发的多个单词的情况下,本实施方式的信息处理装置10也能够关于该发出的声音信号40所包含的所有的触发各自的后面连续的识别音区间s,执行使用了与检测到的触发对应的词典的声音识别。
因而,本实施方式的信息处理装置10能够实现声音识别提高。
(变形例1)
此外,在上述实施方式中,示出了设定“请求”这样的语言作为触发的例子。但是,信息处理装置10也可以准备多个其它触发(触发词)作为触发。
图8a以及图8b是本变形例的声音识别的说明图。例如,设想通过用户u的发话,对“请求开空调设定28℃”这样的声音信号41进行声音识别的情况。另外,设想成该声音信号41中的“请求”以及“设定”为触发。
在该情况下,检测部12b按照时间序列顺序从开头读取声音信号41,执行触发的检测处理(参照箭头a20)。检测部12b在读取声音信号41中的触发“请求”的触发音区间时,检测触发“请求”。声音识别部12c使用与检测到的触发“请求”的触发id对应的带触发的声音识别词典26b、和包括该触发音区间的单位区间b10,与上述实施例同样地对该单位区间b10进行声音识别。
然后,进而,检测部12b继续进行触发的检测处理(参照箭头a21),在读取触发“设定”时,检测触发“设定”。然后,声音识别部12c使用与检测到的触发“设定”的触发id对应的带触发的声音识别词典26b、和包括该触发音区间的单位区间,与上述实施例同样地对该单位区间进行声音识别。
因此,在本变形例中,信息处理装置10能够为了在触发“请求”之后对“空调”等设备的用语使用精度更良好的带触发的声音识别词典26b进行声音识别,在触发“设定”之后对“28”这样的数字进行精度更良好的识别,切换带触发的声音识别词典26b。
此外,多个触发(触发词)既可以预先设定,也可以由用户追加地使用。例如,输出控制部12d将虽然被利用但利用频度低的声音、单词的一览显示于显示器18等。通过该显示,输出控制部12d将这些声音、单词的一览提示给用户。然后,控制部12将通过用户对输入部22等的操作等而选择出的声音、单词设定成触发即可。
(变形例2)
此外,在能够进行发出声音的说话者推测的情况下,信息处理装置10也可以预先准备触发与说话者的组合。说话者推测是指从由声音获取部12a获取到的声音信号辨别发出该声音信号的声音的个人。通过由控制部12预先准备触发与说话者的组合,即使在发出相同的触发词的情况下,也能够在不同的说话者的情况下,变更用于声音识别的词典(带触发的声音识别词典26b、声音识别词典26c)。
另外,信息处理装置10也可以通过另外具有触发与说话者的组合,根据说话者的信息使声音识别结果成为有效或者成为无效。例如,控制部12也可以将在设备的控制中与管理者相当的说话者的识别结果作为控制信号而直接输出,但在检测到与一般的利用者相当的说话者发出的触发的情况下,使声音识别中止预定时间。
(硬件结构)
接下来,说明上述实施方式的信息处理装置10的硬件结构。图9是示出上述实施方式的信息处理装置10的硬件结构例的框图。
在上述实施方式的信息处理装置10中,cpu80、rom(readonlymemory,只读存储器)82、ram(randomaccessmemory,随机存取存储器)84、hdd86以及i/f部88等由总线90相互连接,是利用通常的计算机的硬件结构。
cpu80为控制由上述实施方式的信息处理装置10执行的信息处理的运算装置。ram84存储由cpu80进行的各种处理所需的数据。rom82存储实现由cpu80进行的各种处理的程序等。hdd86存储保存于上述声音存储部24、存储部26的数据。i/f部88是用于在与其它装置之间收发数据的接口。
用于执行由上述实施方式的信息处理装置10执行的上述各种处理的程序是预先编入到rom82等而提供的。
此外,由上述实施方式的信息处理装置10执行的程序也可以构成为以能够安装于这些装置的形式或者能够执行的形式的文件的方式记录于cd-rom、柔性光盘(fd)、cd-r、dvd(digitalversatiledisk,数字通用光盘)等能够由计算机读取的记录介质而提供。
另外,也可以构成为将由上述实施方式的信息处理装置10执行的程序保存于与因特网等网络连接的计算机上,通过经由网络进行下载而提供。另外,也可以构成为经由因特网等网络提供或者分发用于执行上述实施方式的信息处理装置10中的上述各处理的程序。
用于执行由上述实施方式的信息处理装置10执行的上述各种处理的程序使上述各部分在主存储装置上生成。
此外,保存于上述hdd86的各种信息也可以保存于外部装置。在该情况下,做成经由网络等连接该外部装置和cpu80的结构即可。
此外,在上述中,说明了本公开的实施方式,但上述实施方式是作为例子而提示的,未意图限定发明的范围。这些新的实施方式能够以其它各种方式被实施,能够在不脱离发明的要旨的范围进行各种省略、置换、变更。这些实施方式及其变形例包含于发明的范围、要旨,并且包含于权利要求书所记载的发明及与其均等的范围。