声音操作装置的制作方法

文档序号：2831294阅读：239来源：国知局

专利名称：声音操作装置的制作方法
技术领域：
本发明涉及利用声音对操作对象进行操作的声音操作装置，尤其是涉及整备用于声音识别的声音识别词典内的同义词词汇的技术。
背景技术：
以往，人们知道在车载的音响、或空调的车载设备的操作上使用声音操作装置(参照例如专利文献1日本特开平9-34488号公报)。在这种声音操作装置上，采用手动开关等指定操作对象设备，利用声音操作该指定的操作对象设备。该声音操作装置具有分别与多种车载设备对应的多部声音识别用词典，与操作对象设备的指定相对应切换声音识别用词典。在声音识别词典上对于各操作对象设备的一个功能备有多个词汇。
这种声音操作装置将输入的声音和声音识别用词典内多个词汇进行对照，采用和输入的声音最相似的词汇作为对操作对象设备的操作指令。一般，对于1个功能准备的词汇数量越多，则在对照时选准功能的概率就提高，反之，声音的识别率就下降。但是，根据该声音操作装置在用声音输入操作多台操作对象设备时，因为只将与各操作对象设备对应的声音识别用词典作为有效，所以要对照的词汇数量减少，其结果声音识别率提高。
但是，上述现有的声音操作装置中存在的问题是，由于强迫操作者选择操作对象设备，加重操作者的负担。又因不能使用与指定的操作对象设备无关的词汇，所以能用声音操作的功能的数量减少，使用不便。

发明内容
本发明为解决上述问题而作，其目的在于提供一种能简单地操作操作对象设备，而且使用方便的声音操作装置。
本发明的声音操作装置，具备取入声音的声音取入手段；与操作对象设备具有的多个功能相应分别设置，各存储至少含有1个词汇的多个同义词组的声音识别词典；通过将所述声音取入手段取入的声音数据与存储于所述声音识别词典的词汇对照，识别对应于所述声音的词汇的声音识别手段；根据所述声音识别手段识别的词汇，控制所述操作对象设备的设备控制手段；将所述声音识别手段识别的词汇作为识别履历依次保存的识别履历保存手段；以及将根据保存在所述识别履历保存手段的识别履历判断为过去被识别的频度低的词汇，对所述多个同义词组的各组分别至少保留1个词汇，然后从对照对象中删除，以此更新所述声音识别词典的词典更新手段。
因此，采用本发明，为了提高声音识别率，不需要选择与操作对象设备对应的同义词组的操作，所以与现有的声音操作装置不同，不会强迫操作者选择操作对象设备，声音操作装置的操作变得简单。
另外，本发明涉及的声音操作装置由于其结构做成，虽根据识别履历从对照对象中删除过去识别过的使用频度低的词汇，但是在如进行这一删除而把与某个功能对应的同义词组所含的全部词汇都从对照对象中删除时，至少将1个词汇作为对照对象而保留下来。所以通过减少对照对象的词汇，提高声音识别率，同时能防止为了删除属于特定功能的所有的词汇而不能执行这项功能。另外，通过从对照对象删除过去识别过的使用频度低的词汇，从而能更加便于使用。

图1为表示本发明实施形态1的声音操作装置的构成方框图。
图2为表示本发明实施形态1的声音操作装置使用的声音识别词典具体例子示意图。
图3为表示本发明实施形态1的声音操作装置中声音识别处理的概要的流程图。
图4为表示图3示出的词典更新处理详细流程图。
图5为表示保存在本发明实施形态1的声音操作装置的识别履历保存手段中识别履历的一个例子。
图6为应用具体的示例说明本发明实施形态1的声音操作装置中执行声音更新处理用的图。
图7为说明利用本发明实施形态1的声音操作装置执行的声音更新处理更新的声音识别词典用的图。
具体实施例方式
以下参照附图详细说明本发明的实施形态。
实施形态1图1为表示本发明实施形态1涉及的声音操作装置的构成方框图。该声音操作装置由声音取入手段1、声音识别词典2、声音识别手段3、设备控制手段4、操作对象设备5、识别履历保存手段6、词典更新手段8构成。作为操作对象设备5可以采用车载导航装置、音响装置、其它的电子设备。以下的实施形态中，车载操作对象设备以导航装置和音响装置为例进行说明，在说明中未特别指明的则言及操作对象设备时，即为导航装置和音响装置中的某一个。
声音取入手段1例如根据通过将话筒输入的声音变换成电气信号得到的声音信号生成例如由字符串组成的声音数据。用该声音取入手段1生成的声音数据送入声音识别手段3。
声音识别词典2在操作对象设备5具有的每个功能中存储着控制该功能用的多组同义词组21～2n(n为正整数)。图2为表示声音识别词典2的具体的例子。例如在控制操作对象设备5的一画面显示功能用的同义词组21中登记着“一画面”、“一画面显示”、“要一画面”、及“一张地图”四个词汇。同样在控制二画面显示功能用的同义词组22中登记着“二画面”、“二画面显示”、“要二画面”、“两张地图”、及“两幅图像(Twin-View)”5个词汇。
在为了控制地图放大功能用同义词组23中登记着“放大”、“详细”、及“放大显示”3个词汇。在为了控制地图缩小功能用的同义词组24中，登记着“缩小”、“广域”、“缩小显示”3个词汇。在控制音乐再生用的同义词组25中，登记着“音乐播送”、“播送音乐”、“音乐开始”3个词汇。
声音识别手段3将声音取入手段1送来的声音数据和声音识别词典2的同义词组21～2n中登记的词汇对照，将最接近声音数据的词汇作为识别结果输出。该声音识别手段3识别出的词汇送设备控制手段4之同时，还送识别履历保存手段6。
设备控制手段4解释从声音识别手段3作为操作指令送来的词汇，生成与解释结果对应的控制信号。该设备控制手段4生成的控制信号送操作对象设备5。由此，操作对象设备5动作，发挥与声音对应的功能。例如操作对象设备5为导航装置的情形时，设备控制手段4只要是声音识别手段3送来的词汇为“放大”、“详细”、或“放大显示”中任一个，就识别所作的“放大地图”的指示的主要内容，将表示该主要内容的控制信号送导航装置。由此，能放大在导航装置上显示的地图的比例尺。
识别履历保存手段6每从声音识别手段3取得识别结果的词汇，就将该词汇作为识别履历7依次序保存。保存在该识别履历保存手段6中的识别履历7可以利用词典更新手段8参照。
词典更新手段8根据从识别履历保存手段6取得的识别履历7，从声音识别词典2的同义词组21～2n中含的多个词汇中删除符合规定条件中的词汇。在该词典更新手段8中执行的处理详细内容将在以后阐述。
以下，说明上述构成的、本发明实施形态1的声音操作装置的动作。
图3为表示本发明实施形态1的声音操作装置的声音处理的概要的流程图。
该声音操作装置中，当操作者一发出声音，就进行声音的取入(步骤ST10)。即声音取入手段1例如将从话筒输入的声音换成电气信号生成声音数据，送声音识别手段3。
然后，进行声音识别(步骤ST11)。即声音识别手段3如上所述，将声音取入手段1送来的声音数据和登记在声音识别词典2的同义词组21～2n的词汇对照，将最接近声音数据的词汇作为识别结果输出。该声音识别手段3识别的词汇送设备控制手段4之同时，还送识别履历保存手段6。接收到声音识别手段3送来的词汇的设备控制手段4的动作如上所述。
然后，进行识别履历更新(步骤ST12)。即，接收来自声音识别手段3的词汇的识别履历保存手段6将该词汇作为识别履历7依次保存。图5为表示保存在识别履历保存手段6中的识别履历7的一个例子。在该例中，表示按照“一画面”、“一画面显示”、“一画面”、“二画面”、“一画面”、“二画面显示”…的次序边更新识别履历7边存入识别履历保存手段6中的状态。
然后，检查声音识别词典是否要更新(步骤ST13)。词典要否更新，其结构做成根据由声音识别手段3识别的词汇的数量是否达到规定值，由此作出判断。根据这一构成，在利用声音识别手段3识别出的词汇的数量为在判断功能的使用频度上为不充分的样本数时，由于不进行声音识别词典2的更新，所以能谋求提高处理的效率。还有，词典要否更新其结构也可做成，根据以上次词典更新处理开始经过规定时间与否、或是否完成来自操作者的指示等来进行判断。
在这一步骤ST13，如判断要更新词典，则进行词典更新处理(步骤ST14)。该词典更新处理将在后面详细叙述。以上，声音识别处理结束。另一方面，步骤ST13，如判断不必更新词典，则跳过步骤ST14的词典更新处理，声音识别处理结束。
然后，参照图4所示的流程图详细说明图3的步骤ST14进行的词典更新处理。
在该词典更新处理中，先根据识别履历对利用各功能的次数(与本发明的“利用次数”相对应)和识别各词汇的次数(与本发明的“识别次数”相对应)进行计数(步骤ST20)。亦即，词典更新手段8通过从识别履历保存手段6读出。解析识别履历7，从而如图6的具体例子所示，对利用一画面功能、二画面功能、地图放大功能、地图缩小功能及音乐播送功能等各功能的次数、及利用声音识别手段3识别对于各功能登记的词汇的次数进行计数。本发明的计数手段利用步骤ST20的处理构成。
图6示出的具体示例中，表示利用步骤ST20的计数，得到“8”作为利用一画面显示功能的次数，并且利用声音识别手段3识别对于一画面显示功能登记的词汇“一画面”、“一画面显示”、“要一画面”、及“一张地图”次数，分别得到“6”、“2”、“0”及“0”。同样，作为利用二画面显示功能的次数得到“11”，作为利用声音识别手段3识别对于二画面显示功能登记的词汇“二画面”、“二画面显示”、“要二画面”、“两张地图”及“两张图像”的次数分别得到“6”、“4”、“1”、“0”及“0”。
另外，作为利用地图放大功能的次数为“2”，作为利用声音识别手段3识别对于地图放大功能登记的词汇“放大”、“详细”、及“放大显示”的次数分别得到“1”、“1”及“0”。作为利用地图缩小功能的次数得到“7”，作为利用声音识别手段3识别对于地图缩小功能登记的词汇“缩小”、“广域”及“缩小显示”的次数分别得到“3”、“1”及“3”。作为利用声音再生功能的次数得到“0”，作为利用声音识别手段3识别对于音乐播送功能登记的词汇“音乐播送”、“播送音乐”及“音乐开始”的次数分得到“0”、“0”及“0”。
然后选择利用功能的次数在规定N(N为正整数)以上，而且利用声音识别手段3识别的次数在其它的规定值M(M为零或正整数)以下的词汇作为删除候补(步骤ST21)。本发明的选择手段由该步骤ST21的处理构成。
现假定N＝1及M＝1，在图6示出的具体例子中，通过执行步骤ST21作为删除候补选择的词汇为对于一画面显示功能登记的词汇“要一画面”、及“一张地图”、为对于二画面显示功能登记的词汇“要二画面”、“两张地图”及“两张图像”、为对于地图放大功能登录的词汇“放大”、“详细”、“放大显示”、为对于地图缩小功能登记的词汇“广域”、以及为对于音乐再生功能登记的词汇“播送音乐”、“音乐播送”、以及“音乐开始”。
然后，在选择属于功能的词汇全部作为选择对象时，把上述的词汇排除在选择对象之外(步骤ST22)。本发明的除外手段由这一步骤ST22的处理构成。利用这一步骤ST22的处理，在图6示出的具体例子中，对于地图放大功能登记的所有的词汇“放大”、“详细”及“放大显示”、以及对于音乐播送功能登记的所有的词汇“音乐播送”“播送音乐”及“音乐开始”从删除候补中剔除在外。
接着，在完成步骤ST21及步骤ST22的处理后，检查有残余删除候补的词汇否(步骤ST23)。这里，如判断有删除候补的词汇，则从声音识别词典2的对照对象中剔除删除候补的词汇(步骤ST24)。本发明的变更手段由上述步骤ST23及ST24的处理构成。
利用上述的步骤ST23及ST24的处理，在图6示出的具体例子中，对于一画面显示功能登记的词汇“要一画面”、及“一张地图”、对于二画面显示功能登记的词汇“要二画面”、“两张地图”以及“两幅图像”、和对于地图缩小功能登记的词汇“广域”从声音识别词典2的对照对象中删除。
其结果如图7所示，声音识别词典2更新为分别对于一画面显示功能登记词汇“一画面”、及“一画面显示”的状态，对于二画面显示功能词汇“二画面”、及“二画面显示”的状态、对于地图放大功能登记词汇“放大”、“详细”、及“放大显示”的状态、对于地图缩小功能登记“缩小”、及“缩小显示”的状态、和对于音乐播送功能登记词汇“音乐播送”、“播送音乐”、及“音乐开始”。
之后，顺序返回图3示出的声音识别处理，结束声音识别处理。上述步骤ST23中，判断没有删除候补的词汇的场合也一样。
如上所述，根据本发明实施形态1的声音操作装置，为了提高声音识别率，由于不需要选择与操作对象设备5对应的同义词组的操作，所以不会如现有的声音操作装置那样强迫操作者选择操作对象设备，操作对象设备的操作变得简单。
另外，本发明实施形态1的声音操作装置其结构做成，根据保存在识别履历保存手段6中的识别履历7从对照对象中删除过去识别过的使用频度低词汇，在进行这一删除之际，在从对照对象中删除与功能对应的同义词组中含有的所有的词汇时将所有的词汇作为对照对象保留下来，所以通过减少对照对象的词汇提高声音识别率之同时，能防止特定的功能变成不能执行。另外，通过从对照对象删除过去识别出的使用频度低的词汇，不会影响使用方便性。
还有，上述实施形态1的声音操作装置中，选择属于某个功能的所有词汇作为删除候补时，其结构做成把属于该功能的所有的词汇剔除在删除候补之外，声音操作装置的结构也能做成至少保留属于该功能的一个词汇，并从选择对象中删除其它的词汇。即声音操作装置的结构做成利用声音识别手段3识别出的次数比其它的词汇多，则至少保留1个词汇。在存在多个和利用声音识别手段3识别出的次数相等的词汇时，声音操作装置的结构做成，将优先级预附在各词汇上，依照这一优先级，至少保留1个词汇。根据这一构成，能避免利用声音不能操作操作对象设备的特定功能这样的现象。
权利要求
1.一种声音操作装置，其特征在于，具备取入声音的声音取入手段；与操作对象设备具有的多个功能相应分别设置，各存储至少含有1个词汇的多个同义词组的声音识别词典；通过将所述声音取入手段取入的声音数据与存储于所述声音识别词典的词汇对照，识别对应于所述声音的词汇的声音识别手段；根据所述声音识别手段识别的词汇，控制所述操作对象设备的设备控制手段；将所述声音识别手段识别的词汇作为识别履历依次保存的识别履历保存手段；以及将根据保存在所述识别履历保存手段的识别履历判断为过去被识别的频度低的词汇，对所述多个同义词组的各组分别至少保留1个词汇，然后从对照对象中删除，以此更新所述声音识别词典的词典更新手段。
2.如权利要求1所述的声音操作装置，其特征在于，词典更新手段具备根据保存在识别履历保存手段中的识别履历，对多个功能的各功能的利用次数和属于所述多个功能的各功能的词汇的识别次数进行计数的计数手段；将属于所述计数手段得到的利用次数大于或等于规定值的功能的词汇的识别次数在其它规定值以下的词汇选择为删除候补的选择手段；对于利用所述选择手段选择所有的词汇作为删除候补的功能，从删除候补中将属于该功能的至少1个词汇排除在外的除外手段；以及在利用所述除外手段将其排除在外后，将作为删除候补保留的词汇从声音识别词典中删除，以此更新声音识别词典的变更手段。
3.如权利要求2所述的声音操作装置，其特征在于，所述除外手段，对于利用选择手段选择所有的词汇作为删除候补的功能，将属于该功能的所有的词汇从删除候补中排除。
全文摘要
一种声音操作装置，包括与操作对象设备(5)具有的多个功能对应分别设置，各存储至少含有1个词汇的多个同义词组(文档编号G10L15/22GK1617226SQ200410092729
公开日2005年5月18日申请日期2004年11月11日优先权日2003年11月11日
发明者竹裹尚嘉申请人:三菱电机株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：竹裹尚嘉
技术所有人：三菱电机株式会社
我是此专利的发明人

上一篇：汽车触点式电子喇叭的制作方法
上一篇：声音辨识系统及具有该系统的安全装置的制作方法