语音识别终端及系统、服务器及其控制方法、非易失性存储介质的制作方法_2

文档序号：8362627阅读：来源：国知局

言，控制部202对于经由通信部201从清洁机器人10接收了的语音数据，将进行了语音识别的结果作为语音识别结果数据，经由通信部201输出到清洁机器人10。
[0089]接着，对服务器20的控制部202的主要功能结构进行说明。控制部202具有语音输入接收部221、语音识别部222、以及应答处理执行指示部224。
[0090]语音输入接收部221经由通信部201接收从清洁机器人10发送的语音数据。
[0091]语音识别部222作为识别内容，识别由语音输入接收部221接收了的语音数据所表示的语音的内容(语音内容)。并且，语音识别部222将从语音数据中识别的语音内容的识别结果输出到应答处理执行指示部224。
[0092]此外，语音识别部222还能够计算表示识别的准确度(表示正确性的程度)的可靠度，该识别是作为语音内容的识别结果(语音识别结果)得到的识别，具体情况后述。
[0093]此外，在假设可靠度的最小值为“0”，最大值为“I “的情况下，例如，可靠度高的情况可以是“0.6”以上的情况，但本发明并不限定于这些值。
[0094]此外，作为语音识别部222中的语音识别结果的可靠度的判定方法，例如能够使用如下判定方法:判定预先准备的、表示指定的多个语句(短句)的语音波形模型(声学模型)与语音数据所表示的波形的一致度，将最高的一致度作为可靠度。此外，本判定方法不限于此，例如还能够使用模式匹配等。
[0095]应答处理执行指示部224基于语音识别部222的语音内容的识别结果，决定应答内容。具体而言，应答处理执行指示部224参考存储部203中存储的发话内容数据库232，决定对语音数据所表示的语音内容的应答内容。此外，关于存储部203中存储的数据库的详细情况在后面进行描述。
[0096]应答处理执行指示部224基于语音识别部222的语音内容识别结果决定应答内容后，包含表示作为语音识别结果数据决定的应答内容的应答内容数据，经由通信部201发送给清洁机器人10，上述语音识别结果数据是语音识别的识别结果。
[0097]另外，应答处理执行指示部224根据需要执行清洁机器人10具有的多个动作模式的切换指示。关于动作模式的切换指示，在后面进行描述。
[0098]发话内容数据库
[0099]图3是说明基于本实施方式的发话内容数据库的图。
[0100]参考图3，作为一例，该发话内容数据库120存储在基于本实施方式的清洁机器人10所具备的存储部109中。
[0101]具体而言，发话内容数据库120中，识别内容(识别短句)与应答内容(回答短句)关联登记。
[0102]在此，回答短句与识别短句关联存储，作为识别短句，例如有“好累”、“困了”、“我回来了”、“今天挨骂了”、“今天和别人吵架了”、“我出门了”。例如，示出回答短句“真是够呛啊”与识别短句“好累”关联登记的情况。
[0103]另外，作为识别短句，也可以登记控制命令。本例中，作为一例，与“打扫卫生”对应，关联存储了回答短句“开始清洁”。在此，“开始清洁”是指针对清洁机器人10的、指示开始清洁功能的命令。据此，清洁机器人10开始由清洁部105执行的清洁。
[0104]此外，在对于相同的识别短句有多个回答短句的情况下，从多个回答短句中随机选择回答短句。此外，也可以附加优先级以进行选择。通过设置该多个回答短句，不会成为模式化的应答内容，能够实现与用户之间的顺利的交流。
[0105]本例中，清洁机器人10和服务器20中均设置发话内容数据库120、232。并且，在各个装置中并行执行语音识别处理，较快得出语音识别结果的装置优先执行应答处理。此夕卜，本例中，作为一例，服务器20的发话内容数据库232中至少包含了清洁机器人10的发话内容数据库120的信息。
[0106]应答处理
[0107]图4是表示基于实施方式I的语音识别系统I中的应答处理流程的时序图。
[0108]如图4所示，用户对清洁机器人10发话(也称为用户发话)(时序sqO)。
[0109]清洁机器人10对于用户发话，接受语音的输入(时序sql)。具体而言，语音输入接受部114经由麦克风103接受来自外部的声音输入。
[0110]接着，清洁机器人10将语音数据输出到服务器20(时序sq2)。具体而言，语音输入接受部114经由通信部101输出到服务器20。
[0111]接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq3)。具体而言，语音输入接收部221经由通信部201接收语音数据，并输出到语音识别部222。并且，语音识别部222对语音内容进行识别。
[0112]接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10 (时序sq4)。具体而言，语音识别部222将语音内容的识别结果输出到应答处理执行指示部224。应答处理执行指示部224决定对语音内容的应答内容，并将包含了表示应答内容的应答内容数据的语音识别结果数据，经由通信部201发送给清洁机器人10。
[0113]另一方面，清洁机器人10在时序sql之后执行语音数据的语音识别(时序sq5)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识另IJ。并且，将语音内容的识别结果输出到应答处理执行部112。
[0114]接着，清洁机器人10执行语音应答处理(时序sq6)。
[0115]具体而言，应答处理执行部112基于从语音识别部111输出的语音内容识别结果、或者从服务器20发送的语音识别结果数据，经由扬声器104对用户应答(发话)。
[0116]也就是说，本实施方式I中，清洁机器人10执行基于语音识别部111的语音内容识别结果的应答处理、或者基于服务器20的语音识别部222的语音内容识别结果即语音识别结果数据的应答处理，本例中，优先执行较早的应答处理。
[0117]具体而言，清洁机器人10在语音识别部111的语音内容识别结果早于从服务器20发送的语音识别结果数据得到的情况下，优先选择该语音识别部111的语音内容识别结果，执行应答处理。另一方面，在从服务器20发送的语音识别结果数据早于语音识别部111的语音内容识别结果得到的情况下，优先选择该语音识别结果数据，执行应答处理。此外，对于较晚的识别结果，不执行应答处理，由此能够避免重复的应答处理。
[0118]根据上述结构，本实施方式I中，在清洁机器人10和服务器20中并行执行语音识另IJ，处理较快的一方优先，使用最早的处理结果执行应答处理。这样，在清洁机器人10中的语音识别结果之后，服务器中不执行语音识别处理，将各装置中分别进行了语音识别的最早的语音识别结果用于应答处理，因此能够缩短来自清洁机器人10的应答输出时间，在对用户不产生负担的情况下进行顺利的交流。
[0119]流程图
[0120]图5是执行基于本实施方式I的清洁机器人10的语音识别处理的流程图。
[0121]参考图5，该流程图是执行存储部109中存储的程序以使控制部102的各部件发挥功能而执行的处理。
[0122]首先，控制部102判断是否有语音输入(步骤SI)。具体而言，语音输入接受部114判断是否经由麦克风103检测出了语音数据。
[0123]在步骤SI中，控制部102待机到有语音输入为止(步骤SI中“否”)，在判定为有语音输入的情况下(步骤SI中“是”)，将输出标志设定为关闭(off)(步骤S2)。具体而言，语音输入接受部114在判断为检测出语音数据的情况下，重置表示已执行输出处理的标志值。例如，在标志值为“I”的情况下，设定为初始值“O”。该输出标志是用于避免来自清洁机器人10的重复应答处理的数据，可以存储在存储部109的指定区域中。
[0124]接着，控制部102将语音数据发送到服务器20(步骤S3)。具体而言，语音输入接受部114经由通信部101将检测出的语音数据发送到服务器20。
[0125]接着，控制部102执行语音识别(步骤S4)。具体而言，语音识别部111对于由语音输入接受部114检测出的语音数据，对语音内容进行识别。并且，语音识别部111在语音识别完成的情况下，将语音识别结果输出到应答处理执行部112。
[0126]接着，控制部102判断语音识别是否完成(步骤S5)。具体而言，应答处理执行部112判断是否从语音识别部111收到了语音识别结果的输出。
[0127]在步骤S5中控制部102判断为语音识别处理完成的情况下(步骤S5中“是”)，判断是否有识别短句(步骤S6)。具体而言，应答处理执行部112判断是否有依据从语音识别部111收到的语音识别结果的识别短句。也就是说，参考发话内容数据库120(图3)，判断是否登记了与识别内容对应的识别短句。
[0128]在步骤S6中控制部102判断为有识别短句的情况下(步骤S6中“是”)，决定回答短句(步骤S7)。具体而言，应答处理执行部112参考发话内容数据库120 (图2)，决定与识别短句对应的回答短句。
[0129]接着，控制部102执行输出处理(步骤S8)。具体而言，应答处理执行部112作为一例，指示扬声器104发出回答短句的应答内容。
[0130]接着，控制部102将输出标志设定为打开(on)(步骤S9)。具体而言，应答处理执行部112作为一例，将存储部109的指定区域中存储的输出标志设定为“I”。
[0131]另一方面，在步骤S6中控制部102判断为无识别短句的情况下(步骤S6中“否”)，跳过步骤S7?S9，进入步骤S10。
[0132]接着，控制部102判断是否接收了语音识别结果数据(步骤S10)。具体而言，应答处理执行部112判断是否经由通信部101从服务器20接收了语音识别结果数据。
[0133]在步骤SlO中，控制部102待机到接收语音识别结果数据为止(步骤SlO中“否”)，在判定为接收了语音识别结果数据的情况下(步骤S1中“是”)，接着判断输出标志是否为打开(“I”)(步骤Sll)。
[0134]具体而言，应答处理执行部112在判断为接收了来自服务器20的语音识别结果数据的情况下，确认存储在指定区域中的输出标志，判断输出标志是否设定为“I”。
[0135]在步骤Sll中控制部102判断为输出标志为打开(“I”)的情况下(步骤Sll中“是”)，执行取消处理(步骤S14)。具体而言，应答处理执行部112在输出标志设定为“I”的情况下将来自服务器20的语音识别结果数据作为无效进行处理。
[0136]并且，控制部102结束处理(结束)。也就是说，根据该取消处理，由于输出标志已经设定为“ 1”，输出处理已完成，因此能够不执行重复的应答处理。
[0137]另一方面，在步骤Sll中控制部102判断为输出标志不是打开(“I”)的情况下(步骤Sll中“否”)，执行输出处理(步骤S12)。具体而言，应答处理执行部112在输出标志未设定为“1”，即设定为“O”的情况下，基于语音识别结果数据中包含的应答内容数据，作为一例，指示扬声器104发出回答短句的应答内容。
[0138]并且，接着，控制部102将输出标志设定为打开(“I”)(步骤S13)。具体而言，应答处理执行部112作为一例，将存储部109的指定区域中存储的输出标志设定为“I”。
[0139]并且，控制部102结束处理(结束)。
[0140]另一方面，在步骤S5中，控制部102判断为语音识别处理未完成的情况下(步骤S5中“否”)，判断是否接收了语音识别结果数据(步骤S15)。具体而言，应答处理执行部112判断是否经由通信部101接收了来自服务器20的语音识别结果数据。
[0141]在步骤S15中控制部102判断为接收了语音识别结果数据的情况下(步骤S15中“是”)，执行输出处理(步骤S16)。具体而言，应答处理执行部112基于语音识别结果数据中包含的应答内容数据，作为一例，指示扬声器104发出回答短句的应答内容。
[0142]并且，接着，控制部102将输出标志设定为打开(“I”)(步骤S17)。具体而言，应答处理执行部112作为一例，将存储部109的指定区域中存储的输出标志设定为“I”。
[0143]接着，控制部102判断语音识别是否完成(步骤S18)。具体而言，应答处理执行部112判断是否从语音识别部111收到了语音识别结果的输出。
[0144]在步骤S18中，控制部102待机到语音识别完成为止(步骤S18中“否”)，在判断为语音识别完成的情况下(步骤S18中“是”)，执行取消处理(步骤S19)。具体而言，应答处理执行部112将来自语音识别部111的语音识别结果的输出作为无效进行处理。
[0145]并且，控制部102结束处理(结束)。也就是说，根据该取消处理，由于输出标志已经设定为“ 1”，输出处理已完成，因此能够不执行重复的应答处理。
[0146]另一方面，在步骤S15中，控制部102判断为未接收语音识别结果数据的情况下(步骤S15中“否”)，返回步骤S5，判断语音识别处理是否完成(步骤S5)。以后的处理与上述说明的相同。
[0147]利用该处理，清洁机器人10能够在语音识别部111的语音内容识别结果早于从服务器20发送的语音识别结果数据得到的情况下，优先选择该语音识别部111的语音内容识别结果，执行应答处理，在从服务器20发送的语音识别结果数据早于语音识别部111的语音内容识别结果得到的情况下，优先选择该语音识别结果数据，执行应答处理。
[0148]此外，本例中，作为应答处理的一例，说明了清洁机器人10基于语音识别结果发话的情况，但并不限于发话(语音应答)，也可以执行其它应答处理，例如执行显示或行驶动作等其它应答处理。
[0149]此外，本例中，在判断为无识别语句的情况下(步骤S6中“否”)，说明清洁机器人10不进行任何输出地进入步骤SlO的情况，但在其它方式下，在接收来自服务器20的语音识别结果数据之前的期间内，清洁机器人10例如可以发出“嗯……”等过渡性的语音，或者执行其它应答处理。另外，设想在基于来自服务器20的语音识别结果数据执行应答处理的情况下，与基于清洁机器人10的语音内容识别结果的应答处理相比，更加花费时间。这样，通过使清洁机器人10发出“嗯……”等语音或者执行其它应答处理，能够减轻给用户带来的不适感，使用户对清洁机器人10产生亲近感。也就是说，能够实现更加顺利的交流。例如，在步骤SlO中等待接收来自服务器20的语音识别结果数据的情况下(步骤SlO中“否”)，清洁机器人10可以每隔一定时间执行一次这种发出过渡性语音等的应答处理。这种应答处理既可以是预先确定的应答，也可以是从一些模式中选择的应答，另外，该选择可以是随机选择。
[0150]从应答速度方面考虑，这种发出过渡性语音等的应答处理优选由清洁机器人10执行，但也可以采用根据服务器20的指示执行的方式。具体而言可以采用如下结构，即在图13的时序图的时序sql2中，服务器20接收了来自清洁机器人10的语音数据时，由服务器20指示清洁机器人10执行该发出过渡性语音等的应答处理。此外，对于以下方式也同样能够适用。
[0151]实施方式2
[0152]上述实施方式I中，说明了基于语音识别部111的语音内容识别结果和从服务器20发送的语音识别结果数据中的较早的任一识别结果来执行应答处理的方式。另一方面，关于由清洁机器人10和服务器20执行的语音识别，还考虑从服务器20得到的语音识别结果在精度方面较为合适的情况。
[0153]本实施方式2中，说明基于可靠度执行合适的应答处理的情况，该可靠度表示作为语音识别结果得到的识别的准确度(准确性的程度)。作为一例，可靠度能够用值“O?I”表示，越接近“ I ”，则可靠度越高。
[0154]图6是执行基于本实施方式2的清洁机器人10的语音识别处理的流程图。
[0155]参考图6，该流程图是执行存储部109中存储的程序以使控制部102的各部件发挥功能而执行的处理。
[0156]与图5的流程图相比，不同之处在于代替步骤S14而设置了步骤S20。其它地方相同，因而不重复进行其详细说明。
[0157]在步骤Sll中控制部102判断为输出标志为打开的情况下(步骤Sll中“是”)，执行可靠度判定处理(步骤S20)。具体而言，应答处理执行部112在输出标志设定为打开(“I”)的情况下，执行判定语音识别的识别准确度(可靠度)的处理。
[0158]图7是说明基于本实施方式2的可靠度判定处理的流程图。参考图7，该处理是应答处理执行部112进行的处理。
[0159]首先，应答处理执行部112判定输出了的语音识别结果中包含的可靠度是否大于阈值α (步骤S21)。作为一例，阈值α采用“0.6”。此外，该阈值为一例，当然也可以设定为其它值。
[0160]接着，在步骤S21中应答处理执行部112判断为输出了的语音识别结果中包含的可靠度大于阈值α的情况下(步骤S21中“是”)，执行取消处理(步骤S22)。
[0161]并且，应答处理执行部112结束处理(结束)。具体而言，应答处理执行部112在输出标志设定为“1”，并且输出了的语音识别结果中包含的可靠度大于阈值α的情况下，将来自服务器20的语音识别结果数据作为无效进行处理。
[0162]另一方面，在步骤S21中应答处理执行部112判定为输出了的语音识别结果中包含的可靠度不大于阈值α即在阈值α以下的情况下(步骤S21中“否”)，判定输出了的语音识别结果中包含的可靠度是否在语音识别结果数据中包含的可靠度以上(步骤S23)。
[0163]在步骤S23中应答处理执行部112判断为输出了的语音识别结果中包含的可靠度在语音识别结果数据中包含的可靠度以上的情况下(步骤S23中“是”)，执行取消处理(步骤 S22)ο
[0164]并且，应答处理执行部112结束处理(结束)。具体而言，应答处理执行部112在输出标志设定为“1”，并且输出了的语音识别结果中包含的可靠度在阈值α以下，另外将输出了的语音识别结果中包含的可靠度与语音识别结果数据中包含的可靠度相比，输出了的语音识别结果中包含的可靠度在语音识别结果数据中包含的可靠度以上的情况下，将来自服务器20的语音识别结果数据作为无效进行处理。
[0165]另一方面，在步骤S23中应答处理执行部112判断为输出了的语音识别结果中包含的可靠度不足语音识别结果数据中包含的可靠度的情况下(步骤S23中“否”)，执行再次输出处理(步骤S24)。具体而言，基于语音识别结果数据中包含的应答内容数据，作为一例，指示扬声器104发出回答短句的应答内容。此外，扬声器104此时可以发出“再说一次”这一表示再次应答的话语，并且发出应答内容。
[0166]并且，应答处理执行部112结束处理(结束)。
[0167]利用该处理，清洁机器人10在输出了的语音识别结果的可靠度低的情况下，在随后接收的语音识别结果数据的可靠度较高的情况下，执行再次输出处理。据此，关于由清洁机器人10和服务器20执行的语音识别，在从服务器20得到的语音识别结果较为合适的情况下，执行再次输出处理，由此能够在不给用户带来负担的情况下执行顺利的交流。
[0168]此外，本例中说明了在输出了的语音识别结果的可靠度低的情况下，在随后接收的语音识别结果数据的可靠度较高的情况下执行再次输出处

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6