人机会话的处理方法、装置及电子设备与流程

文档序号：16636361发布日期：2019-01-16 07:03阅读：198来源：国知局

本申请涉及计算机技术领域，尤其涉及一种人机会话的处理方法、装置及电子设备。

背景技术：

在人机会话的场景下，用户向设备输入一条语音指令后，设备会执行用户输入的语音指令，例如增大音量、播放视频等，指令执行完毕后，还可以通过tts(texttospeech，文字转语音)向用户进行反馈，比如播放“音量已经增大”、“视频已打开”等。当设备完成一条语音指令后，认为整个会话终止了，便进入休眠状态。

但是，在连续会话场景下，如果用户还有进一步的语音指令想输入，则需要重新唤醒设备。重新唤醒设备无论从时间上还是程序上都会导致较大的使用不便，例如，用户要重新输入语音唤醒词，并且，唤醒设备也会花一定的时间，从而严重影响使用体验。

技术实现要素：

本发明提供了一种人机会话的处理方法、装置及电子设备，在不需要反复唤醒设备的基础上，满足用户想主动与设备进行连续会话的需求，改善用户使用体验，提高会话效率。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供了一种人机会话的处理方法，包括：

在设备完成上一条语音指令后，对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求；

如果确定用户有再次输入语音指令的需求，则启动语音活动检测；否则，结束本次会话。

第二方面，提供了另一种人机会话的处理方法，包括：

对所接收的语音指令的内容进行识别；

判断用户是否有再次输入语音指令的需求；

根据判断结果，执行人机会话操作。

第三方面，提供了一种人机会话的处理装置，包括：

指令识别模块，用于在设备完成上一条语音指令后，对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求；

语音检测模块，用于如果确定用户有再次输入语音指令的需求，则启动语音活动检测；否则，结束本次会话。

第四方面，提供了另一种人机会话的处理装置，包括：

内容识别模块，用于对所接收的语音指令的内容进行识别；

需求判断模块，用于判断用户是否有再次输入语音指令的需求；

执行操作模块，用于根据判断结果，执行人机会话操作。

第五方面，提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于：

在设备完成上一条语音指令后，对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求；

如果确定用户有再次输入语音指令的需求，则启动语音活动检测；否则，结束本次会话。

第六方面，提供了另一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于：

对所接收的语音指令的内容进行识别；

判断用户是否有再次输入语音指令的需求；

根据判断结果，执行人机会话操作。

本发明提供的人机会话的处理方法、装置及电子设备，在设备完成上一条语音指令后，通过对用户是否会输入下一条语音指令进行预测判断，从而能够提高设备执行用户的连续语音指令的效率，提升用户体验。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例的人机会话的处理的逻辑示意图一；

图2为本发明实施例的人机会话的处理的逻辑示意图二；

图3为本发明实施例的人机会话的处理的系统结构图；

图4a为本发明实施例的人机会话的处理方法流程图一；

图4b为本发明实施例的人机会话的处理方法流程图一；

图5a为本发明实施例的人机会话的处理装置结构图一；

图5b为本发明实施例的人机会话的处理装置结构图二；

图6为本发明实施例的人机会话的处理装置结构图三；

图7为本发明实施例的电子设备的结构示意图一；

图8为本发明实施例的电子设备的结构示意图二。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在现有人机会话的场景中，用户向机器输入一条语音指令后，机器会执行用户输入的语音指令，例如增大音量、播放视频等，指令执行完毕后，还可以通过tts向用户进行反馈，比如播放“音量已经增大”。当然，通过tts向用户进行反馈并不是必要的操作，设备可以执行语音反馈；或者设备会针对该语音指令进行回答，例如用户输入“讲个笑话”，则设备会选取笑话通过tts来进行回答，再例如用户输入“今天天气如何”，设备会通过tts播报天气预报。为了方便描述，无论是设备通过tts向用户回答了问题还是进行了反馈还是仅执行了语音指令对应的操作而没有进行反馈，我们将这几种情形都统称为“设备完成语音指令”。

本发明改变了现有技术中，在设备完成语音指令后，马上结束会话的处理流程，其核心思想在于，在设备完成语音指令后，先对前一次用户输入的语音指令的内容进行判断，确认用户是否还会输入下一条语音指令，如果判定为用户还会输入下一条语音指令，则在设备完成语音指令后，进入语音活动检测(voiceactivitydetection，vad)流程，如果判定为用户不会输入下一条语音指令，则终止会话，从而提高用户连续会话的效率。

如图1所示，为本发明实施例的人机会话的处理的逻辑示意图。在该逻辑图中，人机会话的基础流程依次为用户唤醒、vad、语音输入、asr(automaticspeechrecognition，自动语音识别)、语义解析、指令执行、系统反馈、tts，此流程构成一个闭环。如果通过对上一条语音指令的内容进行判断后，用户需要有连续发语音指令的需求，则在tts之后可再启动vad进行语音检测，重复原有会话流程。

另外，本申请还要解决在考虑连续会话场景下，在上述流程中的各环节判断整个会话终止的问题。

现有的判断会话终止的方案为从用户唤醒到最终tts反馈整个流程完结作为会话终止判断条件，基本上不考虑连续会话场景，在会话流程中的各环节一旦出现异常情况，会进行错误类型判断，并通过tts进行异常反馈，tts播报之后认为一个会话单元终止。在一些特殊情况下，如语音系统主动向用户提问时，tts播报后会重新从vad环节开始进行会话流程。

图2为在连续会话场景下，终止会话的处理逻辑图，在该逻辑中，大体包括5个步骤：领域判断、vad、asr、语义解析、执行语音指令。

领域判断：判断上一语音指令完成后是否需要进入连续会话(连续会话)状态。如果根据上一语音指令的内容，判断用户还有进一步发出语音指令的需求，则启动vad；否则，结束本次会话。

vad：启动vad后，在设定时间内如果检测到语音信号，则将语音信号发送至asr进行语音解析，形成文本；如果没有检测到语音信号，则结束本次会话。

asr：对语音信号进行文本解析，如果解析得到文本内容，则将文本内容进行语义解析；如果文本解析后未得到文本内容，则终止本次会话。

语义解析：对文本内容进行语义解析，判断文本中的语句是否进入预置的领域内，如果语句未进入任一领域，或者语句进入停止收音(终止会话)领域，则终止本次会话；如果语句进入已有的领域，则根据已有的领域形成语音指令。

执行指令：根据确定的语音指令，控制相应设备执行语音指令并通过tts反馈。

语音指令执行完成后，流程重新指向第一个步骤，即继续对上一指令的领域进行判断，确定用户是否需要连续会话。

基于图1和图2所示的人机会话的处理方法的逻辑示意图，本发明实施例提供了一种人机会话的处理系统，用以提高人机会话场景下，用户主动连续会话的效率。如图3所示，该系统包括：设备310和服务器320。

设备310包括：

人机会话过程中的人机交互设备，如麦克风、音响等以及执行语音指令的操作设备，如媒体播放设备、空调、电视、冰箱等。

设备310，用于在人机会话过程中，与人进行交互，包括语音信号采集、tts反馈等，以及执行语音指令的具体操作。

服务器2具有控制vad启动、asr、语义解析、形成语音控制指令并反馈至设备等各环节的逻辑处理功能。

如图3所示，服务器2具体包括：人机会话的处理装置321和领域库322；

人机会话的处理装置321，包括：

指令识别模块，用于在设备310完成上一条语音指令后，对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求；在对语音指令的内容进行识别时，需要将语音指令在领域库322中进行需求类型的判断。领域库322中预置存储了多个不同领域内的多种意图。

所谓领域，既人机交互系统中实现用户的某一类需求的功能。领域识别即判断用户的某一语音属于哪一类需求的过程。

意图，既人机交互系统中实现某一领域下用户某一单一明确需求的功能。意图识别即判断用户的某一语音属于某一领域下哪一个明确需求的过程。

通过将用户的上一条语音指令的内容在领域库322中识别判断，就可以判定用户是否还存在再次输入语音指令的需求。

语音检测模块，用于如果确定用户有再次输入语音指令的需求，则启动语音活动检测vad；否则，结束本次会话。

在设备310一侧，用于接收语音信号的设备如麦克风始终是开启状态，但只有服务器320确定启动vad的检测流程后，麦克风接收的语音信号才会被传送至人机会话的处理装置321中，作为人机会话流程中的语音指令信号。而vad的检测流程只有在每次会话开始时启动，用以检测语音信号，当系统认为无语音输入时，会自动关闭vad，直到再次用户唤醒设备才再次启动vad。因此，当上述指令识别模块判定出用户还有再次输入语音指令的需求时，会触发语音检测模块启动vad。

语音检测模块，还用于在启动vad后，如果在指定的检测时间内没有检测到语音信号，则结束本次会话；否则，触发语音识别模块对检测到的语音信号进行自动语音识别asr。

时间计算模块，用于：

统计用户在各次会话过程中，用户从设备唤醒成功到发出语音指令的第一平均时间；统计用户在各次会话过程中，从启动vad到用户发出语音指令的第二平均时间；根据第一平均时间和所述第二平均时间计算得到指定的检测时间。

vad检测的时间对vad的效果影响比较大。vad的检测时间应该根据用户在连续会话情景下的发音时间来决定，不同的用户发音习惯不同。这就需要动态的调整vad的执行时间，具体可根据用户使用音箱的习惯动态的优化vad检测的时间。这些习惯统计出的时间包括：用户从设备唤醒成功到发出语音指令的平均时间，以及从启动vad到用户发出语音指令的平均时间。

进一步地，时间计算模块根据第一平均时间和第二平均时间计算得到指定的检测时间，可包括：

根据t4＝t3+(t2-t3)/2

计算得到所述指定的检测时间t4；其中，t2为第一平均时间t1和预设冗余时间之和，t3为第二平均时间。

语音识别模块，还用于在对检测到的语音信号进行asr后，如果未识别出文本内容，则结束本次会话；否则，触发语义解析模块对识别出的文本内容进行语义解析。

语义解析模块，用于在对识别出的文本内容进行语义解析后，如果解析得到的语义未进入任一预置的领域，或者解析得到的语义明确为结束本次会话，则结束本次会话；否则，根据解析得到的语义所进入的领域生成语音指令，并触发指令执行模块根据语音指令控制相应设备执行操作。

本发明实施例提供的人机会话的处理系统，在设备完成上一条语音指令后，对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求；如果确定用户有再次输入语音指令的需求，则启动语音活动检测vad；否则，结束本次会话。进一步地，在连续会话过程中，根据各环节执行情况，预先设置结束会话的条件，并在判定条件形成后，结束本次会话，实现连续会话的完整流程。

下面通过多个实施例来进一步说明本申请的技术方案。

实施例一

基于上述根据语音指令内容判定是否进行连续会话的方案思想，如图4a所示，其为本发明实施例示出的人机会话的处理方法流程图一，该方法的执行主体为图3中所示的人机会话的处理装置。如图4a所示，该人机会话的处理方法包括如下步骤：

s410，在设备完成上一条语音指令后，对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求。

在现有的人机会话场景中，用户在输入一条语音指令后，往往还想基于该语音指令的内容以及执行结果，再次输入新的语音指令，例如，上一条语音输入是“帮我搜索变形金刚”，系统搜索完毕后，通过屏幕展示搜索结果列表，此时用户很可能会再输入“播放第一个”搜索结果的语音指令。

为了在满足用户连续会话需求的前提下，提高人机会话效率，本实施例中在设备每完成一条语音指令后，会对上一条已完成的语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求。从而确定是否要启动连续会话的流程。

领域判断，即判断某一领域指令完成后是否需要进入连续会话状态。连续会话的触发需要根据用户上一个语音指令的需求类型及执行情况进行判定。

判断连续会话的依据来自于但不局限于以下几个原则：

1.是否明确不需要连续会话；如控制类指令(“我要把灯打开”)基本上是用户的一次操作，这类场景下不需要连续会话；

2.是否经常有上下文诉求：如天气领域(“今天天气怎么样？”——“明天呢”)；

3.是否是一个连续多指令需求：如电影查询(“帮我搜索变形金刚”——“播放第一个”——“全屏播放”)。

基于上述原则来判定是否需要进行连续会话，如果需要进行连续会话，即认为用户有基于上一条语音指令而再次输入语音指令的需求。

如果确定用户有再次输入语音指令的需求，则执行步骤s420，否则执行s430。

s420，启动语音活动检测vad；

s430，结束本次会话。

当确定用户有再次输入语音指令的需求时，可以控制设备侧开启vad的检测流程，以采集用户可能输入的语音指令，并上传给服务器侧的人机会话的处理装置进行识别处理。

当确定用户没有再次输入语音指令的需求时，可以结束本次会话，控制设备进入待机状态。

本实施例中的对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求的判定过程，可在服务器侧处理完成，即通过服务器控制前端设备是否开启连读会话流程。

进一步地，上述方法还包括：

在启动vad后，如果在指定的检测时间内没有检测到语音信号，则结束本次会话；否则，对检测到的语音信号进行自动语音识别asr。

当确定用户有再次输入语音指令的需求时，服务器侧控制设备侧启动vad流程，并将麦克风检测的语音信号传送至服务器侧进行解析。如果在指定的检测时间内没有检测到人声输入，则认为会话结束，vad流程关闭；如在指定的检测时间内检测到人声输入，则将检测到的声音上传到服务器端进行asr处理。

人声检测需要屏蔽掉噪音干扰，稳态的噪音比较好识别和屏蔽，如频率稳定不变的空调噪音，电机噪音；但是动态的噪音比较难屏蔽，如歌声，电视机噪音等频率变化较大且包含人声录音的噪音。因此vad的检测时间对vad的效果影响比较大。

vad的检测时间应该根据用户在连续会话下的发音时间来决定，不同的用户发音习惯不同。动态的调整vad是根据用户使用音箱的习惯动态的优化vad检测的时间，优化的策略如下：

统计用户在各次会话过程中，用户从设备唤醒成功到发出语音指令的第一平均时间；统计用户在各次会话过程中，从启动vad到用户发出语音指令的第二平均时间；根据第一平均时间和第二平均时间计算得到指定的检测时间。

具体的，在用户的各次会话过程中，实时计算用户在正常唤醒设备的场景下，从设备唤醒成功到发出指令发出的平均时间t1(第一平均时间)。

设置初始连续会话下的vad的检测时间t2＝t1+3(s)，由于连续会话状态下，用户的发音一般会较慢于设备正常唤醒下的发音，顾初始的连续会话的检测时间默认为在用户唤醒设备状态下的评估时间基础上增加3秒(冗余时间)。

设置的初始连续会话下的vad的检测时间为一个较长的容错时间，需要根据用户在连续会话状态的实际平均发音时间进行收敛，顾在用户的各次会话过程中，还需要实时计算连续会话状态下，从启动vad到用户发出语音指令的平均时间t3(第二平均时间)。

在初始连续会话下的vad的检测时间t2基础上，利用用户在连续会话状态下的实际平均发音时间t3对t2进行修正，从而可得到比较合理的指定的检测时间t4。

进一步地，根据第一平均时间和第二平均时间计算得到指定的检测时间的处理步骤，可包括：

通过如下公式：

t4＝t3+(t2-t3)/2.................................................(1)

计算得到上述的指定的检测时间t4；其中，t2为第一平均时间t1和预设冗余时间之和，t3为所述第二平均时间。

进一步地，上述方法还包括：

在对检测到的语音信号进行asr后，如果未识别出文本内容，则结束本次会话；否则，对识别出的文本内容进行语义解析。

在asr阶段依然有判断连续会话终止的条件。当有噪音在vad环节被误判为人声输入时，asr可能无法识别此段声音，此时识别结果可能返回为空，故可以认为在连续会话场景下，asr操作结果返回为空时此次会话结束。但也存在用户的语音指令由于客观因素影响导致asr无法识别返回为空的情况，故在asr环节终止本次会话的同时，可通过tts提示用户设备没有听清，有需要请再次唤醒。

当asr执行完成后，识别出文本内容，可将文本内容继续传输至下一处理环节，即进行语义解析。

进一步地，上述方法还包括：

在对识别出的文本内容进行语义解析后，如果解析得到的语义未进入任一预置的领域，或者解析得到的语义明确为结束本次会话，则结束本次会话；否则，根据解析得到的语义所进入的领域生成语音指令，并根据语音指令控制相应设备执行操作。

通过理解用户语音指令的实际语义可进行连续会话终止的判断。

语义解析可分为三个环节，领域识别，意图识别，执行逻辑判断，其中，用以判断连续对话是否终止的判断基本上在领域识别环节就可完成，具体可包括但不限于如下两种判断条件：

当经asr解析的文本中的语义未落到任何一个领域(领域库中预置有多个不同的领域)时，会话终止。如果连续会话场景下，干扰噪音被误判进入语义解析阶段，杂乱没有逻辑的语句不容易被语义理解到某一领域中，此时会话终止；

当解析得到的语义落入到“停止词”领域时，表示用户明确使用指令来停止连续会话的场景，此时会话终止。“停止词”领域中的语料如“好的”、“谢谢”、“没事儿了”……。

当语义落入除“停止词”以外的其他领域，正常执行该领域指令，即根据落入到的领域中的具体意图，生成语音指令，然后根据语音指令控制设备执行相应操作。

指令执行成功后，可重新回到起始步骤s410进行上一条语音指令的领域判断，确定用户是否有基于上一条语音指令而再次输入语音指令的需求，以及启动vad流程。

指令执行失败，则可跳过步骤s410，直接开启vad，从步骤s420开始进入连续对话情景。

本发明实施例提供的人机会话的处理方法，在设备完成上一条语音指令后，对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求；如果确定用户有再次输入语音指令的需求，则启动语音活动检测；否则，结束本次会话，从而有效的提高在连续会话场景下的会话处理效率。

进一步地，在连续会话执行过程中，通过对各个环节预制结束本次会话的判断条件，可在条件满足时，结束本次会话流程，保证连续会话的完整性。

实施例二

图4b为本发明实施例提供的另一种人机会话的处理方法，该方法在图4a所示方法的基础上，进行了少许改变。如图4b所示，该人机会话的处理方法包括如下步骤：

s440，对所接收的语音指令的内容进行识别。

为了在满足用户连续会话需求的前提下，提高人机会话效率，本实施例中在设备每收到语音指令后，先会对该语音指令的内容进行识别，具体判识别程可参见步骤s410的相关内容。

s450，判断用户是否有再次输入语音指令的需求；

在对语音指令的内容进行识别后，判断用于是否存在基于该语音指令再次输入语音指令的需求。具体判断过程可参见步骤s410的相关内容。

例如，可针对不同用户(声纹识别)的个性化习惯对用户是否进行再次进行语音输入的结果进行历史数据的统计，根据统计结果计算用户再次输入语音指令的概率。如果得到的概率大于预设的概率阈值，则判定用户有再次输入语音指令的需求；否则，判定用户没有再次输入语音指令的需求。

s460，根据判断结果，执行人机会话操作。

通过用户输入的语音指令的内容，判断用户是否有再次输入语音的需求，并根据判断结果指导后续的处理操作。例如，如果确定用户有再次输入语音指令的需求，则在设备完成本次语音指令后执行启动语音活动检测，以实现连续会话；否则，在设备完成本次语音指令后结束本次会话。

另外，需要说明的是，实施例一中所示的方法中的步骤也可在本实施例中的方法步骤中执行，在此对步骤原理不做赘述。

本发明实施例提供的人机会话的处理方法，对所接收的语音指令的内容进行识别，判断用户是否有再次输入语音指令的需求；然后根据判断结果，执行人机会话操作，从而有效的提高在连续会话场景下的会话处理效率。

实施例三

如图5a所示，为本发明实施例的人机会话的处理装置结构图一，该人机会话的处理装置可用于执行如图4a所示的方法步骤，其包括：

指令识别模块510，用于在设备完成上一条语音指令后，对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求；

语音检测模块520，用于如果确定用户有再次输入语音指令的需求，则启动语音活动检测vad；否则，结束本次会话。

进一步地，如图5b所示，上述装置还包括语音识别模块530；

语音检测模块520，还用于在启动vad后，如果在指定的检测时间内没有检测到语音信号，则结束本次会话；否则，触发语音识别模块530对检测到的语音信号进行自动语音识别asr。

进一步地，如图5b所示，上述装置还包括时间计算模块540，用于：统计用户在各次会话过程中，用户从设备唤醒成功到发出语音指令的第一平均时间；统计用户在各次会话过程中，从启动vad到用户发出语音指令的第二平均时间；根据第一平均时间和第二平均时间计算得到上述指定的检测时间。

进一步地，上述时间计算模块540根据第一平均时间和第二平均时间计算得到指定的检测时间，包括：

根据t4＝t3+(t2-t3)/2

计算得到指定的检测时间t4；其中，t2为第一平均时间t1和预设冗余时间之和，t3为第二平均时间。

进一步地，如图5b所示，上述装置还包括语义解析模块550；

语音识别模块540，还用于在对检测到的语音信号进行asr后，如果未识别出文本内容，则结束本次会话；否则，触发语义解析模块550对识别出的文本内容进行语义解析。

进一步地，如图5b所示，上述装置还包括指令执行模块560；

语义解析模块550，还用于在对识别出的文本内容进行语义解析后，如果解析得到的语义未进入任一预置的领域，或者解析得到的语义明确为结束本次会话，则结束本次会话；否则，根据解析得到的语义所进入的领域生成语音指令，并触发指令执行模块560根据语音指令控制相应设备执行操作。

本发明实施例提供的人机会话的处理装置，在设备完成上一条语音指令后，对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求；如果确定用户有再次输入语音指令的需求，则启动语音活动检测vad；否则，结束本次会话，从而有效的提高在连续会话场景下的会话处理效率。

进一步地，在连续会话执行过程中，通过对各个环节预制结束本次会话的判断条件，可在条件满足时，结束本次会话流程，保证连续会话的完整性。

实施例四

如图6所示，为本发明实施例提供的人机会话的处理装置结构图二，该人机会话的处理装置可用于执行如图4b所示的方法步骤，其包括：

内容识别模块610，用于对所接收的语音指令的内容进行识别；

需求判断模块620，用于判断用户是否有再次输入语音指令的需求；

执行操作模块630，用于根据判断结果，执行人机会话操作。

本发明实施例提供的人机会话的处理装置，对所接收的语音指令的内容进行识别，判断用户是否有再次输入语音指令的需求；然后根据判断结果，执行人机会话操作，从而有效的提高在连续会话场景下的会话处理效率。

实施例五

前面实施例三描述了人机会话的处理装置的整体架构，该装置的功能可借助一种电子设备实现完成，如图7所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器710和处理器720。

存储器710，用于存储程序。

除上述程序之外，存储器710还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器710可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

处理器720，耦合至存储器710，用于执行存储器710中的程序，以用于：

在设备完成上一条语音指令后，对上一条语音指令的内容进行识别，确定用户是否有基于上一条语音指令而再次输入语音指令的需求；

如果确定用户有再次输入语音指令的需求，则启动语音活动检测vad；否则，结束本次会话。

上述的具体处理操作已经在前面实施例中进行了详细说明，在此不再赘述。

进一步，如图7所示，电子设备还可以包括：通信组件730、电源组件740、音频组件750、显示器760等其它组件。图7中仅示意性给出部分组件，并不意味着电子设备只包括图7所示组件。

通信组件730被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件730经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件730还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

电源组件740，为电子设备的各种组件提供电力。电源组件740可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件750被配置为输出和/或输入音频信号。例如，音频组件750包括一个麦克风(mic)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器710或经由通信组件730发送。在一些实施例中，音频组件750还包括一个扬声器，用于输出音频信号。

显示器760包括屏幕，其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

实施例六

前面实施例四描述了人机会话的处理装置的整体架构，该装置的功能可借助一种电子设备实现完成，如图8所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器810和处理器820。

存储器810，用于存储程序。

除上述程序之外，存储器810还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器810可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

处理器820，耦合至存储器810，用于执行存储器810中的程序，以用于：

对所接收的语音指令的内容进行识别；

判断用户是否有再次输入语音指令的需求；

根据判断结果，执行人机会话操作。

上述的具体处理操作已经在前面实施例中进行了详细说明，在此不再赘述。

进一步，如图8所示，电子设备还可以包括：通信组件830、电源组件840、音频组件850、显示器860等其它组件。图8中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。

通信组件830被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件830经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件830还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

电源组件840，为电子设备的各种组件提供电力。电源组件840可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件850被配置为输出和/或输入音频信号。例如，音频组件850包括一个麦克风(mic)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器810或经由通信组件830发送。在一些实施例中，音频组件850还包括一个扬声器，用于输出音频信号。

显示器860包括屏幕，其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘广兴;许毅
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：主轴出水的碳纤维管双膜片联轴器的制作方法
上一篇：BCMA和CD3双特异性T细胞接合抗体构建体的制作方法