用于语音交互控制的方法、装置、设备和介质与流程

文档序号：19747589发布日期：2020-01-21 18:47阅读：248来源：国知局

本公开的实施例主要涉及人工智能领域，并且更具体地，涉及用于语音技术。

背景技术：

语音交互技术是人与机器用语音进行交互的一种技术，实现了类似自然对话的语音交互体验。人机交互从计算机时代的鼠标键盘配合屏幕方式交互，到智能手机时代的触屏直接交互，人机交互的方式越来越简单，交互门槛越来越低。随着人工智能和移动互联网的蓬勃发展，类似人与人之间的自然语音交互逐渐成为人机交互的一种新型的方式。语音交互同时兼备输入带宽大、准确性高、可移动性好、使用门槛低等优点，是人机交互的首选交互方式之一。

语音交互可以分为两种场景：一次唤醒一次交互和一次唤醒连续交互(又称为一次唤醒多次交互)。在实现语音交互过程中，通常对采集到的语音信号执行语音识别，从中识别出对应的信息，用于实现交互控制。

技术实现要素：

根据本公开的实施例，提供了一种用于语音交互控制的方案。

在本公开的第一方面中，提供了一种语音交互控制的方法。该方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息；至少基于声音信号的声学特征表示和与识别信息相关联的语义特征表示中的至少一项来确定声音信号的交互置信度；确定识别信息与声音信号的匹配状况；以及提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。

在本公开的第二方面中，提供了一种用于语音交互控制的装置。该装置包括：获得模块，被配置为获得语音交互设备处的声音信号和从声音信号识别的识别信息；交互置信度确定模块，被配置为至少基于声音信号的声学特征表示和与识别信息相关联的语义特征表示中的至少一项来确定声音信号的交互置信度；匹配状况确定模块，被配置为确定识别信息与声音信号的匹配状况；以及提供模块，被配置为提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的环境的示意图；

图2示出了根据本公开的一些实施例的用于语音交互控制的过程的流程图；

图3示出了根据本公开的一些实施例的交互控制装置的示例框图；

图4根据本公开的一些实施例的声学置信度模型的示例框图；

图5根据本公开的一些实施例的语义置信度模型的示例框图；

图6根据本公开的一些实施例的局部信息声音置信度模型的示例框图；

图7根据本公开的一些实施例的全局信息声音置信度模型的示例框图；

图8根据本公开的一些实施例的标签序列生成的示例的示意图；

图9示出了根据本公开的另一些实施例的交互控制装置的示例框图；

图10根据本公开的一些实施例的用于语音交互控制的装置的框图；以及

图11示出了能够实施本公开的多个实施例的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上提及的，在语音交互过程中，对采集到的语音信号执行语音识别，从中识别出对应的信息，用于实现交互控制。然而，在一些情况下，可能由于采集到的声音信号并非用于人机交互的语音指令，基于这样的声音信号识别的信息也会用于错误地控制设备。

这样的问题在一次唤醒连续交互过程中特别需要注意。原因在于，在一次唤醒一次交互的交互方案中，每次用户需要与语音交互设备交互时都需要首先说出唤醒词。因此，在唤醒词被识别、设备唤醒后采集到的声音信号大概率属于人机交互的信号。然而，在一次唤醒连续交互的场景中，用户通过唤醒词将语音交互设备唤醒之后可能会发出多次用于交互的语音。因此，在交互过程中可能会采集到其他不相干的环境音。期望能够准确判断区别人机交互的声音和非人机交互的声音，提高语音交互控制的准确度和智能度，提升人机交互的用户体验。

基本工作原理和示例环境

根据本公开的实施例，提出一种语音交互控制的改进方案。在该方案中，基于声音信号和/或从声音信号中获得的识别信息，从声学或语义上整体确定声音信号是用于与语音交互设备进行交互的声音的交互置信度。另外，还确定识别信息与声音信号的匹配状况。交互置信度和匹配状况被提供用于确定语音交互设备对声音信号的响应。以此方式，可以从多个维度确定语音交互设备是否应该对所获得的声音信号进行响应，以及如何对声音信号进行响应，从而实现更准确、智能地实现语音交互控制，提升用户体验。

下面结合附图来描述本公开的若干实施例。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。在该示例环境100中，用户110可以向语音交互设备120发出语音指令来控制语音交互设备120的操作。例如，在语音交互设备120是智能音箱的情况下，语音指令可以是“播放某某歌手的某某歌曲”等，语音交互设备120在语音信号被正确识别后可以搜索对应的歌曲并且播放给用户110。

语音交互设备120可以具有相关联的声音采集器122(例如，一个或多个麦克风)来采集用户110的语音指令。语音交互设备120还可以具有相关联的声音播放器124(例如，一个或多个扬声器)来向播放声音。

语音交互设备120可以是任何能够通过语音信号进行控制和/或交互的任何电子设备。语音交互设备120的一些示例可以包括但不限于：智能音箱、语音交互电视盒、智能家电设备、语音家教机、智能机器人、地图导航设备、智能穿戴设备等。语音交互设备120也可以是安装有语音交互应用的任何其他电子设备，语音交互应用诸如是语音助手应用、智能车机系统、信息搜索应用、地图应用、社交平台应用、音视频播放应用、智能助手应用等，可安装这样的语音交互应用的电子设备的示例可以但不限于智能手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人导航设备、个人数字助理(pda)、音频/视频播放器、数码相机/摄像机、定位设备、电子书设备、游戏设备或者前述各项的任意组合。

在与语音交互设备120的交互过程中，通常需要通过唤醒词将语音交互设备120唤醒进入交互状态。语音交互设备120可以支持一次唤醒一次交互或一次唤醒连续交互。在一次唤醒一次交互的场景中，用户110在通过唤醒词唤醒语音交互设备120后，可以与语音交互设备120进行一轮交互，即发出一次语音指令。在一次唤醒连续交互的场景中，在唤醒语音交互设备120后，只要设备处于工作状态，例如正在发出声音等，用户110就无需要再次发出唤醒词，而是可以直接与语音交互设备120进行交互，这降低了交互门槛，提高了用户交互意愿。在一些情况下，如果交互属于查询类，例如询问天气，在语音交互设备120回答完毕之后的一段时间内(例如5分钟内)，用户110也无需再次唤醒设备，即可继续进行交互。在一些情况下，可以在一次唤醒之后的预定时间段(例如5分钟)与语音交互设备120的工作时间两者之间取大值，用于限定用户可持续交互的时间。

由语音交互设备120的声音采集器122采集到的声音信号需经过处理后才能从中识别用户意图。对声音信号的处理和/或用户意图的判断在语音交互设备120本地端进行，或者在语音交互设备120的远端进行。例如，语音交互设备120可以包括交互控制装置140-1，用于在本地端实现对声音信号的相关处理的一个或多个方面，控制语音交互设备120与用户110的交互。语音交互设备120也可以与远端处理设备通信，例如与被部署在云端130的交互控制装置140-2通信。交互控制装置140-2可以独立实现对语音交互设备120采集到的声音信号的处理和对语音交互设备120的交互控制，或者可以和交互控制装置140-1一起共同实现对声音信号的处理和对语音交互设备120的交互控制。在下文中，交互控制装置140-1和交互控制装置140-2被统称为或单独称为交互控制装置140。

应当理解，图1示出的环境仅是示例性的。在某些实现中，远端的交互控制装置140-2可以不存在或者不被部署在云端。

示例流程

图2示出了根据本公开的一些实施例的用于语音交互控制的过程200的流程图。过程200可以由交互控制装置140实现。为便于讨论，将参照图1来描述过程200。

在210，交互控制装置140获得语音交互设备120处的声音信号和从声音信号识别的识别信息。识别信息是通过语音识别技术从声音信号中识别出来的。根据需要，识别信息可以由任何形式来表示。在一些实施例中，识别信息可以是文本信息。例如，识别信息可以包括由某种自然语言(例如，中文、英文、日文等)表示的文本序列。在另外一些实施例中，识别信息也可以由任何其他信息表示方式来表示。例如，识别信息也可以由机器语言表示。

由语音交互设备120采集到的原始声音可以经过一定处理后获得可用于语音识别的声音信号。对原始声音信号的处理，和/或从声音信号中对信息的识别可以由交互控制装置140执行，或者可以由交互控制装置140之外的其他装置/设备执行，并且提供给交互控制装置140。例如，在交互控制装置140位于语音交互设备120远端(例如，云端)的实施例中，可以语音交互设备120本地端的装置(例如交互控制装置140-1)对由声音采集器122采集到的原始声音进行一定处理之后再提供给远端的交互控制装置140-2。在下文中将会详细讨论如何获得声音信号和识别信息的一些示例实施例。

在220，交互控制装置140至少基于声学特征表示和语义特征表示中的至少一项来确定声音信号的交互置信度。交互置信度指示声音信号是用于或部分用于与语音交互设备120进行交互的语音的可靠程度。

在语音交互控制的过程中，期望语音交互设备120对用户110真正的语音指令进行及时、正确的响应。然而，语音交互设备120可能会采集到一些噪音信号、或者不是用于与语音交互设备120进行交互的信号(例如，人与人的交谈等)。例如，在一次唤醒连续交互过程中，由于语音交互设备120在被唤醒后将持续关注和采集用户110的语音指令，因此可能存在比较大的概率会采集到干扰的声音信号。如果对不是用于与语音交互设备120进行交互的声音进行响应，容易造成交互的低智能、带来不好的用户体验。在一次唤醒一次交互过程中，虽然可以简单假设在大部分情况下用户110每次唤醒语音交互设备120之后均会发出语音指令，但这样的假设将会导致语音交互设备120被控制为无论用户110是否对语音交互设备120发出语音指令，语音交互设备120均需要进行响应，导致语音交互设备120的交互不够智能、用户体验下降。

因此，根据本公开的实施例，提出了要对声音信号的置信度执行判断。具体地，可以从声音信号和/或识别信息的整体角度确定交互置信度，该交互置信度可以指示：该声音信号是真实语音，并且该声音信号是用于进行交互的。判断声音信号是否属于真实语音可以防止在之前的处理过程中将没有语音的声音(例如各种环境声)检测成语音并且还从中识别出信息(例如识别文本)。判断声音信号是否用于进行交互是为了区别用户110是在与语音交互设备120交互还是在跟周围其他人交互。

对于总体的交互置信度的确定至少可以基于声音信号的声学特征表示和/或基于识别信息的语义特征表示。声学特征表示有助于捕捉语音与非语音之间的区别，并且也能够区分用于交互的语音与非用于交互的语音。识别信息的语义特征表示则可以从语义层面上进行判断，因为从非语音的声音信号中识别的信息通常将是无实际意义的，而人与语音交互设备120的交互在语义上也可以区分。在一些实施例中，可以借助机器学习模型来实现对声音信号和识别信息的分析，这将在下文中详细讨论。

在230，交互控制装置140确定识别信息与声音信号的匹配状况。匹配状况指示识别信息正确反映声音信号实际包含的信息的程度。因为交互置信度是从概率上来确定声音信号是否是用于与语音设备120进行交互的语音，但在确定语音交互设备120如何对声音信号进行响应时，通常需要基于识别信息来理解用户意图。

识别信息可以按不同粒度表示为一个或多个单元的序列，每个单元可以是词、音节、图素、音素、亚音素或者前述各项的组合。识别信息与声音信号的匹配状况可以能够识别声音信号与识别信息在识别信息的单元级别上是否一一匹配。这也将决定如何控制语音交互设备120进行响应。在一些实施例中，也可以借助机器学习模型来实现对识别信息与声音信号的匹配状况的确定，这将在下文中详细讨论。

例如，如果确定识别信息与声音信号一一匹配，则可以控制语音交互设备120立刻进行响应，即对声音信号给出直接反馈。如果确定不是一一匹配，则可能需要根据策略确定如何响应。例如，如果从识别信息仍然能够正确确定用户意图，则依然可以控制语音交互设备120立刻进行响应，即对声音信号给出直接反馈。如果从识别信息不能够准确判断用户意图，则可以根据匹配状况确定对用户110的引导反馈，以引导用户110澄清对语音交互设备120的期望指令。

在240，交互控制装置140提供交互置信度和匹配状况以用于控制语音交互设备120对声音信号的响应。对语音交互设备120的响应的控制可以是由交互控制装置140本地实现，或者由其他交互控制装置实现。由于交互置信度和匹配状况分别从交互语音的判断和对识别信息的精细评估两方面进行衡量，这有助于改进对语音交互设备120的交互控制，使语音交互设备120对准确的交互语音信号快速进行响应，对非交互语音信号不进行响应，并且对属于交互语音信号但没能够从中准确识别信息的情况，还可以根据匹配状况进一步确定语音交互设备120如何响应。

作为一个具体示例，当用户110说的是“我想听周杰伦的稻香”，而识别信息表示“我想听周杰伦的塔下”，交互置信度通过声音信号和/或识别信息确定当前是用户正在与语音交互设备120进行交互，但识别信息中“我想听周杰伦的”的匹配置信度很高，而“塔下”的匹配置信度较低。根据这样的情况，可以根据识别信息与声音信号的匹配状况引导用户110进一步澄清其意图。例如，可以控制语音交互设备120发出声音“刚才没听清，主人您想听周杰伦的哪首歌呢？”

示例设备架构

如以上提及的，交互控制装置140可以利用机器学习模型来对确定交互置信度和/或识别信息与声音信号的匹配状况。

在本文中，术语“机器学习模型”也可以称为“学习模型”、“学习网络”、“网络模型”、或“模型”。“神经网络”或“神经网络模型”是一种深度机器学习模型。一般而言，机器学习模型接收输入信息并且基于输入信息执行预测。

机器学习主要可以划分为三个阶段，即训练阶段、测试阶段和应用阶段。在训练阶段，给定的机器学习模型可以使用大量的训练样本进行训练，不断迭代，直到机器学习模型能够从训练样本中获得一致的、与人类智慧所能够做出的推理类似的推理。机器学习模型通过训练，可以被认为能够从训练数据中学习从输入到输出之间的映射或关联关系。经过训练后，机器学习模型的参数集被确定。在测试阶段，可以利用测试样本对已训练的机器学习模型进行测试，以确定机器学习模型的性能。在应用阶段，机器学习模型可以被用于基于训练得到的参数集，对实际的输入信息进行处理，以给出对应的输出。可以根据不同任务来选择和配置机器学习模型和利用对应的训练数据对机器学习模型进行训练以实现相应任务。

现在将参考图3来描述基于机器学习模型的示例实施例。图3示出了交互控制装置140的示例架构。如图3所示，交互控制装置140包括语音识别引擎310和语音置信度引擎320。

语音识别引擎310被配置为获得声音信号302和从声音信号302确定对应的识别信息312。语音识别引擎310可以利用各种语音识别技术来从声音信号302中获得识别信息312。本公开的实施例在此方面不受限制。

语音置信度引擎320被配置为基于声音信号302和/或识别信息312来确定交互置信度，和/或被配置为确定识别信息312与声音信号302的匹配状况。在图3的示例实施例中，语音置信度引擎320可以利用声学置信度模型330来处理声音信号302，以便确定或辅助确定交互置信度。备选地或附加地，语音置信度引擎320还可以利用语义置信度模型340来处理识别信息312，以便确定或辅助确定交互置信度。

关于匹配状况的确定，语音置信度引擎320可以利用局部信息声音置信度模型350来处理声音信号302和识别信息312，以便从声音信号302的逐个声音片段的基础上确定或辅助确定信息与声音信号的匹配状况。备选地或附加地，语音置信度引擎320还可以利用全局信息声音置信度模型360来处理声音信号302和识别信息312，以便从声音信号302整体上来确定或辅助确定识别信息与声音信号的匹配状况。

可以看出，上述四个模型分别从不同方面来处理声音信号302和/或识识别信息312。在一些实施例中，声学置信度模型330和/或语义置信度模型340可以输出基于声音信号302确定的声学置信度和/或基于识别信息312确定的语义置信度，以单独或结合起来指示声音信号302是用于与语音交互设备120进行交互的语音的交互置信度。在一些实施例中，局部信息声音置信度模型350和/或全局信息声音置信度模型360可以输出在声音片段的基础上确定的匹配状况和/或从声音信号302整体上确定的匹配状况，以单独或结合起来指示识别信息312所包含的词正确反映声音信号302实际包含的信息的程度。在某些实施例中，声学置信度模型330、语义置信度模型340、局部信息声音置信度模型350和/或全局信息声音置信度模型360可以将模型处理的中间结果和/或最终输出332、342、352和362提供给融合模型370。由于这四个模型330、340、350和360均根据自己各自的任务、从不同方面来解析声音信号302和/或识别信息312，融合模型370将这些信息汇总后，可以更准确地确定交互置信度372和/或匹配状况374。

在下文中，将更详细描述语音置信度引擎320中所涉及的这些模型。

声学置信度模型的示例实施例

声学置信度模型330被配置为实现确定声音信号是用于人机交互的语音的概率(称为声学置信度)，即确定声音信号有多大概率是真实语音或有多大概率是人与语音交互设备交互时的语音。声学置信度模型330的输入是声音信号。声学置信度模型330能够被配置为提取声音信号的声学特征表示，并且基于声学特征表示来确定声音信号是用于人机交互的语音的声学置信度。

声学置信度模型330可以利用任何适合用于处理声音信号的机器学习模型来实现，特别是适合处理时间序列上的信息的机器学习模型来实现。在一些实施例中，声学置信度模型330可以基于卷积神经网络(cnn)、循环神经网络(诸如简单rnn、lstm网络、gru网络等)、变换器网络等等一个或多个类型的模型结构来实现。

图4示出了声学置信度模型330的一个示例模型结构。在该示例中，声学置信度模型330被构造为深度神经网络模型，其可以包括多个网络层。如图4所示，声学置信度模型330包括卷积层410、批量归一化(bn)层420、n个变换层430(其中n是大于等于1的整数)、全连接(fc)层440和输出层450。每个变换层430可以包括一个或多个lstm子网络432和批量归一化层434。在声学置信度模型330中，全连接层440和输出层450之前的网络层可以被认为是用于探索输入的声音信号的声学特征表示的网络层。lstm子网络432可以按固定的时间窗口在声音信号上平移，并按时间窗口来处理输入信息。输出层450利用变换函数，基于前一层提供的声学特征表示来生成模型输出，即声学置信度。在一些示例中，声学置信度可以在0至1的范围内连续取值，因此，输出层450所利用的函数例如可以是sigmoid函数，以将输出值映射到0至1的范围内。

应当理解，图4仅示出了声学置信度模型330的一个示例。声学置信度模型330还可以被设计为包括更多的相同或不同类型的网络层，更少的网络层，或者其中的一个或多个网络层可以由其他的一个或网络层替换。本公开的实施例在此方面不受限制。

声学置信度模型330的训练可以基于有监督式机器学习方法。考虑到声学置信度模型330要实现的任务，在训练阶段，用于训练声学置信度模型330的训练数据包括声音信号和与声音信号对应的声学置信度标签，该标签指示对应的声音信号是否是用于人机交互的语音。训练数据通常包括正例样本和负例样本。在声学置信度模型330的任务中，正例样本(在本文中为便于区别有时也称为第一正例样本)包括用于人机交互的声音信号；负例样本(在本文中为便于区别有时也称为第一负例样本)包括非人机交互的声音信号(诸如噪声、人与人交流的声音、动物声等等)。正例样本对应的声学置信度标签指示对应的声音信号是用于人机交互的语音，负例样本对应的声学置信度标签指示对应的声音信号不是用于人机交互的语音。

在训练样本的采集时，可以将在语音交互设备(例如，可以是语义交互设备120和/或其他语音交互设备)的检测到唤醒词之前和之后采集到的声音信号分别用于作为负例样本和正例样本。在某些实施例中，还可以将用于一次唤醒一次交互场景下的语音交互设备采集到的唤醒词之前和之后的声音信号用作负例样本和正例样本。当然，任何其他方式的样本采集也是可行的。

在训练过程中，可以将样本的声音信号中的每一帧都标注为正例或负例(即具有与正例样本对应的声学置信度标签和与负例样本对应的声学置信度标签)。因此，在模型训练时，针对输入样本声音信号的每一帧，均可以用于与对应的声学置信度标签进行比较，并根据比较的误差来优化模型的参数。例如，在训练时，输入的样本声音信号的每一个帧在经过n个变换层430处理之后的声学特征表示均被提供给后续的全连接层440。

由于用于训练声学置信度模型330的正例样本是包括用于人机交互的声音信号、负例样本是非人机交互的声音信号，声学置信度模型330将被训练为能够准确区分用于人机交互的声音信号和非人机交互的声音信号。经过训练后，声学置信度模型330可以被应用于处理语音交互设备102的声音信号302。在应用阶段，n个变换层430之后将针对声音信号302的最后一个帧提取的声学特征表示提供用于后续的全连接层440。

如以上提及的，在处理声音信号302时，声学置信度模型330输出的声学置信度可以被用于直接确定或者与语义置信度模型340输出的语义置信度一起用于确定交互置信度。备选地，声学置信度模型330输出的声学置信度和/或从声音信号302提取的声学特征表示均可以作为输出332被提供给语音置信度引擎320中的融合模型370，由融合模型370用于结合来自其他模型的模型输出和/特征表示之后一起来确定最后的交互置信度372。在提供声学特征表示时，可以将声学置信度模型330的n个变换层430处理之后的声学特征表示提供给融合模型370。在不需要向融合模型370提供最后的声学置信度以用于确定交互置信度372的实施例中，在训练后的应用阶段，声学置信度模型330的全连接层440和输出层450可以不用于处理声音信号302的声学特征表示。

语义置信度模型的示例实施例

语义置信度模型340被配置为实现从语义上确定识别信息是从与用于人机交互的语音中识别出的信息的概率(称为语义置信度)，即确定识别信息有多大概率是从人与语音交互设备交互时的真实语音中识别出的信息或者有多大概率是从非人机交互的声音中识别出的信息。语义置信度模型340的输入是识别信息。语义置信度模型340能够被配置为获得与识别信息相关联的语义特征表示，并且基于语义特征表示来确定识别信息是用于人机交互的语音的语义置信度。

语义置信度模型340可以利用任何适合用于处理语义的机器学习模型来实现。在识别信息被表示为文本信息，例如是自然语言表示的文本序列时，语义置信度模型340可以利用适合自然语言处理(nlp)的机器学习模型来实现。在一些实施例中，语义置信度模型340可以基于卷积神经网络(cnn)、循环神经网络(诸如简单rnn、lstm网络、gru网络等)、变换器网络等等一个或多个类型的模型结构来实现。在一些实施例中，语义置信度模型340可以利用交互上下文、解码词图信息、用户行为反馈、识别结果语义信息等多种语义特征表示，从整体上直接判断识别信息是否为是从与用于人机交互的语音中识别出的信息。

图5示出了语义置信度模型340的一个示例模型结构。在该示例中，语义置信度模型340被构造为深度神经网络模型，并且基于双向lstm(bilstm)的模型结构。在一些实施例中，可以首先将识别信息的特征转换称为嵌入(embedding)表示。这样的转换功能可以被合并在语义置信度模型340中，或者由外部模型执行后提供给语义。在一些实施例中，如果由文本表示，则可以将识别信息分词(例如对于中文、日文、韩文等语言的文本)之后对分词后的嵌入表示作为模型输入。当然，在一些实施例中，也可以不对识别信息进行分词。

如图5所示，与识别信息分别对应的嵌入表示510-1、510-2、……510-n(统称为嵌入表示510，在此n是大于等于1的正整数)分别经由一个或多个lstm处理。在图5的示例中示出了两层的lstm，例如lstm520-1、520-2、……520-n(统称为lstm520)组成的一层和lstm530-1、530-2、……530-n(统称为lstm530)组成的一层。应当理解，更多lstm层或仅一层也是可行的。最后一层的各个lstm的输出被提供分别softmax层540-1、540-2、……540-n(统称为softmax层540)。softmax层540可以基于softmax函数来处理该层的输入。语义置信度模型340最后的输出层550可以输出关于识别信息是从与用于人机交互的语音中识别出的信息的语义置信度。

应当理解，图5仅示出了语义置信度模型340的一个示例。语义置信度模型340还可以被设计为包括更多的相同或不同类型的网络层，更少的网络层，或者其中的一个或多个网络层可以由其他的一个或网络层替换。本公开的实施例在此方面不受限制。

虽然图5中示出了基于双向的语义置信度模型340(例如，利用bi-lstm)，但因为基于语义特征表示的机器学习模型通常而言都比较小型，因此该模型实际中可以是单向模型也可以是双向模型。

如以上提及了语义置信度模型340为了确定语义置信度可以考虑的语义特征表示。在一些实施例中，语义置信度模型340的语义特征表示可以包括交互上下文。这里的交互上下文可以指的是人与语音交互设备进行交互的过程中，人提供的信息(例如通过语音输入的文本)和语音交互设备的响应对应的信息(例如通过语音输出的文本)，包括从该轮唤醒开始到当前交互的识别信息中的全部交互信息。语义特征表示还可以考虑解码词图信息。当前输入的识别信息可以是由词图中解码得到的，语义置信度模型340可以使用词图中的声学得分、语言得分以及总得分，同时包括识别信息中每个词的候选词列表等。

备选地或附加地，语义置信度模型340还可以考虑识别信息的语义特征，该语义特征重点涵盖了领域解析、意图判断、完整性判断等多个维度信息。备选地或附加地，语义置信度模型340还可以考虑用户个性化信息，该特征表征了用户注册以及历史很多次交互中积累形成的用户特性化信息，包括年龄、性别、高频点播资源名称列表、感兴趣领域列表等。备选地或附加地，语义置信度模型340还可以考虑用户与语音交互设备的交互过程中的行为反馈信息，该部分信息可以包括用户的行为，如切换资源、指令信息、聆听时长等。

语义置信度模型340的训练可以基于有监督式机器学习方法。考虑到语义置信度模型340要实现的任务，在训练阶段，用于训练语义置信度模型340的训练数据包括识别信息和与识别信息对应的语义置信度标签。训练数据通常包括正例样本和负例样本。在语义置信度模型340的任务中，正例样本(在本文中为便于区别有时也称为第二正例样本)包括从用于人机交互的声音信号中标注的正确信息(例如，可以是标注的准确文本)，正例样本(在本文中为便于区别有时也称为第二负例样本)包括非人机交互的信息。正例样本对应的语义置信度标签指示对应的信息是从用于人机交互的语音中识别的信息，负例样本对应的语义置信度标签指示对应的信息不是从用于人机交互的语音中识别出的信息。由于用于训练语义置信度模型340的正例样本与用于人机交互的声音信号相关、负例样本与非人机交互的声音信号相关联，语义置信度模型340将被训练为能够准确区分用于人机交互的声音信号和非人机交互的声音信号对应的信息。

在训练样本的采集时，可以从用于训练声学置信度模型330的正例样本和负例样本中标注出对应的信息，分别用于作为语义置信度模型340的正例样本和负例样本。负例样本也可以从其他信息载体(例如网页、文章等)上获取不是用于人机交互的信息。当然，任何其他方式的样本采集也是可行的。

如以上提及的，在处理识别信息312时，语义置信度模型340输出的语义置信度可以被用于直接确定或者与语义置信度模型340输出的语义置信度一起用于确定交互置信度。备选地，语义置信度模型340输出的语义置信度和/或与识别信息312相关联的语义特征表示均可以作为输出342被提供给语音置信度引擎320中的融合模型370，由融合模型370用于结合来自其他模型的模型输出和/特征表示之后一起来确定最后的交互置信度372。在提供语义特征表示时，可以直接利用特征工程所获得的特征表示，而不需要语义置信度模型340执行过多处理。

局部信息声音置信度模型的示例实施例

如以上提及的，识别信息可以被表示为单元序列，单元序列包括一个或多个单元。每个单元可以以下任一项：词、音节、图素(例如，在中文中指的是单个字，在英文中指的是组成单词的字母等，以此类推)、音素、亚音素、多音素组合片段、或者多图素组合片段。在一些实施例中，由识别信息转换的单元序列中的一个或多个单元还可以包括上下文相关单元，该上下文相关单元与识别信息直接转换的单元(例如词、音节、图素、音素、亚音素、多音素组合片段、多图素组合片段)的上下文相关。这有助于区分各个单元的上下文。例如，对于识别文本“我的祖国”，在转换成音素序列之后可以被表示为“wodezuguo”。再向音素序列中增加上下文相关的组合，音素序列可以被变换为“^_w+o,w_o+d,o_d+e……”等。这里，上下文的组合用于区分在不同上下文中的同一音素。

局部信息声音置信度模型350被配置从声音信号的声学片段基础上判断组成识别信息的每个单元被准确识别的概率(也称为匹配置信度)。

具体地，在将识别信息转换为单元序列表示之后，可以将声音信号划分为与单元序列中的单元分别对应的一个或多个声学片段，每个单元与每个声学片段依次对齐，以组成至少一个单元声学片段对。在对声音信号进行划分时，可以首先将声音信号中的静音部分删除，然后将其他部分合并之后进行划分，划分的声学片段的数目与单元序列中单元的数目相同。

每个单元声学片段对被用作局部信息声音置信度模型350的输入。局部信息声音置信度模型350可以被配置为提取各个单元声学片段对的单元声学片段特征表示，并且基于提取的单元声学片段特征表示来确定对应的单元与声学片段的匹配置信度。匹配置信度的取值可以是离散取值，例如0或1，其中0指示单元与声学片段不匹配，而1指示单元与声学片段匹配。在另外一些示例中，匹配置信度的取值可以是连续取值，例如在0与1之间，以指示匹配或不匹配的概率。

在一些实施例中，对声学片段与单元的对齐可以利用对齐模型来实现，对齐模型可以是基于隐马尔可夫模型(hmm)的三状态对齐模型，对齐所使用的声学模型是由卷积神经网络和全连接神经网络组成。局部信息声音置信度模型350可以利用任何适合用于处理声音信号和信息语义的机器学习模型来实现。在一些实施例中，局部信息声音置信度模型350可以基于多层cnn模型结构来实现，典型的模型结构的示例例如可以包括计算机视觉组(visualgeometrygroup，vgg)、inception网络、残差网络等。

图6示出了局部信息声音置信度模型350的一个示例结构。在图6的示例中，局部信息声音置信度模型350基于共享隐含层vgg的mixlr(mixtureoflogisticregression，混合逻辑斯特回归)模型。如图所示，局部信息声音置信度模型350包括一个或多个级联的cnn结构602，每个cnn结构602中包括一个或多个cnn网络层610和池化层620。在具有多个cnn结构602时，不同cnn结构602串联并且其中的池化层620可以不断缩小从前一个cnn结构602向该cnn结构602传递的中间特征表示的尺寸。经过全部cnn结构602的处理之后，局部信息声音置信度模型350包括全连接层630、sigmoid层640和mixlr模型650。mixlr模型650给出局部信息声音置信度模型350的输出。

应当理解，图6仅示出了局部信息声音置信度模型350的一个示例。局部信息声音置信度模型350还可以被设计为包括更多的相同或不同类型的网络层，更少的网络层，或者其中的一个或多个网络层可以由其他的一个或网络层替换。本公开的实施例在此方面不受限制。

局部信息声音置信度模型350的训练可以基于有监督式机器学习方法。考虑到局部信息声音置信度模型350要实现的任务，在训练阶段，用于训练局部信息声音置信度模型350的训练数据包括声音信号中的声学片段、单元、声学片段与单元对应的标签(指示单元与声学片段的匹配程度)。训练数据通常包括正例样本和负例样本。正例样本(在本文中为便于区别有时也称为第三正例样本)包括用于人机交互的声音信号中的声学片段(为便于区别有时也称为第一声学片段)、从第一声学片段中标注的单元(为便于区别有时也称为第一单元)、第一声学片段与第一单元对应的标签(指示单元与声学片段的匹配程度)。负例样本(在本文中为便于区别有时也称为第三负例样本)包括第三负例样本包括某个声学片段(为便于区别有时也称为第二声学片段)和与第二声学片段中出现的单元不同的单元(为便于区别有时也称为第二单元)。在一些实施例中，第三负例样本还可以包括人机交互的声音信号中和/或非人机交互的声音信号中的声学片段和与声学片段不匹配的单元。

在确定局部信息声音置信度模型350的正例样本和负例样本时，还可以采用基于混淆矩阵的正负例定义方法。在局部信息声音置信度模型350的两类确认问题中，正负例的定义很重要。在一些实施例中，对正负例的定义过程可能还需要配合基于损失函数的优化方法。在一些实施例中，可以采用维特比对齐形成的混淆矩阵作为正负例的参考，将混淆矩阵中非常相似的前几个(例如前k个，其中k大于等于1)不作为该声学片段的负例，其余都是该声学片段的负例。这个过程中利用基于焦点损失(focalloss)的损失函数。

在训练样本的采集时，可以从用于训练语义置信度模型340的正例样本和负例样本中识别出对应的识别信息中的单元以及与单元对应的声学片段，分别用于作为局部信息声音置信度模型350的正例样本和负例样本。还可以通过随机将与声学片段对应的单元修改为其他单元，以作为另外的负例样本。当然，任何其他方式的样本采集也是可行的。

如以上提及的，在处理识别信息312和声音信号302时，局部信息声音置信度模型350输出的各个单元对应的匹配置信度可以被用作信息与声音的匹配状况或者与全局信息声音置信度模型360的输出一起用于确定匹配状况。备选地，局部信息声音置信度模型350输出的识别信息的单元级别上的匹配置信度和/或每个单元声学片段特征表示均可以被提供给语音置信度引擎320中的融合模型370，由融合模型370用于结合来自其他模型的模型输出和/特征表示之后一起来确定最后的匹配状况374。

全局信息声音置信度模型的示例实施例

与局部信息声音置信度模型350相比，全局信息声音置信度模型360被配置从声音信号整体上判断识别信息中各个单元被准确识别的情况，以及在识别信息总体没有被准确识别时具体错误的类型和可能出错的位置。

全局信息声音置信度模型360可以被构造为输出一个标签序列，该标签序列包括与表示单元序列中的每个单元对应的多个匹配标签、起始标签以及结束标签。每个匹配标签指示多个单元中的一个单元是否与声音信号中的对应声学片段相匹配，起始标签指示多个单元中的起始单元是否在声音信号的起始位置出现，并且结束标签指示多个单元中的最后一个单元是否在声音信号的结束位置出现。如果识别信息对应的单元序列包括多个单元，序列标签中还可以包括在多个单元中的相邻两个单元的匹配标签之间的相应相邻指示标签。每个相邻指示标签指示相邻两个单元是否在声音信号中的相邻位置出现。

在一些实施例中，全局信息声音置信度模型360可以采用神经网络结构中经典的编码器解码器架构，其中编码器架构可以与声学置信度模型330共享。当然，全局信息声音置信度模型360也可以利用完全独立的编码器解码器架构。在编码器解码器架构中，可以利用注意力架构等。在一些实施例中，编码器架构可以基于cnn、循环神经网络(简单的rnn、lstm、gru等)、变换器网络等等一个或多个类型的模型结构来实现。注意力架构可以包括和式注意力机制、自注意力机制、点乘注意力机制、局部敏感注意力机制等。解码器架构类似于编码器，可以基于cnn、循环神经网络(简单的rnn、lstm、gru等)、变换器网络等等一个或多个类型的模型结构来实现。

图7示出了全局信息声音置信度模型360的一个示例模型结构。在该示例中，全局信息声音置信度模型360的编码器架构与声学置信度模型330共享。即，由声学置信度模型330处理声音信号，以提供声学特征表示(例如从声学置信度模型330最后的变换层430提供)。全局信息声音置信度模型360的嵌入层710提取识别信息的语义特征表示。全局信息声音置信度模型360还包括注意力架构720，包括基于自注意力部分722、点乘注意力部分724和前馈层726。全局信息声音置信度模型360还包括全连接层730和输出层740，用于提供最终的标签序列。全局信息声音置信度模型360被配置为按识别信息中各个单元的顺序对标签序列进行预测。在逐单元处理的过程中，全局信息声音置信度模型360可以基于声学特征表示和语义特征表示来提取全局声学语义特征表示，最后生成标签序列。

为更好地了解这样的标签序列，将参考图8的若干示例来详细描述标签序列如何有助于不仅给出单个单元的识别准确度判断，还能够确定在识别信息没有逐单元匹配的情况下出现了何种错误。通常，常见的识别错误可以归类为：删除错误，即丢了一个或多个单元；插入错误，即识别信息中被插入一个或多个额外的单元；替换错误，即识别信息中的一个或多个单元被替换为其他单元。在特定识别信息中可能出现上述一类或多类错误。

在图8的示例(a)中，假设声音信号中的正确信息是“abcd”，识别信息却被识别为“acd”。全局信息声音置信度模型360在识别信息的基础上，在识别信息的前后增加起始标签位和结束标签位，并且在识别信息中相邻两个单元之间增加相邻标签位。全局信息声音置信度模型360被用于确定各个标签位以及各个单元对应的匹配标签的取值。例如，按顺序，全局信息声音置信度模型360从声音信号总体上确定识别信息中的单元“a”在声音信号的起始位置出现，并且单元“a”与声音信号中的声音片段也匹配，因此标签序列中起始标签被标记为“1”，指示是起始位置，与单元“a”对应的匹配标签也被标记为“1”，用于指示单元匹配。

进一步地，全局信息声音置信度模型360发现识别信息中相邻两个单元“a”和“c”在声音信号中并不相邻，因为声音信号中显示这两个单元之间还有其他单元，即单元“b”。因此，相邻两个单元“a”和“c”之间的相邻标签被标记为“0”，指示这相邻两个单元没有在声音信号中的相邻位置出现。全局信息声音置信度模型360继续针对单元“c”和“d”的匹配和相邻情况进行判断，并且还对结束单元“d”之后的结束标签进行判断。全局信息声音置信度模型360可以生成针对识别信息“acd”的标签序列：1101111。通过该标签序列可以确定单元“a”与“c之间丢了一个或多个单元，从而判断识别信息中出现“删除错误”。

在图8的示例(b)中，假设声音信号中的正确信息是“abcd”，识别信息却被识别为“aebcd”。全局信息声音置信度模型360在识别信息的基础上，在识别信息的前后增加起始标签位和结束标签位，并且在识别信息中相邻两个单元之间增加相邻标签位。通过按顺序确定各个标签位的取值，全局信息声音置信度模型360可以生成针对识别信息“aebcd”的标签序列：11000111111。通过该标签序列可以确定识别信息“aebcd”中单元“a”与单元“b”之间的单元“e”是被错误插入的，从而判断识别信息中出现“插入错误”。

在图8的示例(c)中，假设声音信号中的正确信息是“abcd”，识别信息却被识别为“aecd”。全局信息声音置信度模型360在识别信息的基础上，在识别信息的前后增加起始标签位和结束标签位，并且在识别信息中相邻两个单元之间增加相邻标签位。通过按顺序确定各个标签位的取值，全局信息声音置信度模型360可以生成针对识别信息“aecd”的标签序列：111011111。通过该标签序列可以确定单元“a”与“c之间的单元“e”是被错误识别的，而该处本应存在另一个单元，从而判断识别信息中出现“替换错误”。

全局信息声音置信度模型360的训练可以基于有监督式机器学习方法。考虑到全局信息声音置信度模型360要实现的任务，在训练阶段，用于训练全局信息声音置信度模型360的训练数据包括声音信号、识别信息和针对该声音信号和识别信息生成的标签序列。训练数据通常包括正例样本和负例样本。

在全局信息声音置信度模型360的任务中，正例样本(在本文中为便于区别有时也称为第四正例样本)包括用于人机交互的第一声音信号、从第一声音信号中标注的第一信息和相对于第一信息和第一声音信号生成的正确标签序列。负例样本(在本文中为便于区别有时也称为第四负例样本)可以是除了第四正例样本之外的其他训练样本(即其他声音信号、信息和标签序列的组合)。负例样本可以包括第二声音信号、第二信息和相对于第二信息或第二声音信号生成的错误标签序列。具体地，第二声音信号可以是用于人机交互的语音和/或不是用于人机交互的声音。第二信息可以是对第二声音信号识别的错误信息，从而导致生成错误标签序列。或者第二信息也可以是对第二声音信号识别的正确信息，但生成的标签序列是错误的。

在训练样本的采集时，可以从用于训练声学置信度模型330的正例样本和负例样本以及从中识别别出的信息，以用于构造全局信息声音置信度模型360的正例样本和负例样本。当然，任何其他方式的样本采集也是可行的。

如以上提及的，在处理识别信息312和声音信号302时，全局信息声音置信度模型360输出的标签序列可以被用作匹配状况或者与局部信息声音置信度模型350的输出一起用于确定匹配状况。备选地，全局信息声音置信度模型360输出的标签序列和/或相对于多个单元中的结束单元提取的全局声学语义特征表示均可以被提供给语音置信度引擎320中的融合模型370，由融合模型370用于结合来自其他模型的模型输出和/特征表示之后一起来确定最后的匹配状况374。

融合模型的示例实施例

融合模型370被配置从声学置信度模型330、语义置信度模型340、局部信息声音置信度模型350和/或全局信息声音置信度模型360提供的模型最终输出或者特征表示来确定最终的交互置信度372和匹配状况374。由于四个模型330、340、350和360每个模型各有侧重，融合模型370将每个模型的信息融合之后可以给出更准确判断，进一步提升性能。

融合模型370可以被构造为深度神经网络，包括相应的一个或多个网络层，诸如卷积层、rnn层、全连层、输出层等，用于基于融合模型370的输入来确定最终的输出。

在一些实施例中，可以首先单独训练声学置信度模型330、语义置信度模型340、局部信息声音置信度模型350和/或全局信息声音置信度模型360，然后再将融合模型370加入训练。在一些实施例中，可以对训练声学置信度模型330、语义置信度模型340、局部信息声音置信度模型350和/或全局信息声音置信度模型360与融合模型370进行端到端训练。本公开的实施例在此方面不受限制。

在某些实施例中，对于交互置信度，通过考虑局部信息声音置信度模型350和/或全局信息声音置信度模型360给出的在识别信息312的单元粒度上的匹配状况，除了可以从总体上确定声音信号302是用于与语音交互设备120进行交互的语音的可靠程度之外，还可以确定声音信号302的一部分是否是用于与语音交互设备120进行交互的语音的可靠程度。

具体地，局部信息声音置信度模型350和/或全局信息声音置信度模型360可以输出针对识别信息312的各个单元是否是正确匹配声音信号302中的各个声音片段、以及各个单元之间总体上呈现的错误之外，局部信息声音置信度模型350和/或全局信息声音置信度模型360还可以被配置为确定声音信号中的各个声学片段是用于人机交互的可靠程度。这里的声学片段可以对齐到表示识别信息的各个单元。由于局部信息声音置信度模型350和/或全局信息声音置信度模型360的训练的正例样本是与人机交互的声音信号和信息相关，因此这样的可靠程度是可以确定的。局部信息声音置信度模型350和/或全局信息声音置信度模型360的输出可以用于由融合模型370用于更精细化地确定交互置信度372，以指示声音信号302总体上或部分是用于与语音交互设备120进行交互的语音的可靠程度。

通过对声音信号302是否是部分用于与语音交互设备120进行交互的语音的可靠度的确定，有助于进一步提高对语音交互设备120的响应控制的智能度和准确度。例如，如果语音交互设备120采集到由用户110发出的语音指令“我想听……”以及由用户110所处环境中其他人交流的语音“……赶紧收衣服”。那么声音信号302以及对应的识别信息可能都包括“我想听赶紧收衣服”。通过在单元级别上对声音信号的声学片段用于语音交互的置信度的判断，可以确定声音信号302中的前半部分“我想听”是用于人机交互的目的，而后半部分“赶紧收衣服”不是用于人机交互的目的、无需进行响应。这样的交互置信度可以促使控制语音交互设备120忽略后半部分的声音，而仅对前半部分的声音进行响应，例如，发出声音再次询问用户“您想听什么”。

语音起尾点检测的示例实施例

通常，常规语音尾点检测技术根据用户静默来确定语音指令结束，但这可能会导致在用户提问犹豫不决时(此时语音指令还未完成)就结束声音采集，这将导致后续语音置信度的频繁判断并且频繁判断出非语音交互的声音。这样不仅导致用户体验不佳，而且导致交互控制装置140的资源浪费。

在本公开的一些实施例中，交互控制装置140还可以被配置在语音交互设备120的声音采集器收音期间检测用户110的语音的结束。图9示出了交互控制装置140的一个示例。如图9所示，交互控制装置140包括信号vad(voiceactivitydetection，语音激活检测)模块910和语义vad模块920。

当语音交互设备120的声音采集器122没有检测到语音时，端信号vad模块910可以用于部分过滤掉非语音数据。这时没有声音信号被送入语音识别引擎310。当声音采集器122检测到类似语音的声音信号时，端信号vad模块910检测到声音的起点，并且将采集到的原始声音902不断发送作为声音信号302的至少一部分提供给语音识别引擎310。如果语音识别引擎310从当前获得的待处理声音中检测出信息，可以将当前识别出的待处理信息提供给语义vad模块920，用于由语义vad模块920确定待处理信息语义是否完整。

如果端信号vad模块910检测到声音采集器122采集到的待处理声音信号的结束，并且语义vad模块920确定待处理信息语义完整，当前的声音信号302和从声音信号302识别的信息312被提供给语音置信度引擎320，以尽快控制语音交互设备120进行响应。这可以实现设备的快速交互响应，降低用户疑虑预期。此外，通过在检测到语音尾点并且语义完整的情况下才执行语音置信度确定和响应的控制，可以解决用户犹豫发问的场景。例如，在用户停顿(例如，用户发出声音“我想听……”时)，由于语义不完整，虽然检测到语音尾点，但仍然等待用户后续的声音信号、等待用户表达完整，而不是直接判断用户的语音指令无法响应。

在一些实施例中，信号vad模块910和/或语义vad模块920也可以基于机器学习模型来实现，例如基于cnn、循环神经网络(例如lstm)、全连接网络层等。信号vad模块910可以被构造为分类模型，其中模型输入为声音信号，输出为对声音信号的分类。对声音信号的分类例如可以包括没有语音、语音起点、持续语音和语音尾点四类。对声音信号的分类有时还可以包括其他类别，例如语音中间停顿等。信号vad模块910对输入提取的特征表示例如可以包括声音信号的梅尔频率倒谱系数(mfcc)、感知线性预测(plp)，还可以利用滤波器组来提取声学特征。语义vad模块920的输入为识别信息，输出为对识别信息的语义完整度的判断，其可以是由0或1构成的而分类问题(语义完整或语义不完整)，也可以是0到1之间的连续取值(语义完整或不完整的概率)。

在一些实施例中，特别是在一次唤醒连续交互的场景中，由于在用户可能发出语音指令的时间段内，语音交互设备120也可能正在发出声音，因此，还可以要求语音交互设备120对声音采集器122采集到的原始信号执行回声消除后，再将回声消除后得到的声音信号提供给本地或远端的交互控制装置140用于处理。例如，可以由语音交互设备120本地端的交互控制装置140执行这样的回声消除。

装置的示例实施例

图10示出了根据本公开的一些实施例的用于语音交互控制的装置1000的示意性框图。装置1000可以被包括在图1的交互控制装置140-1、140-2或语音交互设备120。

如图10所示，装置1000包括获得模块1010，被配置为获得模块，被配置为获得语音交互设备处的声音信号和从声音信号识别的识别信息；交互置信度确定模块1020，被配置为至少基于声音信号的声学特征表示和与识别信息相关联的语义特征表示中的至少一项来确定声音信号的交互置信度；匹配状况确定模块1030，被配置为确定识别信息与声音信号的匹配状况；以及提供模块1040，被配置为提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。

在一些实施例中，交互置信度确定模块包括：第一模型执行模块，被配置为利用声学置信度模型来执行以下一项或多项：提取声音信号的声学特征表示，基于声学特征表示来确定声音信号用于人机交互的语音的声学置信度；以及第一融合确定模块，被配置为利用融合模型、至少基于声学特征表示和声学置信度中的至少一项来确定交互置信度。

在一些实施例中，声学置信度模型的训练基于第一正例样本和第一负例样本，第一正例样本包括用于人机交互的声音信号，并且第一负例样本包括非人机交互的声音信号。

在一些实施例中，交互置信度模块包括：信息特征提取模块，被配置为提取与识别信息相关联的语义特征表示；第二模型执行模块，被配置为利用语义置信度模型基于语义特征表示来确定识别信息是从与用于人机交互的语音中识别出的信息的语义置信度；以及第二融合确定模块，被配置为利用融合模型、至少基于语义特征表示和语义置信度中的至少一项来确定交互置信度。

在一些实施例中，语义置信度模型的训练基于第二正例样本和第二负例样本，第二正例样本包括从用于人机交互的声音信号中标注的真实信息，并且第二负例样本包括非人机交互的信息。

在一些实施例中，识别信息被表示为单元序列，单元序列包括至少一个单元，每个单元选自包括以下各项的组：词、音节、图素、音素、亚音素、多音素组合片段、多图素组合片段、以及前述任一项的上下文相关单元，并且匹配状况确定模块包括：声音划分模块，被配置为将声音信号划分为与单元序列中的单元分别对应的至少一个声学片段，每个单元与每个声学片段依次对齐，以组成至少一个单元声学片段对；第三模型执行模块，被配置为利用局部单元声置信度模型执行以下一项或至少一项：分别提取至少一个单元声学片段对的至少一个单元声学片段特征表示，以及基于至少一个单元声学片段特征表示来分别确定至少一个单元与至少一个声学片段的相应匹配置信度；以及第三融合确定模块，被配置为利用融合模型，至少基于至少一个单元声学片段特征表示和相应匹配置信度中的至少一项来确定匹配状况。

在一些实施例中，交互置信度确定模块包括：第四融合确定模块，被配置为利用融合模型，基于声学特征表示和语义特征表示中的至少一项以及相对于至少一个单元声学片段特征表示和相应匹配置信度中的至少一项，来确定交互置信度，以指示以下至少一项：声音信号总体上是用于与语音交互设备进行交互的语音的可靠程度，和声音信号的一部分是用于与语音交互设备进行交互的语音的可靠程度。

在一些实施例中，第四融合确定模块被配置为：利用融合模型，基于声学特征表示和语义特征表示中的至少一项以及至少一个单元声学片段特征表示和相应匹配置信度中的至少一项，来确定匹配状况。

在一些实施例中，局部信息声音置信度模型的训练基于第三正例样本和第三负例样本，第三正例样本包括用于人机交互的声音信号中的第一声学片段和从第一声学片段中标注的第一单元，并且第三负例样本包括第二声学片段和与第二声学片段中出现的单元不同的第二单元。

在一些实施例中，识别信息被表示为单元序列，单元序列至少包括至少一个单元，每个单元选自包括以下各项的组：词、音节、图素、音素、亚音素、多音素组合片段、多图素组合片段、以及前述任一项的上下文相关单元。匹配状况确定模块包括：第四模型执行模块，被配置为利用全局信息声音置信度模型执行以下一项或多项：基于声学特征表示和语义特征表示来提取全局声学语义特征表示，以及基于全局声学语义特征表示来生成标签序列，标签序列包括与单元序列对应的匹配标签、起始标签和结束标签，每个匹配标签指示单元序列中每个单元是否与声音信号中的对应声学片段相匹配，起始标签指示单元序列中的起始单元是否在声音信号的起始位置出现，并且结束标签指示单元序列中的最后一个单元是否在声音信号的结束位置出现；；以及第五融合确定模块，被配置为利用融合模型，至少基于全局声学语义特征表示和标签序列中的至少一项，来确定匹配状况。

在一些实施例中，单元序列包括多个单元，并且第四模型执行模块还被配置为：生成标签序列以进一步包括在多个单元中的相邻两个单元的匹配标签之间的至少一个相邻指示标签，每个相邻指示标签指示多个单元中的相邻两个单元是否在声音信号中的相邻位置出现。

在一些实施例中，交互置信度确定模块包括：第六融合确定模块，被配置为利用融合模型，基于声学特征表示和语义特征表示中的至少一项以及全局声学语义特征表示和标签序列中的至少一项，来确定交互置信度，以指示以下至少一项：声音信号总体上是用于与语音交互设备进行交互的语音的可靠程度，和声音信号的一部分是用于与语音交互设备进行交互的语音的可靠程度。

在一些实施例中，全局信息声音置信度模型的训练基于第四正例样本和第四负例样本，第四正例样本包括用于人机交互的第一声音信号、从第一声音信号中标注的第一信息和相对于第一信息和第一声音信号生成的正确标签序列，并且第四负例样本包括除第四正例样本之外的其他声音信号、信息和标签序列的组合。

在一些实施例中，获得模块包括：结束确定模块，被配置为在语音交互设备的声音采集器收音期间，确定由声音采集器采集到的待处理声音信号的结束；语义完整检测模块，被配置为确定从待处理声音信号中识别的待处理信息是否语义完整；以及声音和信息确定模块，被配置为根据确定待处理信息语义完整，将待处理声音信号确定为声音信号并且将待处理信息确定为识别信息。

在一些实施例中，装置1000进一步包括等待获取模块，被配置为根据确定待处理信息语义不完整，等待并且获得由声音采集器采集到的后续待处理声音信号。

在一些实施例中，待处理声音信号由语音交互设备对由声音采集器采集到的原始信号执行回声消除后生成。

在一些实施例中，识别信息包括文本信息。

在一些实施例中，装置1000进一步包括：响应确定模块，被配置为：根据确定交互置信度低于预定置信度阈值，控制语音交互设备不对声音信号进行响应；以及根据确定交互置信度超过预定置信度阈值，基于匹配状况来确定由语音交互设备提供的对声音信号的响应，响应包括对声音信号的直接反馈或对语音交互设备的用户的引导反馈，引导反馈引导用户澄清对语音交互设备的期望指令。

设备的示例实施例

图11示出了可以用来实施本公开的实施例的示例设备1100的示意性框图。设备1100可以用于实现图1的交互控制装置140-1、140-2或语音交互设备120。

如图所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(rom)1102中的计算机程序指令或者从存储单元1108加载到随机访问存储器(ram)1103中的计算机程序指令，来执行各种适当的动作和处理。在ram1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、rom1102以及ram1103通过总线1104彼此相连。输入/输出(i/o)接口1105也连接至总线1104。

设备1100中的多个部件连接至i/o接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如过程200。例如，在一些实施例中，过程200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由rom1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到ram1103并由计算单元1101执行时，可以执行上文描述的过程200的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白锦峰;翟传磊;陈旭;陈涛;马啸空;张策;吴震;彭星源;王知践;钱胜;王桂彬;贾磊
技术所有人：百度在线网络技术(北京)有限公司
我是此专利的发明人

上一篇：一种语音控制方法、装置、存储介质和智能设备与流程
上一篇：一种四氮唑导向的间位硝化的C-H活化新方法与流程