语音交互方法、介质、装置和计算设备与流程

文档序号：17587544发布日期：2019-05-03 21:27阅读：230来源：国知局

本发明的实施方式涉及计算机技术领域，更具体地，本发明的实施方式涉及语音交互方法、介质、装置和计算设备。

背景技术：

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

语音交互的本质是人机交互，是指用户与机器以语音为载体进行互动、沟通、信息交换，产生一系列的输入和输出，最终完成相应任务或达到相应目的。

现有的语音交互方案需要开发人员预先撰写机器应答内容，当用户输入语音信息时，将语音信息转换为文本，选择与该文本相匹配的应答内容作为输出。一方面，应答内容的撰写需要投入大量的人力，效率低下，另一方面，预先撰写的应答内容刻板生硬，无法满足用户情感需求。

技术实现要素：

出于上述原因，现有的语音交互方案需要投入大量人力撰写应答内容，且应答内容刻板生硬，无法满足用户情感需求。

为此，需要一种改进的语音交互方法，以实现更高效、更具情感共鸣的人机交互。

在本上下文中，本发明的实施方式期望提供一种语音交互方法和装置。

在本发明实施方式的第一方面中，提供了一种语音交互方法，包括：接收用户输入的语音信息，将所述语音信息转换为语句文本；从预置音乐评论库中获取与所述语句文本相匹配的评论信息；以及，输出所述评论信息作为对于所述语音信息的应答。

在本发明的一个实施例中，在上述输出所述评论信息作为对于所述语音信息的应答之后，上述方法还包括：播放与所述评论信息对应的音乐。

在本发明的另一实施例中，在上述从预置音乐评论库中获取与所述语句文本相匹配的评论信息之前，上述方法还包括：获取满足预设条件的多条关于音乐的评论信息，由所获取的多条评论信息构建预置音乐评论库；识别预置音乐评论库中各评论信息的焦点信息和意图信息。上述从预置音乐评论库中获取与所述语句文本相匹配的评论信息包括：基于所述预置音乐评论库中各评论信息的焦点信息和意图信息，获取与所述语句文本相匹配的评论信息。

在本发明的又一实施例中，上述获取满足预设条件的关于音乐的多条评论信息包括：根据所述用户的历史音乐交互行为数据，获取所述用户的个性化音乐对应的评论信息，其中，所述用户的个性化音乐包括如下至少一种：所述用户收藏的音乐、所述用户创建的音乐、所述用户喜欢的音乐或所述用户播放的音乐；并且/或者，获取当前推广音乐对应的评论信息；并且/或者，获取点赞数超过第一阈值的评论信息。

在本发明的再一实施例中，上述基于所述预置音乐评论库中各评论信息的焦点信息和意图信息，获取与所述语句文本相匹配的评论信息包括：识别所述语句文本的焦点信息和意图信息；将所述语句文本的焦点信息与所述预置音乐评论库中各评论信息的焦点信息进行匹配，筛选出焦点匹配的评论信息；以及，将所述语句文本的意图信息与所述焦点匹配的评论信息的意图信息进行匹配，筛选出焦点匹配且意图匹配的评论信息。

在本发明的再一实施例中，上述识别预置音乐评论库中各评论信息的焦点信息和意图信息包括：基于标签库从所述各评论信息中提取用于表征相应的焦点信息的标签，基于意图分类库从所述各评论信息中提取用于表征相应的意图信息的意图句式。上述识别所述语句文本的焦点信息和意图信息包括：基于所述标签库从所述语句文本中提取用于表征相应的焦点信息的标签，基于意图分类库从所述语句文本中提取用于表征相应的意图信息的意图句式。上述将所述语句文本的焦点信息与所述音乐评论库中各评论信息的焦点信息进行匹配包括：将所述语句文本的标签与所述各评论信息的标签进行匹配，当匹配度超过第二阈值时确定为焦点匹配的评论信息。以及，上述将所述语句文本的意图信息与所述焦点匹配的评论信息的意图信息进行匹配包括：将所述语句文本的意图句式与所述焦点匹配的评论信息的意图句式进行匹配，当匹配度超过第三阈值时确定为焦点匹配且意图匹配的评论信息。

在本发明的再一实施例中，上述从音乐评论库中获取与所述语句文本相匹配的评论信息还包括：当筛选出多条焦点匹配且意图匹配的评论信息时，获取各评论信息对应的音乐的优先级；基于所述音乐的优先级对所述评论进行排序，基于排序结果选取一条评论信息。

在本发明的再一实施例中，上述获取各评论信息对应的音乐的优先级包括：根据所述用户的历史音乐交互行为数据，确定所述各评论信息对应的音乐的综合评分，所述用户的历史音乐交互行为数据包括如下至少一种：所述用户收藏音乐的行为数据、所述用户点赞音乐的行为数据、所述用户播放音乐的行为数据、所述用户评论音乐的行为数据、所述用户分享音乐的行为数据或所述用户创建音乐的行为数据。

在本发明实施方式的第二方面中，提供了一种语音交互装置，包括：接收模块、匹配模块和输出模块。接收模块用于接收用户输入的语音信息，将所述语音信息转换为语句文本。匹配模块用于从预置音乐评论库中获取与所述语句文本相匹配的评论信息。输出模块用于输出所述评论信息作为对于所述语音信息的应答。

在本发明的一个实施例中，上述装置还包括播放模块，用于在输出模块输出所述评论信息作为对于所述语音信息的应答之后，播放与所述评论信息对应的音乐。

在本发明的另一实施例中，上述装置还包括：第一预处理模块和第二预处理模块。第一预处理模块用于在匹配模块从预置音乐评论库中获取与所述语句文本相匹配的评论信息之前，获取满足预设条件的多条关于音乐的评论信息，由所获取的多条评论信息构建预置音乐评论库。第二预处理模块用于识别预置音乐评论库中各评论信息的焦点信息和意图信息。则匹配模块用于基于所述预置音乐评论库中各评论信息的焦点信息和意图信息，从预置音乐评论库中获取与所述语句文本相匹配的评论信息。

在本发明的又一实施例中，第一预处理模块具体用于根据所述用户的历史音乐交互行为数据，获取所述用户的个性化音乐对应的评论信息，其中，所述用户的个性化音乐包括如下至少一种：所述用户收藏的音乐、所述用户创建的音乐、所述用户喜欢的音乐或所述用户播放的音乐；并且/或者，获取当前推广音乐对应的评论信息；并且/或者，获取点赞数超过第一阈值的评论信息。

在本发明的再一实施例中，匹配模块包括：识别子模块、第一匹配子模块和第二匹配子模块。识别子模块用于识别所述语句文本的焦点信息和意图信息。第一匹配子模块用于将所述语句文本的焦点信息与所述预置音乐评论库中各评论信息的焦点信息进行匹配，筛选出焦点匹配的评论信息。第二匹配子模块用于将所述语句文本的意图信息与所述焦点匹配的评论信息的意图信息进行匹配，筛选出焦点匹配且意图匹配的评论信息。

在本发明的再一实施例中，第二预处理模块具体用于基于标签库从所述各评论信息中提取用于表征相应的焦点信息的标签，基于意图分类库从所述各评论信息中提取用于表征相应的意图信息的意图句式。识别子模块具体用于基于所述标签库从所述语句文本中提取用于表征相应的焦点信息的标签，基于意图分类库从所述语句文本中提取用于表征相应的意图信息的意图句式。第一匹配子模块具体用于将所述语句文本的标签与所述各评论信息的标签进行匹配，当匹配度超过第二阈值时确定为焦点匹配的评论信息。以及，第二匹配子模块具体用于将所述语句文本的意图句式与所述焦点匹配的评论信息的意图句式进行匹配，当匹配度超过第三阈值时确定为焦点匹配且意图匹配的评论信息。

在本发明的再一实施例中，匹配模块还包括获取子模块和排序子模块。获取子模块用于当筛选出多条焦点匹配且意图匹配的评论信息时，获取各评论信息对应的音乐所属类别的优先级。排序子模块用于基于所述音乐的优先级对所述评论进行排序，基于排序结果选取一条评论信息。

在本发明的再一实施例中，获取子模块具体用于根据所述用户的历史音乐交互行为数据，确定所述各评论信息对应的音乐的综合评分，其中，所述用户的历史音乐交互行为数据包括如下至少一种：所述用户收藏音乐的行为数据、所述用户点赞音乐的行为数据、所述用户播放音乐的行为数据、所述用户评论音乐的行为数据、所述用户分享音乐的行为数据或所述用户创建音乐的行为数据。

在本发明实施方式的第三方面中，提供了一种介质，存储有计算机可执行指令，所述指令在被处理器执行时用于实现：上述实施例中任一项所述的语音交互方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令，处理器执行指令时实现：上述实施例中任一项所述的语音交互方法。

根据本发明实施方式的语音交互方法和装置，从众多已有的关于音乐的评论信息中选取与当前用户输入的语音信息相匹配的评论信息作为应答，无需开发人员预先撰写应答内容，大量缩减在应答内容撰写上所投入的人力。且由于评论信息由真实用户基于对相应音乐的真实情绪所表达，将相匹配的评论信息作为语音信息的应答，能够引起当前输入语音信息的用户的情感共鸣，满足用户情感需求。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的语音交互方法及其装置的应用场景；

图2示意性地示出了根据本发明一个实施例的语音交互方法的流程图；

图3示意性地示出了根据本发明另一个实施例的语音交互方法的流程图；

图4a示意性地示出了根据本发明一个实施例的预置音乐评论库的示意图；

图4b示意性地示出了根据本发明一个实施例的语音交互过程的示意图；

图5a示意性地示出了根据本发明一个实施例的语音交互装置的框图；

图5b示意性地示出了根据本发明另一个实施例的语音交互装置的框图；

图6示意性地示出了根据本发明一个实施例的匹配模块的框图；

图7示意性地示出了根据本发明实施方式的计算机可读存储介质产品的示意图；以及

图8示意性地示出了根据本发明实施方式的计算设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种语音交互方法、介质、装置和计算设备。

在本文中，需要理解的是，所涉及的术语包括：语音信息、语句文本、预置音乐评论库、评论信息等。其中，语音信息为基于声音记录的音频数据，将语音信息的内容转换为相应的文本，即得到语句文本。评论信息是指音乐评论信息，任意用户可以对任意音乐进行评论，得到相应的关于音乐的评论信息。预置音乐评论库由多个关于音乐的评论信息构建。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

在实现本公开构思的过程中，发明人发现：现有的语音交互方案需要开发人员预先撰写机器应答内容，当用户输入语音信息时，将语音信息转换为文本，选择与该文本相匹配的应答内容作为输出。该方案存在如下问题：一方面，应答内容的撰写需要投入大量的人力，效率低下，另一方面，预先撰写的应答内容刻板生硬，无法满足用户情感需求。

为此，本发明实施例提供了一种语音交互方法和装置，该方法包括：接收用户输入的语音信息，将所述语音信息转换为语句文本；从预置音乐评论库中获取与所述语句文本相匹配的评论信息；以及，输出所述评论信息作为对于所述语音信息的应答。本公开实施例从众多已有的关于音乐的评论信息中选取出与当前用户输入的语音信息相匹配的评论信息作为应答，无需开发人员预先撰写应答内容，大量缩减在应答内容撰写上所投入的人力。且由于评论信息由真实用户基于对相应音乐的真实情绪所表达，将相匹配的评论信息作为语音信息的应答，能够引起当前输入语音信息的用户的情感共鸣，满足用户情感需求。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1详细阐述本发明实施例的语音交互方法及其装置的应用场景。

图1示意性地示出了根据本发明实施方式的语音交互方法及其装置的应用场景。如图1所示，该应用场景中包括电子设备110和用户120，电子设备110具有语音交互功能，与用户120进行语音交互。本实施例中电子设备110为智能音箱，在其他实施例中，电子设备110可以是具有语音交互功能的任意设备，如智能手机、计算机、智能手表、各种智能家电等等，在此不做限制。

电子设备110通过麦克风采集用户120输入的语音信息，并根据该语音信息做出相应的应答、执行相应的任务。例如，用户120输入语音信息“今天天气怎么样”，电子设备110查询天气并根据查询结果做出应答“最低温度-4摄氏度，最高温度6摄氏度，晴转多云”，或者，用户120输入语音信息“现在几点了”，电子设备110查询当前时间并根据查询结果做出应答“9点05分”。这两个例子中，用户120输入的语音信息都是具有明确答案，电子设备110可以直接查询到明确答案作为响应，然而在日常生活中，大多数情况下用户120输入的语音信息是没有明确答案的，例如用户120输入语音信息“今天好难过啊”，此时电子设备110应当以最符合用户120当前心理需求的内容作为应答。

示例性方法

下面结合图1的应用场景，参考图2～图4b来描述根据本发明示例性实施方式的语音交互方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明一个实施例的语音交互方法的流程图。如图2所示，该方法包括如下操作：

操作s201，接收用户输入的语音信息，将所述语音信息转换为语句文本。

操作s202，从预置音乐评论库中获取与所述语句文本相匹配的评论信息。

操作s203，输出所述评论信息作为对于所述语音信息的应答。

可见，图2所示的方法对于用户输入的语音信息，从众多已有的关于音乐的评论信息中选取出与当前用户输入的语音信息相匹配的评论信息作为应答，无需开发人员预先撰写应答内容，大量缩减在应答内容撰写上所投入的人力。且由于评论信息由真实用户基于对相应音乐的真实情绪所表达，将相匹配的评论信息作为语音信息的应答，能够引起当前输入语音信息的用户的情感共鸣，满足用户情感需求。

图3示意性地示出了根据本发明另一个实施例的语音交互方法的流程图。如图3所示，该方法包括操作s201～s204，其中操作s201～s203与图2所示的各操作对应相同，在此不再赘述。

操作s204，播放与所述评论信息对应的音乐。

在具体的例子中，可以在输出评论信息作为应答之后，直接播放该评论信息对应的音乐，也可以在输出评论信息作为应答之后的预定时间内，在满足预定触发条件时播放该评论信息对应的音乐。评论信息对应的音乐可以是歌曲、纯音乐、相声、演讲、广播等等各种音频文件，在此不做限制。

本公开实施例中，对于任一音乐，用户都可以对该音乐进行评价，得到评论信息，因此任一音乐对应于一个或多个用户关于该音乐的评论信息，预置音乐评论库中包括一个或多个音乐的评论信息。在接收到用户输入的语音信息后，将该语音信息转换为语句文本，从预置音乐评论库中获取与该语句文本相匹配的评论信息，获取到的该评论信息能够表达与输入的语音信息相类似的情绪，输出该评论信息作为应答，自然会引起当前输入语音信息的用户的情感共鸣。进一步地，在输出该评论信息后还播放该评论信息对应的音乐，由于该评论信息所表达的情绪是由该评论信息对应的音乐所引发的，说明该音乐适配于该情绪，向当前输入语音信息的用户播放该音乐，能够营造适配于该用户情绪的氛围，使得语音交互过程更加自然、富有感情，不再是现有技术中生硬刻板的人机交互。

在本公开的实施例中，在操作s202从预置音乐评论库中获取与所述语句文本相匹配的评论信息之前，图2或图3所示方法还可以包括一些预处理过程：获取满足预设条件的多条关于音乐的评论信息，由所获取的多条评论信息构建预置音乐评论库；识别预置音乐评论库中各评论信息的焦点信息和意图信息。上述预处理过程构建预置音乐评论库，该预置音乐评论库包括满足预设条件的多条关于音乐的评论信息，并且还需要对预置音乐评论库中的评论信息进行识别处理，识别各评论信息的焦点信息和意图信息。其中，评论信息的焦点信息是指评论信息所表达的最重要的信息，是评论信息的发起者希望评论信息的观看者在看到该评论信息时注意的部分，每个评论信息可以包括一个或多个焦点信息，该焦点信息可以通过一个或多个标签来表征。评论信息的意图信息是指评论信息的发起者通过该评论信息表达出的想要实现的操作或目的。

在此基础上，操作s202从预置音乐评论库中获取与所述语句文本相匹配的评论信息包括：基于所述预置音乐评论库中各评论信息的焦点信息和意图信息，获取与所述语句文本相匹配的评论信息。依据本实施例的方案，基于焦点信息和意图信息，对评论信息与输入语音信息的语句文本进行匹配，由于焦点信息和意图信息能够反映真实用户的情绪、想法、观点等主观因素，基于这两类信息能够有效地获取到与输入语音信息表达类似情绪、想法、观点的评论信息，从心理层面最大程度地适配当前输入语音信息的用户。

具体地，作为一个可选的实施例，上述获取满足预设条件的关于音乐的多条评论信息包括：根据所述用户的历史音乐交互行为数据，获取所述用户的个性化音乐对应的评论信息，其中，所述用户的个性化音乐包括如下至少一种：所述用户收藏的音乐、所述用户创建的音乐、所述用户喜欢的音乐或所述用户播放的音乐。并且/或者，获取当前推广音乐对应的评论信息。并且/或者，获取点赞数超过第一阈值的评论信息。

依据本实施例的方案，预置音乐评论库可以包括当前进行语音交互的用户的个性化音乐的评论信息，用户的个性化音乐反映了用户的音乐偏好，从用户偏好的音乐的评论信息中获取与该用户输入的语音信息相匹配的评论信息作为应答，并进一步播放相应音乐，更容易引起该用户的共鸣。预置音乐评论库也可以包括当前推广音乐对应的评论信息，从当前推广音乐的评论信息中获取与用户输入的语音信息相匹配的评论信息作为应答，并进一步播放相应推广音乐，不仅可以满足用户的语音交互需求，还能向用户推荐相应推广音乐。预置音乐评论库也可以包括点赞数超过第一阈值的评论信息，即热门评论信息，热门评论信息是具有代表性的、能够引起大多数人共鸣的评论信息，从热门评论信息中获取与用户输入的语音信息相匹配的评论信息作为应答，并进一步播放相应音乐，更容易引起该用户的共鸣。

在本公开的一个实施例中，上述基于所述预置音乐评论库中各评论信息的焦点信息和意图信息，获取与所述语句文本相匹配的评论信息包括：识别所述语句文本的焦点信息和意图信息；将所述语句文本的焦点信息与预置音乐评论库中各评论信息的焦点信息进行匹配，筛选出焦点匹配的评论信息；以及，将所述语句文本的意图信息与所述焦点匹配的评论信息的意图信息进行匹配，筛选出焦点匹配且意图匹配的评论信息。

其中，语句文本的焦点信息是指该语句文本所表达的最重要的信息，是该语句文本对应的语音信息的发起者希望接收者注意的部分，每个语句文本可以包括一个或多个焦点信息，该焦点信息可以通过一个或多个标签来表征。语句文本的意图信息是指该语句文本对应的语音信息的发起者表达出的想要实现的操作或目的。上述过程先进行焦点匹配，筛选出与语句文本焦点匹配的评论信息，筛除大量无关的评论信息，再进行意图匹配，筛选出与语句文本焦点匹配且意图匹配的评论信息，提高匹配效率。

具体地，作为一个可选的实施例，上述识别预置音乐评论库中各评论信息的焦点信息和意图信息包括：基于标签库从所述各评论信息中提取用于表征相应的焦点信息的标签，基于意图分类库从所述各评论信息中提取用于表征相应的意图信息的意图句式。上述识别所述语句文本的焦点信息和意图信息包括：基于所述标签库从所述语句文本中提取用于表征相应的焦点信息的标签，基于意图分类库从所述语句文本中提取用于表征相应的意图信息的意图句式。上述将所述语句文本的焦点信息与所述音乐评论库中各评论信息的焦点信息进行匹配包括：将所述语句文本的标签与所述各评论信息的标签进行匹配，当匹配度超过第二阈值时确定为焦点匹配的评论信息。以及，上述将所述语句文本的意图信息与所述焦点匹配的评论信息的意图信息进行匹配包括：将所述语句文本的意图句式与所述焦点匹配的评论信息的意图句式进行匹配，当匹配度超过第三阈值时确定为焦点匹配且意图匹配的评论信息。

其中，可以预先设置识别焦点信息和意图信息所用到的标签库和意图分类库，并在使用过程中不断更新扩充。上述识别评论信息的焦点信息的过程和识别语句文本的焦点信息的过程均使用相同的标签库，使得焦点信息的提取标准一致，保证后续焦点匹配的准确性。且识别评论信息的意图信息的过程和识别语句文本的意图信息的过程均使用相同的意图分类库，使得意图信息的提取标准一致，保证后续意图匹配的准确性。

在本公开的另一个实施例中，可以预先不识别预置音乐评论库中评论信息的焦点信息和意图信息，在将用户输入的语音信息转换为语句文本后，操作s202从预置音乐评论库中获取与所述语句文本相匹配的评论信息可以包括：识别所述语句文本的焦点信息和意图信息；将所述语句文本的焦点信息与预置音乐评论库中各评论信息进行匹配，筛选出焦点匹配的评论信息；以及，将所述语句文本的意图信息与所述焦点匹配的评论信息的意图信息进行匹配，筛选出焦点匹配且意图匹配的评论信息。

当筛选出一条焦点匹配且意图匹配的评论信息时，直接输出该评论信息作为应答，当筛选出多条焦点匹配且意图匹配的评论信息时，作为一个可选的实施例，操作s202从预置音乐评论库中获取与所述语句文本相匹配的评论信息还包括：当筛选出多条焦点匹配且意图匹配的评论信息时，获取各评论信息对应的音乐的优先级；基于所述音乐的优先级对所述评论进行排序，基于排序结果选取一条评论信息。

其中可选地，所述获取各评论信息对应的音乐的优先级包括：根据所述用户的历史音乐交互行为数据，确定所述各评论信息对应的音乐的综合评分，所述用户的历史音乐交互行为数据包括如下至少一种：所述用户收藏音乐的行为数据、所述用户点赞音乐的行为数据、所述用户播放音乐的行为数据、所述用户评论音乐的行为数据、所述用户分享音乐的行为数据或所述用户创建音乐的行为数据。

下面参考图4a～图4b，结合具体实施例对图2～图3所示的方法进行说明：

在本实施例中，用户a与智能音箱进行语音交互，在语音交互开始前先构建预置音乐评论库。

图4a示意性地示出了根据本发明一个实施例的预置音乐评论库的示意图。

如图4a所示，预置音乐评论库中包括：用户a的个性化音乐对应的评论信息，当前预定时间内的推广音乐的评论信息，以及热门评论信息。其中，用户a的个性化音乐是指用户a进行收藏、创建、喜欢、分享、播放等正向音乐交互行为的音乐，当前预定时间内的推广音乐包括当前预定时间内的热门音乐、与合作方约定需要推广的音乐等一种或多种，热门评论信息是指点赞数大于等于500的评论信息。

根据用户a的历史语音交互内容，筛选出初步的基础标签，例如基础标签包括：“孤独”、“失眠”、“伤心”、“回忆”、“忧愁”、“焦虑”等，由这些基础标签构建基础标签库。基于该基础标签库中的基础标签形成句式，对预置音乐评论库中的备评论信息进行语义句式抽取，从而将各评论信息进行基础标签分类，并归纳到意图分类句式中，形成意图分类库，根据抽取出的句式扩充标签库。基于扩充后的标签库再对各评论信息进行语句句式抽取，将各评论信息进行更新标签分类，归纳至意图分类库中，并再次根据抽取出的句式扩充标签库。以此类推，不断循环扩充，达到最终的标签库和意图分类库，并基于最终的标签库获得用于表征各评论信息的焦点信息的一个或多个标签，基于最终的意图分类库获得用于表征各评论信息的意图信息的意图句式。

图4b示意性地示出了根据本发明一个实施例的语音交互过程的示意图。

当智能音箱接收到用户a输入的语音信息时，通过语音识别技术(asr，automaticspeechrecognition)将该语音信息转换为语句文本，本例中，用户a输入的语音信息对应的语句文本为“我睡不着”。基于自然语言理解(nlu，naturallanguageunderstanding)对该语句文本进行语义分析，获得表征该语句文本的意图信息的意图句式：{我，聊天，安慰}，获得表征该语句文本的焦点信息的多个标签：{失眠，孤独}。

基于预设算法计算语句文本的焦点信息与图4a所示的预置音乐评论库中的评论信息的相似度，筛选出相似度高于第二阈值的评论信息。本例中，利用推荐系统item_cf算法计算语句文本“我睡不着”对应的标签{失眠，孤独}与各评论信息对应的标签的相似度，筛选出图4b所示的预置音乐评论库中的5条评论信息：评论1、评论2、评论3、评论4、评论5。其中，评论1对应的意图句式为{聊天}，评论2对应的意图句式为{聊天，安慰}，评论3对应的意图句式为{治疗}，评论4对应的意图句式为{影视}，评论5对应的意图句式为{聊天，安慰}。

将语句文本的意图信息与筛选出的评论信息对应的意图句式进行匹配，进一步筛选出匹配度超过第三阈值的评论信息。本例中，将语句文本“我睡不着”对应的意图句式{我，聊天，安慰}与上文筛选出的5条评论信息对应的意图句式进行匹配，筛选出意图句式包括{聊天，安慰}的评论信息，即评论2和评论5。

根据用户a的历史音乐交互行为数据，确定筛选出的各评论信息对应的音乐的综合评分，选取综合评分最高的音乐对应的评论信息。进一步地，还可考虑选出的各评论信息对应的音乐除用户偏好之外的其他特质，如按照当前预定时间内的推广音乐>用户喜欢的音乐>用户播放超过第四阈值的音乐>用户收藏的音乐的优先级顺序对筛选出来的各评论信息进行排序，选取优先级最高的一条评论。本例中，对筛选出的评论2和评论5按照用户a的音乐偏好排序，评论5对应的音乐为用户a喜欢的音乐，具有更高的优先级，最终筛选出评论5，对应的音乐为：歌曲《深夜食堂》。

智能音箱通过语音合成技术(tts，texttospeech)将评论5转换为语音信息“据说，夜里睡不着的人，是因为醒在别人的梦里”并输出，作为用户a输入的“我睡不着”的应答。并且，可以直接播放评论5对应的音乐《深夜食堂》，或者，在经用户a确认后播放评论5对应的音乐《深夜食堂》。由于该音乐是用户a喜爱的歌曲，且评论5是其他真实用户基于与用户a的“我睡不着”的类似心情写下的，智能音箱输出评论5作为应答并播放相应的歌曲时，将带给用户a感动和共鸣，是更有温度的人机交互过程。

本公开实施例能够缩减语音交互中所需的人力投入成本，充分利用已有的真实用户撰写产生的评论信息；通过选取与输入的语句文本相匹配的评论信息作为应答，能够提升语音交互中的情感互动，区别于机器性的一问一答式对话，不仅回答的内容符合用户心理需求，匹配播放的音乐也帮助营造氛围，让用户感到情感共鸣。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图5a～图6对本发明示例性实施方式的语音交互装置进行详细阐述。

图5a示意性地示出了根据本发明一个实施例的语音交互装置的框图。如图5a所示，该语音交互装置500包括：

接收模块510用于接收用户输入的语音信息，将所述语音信息转换为语句文本。

匹配模块520用于从预置音乐评论库中获取与所述语句文本相匹配的评论信息。

输出模块530用于输出所述评论信息作为对于所述语音信息的应答。

可见，图5a所示的装置对于用户输入的语音信息，从众多已有的关于音乐的评论信息中选取出与当前用户输入的语音信息相匹配的评论信息作为应答，无需开发人员预先撰写应答内容，大量缩减在应答内容撰写上所投入的人力。且由于评论信息由真实用户基于对相应音乐的真实情绪所表达，将相匹配的评论信息作为语音信息的应答，能够引起当前输入语音信息的用户的情感共鸣，满足用户情感需求。

图5b示意性地示出了根据本发明另一个实施例的语音交互装置的框图。如图5b所示，该语音交互装置500’包括：接收模块510、匹配模块520、输出模块530、播放模块540、第一预处理模块550和第二预处理模块560。其中，接收模块510、匹配模块520和输出模块530在上文中已说明，重复的部分不再赘述。

播放模块540用于在所述输出模块输出所述评论信息作为对于所述语音信息的应答之后，播放与所述评论信息对应的音乐。

在本公开的一个实施例中，在匹配模块520从预置音乐评论库中获取与所述语句文本相匹配的评论信息之前，第一预处理模块550用于获取满足预设条件的多条关于音乐的评论信息，由所获取的多条评论信息构建预置音乐评论库。第二预处理模块560用于识别预置音乐评论库中各评论信息的焦点信息和意图信息。

在此基础上，匹配模块520从预置音乐评论库中获取与所述语句文本相匹配的评论信息具体为：基于所述预置音乐评论库中各评论信息的焦点信息和意图信息，从预置音乐评论库中获取与所述语句文本相匹配的评论信息。

其中具体地，作为一个可选的实施例，第一预处理模块550用于根据所述用户的历史音乐交互行为数据，获取所述用户的个性化音乐对应的评论信息，其中，所述用户的个性化音乐包括如下至少一种：所述用户收藏的音乐、所述用户创建的音乐、所述用户喜欢的音乐或所述用户播放的音乐；并且/或者，获取当前推广音乐对应的评论信息；并且/或者，获取点赞数超过第一阈值的评论信息。

图6示意性地示出了根据本发明一个实施例的匹配模块的框图。如图6所示，该匹配模块520包括：识别子模块521、第一匹配子模块522、第二匹配子模块523、获取子模块524和排序子模块525。

在本公开的一个实施例中，识别子模块521用于识别所述语句文本的焦点信息和意图信息。第一匹配子模块522用于将所述语句文本的焦点信息与预置音乐评论库中各评论信息的焦点信息进行匹配，筛选出焦点匹配的评论信息。以及，第二匹配子模块523用于将所述语句文本的意图信息与所述焦点匹配的评论信息的意图信息进行匹配，筛选出焦点匹配且意图匹配的评论信息。

其中，作为一个可选的实施例，第二预处理模块560具体用于基于标签库从所述各评论信息中提取用于表征相应的焦点信息的标签，基于意图分类库从所述各评论信息中提取用于表征相应的意图信息的意图句式。识别子模块521具体用于基于所述标签库从所述语句文本中提取用于表征相应的焦点信息的标签，基于意图分类库从所述语句文本中提取用于表征相应的意图信息的意图句式。第一匹配子模块522具体用于将所述语句文本的标签与所述各评论信息的标签进行匹配，当匹配度超过第二阈值时确定为焦点匹配的评论信息。以及，第二匹配子模块523具体用于将所述语句文本的意图句式与所述焦点匹配的评论信息的意图句式进行匹配，当匹配度超过第三阈值时确定为焦点匹配且意图匹配的评论信息。

在本公开的一个实施例中，获取子模块524用于当筛选出多条焦点匹配且意图匹配的评论信息时，获取各评论信息对应的音乐所属类别的优先级。排序子模块525用于基于所述音乐的优先级对所述评论进行排序，基于排序结果选取一条评论信息。

其中可选地，获取子模块524具体用于根据所述用户的历史音乐交互行为数据，确定所述各评论信息对应的音乐的综合评分，其中，所述用户的历史音乐交互行为数据包括如下至少一种：所述用户收藏音乐的行为数据、所述用户点赞音乐的行为数据、所述用户播放音乐的行为数据、所述用户评论音乐的行为数据、所述用户分享音乐的行为数据或所述用户创建音乐的行为数据。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

示例性介质

在介绍了本发明示例性实施方式的方法和装置之后，接下来，对本发明示例性实施方式的实现语音交互方法的介质进行介绍。

本发明实施例提供了一种介质，存储有计算机可执行指令，上述指令在被处理器执行时用于实现上述方法实施例中任一项所述的语音交互方法。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的语音交互方法中的步骤，例如，所述计算设备可以执行如图2中所示的操作步骤，也可以执行如图3中所示的操作步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

图7示意性地示出了根据本发明实施方式的计算机可读存储介质产品的示意图，如图7所示，描述了根据本发明的实施方式的实现语音交互方法的程序产品70，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在计算设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如java，c++等，还包括常规的过程式程序设计语言——诸如“c”，语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(lan)或广域网(wan)一连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，介绍根据本发明的另一示例性实施方式的实现语音交互方法的计算设备。

本发明实施例还提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令，所述处理器执行所述指令时实现上述方法实施例中任一项所述的语音交互方法。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的实现语音交互方法的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的操作步骤。例如，所述处理单元可以执行如图2中所示的操作步骤，也可以执行如图3中所示的操作步骤。

下面参照图8来描述根据本发明的这种实施方式的实现语音交互方法的计算设备80。如图8所示的计算设备80仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算设备80以通用计算设备的形式表现。计算设备80的组件可以包括但不限于：上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件(包括存储单元802和处理单元801)的总线803。

总线803表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元802可以包括易失性存储器形式的可读介质，例如随机存取存储器(ram)8021和/或高速缓存存储器8022，还可以进一步包括只读存储器(rom)8023。

存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025，这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备80也可以与一个或多个外部设备804(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与计算设备80交互的设备通信，和/或与使得计算设备80能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/0)接口805进行。并且，计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器806通过总线803与计算设备80的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备80使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了数据处理装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖军军;张敏;张汉雁;魏永振
技术所有人：杭州网易云音乐科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。