用于提供语音服务的方法和装置与流程

文档序号：14009387阅读：163来源：国知局

本申请实施例涉及计算机技术领域，具体涉及人工智能技术领域，尤其涉及用于提供语音服务的方法和装置。

背景技术：

随着计算机技术的发展和网络数据的不断积累，人工智能技术飞速发展。在人工智能领域中，集语音识别、自然语言处理以及机器学习技术于一身的智能语音服务具有越来越广泛的应用。

在基于智能语音服务的语音交互中，用户可以执行多媒体资源播放、信息查询等操作。现有的智能语音服务平台在接收到语音请求后，可以启动相关的功能，并提供一些设置好的操作接口，例如在播放音乐时可以提供“播放下一首”、“暂停”、“继续播放”、“收藏”等操作的接口。对于使用该智能语音服务的所有用户，在进行同一类语音服务时的提供的可操作接口是相同的，然而用户发出请求同一类语音服务的不同语音请求时所隐含的需求可能并不相同，当用户想要执行未在播放界面配置接口的其他操作时，需要花费时间在应用界面中进行多级查找。

技术实现要素：

本申请实施例提出了用于提供语音服务的方法和装置。

第一方面，本申请实施例提供了一种用于提供语音服务的方法，包括：响应于接收到由包含显示屏的智能语音设备发送的第一语音请求信息，对第一语音请求信息进行解析，以确定用户需求；基于已配置的可选操作集合确定与用户需求关联的备选操作；生成用于引导用户执行备选操作的提示信息；向包含显示屏的智能语音设备推送提示信息，以供智能语音设备在显示屏上展示提示信息。

在一些实施例中，上述对第一语音请求信息进行解析，以确定用户需求，包括：判断第一语音请求信息是否包含请求播放多媒体资源的关键词；若是，对第一语音请求信息中的预设多媒体标签进行识别，确定用户需求为播放包含预设多媒体标签的第一多媒体资源的需求；上述基于已配置的可选操作集合确定与用户需求关联的备选操作，包括：在已配置的可选操作集合中选出与用户需求对应的播放操作和与播放操作关联的可选操作作为备选操作；与播放操作关联的可选操作包括以下至少一项：选择待播放的多媒体资源的操作、播放模式切换操作、对播放的多媒体资源的喜好反馈操作。

在一些实施例中，上述对第一语音请求信息进行解析，以确定用户需求，还包括：响应于确定第一语音请求信息包含请求播放多媒体资源的关键词且第一语音请求信息中不包含预设多媒体标签，获取用户画像数据、场景数据以及待推荐多媒体资源数据；确定用户需求为从待推荐多媒体资源数据中选出与用户画像数据和/或场景数据匹配的第二多媒体资源的需求；上述基于已配置的可选操作集合确定与用户需求关联的备选操作，包括：在已配置的可选操作集合中选出与用户需求对应的推荐操作，作为备选操作，其中推荐操作的推荐对象包括第二多媒体资源。

在一些实施例中，上述对第一语音请求信息进行解析，以确定用户需求，还包括：响应于确定第一语音请求信息不包含请求播放多媒体资源的关键词，利用第一语音请求信息的解析结果作为检索式进行网络数据检索，根据检索结果确定用户需求；上述基于已配置的可选操作集合确定与用户需求关联的备选操作，包括：在已配置的可选操作集合中选出与检索结果匹配的可选操作作为备选操作。

在一些实施例中，上述对第一语音请求信息进行解析，以确定用户需求，包括：获取在接收到第一语音请求信息之前的预设时间段内已接收到的第二语音请求信息；结合第二语音请求信息对第一语音请求信息进行解析，以确定用户需求。

在一些实施例中，上述方法还包括：监测用户基于提示信息执行备选操作的行为数据；基于行为数据调整已配置的可选操作集合中备选操作与用户需求的关联性参数。

第二方面，本申请实施例提供了一种用于提供语音服务的装置，包括：解析单元，用于响应于接收到由包含显示屏的智能语音设备发送的第一语音请求信息，对第一语音请求信息进行解析，以确定用户需求；确定单元，用于基于已配置的可选操作集合确定与用户需求关联的备选操作；生成单元，用于生成用于引导用户执行备选操作的提示信息；推送单元，用于向包含显示屏的智能语音设备推送提示信息，以供智能语音设备在显示屏上展示提示信息。

在一些实施例中，上述解析单元进一步用于按照如下方式对第一语音请求信息进行解析，以确定用户需求：判断第一语音请求信息是否包含请求播放多媒体资源的关键词；若是，对第一语音请求信息中的预设多媒体标签进行识别，确定用户需求为播放包含预设多媒体标签的第一多媒体资源的需求；上述确定单元进一步用于按照如下方式确定与用户需求关联的备选操作：在已配置的可选操作集合中选出与用户需求对应的播放操作和与播放操作关联的可选操作作为备选操作；与播放操作关联的可选操作包括以下至少一项：选择待播放的多媒体资源的操作、播放模式切换操作、对播放的多媒体资源的喜好反馈操作。

在一些实施例中，上述解析单元还用于按照如下方式对第一语音请求信息进行解析，以确定用户需求：响应于确定第一语音请求信息包含请求播放多媒体资源的关键词且第一语音请求信息中不包含预设多媒体标签，获取用户画像数据、场景数据以及待推荐多媒体资源数据；确定用户需求为从待推荐多媒体资源数据中选出与用户画像数据和/或场景数据匹配的第二多媒体资源的需求；上述确定单元进一步用于按照如下方式确定与用户需求关联的备选操作：在已配置的可选操作集合中选出与用户需求对应的推荐操作，作为备选操作，其中推荐操作的推荐对象包括第二多媒体资源。

在一些实施例中，上述解析单元还用于按照如下方式对第一语音请求信息进行解析，以确定用户需求：响应于确定第一语音请求信息不包含请求播放多媒体资源的关键词，利用第一语音请求信息的解析结果作为检索式进行网络数据检索，根据检索结果确定用户需求；上述确定单元进一步用于按照如下方式确定与用户需求关联的备选操作：在已配置的可选操作集合中选出与检索结果匹配的可选操作作为备选操作。

在一些实施例中，上述解析单元进一步用于按照如下方式对第一语音请求信息进行解析，以确定用户需求：获取在接收到第一语音请求信息之前的预设时间段内已接收到的第二语音请求信息；结合第二语音请求信息对第一语音请求信息进行解析，以确定用户需求。

在一些实施例中，上述装置还包括反馈单元，用于：监测用户基于提示信息执行备选操作的行为数据；基于行为数据调整已配置的可选操作集合中备选操作与用户需求的关联性参数。

本申请实施例提供的用于提供语音服务的方法和装置，通过响应于接收到由包含显示屏的智能语音设备发送的第一语音请求信息，对第一语音请求信息进行解析，以确定用户需求，然后基于已配置的可选操作集合确定与用户需求关联的备选操作；而后生成用于引导用户执行备选操作的提示信息，最后向包含显示屏的智能语音设备推送提示信息，以供智能语音设备在显示屏上展示提示信息，实现了基于用户需求的差异化的操作提示，能够针对用户的不同潜在需求提供不同的操作提示信息，提升了用户获取相关操作信息的速度，有利于提升语音服务效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于提供语音服务的方法的一个实施例的流程图；

图3是根据本申请的用于提供语音服务的方法的另一个实施例的流程示意图；

图4是根据本申请的用于提供语音服务的方法的一个应用场景的示意图；

图5是根据本申请的用于提供语音服务的方法的另一个应用场景的示意图；

图6是根据本申请的用于提供语音服务的方法的又一个应用场景的示意图；

图7根据本申请实施例的用于提供语音服务的装置的一个结构示意图；

图8是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于提供语音服务的方法或用于提供语音服务的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102通过网络103与服务器104交互，以接收或发送消息等。终端设备101、102可以是具有音频输入接口、音频输出接口和显示屏、并支持网络通信的电子设备，例如具有麦克风和显示屏的智能音箱、智能手机、平板电脑、笔记本电脑、智能可穿戴设备等。终端设备101、102上可以安装有与服务器104进行交互的应用，例如语音服务客户端。

服务器104可以是提供各种服务的服务器，例如对终端设备101、102执行的语音输出操作进行控制的语音服务器。在终端设备101、102接入语音服务器(例如获取授权)之后，语音服务器可以对用户110通过终端设备101、102发出的语音服务请求进行处理，并将处理结果(例如音频数据和音频输出接口的控制指令)发送至终端设备101、102。终端设备101、102可以通过网络103接收服务器104发送的音频数据和显示控制指令，并执行相应的音频输出操作和显示操作，从而实现了利用终端设备101、102完成语音服务。

需要说明的是，本申请实施例所提供的用于提供语音服务的方法一般由服务器104执行，相应地，用于提供语音服务的装置一般设置于服务器104中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。例如服务器可以为集群式的服务器，包括部署了不同进程的多台服务器。

继续参考图2，其示出了根据本申请的用于提供语音服务的方法的一个实施例的流程200。该用于提供语音服务的方法，包括以下步骤：

步骤201，响应于接收到由包含显示屏的智能语音设备发送的第一语音请求信息，对第一语音请求信息进行解析，以确定用户需求。

在本实施例中，上述用于提供语音服务的方法运行于其上的电子设备(例如图1所示的服务器)可以检测智能语音设备发送的第一语音请求，该智能语音设备是包含显示屏的智能语音设备(又称为“有屏端”)，且该智能语音设备具有音频输入接口和音频输出接口，可以通过音频输入接口获取用户发出的语音请求，进行编码、封装后形成第一语音请求信息发送给上述用于提供语音服务的方法运行于其上的电子设备。

在检测到接收到由包含显示屏的智能语音设备发送的第一语音请求信息之后，可以对第一语音请求进行解析，从中提取出用户的需求信息。具体地，可以首先对第一语音请求信息进行解码，得出语音请求内容，然后对语音请求内容进行语义解析，在进行语义解析时首先可以采用语言模型进行分词，然后进行核心词和关键词的提取，之后可以利用主题模型来确定语音请求内容所包含的用户需求。

在本实施例的一些可选的实现方式中，可以为智能语音设备所具有的每一个功能设定一个关键词集合，如果从第一语音请求内容中解析属于某一功能的关键词或关键词组合，则可以确定该第一语音请求对应的用户需求为该功能所能满足的需求。例如闹钟功能可以包含关键词“闹钟”，信息推送功能可以包含关键词“播报+新闻”、“天气”等。当解析第一语音请求信息得到的内容中包含关键词“播报新闻”时，可以确定用户需求为获取推送的新闻的需求。

在本实施例的一些可选的实现方式中，可以采用机器学习的方式对第一语音请求信息进行解析，具体可以采用已训练的意图识别模型来识别用户的意图，其中意图识别模型的训练样本可以是人工标记的样本，在训练过程中不断调整意图识别模型的参数来使其预测值逼近标记值，在预测值与标记值之间的误差满足收敛条件时停止调整模型参数，就得到了已训练的意图识别模型。在应用时，可以将第一语音请求信息的语音请求内容输入意图识别模型，意图识别模型可以输出用户意图，即可得到的用户需求的解析结果。

步骤202，基于已配置的可选操作集合确定与所述用户需求关联的备选操作。

在确定用户需求之后，可以在已配置的可选操作集合中选出满足用户需求的可选操作，作为备选操作。在这里，已配置的可选操作集合可以包括多个可选操作，并且配置了每个可选操作关联的用户需求。该已配置的可选操作集合可以是根据经验预先配置好的，其中可选操作关联的用户需求可以是与语音交互相关的用户需求。不同用户需求关联的可选操作可以不相同。

通常智能语音设备是基于特定的应用场景设计的，例如车机、厨房语音助手、机器人等，各智能语音设备所能提供的语音服务也与其应用场景相关，例如车机可以提供播放音乐、路线查询、新闻播报、询问天气、提醒，网络搜索等功能。可以依据智能语音设备的特定应用场景来设定其可满足的用户需求，例如车机可满足用户播放音乐、路线查询、新闻播报、询问天气、提醒，网络搜索的需求。还可以定制与智能语音设备可满足的每一项用户需求对应的可选操作，将这些可选操作与智能语音设备可满足的用户需求关联起来。例如可以定制与播放音乐的需求关联的可选操作包括：暂停播放、继续播放、切换至下一首、切换至上一首、收藏、点赞、切换到单曲循环/列表循环模式等操作。可以将这些可选操作添加至可选操作集合中，同时配置这些可选操作与用户需求的关联关系。

在上述可选操作集合中，同一个可选操作可以与多个用户需求相关，例如暂停播放的操作可以与音乐播放需求和新闻播放需求相关，还可以进一步配置上述可选操作集合中各可选操作与每个用户需求的关联性参数。关联性参数可以是表征可选操作与用户需求的关联强度的参数，可以根据对用户的历史需求和历史操作的统计分析来确定。

步骤203，生成用于引导用户执行备选操作的提示信息。

在本实施例中，可以生成包含备选操作的相关信息的提示信息，以提示用户执行该备选操作。在这里，备选操作的相关信息可以包括备选操作的名称、操作对象等信息。该提示信息用于引导用户执行备选操作，用户可以按照该提示信息的引导选择执行或不执行备选操作。上述提示信息可以是文本提示信息或图标提示信息。

步骤204，向包含显示屏的智能语音设备推送所述提示信息，以供智能语音设备在显示屏上展示提示信息。

在生成提示信息之后，上述用于提供语音服务的电子设备可以通过网络向智能语音设备发送该提示信息。智能语音设备接收到该提示信息后可以在显示屏上展示该提示信息。这样，用户可以通过智能语音设备的显示屏获取该提示信息，从而在提示信息的引导下执行相应的操作。

本申请上述实施例的用于提供语音服务的方法，响应于接收到由包含显示屏的智能语音设备发送的第一语音请求信息，对第一语音请求信息进行解析，以确定用户需求；随后基于已配置的可选操作集合确定与用户需求关联的备选操作；而后生成用于引导用户执行备选操作的提示信息；最后向包含显示屏的智能语音设备推送提示信息，以供智能语音设备在显示屏上展示提示信息，实现了基于用户需求的差异化可选操作提示，能够提升用户获取相关操作信息的速度，有利于提升语音服务效率。

请参考图3，其示出了根据本申请的用于提供语音服务的方法的另一个实施例的流程示意图。

如图3所示，在本实施例中，用于提供语音服务的方法的流程300，可以包括：

步骤301，响应于接收到由包含显示屏的智能语音设备发送的第一语音请求信息，判断第一语音请求信息是否包含请求播放多媒体资源的关键词。

在本实施例中，可以对接收到的第一语音请求信息的进行语音到文本转换，将第一语音请求内容转换为文本信息，然后对文本信息进行切词，判断切词结果是否命中请求播放多媒体资源的关键词。在这里，请求播放多媒体资源的关键词可以是预先设定的，可以是单独的词语，例如“听音乐”，“听歌”；也可以是多个词语的组合，例如“播放”和“新闻”的组合，“来点”和“音乐”的组合。

若步骤301的判断结果为“是”，执行步骤302，对第一语音请求信息中的预设多媒体标签进行识别。

如果确定第一语音请求信息包含请求播放多媒体资源的关键词，则可以确定用户的需求是播放多媒体资源。在本实施例中，可以进一步根据第一语音请求信息来确定用户希望播放的多媒体资源的特征属性，包括多媒体资源的创作者、类型、风格、语种、所属多媒体资源集合的标识等。具体的实现方式可以为对第一语音请求信息中的预设多媒体标签进行识别。在这里，预设多媒体标签可以是用于表征多媒体资源的特征属性的标签，多媒体资源库中的多媒体资源可以配置有这些标签。

以音乐多媒体资源为例，音乐标签可以包括用于表示音乐的曲目名称、演唱者、作曲者、专辑名称、音乐类型、音乐风格、语种等的标签。其中，音乐类型标签可以例如包括摇滚、说唱、民谣、流行、美声、交响乐等，音乐风格标签可以包括欢快、轻松、伤感、励志等，语种标签可以包括国语、粤语、英语、韩语、日语等。

在本实施例中，可以基于多媒体资源库中的多媒体资源所具有的标签建立多媒体标签集合，在识别第一语音请求信息中的预设多媒体标签时，可以与多媒体标签集合进行匹配，匹配成功的标签即为识别出的预设多媒体标签。可选地，在匹配多媒体标签时，可以采用精确匹配或模糊匹配的方法，模糊匹配可以是选择多媒体标签中与第一语音请求信息较为相似的标签，例如可以确定第一语音请求信息中的“八里香”与多媒体标签“七里香”匹配成功，从而在用户发出较为模糊的请求时也可以成功识别出用户需求。

若识别出第一语音请求信息中包含预设多媒体标签，则执行步骤303，确定用户需求为播放包含预设多媒体标签的第一多媒体资源的需求。

在这里，若第一语音请求信息中包含与多媒体标签集合中匹配的标签，则可以确定用户希望播放具有该标签的多媒体资源，由此实现了用户需求的精准识别。

接着，在步骤304中，在已配置的可选操作集合中选出与用户需求对应的播放操作和与播放操作关联的可选操作作为备选操作。

在确定用户需求为播放具有预设多媒体标签的需求之后，可以从已配置的可选操作集合中选出可满足用户需求的播放操作，以及用户在播放操作中可能需要执行的关联的可选操作作为备选操作。在这里，与播放操作关联的可选操作包括以下至少一项：选择待播放的多媒体资源的操作、播放模式切换操作、对播放的多媒体资源的喜好反馈操作。选择待播放的多媒体资源的操作可以是切换当前播放资源的操作，例如选择“下一首”；播放模式切换操作可以为选择“单曲循环”、“列表循环”、“随机播放”等模式的操作，对播放的多媒体资源的喜好反馈操作可以例如为选择“喜欢这首歌”、“收藏这首歌”、“不喜欢这首歌”的操作。

在一些实施例中，上述智能语音设备的开发者可以为智能语音设备的多媒体资源播放功能配置多种与播放操作关联的可选操作。则在确定用户需求为播放包含所述预设多媒体标签的第一多媒体资源的需求时，可以将这些由开发者配置的与播放操作关联的可选操作作为备选操作。这样，在后续生成用于引导用户执行备选操作的提示信息被推送至智能语音设备的显示屏上后，用户可以获知该智能语音设备的与播放操作关联的可选操作，进而使用户了解智能语音设备的服务能力，可以帮助用户获取更丰富、高效的智能语音服务。

随后，在步骤310中，生成用于引导用户执行备选操作的提示信息，接着，在步骤311中，向包含显示屏的智能语音设备推送提示信息，以供智能语音设备在显示屏上展示提示信息。

步骤310、步骤311分别与前述实施例中的步骤203、204相同，此处不再赘述。

通过对第一语音请求信息中的请求播放多媒体资源的关键词以及预设多媒体标签进行识别，能够准确地识别出用户希望播放的多媒体资源的特征属性，确定用户需求为播放包含预设多媒体标签的多媒体资源的需求，从而确定播放操作和与播放操作关联的可选操作为播放过程中用户可能希望执行的操作并向用户推送这些可能希望执行的操作的提示信息，能够准确地推送与用户需求匹配的操作提示信息，节省了用户查找相关操作功能的时间，有利于提升语音服务效率。

请参考图4，其示出了根据本申请的用于提供语音服务的方法的一个应用场景的示意图。如图4所示，用户a向具有显示屏的智能语音设备b发出请求“我想听周杰伦的歌”之后，智能语音设备b将该请求发送至语音服务器c，语音服务器c可以提取出其中“听”+“歌”的关键词组合，确定用户需求为播放歌曲的需求，并且智能语音服务器c可以识别出歌曲标签“周杰伦”，则可以进一步确定用户需求为播放周杰伦的歌曲的需求，则可以确定播放操作、与播放操作关联的“播放下一首”、“收藏这首歌”、“切换播放模式”等可选操作为备选操作，并生成这些备选操作的提示信息推送至智能语音设备b，智能语音设备b可以在显示屏上向用户a展示包含这些备选操作的提示信息。

在一些实施例中，上述步骤302之后，若未识别出第一语音请求信息中包含预设多媒体标签，即响应于确定第一语音请求信息包含请求播放多媒体资源的关键词且第一语音请求信息中不包含预设多媒体标签，执行步骤305，获取用户画像数据、场景数据以及待推荐多媒体资源数据。

若根据步骤301的判断结果确定用户需求为请求播放多媒体资源的需求，但根据步骤302的识别结果确定用户不具有明确的希望播放的多媒体资源需求，则可以确定第一语音请求信息对应的用户需求为泛需求类的多媒体资源，即用户希望智能设备来选择一些多媒体资源进行播放。这时，可以获取用户画像数据，场景数据和待推荐多媒体资源数据，以便根据获取的这些数据来选择要播放的多媒体资源。用户画像数据可以包括用户使用智能语音设备的多媒体资源播放功能的时间和频率、用户的基本属性(包括性别、性格、职业等)，用户的历史多媒体资源播放记录等。场景数据可以包括当前的时间和环境数据，该环境数据可以基于地理位置信息确定，也可以基于探测到的环境声音确定，场景数据可以例如为清晨、傍晚、夜晚、客厅、办公室等。待推荐多媒体资源数据可以是新发表的多媒体资源(例如新专辑)、网络中热度较高的多媒体资源等。

随后，步骤306，确定用户需求为从待推荐多媒体资源数据中选出与用户画像数据和/或场景数据匹配的第二多媒体资源的需求。

可以确定用户需求为推荐并播放一些可能喜欢的多媒体资源的需求。具体地，可以根据用户画像数据和/或场景数据从待推荐多媒体资源中选出多媒体资源来进行推荐。

可选地，可以从待推荐多媒体资源数据中选择与用户画像数据相匹配的第二多媒体资源作为推荐对象。在这里，待推荐多媒体资源可以具有用于表示其特征属性的标签，可以计算用户画像数据与各待推荐多媒体资源的标签之间的相似度，相似度超过阈值则匹配成功。可选地，还可以利用多媒体资源的热度数据对相似度加权，热度越高的权重越大，热度数据可以根据多媒体资源的发表时间、播放量、搜索量等计算得出。

可选地，可以从待推荐多媒体资源数据中选择与场景数据相匹配的第二多媒体资源作为推荐对象。场景数据可以为当前时间，环境数据。可以统计待推荐多媒体资源在各个时间段和各类环境中的播放量和搜索量，选择当前时间所处时间段内播放量和/或搜索量最多的待推荐多媒体资源作为推荐对象。例如当前时间为早上8点，则可以选择清晨时间播放量最多的清新、欢快的音乐作为推荐播放的对象。

可选地，可以结合用户画像数据和场景数据来确定作为推荐对象的第二多媒体资源。可以计算待推荐多媒体资源与用户画像数据和场景数据的综合相似度，该综合相似度可以由待推荐多媒体资源与用户画像数据的相似度和待推荐多媒体资源与场景数据的关联度加权求和得出。然后确定综合相似度较高的为选出的第二多媒体资源。

接着，在步骤307中，在已配置的可选操作集合中选出与所述用户需求对应的推荐操作，作为备选操作。

在本实施例中，上述已配置的可选操作集合中可以配置各可选操作与各类用户需求之间的对应关系，其中与从待推荐多媒体资源数据中选出推荐对象的需求对应的可选操作为推荐操作。这样，上述用于提供语音服务的电子设备可以根据该对应关系确定与步骤306得出的用户需求关联的备选操作为推荐操作。并且，可以确定推荐操作的推荐对象包括上述第二多媒体资源。则在后续生成提示信息时，可以生成引导用户执行选择推荐的第二多媒体资源的提示信息。可选地，引导用户执行选择推荐的第二多媒体资源的提示信息可以是引导用户发出进一步的语音请求的提示信息，这样可以通过提示信息引导用户与智能语音设备进行多轮对话，从而更准确地定位用户需求。

在步骤307之后，可以执行上述步骤310和步骤311。步骤310和步骤311与前述实施例的步骤203、步骤204一致，此处不再赘述。

请参考图5，其示出了根据本申请的用于提供语音服务的方法的一个应用场景的示意图。如图5所示，用户a向具有显示屏的智能语音设备b发出请求“来点音乐”之后，智能语音设备b将该请求发送至语音服务器c，语音服务器c可以提取出其中“来”+“音乐”的关键词组合，确定用户需求为播放歌曲的需求，并且智能语音服务器未识别出任何表示歌曲特征的标签，则可以进一步确定用户需求为推荐歌曲的需求，可以选择与当前场景匹配的清晨音乐、与用户喜欢的风格一致的且近期热门的缝纫机乐队的歌、或新歌榜的歌作为推荐给用户的歌曲，并生成引导用户播放推荐的歌曲的提示信息，之后将提示信息推送至智能语音设备b，智能语音设备b可以在显示屏上向用户a展示相应的提示信息“听缝纫机乐队的歌”、“来点清晨音乐”、“播放新歌榜”。这些提示信息可以作为用户下一轮对话的引导，用户a在看到提示信息后，可以发出例如“不要新歌榜”或“来点清晨音乐”的请求，这时，语音服务器c可以基于用户发出的该请求进一步修正用户的需求分析结构，并调整所提供的可选操作的提示信息。

在一些实施例中，若步骤301的判断结果为“否”，即响应于确定所述第一语音请求信息不包含请求播放多媒体资源的关键词，可以执行步骤308，利用第一语音请求信息的解析结果作为检索式进行网络数据检索，根据检索结果确定用户需求。

在本实施例中，可以对第一语音请求进行解析，并根据解析结果生成检索式，利用检索式来进行网络数据检索，然后可以对检索结果进行分析，以确定用户需求。

在一些可选的实现方式中，可以采用需求识别模型对多条检索结果进行分析，从而确定用户需求。在另一些可选的实现方式中，可以从检索结果页面中提取出一些操作选项作为用户需求的分析结果。例如当检索结果页面中包括“查询路线”、“提醒”等操作选项时，可以确定用户需求为查询路线或建立提醒事项。

进一步地，可以获取网络中其他用户利用相似检索式检索之后执行的操作数据，对其他用户的操作数据进行统计分析来确定发出用户在发出第一语音请求信息后可能执行的操作及执行该操作的概率。例如网络中大部分用户在检索“陈奕迅的演唱会”之后执行了订票操作，则在第一语音请求信息中包括“演唱会”时，可以确定用户有较大的概率执行订票操作，进一步确定用户需求包括订票需求。

步骤309，在已配置的可选操作集合中选出与检索结果匹配的可选操作作为备选操作。

已配置的可选操作集合中可以配置了智能语音设备可以执行的操作。在根据第一语音请求信息的解析结果进行检索、并对根据检索结果确定出用户需求之后，可以从上述已配置的可选操作集合中选出与检索结果匹配的可选操作作为备选操作。具体的匹配方式可以为将可选操作的操作名称与检索结果匹配，或计算可选操作的操作名称与检索结果中提取出的操作数据之间的相似度。

在步骤309之后，可以执行上述步骤310和步骤311。步骤310和步骤311与前述实施例的步骤203、步骤204一致，此处不再赘述。

请参考图6，其示出了根据本申请的用于提供语音服务的方法的一个应用场景的示意图。如图6所示，用户a向具有显示屏的智能语音设备b发出请求“查一下陈奕迅的演唱会”之后，智能语音设备b将该请求发送至语音服务器c，语音服务器c可以对该请求进行解析，确定其中不包含播放多媒体资源的关键词，则可以进一步利用“查一下陈奕迅的演唱会”作为检索式进行检索，在检索结果页面中提取出“订票”操作和“提醒日程”操作，确定用户需求为“订票”或“提醒日程”，则可以判断已配置的可选操作集合中是否包含“订票”操作和“提醒日程”操作，判断结果为是，则可以生成引导用户进行“订票”操作和“提醒日程”操作的提示信息并推送至智能语音设备b，智能语音设备b可以在显示屏上向用户a展示响应的提示信息“订票”和“提醒日程”。

通过利用第一语音请求信息进行网络数据检索，可以利用网络大数据来提升用户需求的识别准确率。并且网络数据可以提供相关的用户操作行为数据，可以根据这些操作行为数据来选出备选操作，进而提示用户执行这些备选操作。由此实现了多样化的用户需求识别和操作提示。

在本实施例的一些可选的实现方式中，上述对第一语音请求信息进行解析，以确定用户需求的步骤可以包括：获取在接收到第一语音请求信息之前的预设时间段内已接收到的第二语音请求信息；结合第二语音请求信息对第一语音请求信息进行解析，以确定用户需求。在这里，预设时间段可以是人工设定的时间段，例如为5分钟。这时，上述用于提供语音服务的电子设备可以结合智能设备与用户的多轮对话来进一步准确定位用户需求。具体来说，在解析第一语音请求信息时，可以已接收到的第二语音请求信息作为附加条件，从第一语音请求信息的解析结果中筛选出满足该附加条件的解析结果，继而确定用户需求。或者，可以将第一语音请求信息和第二语音请求组合同时进行解析，例如可以将第一语音请求信息和第二语音请求信息组合为一条语音请求信息输入基于机器学习的用户需求识别模型，识别出用户需求。这样，可以将在较短时间内接收到的多条语音请求信息结合起来分析用户需求，能够提升用户需求分析结果的准确定，进而提升语音服务的针对性。

在本实施例的一些可选的实现方式中，上述用于提供语音服务的方法还可以包括：监测用户基于提示信息执行备选操作的行为数据；基于行为数据调整已配置的可选操作集合中备选操作与用户需求的关联性参数。

具体来说，上述智能语音设备可以用户是否执行提示信息所提示的备选操作、以及执行每个备选操作的次数、频率进行记录，并上报至用于提供语音服务的电子设备。用于提供语音服务的电子设备可以根据检测数据来调整这些备选操作与用户需求的关联性参数。

在实际场景中，若用户看到提示信息之后未执行相应的备选操作或执行备选操作的次数较少，则可以认为用户对该备选操作兴趣度较低，这时可以减小步骤201确定的用户需求与该备选操作的关联性参数，减弱该用户需求与该备选操作之间的关联性，以在后续相同的用户需求情况下减小提示用于执行该备选操作的概率，淡化该备选操作的提示信息的出现；反之，如果用户看到提示信息后执行相应的备选操作较频繁，则可以认为用户对该备选操作兴趣度较高，或者该备选操作为用户提供了较强的辅助，这时可以增大步骤201确定的用户需求与该备选操作的关联性参数，增强该用户需求与该备选操作之间的关联性，以在后续相同的用户需求情况下增大提示用户执行该备选操作的概率，强化该备选操作的提示信息的出现。从而可以通过搜集用户的操作行为数据动态地更新可选操作集合中的可选操作与各类用户需求之间的关联性，进一步提升所生成的提示信息与用户需求的匹配度。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种用于提供语音服务的装置的一个实施例，该装置实施例与图2和图3所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的用于提供语音服务的装置700包括：解析单元701、确定单元702、生成单元703和推送单元704。其中，解析单元701用于响应于接收到由包含显示屏的智能语音设备发送的第一语音请求信息，对第一语音请求信息进行解析，以确定用户需求；确定单元702用于基于已配置的可选操作集合确定与用户需求关联的备选操作；生成单元703用于生成用于引导用户执行备选操作的提示信息；推送单元704用于向包含显示屏的智能语音设备推送提示信息，以供智能语音设备在显示屏上展示提示信息。

在本实施例中，解析单元701可以在检测到接收到由包含显示屏的智能语音设备发送的第一语音请求信息之后对第一语音请求信息进行解码，得出语音请求内容，然后对语音请求内容进行语义解析，在进行语义解析时首先可以采用语言模型进行分词，然后进行核心词和关键词的提取，之后可以利用主题模型来确定语音请求内容所包含的用户需求。

确定单元702可以从配置了每个可选操作关联的用户需求的可选操作集合中选出与解析单元701解析得到的用户需求关联的可选操作作为备选操作。

生成单元703可以生成包含确定单元702确定出的备选操作的相关信息的提示信息，以提示用户执行该备选操作。在这里，备选操作的相关信息可以包括备选操作的名称、操作对象等信息。

推送单元704可以通过网络将生成单元703生成的提示信息推送至发出第一语音请求信息且包含显示屏的智能语音设备。智能语音设备可以在显示屏上展示推送的提示信息，以引导用户按照提示信息执行相应的操作。

在一些实施例中，上述解析单元701可以进一步用于按照如下方式对第一语音请求信息进行解析，以确定用户需求：判断第一语音请求信息是否包含请求播放多媒体资源的关键词；若是，对第一语音请求信息中的预设多媒体标签进行识别，确定用户需求为播放包含预设多媒体标签的第一多媒体资源的需求。上述确定单元702可以进一步用于按照如下方式确定与用户需求关联的备选操作：在已配置的可选操作集合中选出与用户需求对应的播放操作和与播放操作关联的可选操作作为备选操作；与播放操作关联的可选操作包括以下至少一项：选择待播放的多媒体资源的操作、播放模式切换操作、对播放的多媒体资源的喜好反馈操作。

在一些实施例中，上述解析单元701还用于按照如下方式对第一语音请求信息进行解析，以确定用户需求：响应于确定第一语音请求信息包含请求播放多媒体资源的关键词且第一语音请求信息中不包含预设多媒体标签，获取用户画像数据、场景数据以及待推荐多媒体资源数据；确定用户需求为从待推荐多媒体资源数据中选出与用户画像数据和/或场景数据匹配的第二多媒体资源的需求。这时，上述确定单元702可以进一步用于按照如下方式确定与用户需求关联的备选操作：在已配置的可选操作集合中选出与用户需求对应的推荐操作，作为备选操作，其中推荐操作的推荐对象包括第二多媒体资源。

在一些实施例中，上述解析单元701还可以用于按照如下方式对第一语音请求信息进行解析，以确定用户需求：响应于确定第一语音请求信息不包含请求播放多媒体资源的关键词，利用第一语音请求信息的解析结果作为检索式进行网络数据检索，根据检索结果确定用户需求。这时，上述确定单元702可以进一步用于按照如下方式确定与用户需求关联的备选操作：在已配置的可选操作集合中选出与检索结果匹配的可选操作作为备选操作。

在一些实施例中，上述解析单元701可以进一步用于按照如下方式对第一语音请求信息进行解析，以确定用户需求：获取在接收到第一语音请求信息之前的预设时间段内已接收到的第二语音请求信息；结合第二语音请求信息对第一语音请求信息进行解析，以确定用户需求。

在一些实施例中，上述装置700还可以包括反馈单元，用于：监测用户基于提示信息执行备选操作的行为数据；基于行为数据调整已配置的可选操作集合中备选操作与用户需求的关联性参数。

应当理解，装置700中记载的诸单元与参考图2和图3描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置700及其中包含的单元，在此不再赘述。

本申请上述实施例的用于提供语音服务的装置700，通过解析单元响应于接收到由包含显示屏的智能语音设备发送的第一语音请求信息，对第一语音请求信息进行解析，以确定用户需求，然后确定单元基于已配置的可选操作集合确定与用户需求关联的备选操作；而后生成单元生成用于引导用户执行备选操作的提示信息，最后推送单元向包含显示屏的智能语音设备推送提示信息，以供智能语音设备在显示屏上展示提示信息，实现了基于用户需求的差异化的操作提示，能够针对用户的不同潜在需求提供不同的操作提示信息，提升了用户获取相关操作信息的速度，有利于提升语音服务效率。

下面参考图8，其示出了适于用来实现本申请实施例的服务器的计算机系统800的结构示意图。图8示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(cpu)801，其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram803中，还存储有系统800操作所需的各种程序和数据。cpu801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。

以下部件连接至i/o接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(cpu)801执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括解析单元、确定单元、生成单元和推送单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，解析单元还可以被描述为“响应于接收到由包含显示屏的智能语音设备发送的第一语音请求信息，对第一语音请求信息进行解析的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：响应于接收到由包含显示屏的智能语音设备发送的第一语音请求信息，对第一语音请求信息进行解析，以确定用户需求；基于已配置的可选操作集合确定与用户需求关联的备选操作；生成用于引导用户执行备选操作的提示信息；向包含显示屏的智能语音设备推送提示信息，以供智能语音设备在显示屏上展示提示信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陆广;罗夏君;叶世权;黄崛;张苗昌
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：基于语音交互的机器人启动控制方法及装置与流程
上一篇：电子乐器用簧片以及电子乐器的制作方法