行程语音服务生成方法、行程陪伴助理系统及电子设备与流程

文档序号：22681642发布日期：2020-10-28 12:43阅读：136来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及车辆领域，具体涉及一种行程语音服务生成方法、行程陪伴助理系统及电子设备。

背景技术：

目前市场上的车机系统一般均搭载车载音频应用，主流提供商包括喜马拉雅、听伴，他们都已经推出了连续音频流的产品(喜马拉雅一键听，听伴智能电台流)，但只是简单的已有音频节目的串联和拼接，用户体验较差。

技术实现要素：

有鉴于此，本发明提供行程语音服务生成方法、行程陪伴助理系统及电子设备，能够提供行程过程中的语音陪伴，与用户建立起长期的信任关系和情感连接。

为解决上述技术问题，一方面，本发明提供行程语音服务生成方法，包括如下步骤：

步骤s1，获取综合信息，所述综合信息包括基于位置的服务信息、视频信息、语音信息、用户画像信息及用户行为信息、乘员信息及乘员行为信息及车辆状态信息；

步骤s2，对所述综合信息进行理解，输出理解信息，所述理解信息包括行程理解信息、环境理解信息、用户理解信息、乘员理解信息及车辆理解信息；

步骤s3，基于所述理解信息，通过策略模型生成语音动作策略；

步骤s4，基于所述语音动作策略，执行所述语音动作，从而生成行程语音服务。

进一步地，对所述综合信息进行理解，输出所述理解信息包括：

对用户出行习惯、本次出行时间和出发地、及用户设置导航情况进行理解，输出行程目的；对行程目的、用户历史出行习惯及路况信息的理解和/或根据导航系统的时间，输出本次行程的时长；对行程目的和导航系统的路线进行理解，输出本次行程所需要经过的道路类型和路况，

对导航系统获取的实时路况进行理解或对摄像头获取的车外的视频进行识别，输出周边路况信息；对网络上的实时天气信息进行理解或对摄像头获取的车外的图像进行识别，输出天气信息；对网站输出的距离当前位置的预定距离的区域内出现的异常事件的信息或对导航系统输出的异常事件信息进行理解，输出异常事件信息，

对用户日常行为习惯理解，输出用户本次日程的上下文；对车内摄像头获取的用户图像进行识别和对方向盘及座椅的压力传感器的数据进行分析，输出用户的疲劳状态；对车内摄像头获取的用户图像进行识别和对用户的随身传感器的数据进行分析，输出用户的情绪；对车内摄像头获取的用户图像进行识别和车外摄像头获取的车辆行驶轨迹，输出驾驶行为信息；对用户的年龄、性别、职业、婚姻情况、家庭情况、子女情况及日常消费信息进行理解，输出消费信息；

对车内摄像头获取的乘员图像信息进行识别和/或对乘员的语音信息进行识别，输出乘员身份信息、乘员的疲劳状态及乘员的情绪；

对车辆部件的状态码进行理解，输出车辆部件状态信息；对车辆碰撞的检测信息进行理解，输出车辆受损信息；对车辆的行驶轨迹进行理解，输出车辆行驶信息。

进一步地，所述步骤s3包括：

步骤s31，追踪所述理解信息和用户收听信息；

步骤s32，基于追踪到的所述理解信息和用户收听信息，通过策略模型生成语音动作策略。

进一步地，所述用户收听信息包括用户本次收听的累计时长信息、用户本次收听语言类节目的时长信息、用户距离上次音乐播放结束的时长信息及用户距离上次快讯插播的时长信息；

所述语音动作策略为确定出当前所需要执行的语音动作的策略，所述语音动作包括节目编排、快讯播报、天气播报、路况播报、关怀语生成、车辆状态播报、驾驶提醒播报、广告播报及垂直域对话。

进一步地，所述策略模型为马尔科夫决策过程模型，包括：

s表示系统状态空间，st为t时刻所述理解信息的特征、所述用户收听信息的特征、虚拟人设的特征及所述用户画像信息的特征，

a表示语音动作集合，

p表示系统状态转移，p(st+1|st，at)为在状态st的情况下，采取动作at之后系统状态转变为st+1的概率，

r表示奖励，即r(st，at)为在状态st的情况下采取at获得的奖励，所述奖励根据用户反馈设定，

π为语音动作策略，θ为策略模型的参数，πt＝f(st，θ)；

所述策略模型通过策略梯度算法进行优化。

进一步地，执行所述语音动作包括：执行节目编排、执行快讯播报、执行天气播报、执行路况播报、执行关怀语生成、执行车辆状态播报、执行驾驶提醒播报、执行广告播报及执行垂直域对话。

进一步地，所述执行节目编排包括：

基于用户、所述理解信息及上下文生成栏目；

提取所述栏目对应的栏目内容；

将所述栏目内容进行编排，形成音频序列；

在所述栏目的开始、结尾以及所述栏目内容中不同音频之间生成主播语，

所述执行垂直域对话包括：

询问上下文信息、询问用户兴趣点、询问用户收听意图及根据用户反馈进行响应，根据行车安全和用户情绪发起对话。

进一步地，行程语音服务生成方法还包括：

步骤s5，基于用户反馈及时进行调整；

所述调整包括理解调整、语音动作策略调整及执行语音动作调整中的一种或多种。

第二方面，本发明提供行程陪伴助理系统，用于生成语音服务，包括：

获取器，所述获取器用于获取综合信息，所述综合信息包括基于位置的服务信息、视频信息、语音信息、用户画像信息及用户行为信息、乘员信息及乘员行为信息及车辆状态信息；

理解器，所述理解器用于对所述综合信息进行理解，输出理解信息，所述理解信息包括行程理解信息、环境理解信息、用户理解信息、乘员理解信息及车辆理解信息；

核心管理器，所述核心管理器用于基于所述理解信息，通过策略模型生成语音动作策略；

动作执行器，所述动作执行器用于基于所述语音动作策略，执行所述语音动作，从而生成行程语音服务。

进一步地，所述理解器包括：

行程理解器，所述行程理解器用于对用户出行习惯、本次出行时间和位置、及用户设置导航情况进行理解，输出行程目的；对行程目的、用户出行习惯及路况信息的理解和/或根据导航系统的时间，输出本次行程的时长；对行程目的和导航系统的路线进行理解，输出本次行程所需要经过的道路类型和路况，

环境理解器，所述环境理解器用于对实时路况进行理解或对摄像头获取的车外的图像进行识别，输出周边路况信息；对实时天气信息进行理解或对摄像头获取的车外的图像进行识别，输出天气信息；对网站输出的距离当前位置的预定距离的区域内出现的异常事件的信息或对导航系统输出的异常事件信息进行理解，输出异常事件信息，

用户理解器，所述用户理解器用于对用户日常行为习惯理解，输出用户本次日程的上下文；对车内摄像头获取的用户图像进行识别和对方向盘及座椅的压力传感器的数据进行分析，输出用户的疲劳状态；对车内摄像头获取的用户图像进行识别和对用户的随身传感器的数据进行分析，输出用户的情绪；对车内摄像头获取的用户图像进行识别和车外摄像头获取的车辆行驶轨迹，输出驾驶行为信息；对用户的年龄、性别、职业、婚姻情况、家庭情况、子女情况及日常消费信息进行理解，输出消费信息；

乘员理解器，所述乘员理解器用于对车内摄像头获取的乘员图像信息进行识别和/或对乘员的语音信息进行识别，输出乘员身份信息、乘员的疲劳状态及乘员的情绪；

车辆理解器，所述车辆理解器用于对车辆部件的状态码进行理解，输出车辆部件状态信息；对车辆碰撞的检测信息进行理解，输出车辆受损信息；对车辆的行驶轨迹进行理解，输出车辆行驶信息。

进一步地，所述核心管理器包括：

系统状态追踪器，所述系统状态追踪器用于追踪所述理解信息和用户收听情况信息；

策略生成器，所述策略生成器用于基于追踪到的所述理解信息和用户收听信息，生成语音动作策略。

进一步地，所述动作执行器包括：节目编排执行器、快讯播报执行器、天气播报执行器、路况播报执行器、关怀语生成执行器、车辆状态播报执行器、驾驶提醒播报执行器、广告播报执行器及垂直域对话执行器，

其中，所述节目编排执行器包括：

内容聚合引擎，所述内容聚合引擎用于提供栏目内容；

编排引擎，所述编排引擎用于根据系统状态追踪器所追踪到的信息选择编排模板，从所述内容聚合引擎中提取所述编排模板所需的栏目内容，并编排成音频序列。

进一步地，所述节目编排执行器还包括：

推荐引擎，所述推荐引擎用于对所述栏目内容进行打分；

所述编排引擎用于选择编排模板，从所述推荐引擎中提取所述编排模板所需的栏目内容，并编排成音频序列；

文本生成模块，所述文本生成模块用于生成主播语，并将所述主播语插入所述音频序列中。

进一步地，行程陪伴助理系统还包括：

在线学习器，所述在线学习器用于基于用户反馈对所述理解器、核心管理器及动作执行器中的一种或多种进行及时调整。

第三方面，本发明提供用于生成行程语音服务的电子设备，包括：

一个或多个处理器；

一个或多个存储器，其中存储了计算机可读代码，所述计算机可读代码当由所述一个或多个处理器运行时，使得所述处理器执行如下步骤：

步骤s2，对所述综合信息进行理解，输出理解信息，所述理解信息包括行程理解信息、环境理解信息、用户理解信息、乘员理解信息及车辆理解信息；

步骤s3，基于所述理解信息，通过策略模型生成语音动作策略；

步骤s4，基于所述语音动作策略，执行所述语音动作，从而生成行程语音服务。

本发明的上述技术方案至少具有如下有益效果之一：

根据本发明的行程语音服务生成方法，获取综合信息，对综合信息进行理解，基于理解信息，通过策略模型生成语音动作策略，基于语音动作策略，执行语音动作，从而生成行程语音服务，能够提供行程过程中的语音陪伴，与用户建立起长期的信任关系和情感连接。

附图说明

图1为根据本发明一实施例的行程语音服务生成方法的流程图；

图2为本发明实施例的行程陪伴助理系统的示意图；

图3为根据本发明实施例的节目编排器的示意图；

图4为根据本发明实施例的节目编排模板的示意图；

图5为根据本发明实施例的节目编排结果的示意图；

图6为根据本发明实施例的生成行程语音服务的电子设备的示意图。

具体实施方式

下面将结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

首先，结合图1说明根据本发明实施例的行程语音服务生成方法。

如图1所示，本发明实施例的行程语音服务生成方法，包括：

步骤s1，获取综合信息，综合信息包括基于位置的服务信息、视频信息、语音信息、用户画像信息及用户行为信息、乘员信息及乘员行为信息及车辆状态信息。

可选地，通过车机、手机等获取综合信息。基于位置服务信息可以包括导航信息、天气信息、异常信息、网站信息等；视频信息可以包括摄像头获取的视频信息；语音信息可以包括驾驶人员的语音信息等；用户行为信息可以包括用户的习惯、历史行程等。其中，用户为驾驶人员。

步骤s2，对综合信息进行理解，输出理解信息，理解信息包括行程理解信息、环境理解信息、用户理解信息、乘员理解信息及车辆理解信息。

也就是说，综合信息进行处理，输出行程理解信息、环境理解信息、用户理解信息等。

可选地，对综合信息进行理解，输出理解信息包括：

对用户出行习惯、本次出行时间和位置、及用户设置导航情况进行理解，输出行程目的；对行程目的、用户出行习惯及路况信息的理解和/或根据导航系统的时间，输出本次行程的时长；对行程目的和导航系统的路线进行理解，输出本次行程所需要经过的道路类型和路况，

对实时路况进行理解或对摄像头获取的车外的图像进行识别，输出周边路况信息；对实时天气信息进行理解或对摄像头获取的车外的图像进行识别，输出天气信息；对网站输出的距离当前位置的预定距离的区域内出现的异常事件的信息或对导航系统输出的异常事件信息进行理解，输出异常事件信息，

对用户日常行为习惯理解，输出用户本次日程的上下文；对车内摄像头获取的用户图像进行识别和对方向盘及座椅的压力传感器的数据进行分析，输出用户的疲劳状态；对车内摄像头获取的用户图像进行识别和对用户的随身传感器的数据进行分析，输出用户的情绪。

以下从三方面具体说明对综合信息进行理解，输出理解信息。

1)对综合信息进行理解，输出行程理解信息，行程理解信息包括行程目的、行程长度、及行程所经过的道路类型和路况。

行程目的：根据用户历史出行习惯、本次出行时间及出发地、用户设置导航的情况，预测本次行程的目的(通勤、外出就餐、市内休闲、市郊休闲、长途旅行等)。出行目的会影响用户的情绪状态，例如在上班通勤路上人的状态一般比较积极，可以播放新闻、财经这类资讯类节目，在下班途中可以播放本地新闻、奇闻逸事等和生活娱乐相关的内容。

输出行程长度：根据行程目的、用户历史出行习惯的统计、当前的路况情况，或在用户设置导航的情况下，根据导航系统的行程时间，预估出用户本次行程所用的时长，并根据预估时长来编排节目。

行程所经过的道路类型和路况：根据行程目的和导航路线提前了解所将经过的道路类型和路况，利用这些信息，可在行程开始的时候为用户概括总体的路况，并且根据所要经过的道路类型来编排节目。

2)对综合信息进行理解，输出环境理解信息，环境理解信息包括：周边路况信息、天气信息、及异常时间信息。

周边路况：周边路况为车辆周边的路况。可以根据导航系统(高德导航等)获取实时路况得到周边路况，也可以根据定位(gps，全球定位系统)信息查询实时路况得到路况。如果车辆配备了车外摄像头，对摄像头采集的视频进行分析(图像识别)，得到更加精准的结果。路况可以影响用户的情绪状态，进而影响助理的服务决策。

天气情况：天气情况可以由定位(gps，全球定位系统)信息查询实时天气信息获得，也可以通过车外摄像头检测得到更加精准的结果。与路况类似，天气同样可以影响助理的服务决策。

异常事件：车辆附近区域的异常事件可以通过监控高德、微博等实时数据源获得，例如交通事故、交通管制、路面塌陷等等，也可以通过车外摄像头检测得到例如异常拥堵这样的事件。可以为用户进行即时播报，帮助用户更好地安排接下来的行程。

3)对综合信息进行理解，输出用户理解信息，用户理解信息包括：日程的上下文、用户疲劳状态、用户情绪状态、用户驾驶状态及消费信息。

日程的上下文：通过对用户日常行为习惯的分析，推断用户所处的日程上下文，例如：近日连续加班、刚加班结束、正常时间上班、提早上班、周末加班等等。用户的日程上下文是助理对用户表示关怀的依据之一。

用户疲劳状态：通过车内摄像头，方向盘、座椅上安装的压力感应器，以及对驾驶行为(驾驶员反应速度)的分析，可以推断出驾驶员是否处于疲劳状态。可以进行相应的提醒，以及播放一些可以振奋精神的节目。

用户情绪状态：通过车内摄像头和随身传感器(例如，可穿戴传感器)，推断用户是否处于焦虑、烦躁甚至路怒等不良状态中。可以和用户进行一些贴心的沟通，安排一些可以舒缓心情的节目。

用户消费信息：对用户的年龄、性别、职业、婚姻情况、家庭情况、子女情况及日常消费信息进行理解，输出消费信息。可以安排一些广告，方便用户进行消费。

用户驾驶状态信息，对车内摄像头获取的用户图像进行识别和车外摄像头获取的车辆行驶轨迹，输出驾驶行为信息。当用户紧急驾驶或危险驾驶的时候，能够对用户进行驾驶提醒。

4)对综合信息进行理解，输出乘员理解信息。

对车内摄像头获取的乘员图像信息进行识别和/或对乘员的语音信息进行识别，输出乘员身份信息、乘员的疲劳状态及乘员的情绪。可以根据乘员情况，和乘员进行沟通，且在服务用户的情况下，兼顾乘员。

5)对综合信息进行理解，输出车辆理解信息。

对车辆部件的状态码进行理解，输出车辆部件状态信息；对车辆碰撞的检测信息进行理解，输出车辆受损信息；对车辆的行驶轨迹进行理解，输出车辆行驶信息。可以根据车辆部件状态及时提醒用户进行保养，也可以根据车辆的受损情况，给出检修建议。

步骤s3，基于理解信息，通过策略模型生成语音动作策略。

也就是说，根据理解信息，通过策略模型生成最优的语音动作集合，从而生成语音动作策略。

例如，基于理解信息包括：出行目的是上班，行程时长30分钟，道路类型为高架道路，路况拥堵、大雨天气、距离当前行驶距离10公里有交通事故、日程上下文为晚上9点开车回家、通常下班开车时间为晚上6点、驾驶人员略有疲劳及用户情绪有些焦虑。策略模型可以生成的语音动作策略为30秒的天气播报，30秒路况播报，27分钟舒缓音乐播放、2分钟关怀语播放等。

步骤s4，基于语音动作策略，执行语音动作，从而生成行程语音服务。

也就是说，根据语音动作策略所需要执行的语音动作，进行相应的执行语音动作，从而生成行程语音服务。

例如，根据语音动作策略，通过车机的音频播放30秒的天气播报(今天持续大雨)，30秒路况播报(前方10公里交通事故，谨慎慢行)，27分钟舒缓音乐播放(4首舒缓音乐)、关怀语播放(早上好，工作辛苦了，加油)等。

由此，能够提供行程过程中的语音服务(音频陪伴)，能够与用户建立起长期的信任关系和情感连接。

根据本发明一些实施例，步骤s3包括：

步骤s31，追踪理解信息和用户收听信息。

追踪理解信息为对理解信息进行及时获取。

用户收听信息包括：用户本次收听的累计时长信息、用户本次收听语言类节目的时长信息、用户距离上次音乐播放结束的时长信息及用户距离上次快讯插播的时长信息等。

步骤s32，基于追踪到的理解信息和用户收听信息，通过策略模型生成语音动作策略。

语音动作策略为确定出当前所需要执行的语音动作的策略，语音动作包括节目编排、快讯播报、天气播报、路况播报、关怀语生成、车辆状态播报、驾驶提醒播报、广告播报及垂直域对话。

由此，能够生成较好的语音动作策略，满足不同的用户需求，给用户更好的体验。

进一步地，策略模型为马尔科夫决策过程模型，包括：

s表示系统状态空间，st为t时刻理解信息的特征、用户收听信息的特征、虚拟人设的特征及用户画像信息的特征，

a表示语音动作集合，

p表示系统状态转移，p(st+1|st，at)为在状态st的情况下，采取动作at之后系统状态转变为st+1的概率，

r表示奖励，即r(st，at)为在状态st的情况下采取at获得的奖励，奖励根据用户反馈设定，

π为语音动作策略，θ为策略模型的参数，πt＝f(st，θ)；

策略模型通过策略梯度算法进行优化。

也就是说，策略生成可看作一个mdp(markovdecisionprocess，马尔科夫决策过程)的优化问题，可以利用增强学习的方法来求解。一个mdp由四元组(s,a,p,r)表示，其中s表示系统状态空间，st包含t时刻状态追踪器所包含的所有特征，以及用户画像信息特征(用户喜好、性格等)和虚拟人设的特征(年龄、性别、背景及兴趣等)。a表示所有可能动作的集合，在这里包括节目编排、快讯播报、天气播报、关怀语生成、垂直域对话等。p表示系统状态转移特性，即在状态st的情况下，采取动作at之后系统状态转变为st+1的概率为p(st+1|st,at)。r表示进行动作之后获得的奖励，即r(st,at)为在状态st的情况下采取at获得的奖励，可以根据用户行为反馈进行设定。陪伴助理所要学习的策略表示为π，设策略模型的参数为θ，则πt＝f(st,θ)即为需要优化的对象，可以由policygradient(策略梯度)算法加以优化。为了满足不同用户的需求，策略模型是用户相关的，即各个用户的模型参数是不同的。

根据本发明一些实施例，执行语音动作包括：执行节目编排、执行快讯播报、执行天气播报、执行路况播报、执行关怀语生成、执行车辆状态播报、执行驾驶提醒播报、执行广告播报及执行垂直域对话。

进一步地，执行节目编排包括：基于用户、理解信息及上下文生成栏目。提取栏目对应的栏目内容。将栏目内容进行编排，形成音频序列。在栏目的开始、结尾以及栏目内容中不同音频之间生成主播语。

也就是说，根据当前用户、上下文及理解信息挑选出适合当前的栏目，例如新闻、音乐、读书等等，再为栏目生成具体内容。在栏目的开始、结尾处以及各个音频内容之间，根据情况生成主播语，用于介绍接下来所播放的栏目或音频内容。

执行垂直域对话包括：询问上下文信息、询问用户兴趣点、询问用户收听意图及根据用户反馈进行响应，根据行车安全和用户情绪发起对话。

根据本发明一些实施例，还包括：步骤s5，基于用户反馈及时进行调整；

调整包括理解调整、语音动作策略调整及执行语音动作调整中的一种或多种。

例如，根据用户的行为习惯、兴趣的变化做出相应的调整，根据用户的负面反馈进行相应的改变。

由此，能够更好地对用户提供服务，跟随用户的改变而改变，根据用户的负面反馈及时做调整。

下面，结合图2，说明根据本发明实施例的行程陪伴助理系统1000，行程陪伴助理系统1000用于生成语音服务。

如图2所示，本发明实施例的行程陪伴助理系统1000包括：获取器1100、理解器、核心管理器1300及动作执行器1400。

获取器1100用于获取综合信息，综合信息包括基于位置的服务信息、视频信息、语音信息、用户画像信息及用户行为信息、乘员信息及乘员行为信息及车辆状态信息。

理解器1200用于对综合信息进行理解，输出理解信息，理解信息包括行程理解信息、环境理解信息、用户理解信息、乘员理解信息及车辆理解信息。

核心管理器1300用于基于理解信息，通过策略模型生成语音动作策略。

动作执行器1400用于基于语音动作策略，执行语音动作，从而生成行程语音服务。

进一步地，理解器1200包括：

行程理解器1210，行程理解器1210用于对用户出行习惯、本次出行时间和位置、及用户设置导航情况进行理解，输出行程目的；对行程目的、用户出行习惯及路况信息的理解和/或根据导航系统的时间，输出本次行程的时长；对行程目的和导航系统的路线进行理解，输出本次行程所需要经过的道路类型和路况。

环境理解器1220，环境理解器1220用于对实时路况进行理解或对摄像头获取的车外的图像进行识别，输出周边路况信息；对实时天气信息进行理解或对摄像头获取的车外的图像进行识别，输出天气信息；对网站输出的距离当前位置的预定距离的区域内出现的异常事件的信息或对导航系统输出的异常事件信息进行理解，输出异常事件信息。

用户理解器1230，用户理解器1230用于对用户日常行为习惯理解，输出用户本次日程的上下文；对车内摄像头获取的用户图像进行识别和对方向盘及座椅的压力传感器的数据进行分析，输出用户的疲劳状态；对车内摄像头获取的用户图像进行识别和对用户的随身传感器的数据进行分析，输出用户的情绪；对车内摄像头获取的用户图像进行识别和车外摄像头获取的车辆行驶轨迹，输出驾驶行为信息；对用户的年龄、性别、职业、婚姻情况、家庭情况、子女情况及日常消费信息进行理解，输出消费信息。

乘员理解器1240，乘员理解器1240用于对车内摄像头获取的乘员图像信息进行识别和/或对乘员的语音信息进行识别，输出乘员身份信息、乘员的疲劳状态及乘员的情绪；

车辆理解器1250，车辆理解器1250用于对车辆部件的状态码进行理解，输出车辆部件状态信息；对车辆碰撞的检测信息进行理解，输出车辆受损信息；对车辆的行驶轨迹进行理解，输出车辆行驶信息。

根据本发明一些实施例，核心管理器1300包括：系统状态追踪器1310和策略生成器1320。

系统状态追踪器1310用于追踪理解信息和用户收听情况信息。

状态追踪器里保存着一系列实时更新的<slot，value>(<插槽，值>)对，除包含全部理解器输出的状态字段，还包含在当前session(会话控制)中用户收听情况的总结，例如用户本次收听的累计时长用户本次收听语言类节目的累计时长、用户距离上次音乐播放结束的时长、用户距离上次快讯插播的时长、等等。

策略生成器1320用于基于追踪到的理解信息和用户收听信息，生成语音动作策略。

在状态追踪的基础上，策略生成器1320负责生成当前最优的动作，并发送给动作执行器1400执行。策略生成可看作一个mdp(markovdecisionprocess)的优化问题，可以利用增强学习的方法来求解。一个mdp由四元组(s,a,p,r)表示，其中s表示系统状态空间，在行程陪伴助理系统1000的问题中，st包含t时刻状态追踪器所包含的所有特征，以及用户画像和虚拟人设中所包含的特征。a表示所有可能动作的集合，在这里包括节目编排、快讯播报、天气播报、关怀语生成、垂直域对话等。p表示系统状态转移特性，即在状态st的情况下，采取动作at之后系统状态转变为st+1的概率为p(st+1|st,at)。r表示陪伴助理进行动作之后获得的奖励，即r(st,at)为在状态st的情况下采取at获得的奖励，可以根据用户行为反馈进行设定。陪伴助理所要学习的策略表示为π，设策略模型的参数为θ，则πt＝f(st,θ)即为需要优化的对象，可以由policygradient算法加以优化。为了满足不同用户的需求，策略模型是用户相关的，即各个用户的模型参数是不同的。

进一步地，动作执行器1400包括：节目编排执行器1410、快讯播报执行器1420、天气播报执行器1430、路况播报执行器1440、关怀语生成执行器1450及垂直域对话执行器1460、车辆状态播报执行器1470、驾驶提醒播报执行器1480、及广告播报执行器1490。

首先，说明节目编排器。节目编排执行器1410包括：内容聚合引擎和编排引擎。

内容聚合引擎用于提供栏目内容。

编排引擎用于根据系统状态追踪器1310所追踪到的信息选择编排模板，从内容聚合引擎中提取编排模板所需的栏目内容，并编排成音频序列。

进一步地，节目编排执行器1410还包括：推荐引擎、编排引擎和文本生成模块。

推荐引擎用于对栏目内容进行打分。

编排引擎用于选择编排模板，从推荐引擎中提取编排模板所需的栏目内容，并编排成音频序列。

文本生成模块，文本生成模块用于生成主播语，并将主播语插入音频序列中。

例如，如图3所示，节目编排的核心是编排引擎，它基于当前的系统状态(系统状态追踪器1310所追踪到的信息)选择相应的编排模版，再从推荐引擎召回模版中所指定的内容，编排成带有栏目结构信息的音频内容序列。编排模版由上下文无关文法描述，我们选择了jsgf(javaspeechgrammarformatjave语音语法格式)这种标准格式来书写编排模版。

图4示出了编排模板的可选实施例，模版中的节点分为两类，其中带尖括号的节点表示栏目或子栏目，在这个例子里模版所表示的栏目是“体育新闻”，对应于文法的根结点，由“重大新闻”和“篮球”、“足球”几个子栏目组成。另一类不带尖括号的节点表示构成栏目的内容，节点上的文字表示内容标签(tag)，大括号里列出了该部分内容的一些限制条件，如内容个数和总时长的限制等。编排引擎在访问到这类节点时，会调用推荐引擎召回内容，并根据推荐引擎返回的结果(内容列表及其相应的分数)进行编排。

节目编排通过在编排模版所表示的图空间中搜索最优的内容序列进行，其中搜索路径的得分由内容推荐分、以及与模版节点上指定的限制条件的匹配度决定。算法的输入为模版jsgf所对应的图(文法可转化为与之等价的图形式)，输出为由栏目名称和音频内容组成的序列。随后编排引擎调用nlg引擎(即文本生成模块)，根据所在栏目名称、栏目所在的位置、即将播放的音频内容属性等信息，生成主播语句，并插入到序列相应的位置上。最终节目编排执行器1410返回的结果如图5所示的音频序列。

接着说明，关怀语生成执行器1450。

通过追踪用户上下文和当前状态，判断用户是否需要进行情感上的关怀和鼓励，例如：当用户连续加班或早起去办公室时，就可以道一声辛苦，鼓励一下用户，拉近与用户之间的心理距离。关怀语生成可以基于模版的方法，也可以采用seq2seq(一种深度学习模型)的方法。

接着，说明快讯播报执行器1420、天气播报执行器1430及路况播报执行器1440。

监听相应的实时数据源，选择重要和相关的信息进行播报。

若数据源为结构化数据(如天气、路况),则将结构化数据通过data-to-text模块生成文本。在文本生成过程中，应选择重要的特征字段播报，并且通过多样化的模版或者seq2seq的方式提高语言的丰富性。

若数据源为文本，则需要提取文本中的重要内容，并改写成适合快讯播报的形式，这个过程可以借助seq2seq的方法来实现。

需要对数据源的情感特性进行分析，根据情感的正向/中性/负向，选择不同的tts语气和情感设置进行播报。

接下来说明，垂直域对话执行器1460。

行程陪伴助理系统1000支持的对话模式分为主动和被动两种。主动发起的对话包括以下情况：

询问上下文信息。例如：若系统不确定用户当前行程是否为上班，则主动发起对话询问，并根据用户反馈的情况更新系统状态以及相应的理解器。

主动询问用户的兴趣点，由于在连续音频流的应用环境下用户缺乏快速浏览信息的手段，系统需要根据推荐引擎的分析结果，聚焦用户当前有可能感兴趣的关键词，并以对话的方式和用户加以确认。

询问用户当前的收听意图，例如：若系统检测到用户连续跳过推送的音频内容，则主动询问用户当前想听的内容。

处于行车安全的考虑，系统应谨慎发起对话，在发起的时候需要考虑：1)对话频次不应过多；2)当前的行车环境，是否处于复杂或危险路段；3)用户的情绪状态，若处于不良状态则尽量不发起对话。除了主动发起对话，系统也应对用户表达的收听意愿或反馈进行响应。在垂直域对话发起之后，对话管理器将接管助理的控制逻辑，在对话结束之后交还给核心管理器1300，同时返回对话得到的结果。对话系统的技术相对比较成熟，可以利用rasa这样的开源框架实现，在此不具体展开。

最后，说明广告播报执行器1490、驾驶提醒播报执行器1480及车辆状态播报执行器1470。

广告播报器1490可以根据用户的消费情况进行广告投放。驾驶提醒播报执行器可以根据驾驶行为、用户疲劳状态等进行播报提醒。车辆状态播报执行器可以根据车辆保养周期和碰撞情况，进行播报。

根据本发明一些实施例，行程陪伴助理系统1000还包括在线学习器1500。

在线学习器1500用于基于用户反馈对理解器1200、核心管理器1300及动作执行器1400中的一种或多种进行及时调整。

为了快速学习不同情况下用户的期望，行程陪伴助理系统1000的核心管理器1300(主要是系统策略)、部分理解器1200(如用户上下文理解)和动作执行器1400(如节目编排中的推荐引擎)引入了在线学习。在线学习的必要性主要来自以下几个方面：

1)系统同时考虑行程、环境、用户、内容等维度，数据稀疏问题严重，需要及时在线迭代模型。

2)用户的行为习惯、兴趣等会逐渐变化，模型也需要及时随之更新。

3)部分特征不可靠，例如离线挖掘的用户画像、理解器的输出等，系统需要能够及时发现因此造成的负面反馈，并实时抑制相应的权重，降低对用户体验的负面影响。

在线学习可选用supervisedonlinelearning(监督学习)或onlinebanditlearning(在线强化学习)的框架。

此外，结合图6，说明根据本发明实施例的用于生成行程语音服务的电子设备。

如图6所示，本发明实施例的用于生成行程语音服务的电子设备1400包括：

处理器1401和存储器1402，在存储器1402中存储有计算机程序指令，其中，在计算机程序指令被处理器运行时，使得处理器1401执行以下步骤：

步骤s2，对所述综合信息进行理解，输出理解信息，所述理解信息包括行程理解信息、环境理解信息、用户理解信息、乘员理解信息及车辆理解信息；

步骤s3，基于所述理解信息，通过策略模型生成语音动作策略；

步骤s4，基于所述语音动作策略，执行所述语音动作，从而生成行程语音服务。

电子设备1400可以为分布的、云端一体的架构。即一部分处理器1401和一部分处理器存储器1402部署在分布式云服务。输入设备、另一部分处理器1401、和另一部分处理器存储器1402可以部署在设备端，云服务器与设备端之间通过网络通信。

进一步地，处理器1401还可以执行行程语音服务生成方法中的相应步骤，在此省略其详细说明。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器1401代表的一个或者多个中央处理器(cpu)，以及由存储器1402代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口1403，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘1405中。

所述输入设备1404，可以接收操作人员输入的各种指令，并发送给处理器1401以供执行。所述输入设备1404可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备1406，可以将处理器1401执行指令获得的结果进行显示。

所述存储器1402，用于存储操作系统运行所必须的程序和数据，以及处理器1401计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器1402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram)，其用作外部高速缓存。本文描述的装置和方法的存储器1402旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器1402存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统14021和应用程序14014。

其中，操作系统14021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序14014，包含各种应用程序，例如浏览器(browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序14014中。

上述处理器1401，当调用并执行所述存储器1402中所存储的应用程序和数据，具体的，可以是应用程序14014中存储的程序或指令时，首先，获取综合信息，所述综合信息包括基于位置的服务信息、视频信息、语音信息、用户画像信息及用户行为信息、乘员信息及乘员行为信息及车辆状态信息；接着，对所述综合信息进行理解，输出理解信息，所述理解信息包括行程理解信息、环境理解信息、用户理解信息、乘员理解信息及车辆理解信息；接下来，基于所述理解信息，通过策略模型生成语音动作策略；最后，基于所述语音动作策略，执行所述语音动作，从而生成行程语音服务。

本发明上述实施例揭示的方法可以应用于处理器1401中，或者由处理器1401实现。处理器1401可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1401可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、通用gpu(gpgpu)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1402，处理器1401读取存储器1402中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(asic)、数字信号处理器dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋丹宁;李博;张婕欣;张伟志
技术所有人：斑马网络技术有限公司
我是此专利的发明人