一种智能应答方法、系统及装置与流程

文档序号：21102491发布日期：2020-06-16 20:57阅读：288来源：国知局

本发明涉及通信智能应答领域，特别是一种智能应答方法、系统及装置。

背景技术：

随着社会经济的快速发展，广告、金融、营销等陌生电话或骚扰电话越来越多，人们越来越害怕接听电话，一方面担心接听到骚扰电话，比如一些播放广告的外呼电话，也害怕接到营销电话，如房产、保险电话等，碍于礼貌原因未直接挂断电话，听着营销人员的滔滔不绝的产品介绍，浪费宝贵时间。人们如果拒接陌生电话，又担心害怕错过重要信息，比如工作面试邀约、客户邀约、银行通知、快递通知等等。因此人们开始使用骚扰电话拦截、智能应答类软件来管理陌生电话，帮助代接电话，与来电者进行语音交互，并获取来电目的，不用担心接听骚扰电话也不会错过重要信息。

目前市面上的智能应答类软件，几乎都是使用语音交互，即在为用户代接电话时，通过ivr语音播报与来电者进行交互。由于现在视频电话已经是人们通讯沟通的一种主流方式，比如使用qq视频电话、微信视频电话进行联系沟通等，因此在代接电话时使用ivr语音交互方式对于习惯使用视频交流的用户来说体验较差，会降低来电者交流积极性，选择结束电话交流，最终用户无法得到有效的来电信息。

另外，市面上的智能应答类软件，使用合成音库，或者是使用人工录制的音库，为用户代接电话时，会以机器人的声音或者其他录制的声音与来电者进行交互。一方面，用户无法实现使用自己的形象接听电话，比如使用自己的声音进行电话交互，或者使用自己的视频形象进行电话交互；另一方面，来电者会认为重要信息需要与被叫用户本人进行交流，并希望得到本人的及时回应，而不是通过别人转达的方式，智能应答软件代接电话时，使用合成的声音或者人工录制的声音，容易被感知到是机器人代接的电话或者不是机主本人接听的电话，因此无法获取来电具体目的等，这类问题也导致用户无法及时了解来电者的重要信息。

技术实现要素：

本发明目的在于解决上述技术问题，提供一种智能应答方法、系统及装置，通过本发明的智能应答方法能够使用虚拟形象视频对没有接通的电话进行交互应答，提升通话双方没有接通电话时的通话体验。

为了达到上述目的，本发明的技术方案有：

一种智能应答方法，包括以下步骤：

采集本侧用户的形象信息和声音信息制作成本侧用户的虚拟形象和音库；

接收到主叫用户的呼叫转移后，使用所述虚拟形象和音库合成虚拟形象视频与主叫用户进行通信交互；

记录交互过程所产生的通话信息，并将所述通话信息推送给本侧用户。

本申请的智能应答方法，在于提供一种模拟本侧用户本人的视频形象代接电话的智能应答助理，在智能应答产品中，通过虚拟形象视频功能，使用本侧用户自身的形象以及声音制作成的个人的虚拟形象和个人的音库，在代接电话的过程中，使用本侧用户本人的虚拟形象以及声音合成的虚拟形象视频与主叫用户进行交互，当本侧用户无法接听电话时，本智能应答方法能够为本侧用户代接电话，并且以该用户所制作的虚拟形象视频与主叫用户进行沟通交互，让主叫用户有种与真实的本侧用户进行视频交流的感觉，从而提升主叫用户的没有接通电话时的通话体验；并且在于主叫用户交互之后将交互的信息推送给本侧用户，避免其因为未接听通话而错过重要信息，增强的本侧用户的使用体验，并且用户能够自由的diy自己想要虚拟形象，基于使用场景的延伸，用户可以制作自己的虚拟形象进行使用，同时也可以通过虚拟形象视频合成制作更多个性化虚拟形象，比如制作卡通人物、明星的虚拟形象等，有更多的娱乐空间。

进一步地，所述合成虚拟形象视频具体为：

基于所述虚拟形象和音库，并根据话术文本合成所述虚拟形象视频；所述话术文本为预设或分析通话信息中主叫用户的话语生成。话术文本即虚拟形象视频中的虚拟形象所要说的话，根据话术文本合成了虚拟形象视频，并发送给主叫用户端播放交互，进一步的提升主叫用户体验的真实感；预设的可以是开头的寒暄语，交互可以以寒暄语制成的虚拟形象视频开头并询问来电目的，以方便开展后续的交流；在后续的交流的通话信息中分析主叫用户的话语生成话术文本，以使与主叫用户的交互过程能够持续进行，记录更多的通话信息来供本侧用户判断通话信息的重要程度。

再进一步地，所述通话信息推送时，通过语义理解所述通话信息形成推送信息的标题，再推送给本侧用户。标题可以使用户更加直观地获取推送信息的内容。

再进一步地，还包括以下步骤：

合成虚拟形象视频时为所述虚拟形象视频添加表情特征、口型特征和/或肢体动作特征。通过对文本、语音内容进行解析，合成对应的口型、表情及动作等，使得虚拟形象在视频交互中表现得更加真实的效果，进一步的强化主叫用户的使用体验。

再进一步地，所述通话信息至少包括所述主叫用户的通话录音和/或该通话录音对应的文本信息。将通话录音和/或其转换成的文本信息推送给本侧用户，使其能够直观的了解主叫用户的呼叫的意愿，避免错过重要信息。

再进一步地，还包括以下步骤：

所述本侧用户对虚拟形象或音库具有可编辑可修改权限。即本侧用户可以对自己的虚拟形象和音库进行修改，相对传统不能设置自身的虚拟形象和使用合成音库或主播音库的应答助手，本智能应答放大能够进一步地增加本侧用户的使用体验；并且用户能够自由的diy自己想要虚拟形象，基于使用场景的延伸，用户可以制作自己的虚拟形象进行使用，同时也可以通过虚拟形象视频合成制作更多个性化虚拟形象，比如制作卡通人物、明星的虚拟形象等，有更多的娱乐空间。

一种智能应答方法，基于智能应答平台和虚拟形象视频平台，所述方法包括以下步骤：

s1，所述智能应答平台接收本侧用户上传的形象信息和声音信息；

s2，所述智能应答平台将s1中的形象信息和声音信息推送给虚拟形象视频平台；

s3，所述虚拟形象视频平台将形象信息制作成虚拟形象，将声音信息制作成音库，并将所述虚拟形象和音库存储在虚拟形象视频平台中，通知智能应答平台已经完成虚拟形象和音库的制作；

s4，智能应答平台与本侧用户确认是否启用s3中虚拟形象和音库；

s5，如确认开启虚拟形象和音库，所述智能应答平台接收到主叫用户的呼叫转移后，调用虚拟形象视频平台使用所述虚拟形象和音库合成虚拟形象视频与主叫用户进行通信交互；

s6，智能应答平台记录交互过程所产生的通话信息，并将所述通话信息推送给本侧用户。

一种智能应答系统，包括：

网络侧平台，所述网络侧平台执行上述的智能应答方法；

本侧用户，本侧用户向网络侧平台上传形象信息和声音信息；

主叫用户，主叫用户与网络侧平台交互供网络侧平台记录通话信息。

进一步地，所述网络侧平台包括智能应答平台和虚拟形象视频平台；所述本侧用户通过前端软件将形象信息和声音信息上传至智能应答平台，所述智能应答平台将所述形象信息和声音信息发送至虚拟形象视频平台，所述虚拟形象视频平台对所述形象信息进行解析制作成虚拟形象，并将声音信息制作成音库；主叫用户的呼叫被转移至智能应答平台后，智能应答平台分析主叫用户的来电意图生成话术文本，将话术文本提供给虚拟形象视频平台合成虚拟形象视频，所述智能应答平台将该虚拟形象播放给主叫用户并与之交互，智能应答平台将交互过程的通话信息推送给本侧用户。

一种智能应答装置，包括：

采集模块：用于采集本侧用户的形象信息和声音信息制作成本侧用户的虚拟形象和音库；

交互模块：用于在接收到主叫用户的呼叫转移后，使用所述虚拟形象和音库合成虚拟形象视频与主叫用户进行通信交互；

记录推送模块：记录交互过程所产生的通话信息，并将所述通话信息推送给本侧用户。

附图说明

图1为本发明的智能应答系统的产品结构图；

图2为本发明的智能应答方法的流程图；

图3为本发明的网络侧平台的产品结构图；

图4为本发明的智能应答平台的结构示意图；

图5为本发明的智能nlp系统结构图。

具体实施方式

结合附图1至5说明本发明的一种智能应答方法、系统及装置。

实施例一

一种智能应答系统，包括：

网络侧平台，包括智能应答平台和虚拟形象视频平台；

本侧用户，本侧用户向网络侧平台上传形象信息和声音信息；

主叫用户，主叫用户与网络侧平台交互供网络侧平台记录通话信息。

一种智能应答方法，包括以下步骤：

采集本侧用户的形象信息和声音信息制作成本侧用户的虚拟形象和音库；

本侧用户使用智能终端将用户选择的形象信息和声音信息上传至智能应答平台，智能应答平台将用户选择上传的形象信息和声音信息上传至虚拟形象视频平台制作用户的虚拟形象以及音库。本侧用户可以使用如微信小程序、h5页面(html5)或其他应用程序上传形象信息和声音信息，其中形象信息可以是本侧用户自身真实形象的照片和/或视频，并且本侧用户还可以选择上传其他的照片和/或视频制作自己的虚拟形象，比如将虚拟形象制成卡通人物、明星等其他的虚拟形象，使得本智能应答系统具备更多的娱乐性。智能应答平台接收到上传到形象信息后，调用虚拟形象视频平台接口，将用户上传的形象信息提交至虚拟形象视频平台，虚拟形象视频平台对用户图片和视频进行解析，完成用户虚拟形象制作后将通知智能应答平台。虚拟形象制作完成后存在于虚拟形象视频平台，即可以通过虚拟形象视频平台的虚拟形象结合话术文本内容合成用户虚拟形象的视频，并将虚拟形象视频发送给智能应答平台进行使用。

制作虚拟形象音库，需采集本侧用户的声音，智能终端会为本侧用户提供需要其朗读的文字，录制后形成录音文件上传至智能应答平台。智能应答平台调用虚拟形象视频平台接口，将用户录音提交至虚拟形象视频平台，虚拟形象视频平台通过声音模型训练，完成用户的虚拟形象音库的制作后将通知智能应答平台，音库制作完成后存储于虚拟形象视频平台，即可以通过虚拟形象视频平台的用户虚拟形象音库，结合用户虚拟形象合成用户虚拟形象视频，并将视频文件发送给智能应答平台进行使用。

此外，还可以增加其他的步骤以丰富本智能应答方法的功能，比如供本侧用户确认其虚拟形象是否需要修改，如需要修改可以重新上传形象信息或直接采用图形处理软件对虚拟形象进行修改；再比如设置确认启用虚拟形象视频功能的步骤，如果本侧用户确认虚拟形象和音库无需修改可以启用时，可以选择启用该虚拟形象和音库，以供在未接通电话时启用虚拟形象视频与主叫用户进行交互。本侧用户对生成的虚拟形象和音库具有可编辑、可修改的权限，智能应答平台将虚拟形象视频平台制作完成的虚拟形象和/或音库推送给本侧用户编辑、修改和确认，本侧用户可以对虚拟形象和音库进行编辑修改至满意，编辑修改的手段包括但不限于对虚拟形象的美颜、调节背景、增加文字内容、重新上传形象信息和声音信息重新制作虚拟形象和音库；所述虚拟形象视频平台还可以生成多个虚拟形象和音库供用户选择和确定启用的虚拟形象和音库。

接收到主叫用户的呼叫转移后，使用所述虚拟形象和音库合成虚拟形象视频与主叫用户进行通信交互；

所述合成虚拟形象视频具体为：

基于所述虚拟形象和音库，并根据话术文本合成所述虚拟形象视频。话术文本即虚拟形象视频中的虚拟形象所要说的话，根据话术文本合成了虚拟形象视频，并发送给主叫用户端播放交互，进一步的提升主叫用户体验的真实感。

所述话术文本为预设或分析通话信息中主叫用户的话语生成。预设的可以是开头的寒暄语，交互可以以寒暄语制成的虚拟形象视频开头并询问来电目的，以方便开展后续的交流；在后续的交流的通话信息中分析主叫用户的话语生成话术文本，以使与主叫用户的交互过程能够持续进行，记录更多的通话信息来供本侧用户判断通话信息的重要程度。

通俗地说，智能应答平台与主叫用户进行电话交互时，首先接通电话后播放开场白，询问来电目的，开场白为以寒暄语的话术文本为基础合成的虚拟形象视频；下一步对主叫用户的回应进行录音、语音转文字处理、判断来电场景、识别来电意图等，根据场景及意图，将需要回复的话术文本内容实时提交至虚拟形象视频平台，虚拟形象视频平台根据话术文本内容，结合用户虚拟形象和音库，合成虚拟形象视频，返回智能应答平台，智能应答平台进行视频播放，与来电者进行下一步的交互。

为所述虚拟形象视频添加表情特征、口型特征和/或肢体动作特征。通过对文本、语音内容进行解析，合成对应的口型、表情及动作等，使得虚拟形象在视频交互中表现得更加真实的效果，进一步的强化主叫用户的使用体验，使得虚拟用户形象将模拟用户说话的口型、表情以及肢体动作进行视频展示，模拟与真人视频交流的效果。

记录交互过程所产生的通话信息，并将所述通话信息推送给本侧用户。

所述通话信息至少包括所述主叫用户的通话录音和/或该通话录音对应的文本信息。将通话录音和/或其转换成的文本信息推送给本侧用户，使其能够直观的了解主叫用户的呼叫的意愿，避免错过重要信息。智能应答平台将获取到的通话信息通过短信、微信小程序等推送给被叫用户。

所述通话信息推送时，通过语义理解所述通话信息形成推送信息的标题，再推送给本侧用户。比如通话信息中包括“我是天猫超市的，您的包裹放在智能柜了”，智能应答平台通过语义理解可以知道快递已经达到，形成标题为快递到达的标题发送至本侧用户，使得本侧用户能够更加直观地获取推送信息的内容。

如图1和图2所示，本智能应答方法具体可以包括以下几个交互过程：

过程1，本侧用户即被叫用户，通过智能终端上的小程序、h5等工具将图片、视频以及录音上传至智能应答平台，智能终端可以是手机等类似的智能终端设备。

过程2，智能应答平台将图片、视频以及录音上传给虚拟形象视频平台制作虚拟形象和音库，并存储在虚拟形象视频平台中；以及智能应答平台将话术文本上传至虚拟形象视频平台合成虚拟形象视频，虚拟形象视频平台可以采用调用第三方的平台的方法，在智能应答平台中写入调用虚拟形象视频平台的接口程序即可，从而节省网络侧平台开发成本。

过程3，虚拟形象视频平台将合成的虚拟形象视频返给智能应答平台，供智能应答平台与本侧用户确认是否需要修改或确定启用虚拟形象和音库。

过程4，主叫用户向被叫用户拨打电话。

过程5，电话未被接通。

过程6，移动网络将呼叫转移至智能应答平台代接处理。

过程7，智能应答平台使用合成的虚拟形象视频与主叫用户进行电话交互。

过程8，智能应答平台将获取的通话信息推送给被叫用户。

实施例二

如图3所示，所述网络侧平台各部分简要介绍如下：

能力层：主要是智能应答及虚拟形象视频产品所使用到的底层技术能力，主要包括语音识别、语义理解、tts合成、图片解析、视频解析、声音采集、音频合成技术、口型驱动、声学模型训练、视频合成技术、表情驱动、动作驱动等；

应用层：主要是根据底层核心技术能力封装形成的应用模块，主要有来电场景识别，视频对话交互、语音合成、视频合成、口型模拟、表情模拟、动作模拟；

功能层：主要是产品展示给用户的每个使用功能，包括智能代接、来电意图、视频应答、号码标记、我的声音、虚拟形象等。

其中包括智能应答平台和虚拟形象视频平台，所述虚拟形象视频平台对所述形象信息进行解析制作成虚拟形象，并将声音信息制作成音库；智能应答平台分析主叫用户的来电意图生成话术文本，将话术文本提供给虚拟形象视频平台合成虚拟形象视频，所述智能应答平台将该虚拟形象播放给主叫用户。

智能应答平台如图4所示，包括智能应答平台软件模块、智能应答业务软件模块、asr引擎模块、tts引擎模块、智能nlp引擎模块、虚拟形象视频接口模块以及前置机与视频语音播报资源模块。

智能应答平台通过虚拟形象视频接口，将用户形象图片、视频、录音音频上传至虚拟形象视频平台，虚拟形象视频平台对用户图片、音频进行解析、训练声学模型、形成用户虚拟形象、以及用户音库。

智能应答平台为用户代接电话、与来电者进行视频交互的过程中，实时将话术文本通过虚拟形象视频接口上传至虚拟形象视频平台，虚拟形象视频平台将话术文本内容与用户虚拟形象、虚拟形象音库合成虚拟形象视频文件，并返回给智能应答平台。虚拟形象视频平台采用第三方技术，也属于本领域的现有技术，在此不作赘述。

智能应答平台软件模块是智能应答平台的指挥中心，主要是处理平台运行逻辑，将平台各个模块的使用串联起来，保证业务平台的正常运行。

智能应答业务软件主要是与本侧用户的前端进行交互的平台业务处理模块，支撑用户对产品的使用操作，如业务注册、登录、功能设置、音频录制与上传、视频录制与上传、音频视频播放、消息收取等，并对用户数据进行存储等。

本侧用户的前端指包括微信公众号、微信小程序、h5页面等交互界面，是用户使用智能应答产品的入口，用户使用产品前端主要是进行业务注册、业务办理、功能设置、虚拟形象选择、音库选择、消息收取、号码标记等。

asr(automaticspeechrecognition):语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。asr引擎包含语音识别和语音转写两个部分；语音识别提供关键字语音识别和连续语音识别，具备前端语音处理和后端识别处理，支持端点检测、噪音消除、智能打断、后端语音识别等功能，即在电话交互的过程中，可以识别用户开始说话、话语间的停顿、说话结束等，以及在平台播音的过程中，用户可以打断平台播音等。语音转写能够把用户说的任意语音转换成对应的文字信息，在电话交互过程中，将主叫用户的语音进行实时转写成文本内容。

tts(texttospeech)技术能够自动将任意文字实时转换为连续的自然语音，是一种能够在任何时间、任何地点，向任何人提供语音信息服务的高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。在智能应答产品中，平台通过调用虚拟形象视频接口，获取用户制作的虚拟形象音库，再使用智能应答平台自有的tts引擎进行音频合成，在合成的过程中，可对用户音频进行调优，比如：用户声音风格调优，可以对用户声音风格进行调整，比如严肃的、幽默的、轻快的、低沉的等等；说话语调调优，根据文本语句特点调整说话的语调，如陈述语句、疑问句等；语速调优，根据话术文本的长度，调整语速。

如图5所示，智能nlp服务是智能应答会话的大脑，它是智能应答的核心基础。nlp(naturallanguageprocessing)是人工智能(ai)的一个子领域。智能nlp服务提供轻量级、方便易用http协议开发接口，基于该接口可以便捷调用相关资源，快速完成各种智能语音交互的开发工作以实现智能来电助手业务。

nlp应用的技术及算法：

a)文本分类，语义相似度，实体识别，词槽提取；

b)实体消歧，词义消歧；

c)句法分析，词性标注，角色标注；

智能nlp特点：

a)引入语义理解平台进行语料前置解析，再到业务语料处理平台进行二次解析；

b)拥有大量通用实体和辅助词资源，帮助机器进行分词、词法、语法分析，可快速扩展多种应用场景，同时支持运营自建技能和实体。

智能应答平台中使用的智能nlp模块，能够预先配置场景、意图的相关语料，根据来电者的对话文本，进行语义理解，识别用户对话的意图，并将意图提交给平台业务软件进行处理。

前置机是用户ivr接入方式的智能设备，支持高清语音、高清视频话务接入。前置机的后端话路控制、录音、放音、播放视频等网络汇聚接入系统平台的骨干核心网络。

视频和声语音播报资源即合成的虚拟用户形象视频进行播放，与来电者进行视频电话交互。

实施例三

一种智能应答装置，包括：

采集模块：用于采集本侧用户的形象信息和声音信息制作成本侧用户的虚拟形象和音库；

交互模块：用于在接收到主叫用户的呼叫转移后，使用所述虚拟形象和音库合成虚拟形象视频与主叫用户进行通信交互；

记录推送模块：记录交互过程所产生的通话信息，并将所述通话信息推送给本侧用户。

实施例四

一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现上述的智能应答方法。计算机设备中处理器的数量可以是一个或多个；电子设备中的处理器、存储器、输入装置和输出装置可以通过总线或其他方式连接。

实施例五

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的智能应答方法。该方法包括上述实施例所述的智能应答方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于智能应答方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述智能应答装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此，本发明并不局限于上面揭示和描述的具体实施方式，对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈源凯;章军;麦永恒
技术所有人：广州市讯飞樽鸿信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。