一种基于TTS的语音交互的方法及系统与流程

文档序号：25528029发布日期：2021-06-18 20:18阅读：98来源：国知局

本发明属于语音交互技术领域，特别涉及一种基于tts的语音交互的方法及系统。

背景技术：

ivr(互动式语音应答)中使用asr(语音识别)\nlp(自然语言处理)\tts(语音合成)构成智能客服。客户发送和接听语音，是asr→nlp→tts和tts←nlp←asr反复交替的过程。

然而，一方面，客户听到的tts语音为机器语音，对于程序性咨询客户还可接受，但对于专家型咨询，客户的接受性较低。虽然可以使用专家语音建立音素库，但有的业务场景不只是一个专家，且专家语音本质上还是虚拟的，即未必有真实的人负责此项工作。可以想到的是为每个专家进行录音建模，但对于团队较大流动性较强的业务场景，是商家所无法承受的。举例，客户问“这款室外ap的防水性能怎么样？”，会听到“这款室外ap达到ip68的防水标准，您可以放心使用”。但这是比较生硬语音，即使仿真性较好，客户也不会觉得是真实的专家。

技术实现要素：

针对上述问题，本发明提供一种新的基于tts的语音交互的方法及系统。

本发明具体技术方案如下：

本发明提供一种基于tts的语音交互方法，包括：

语音识别步骤，用于通过语音识别模块对接听到的咨询语音进行识别；

s2：自然语言处理步骤，用于通过自然语言处理模块对识别后的语音进行自然语言处理；

s3：语音合成步骤，用于通过语音合成模块对回复的语音进行语音合成；

s4：语音交互步骤，用于通过语音交互模块将商家端与各自商家所属的若干客户端建立语音信道，客户通过语音信道向对应的商家端提出问题，对客户提出的问题经过步骤s1-s3处理后发送给相应客户，实现商家端与客户端的语音交互；

步骤s3具体包括如下步骤：

s31：专家库构建步骤，用于通过专家库建立单元采集专家的声音建立语音模型，并建立专家库，在进行语音合成时，基于专家库以及语音模型进行合成；

步骤s4具体包括如下步骤：

s41：语音交互子步骤，用于通过语音交互单元在对客户提出的问题经过步骤s2的自然语言处理处理后，基于专家库以及语音模型进行语音合成后发送至相应的商家端，当识别到客户提出的问题中有相应关键词时，向客户端与指定客服之间建立语音信道。

本发明的有益效果如下：

本发明提供一种新的基于tts的语音交互的方法及系统，通过建立专家库和语音模型，在给客户回复时，基于语音模型和专家库进行专家语音合成，且在商家与客户进行语音交互时，首先以合成的专家语音与客户进行自动交互，在识别到客户语音中的某个特定关键词时，自动跳转到公司所属的指定客服进行回复；该设计优化了不仅语音合成的模型，还确保了回答内容的准确性与回答声音准确性的兼顾。

附图说明

图1为一些实施例中基于tts的语音交互系统的结构框图；

图2为一些实施例中中基于tts的语音交互方法的流程图；

图3为另一些实施例中基于tts的语音交互系统的结构框图图；

图4为另一些实施例中步骤s31的流程图。

具体实施方式

下面结合附图和以下实施例对本发明作进一步详细说明。

在一些实施例中，为了确保了回答内容的准确性与回答声音准确性的兼顾，系统会首先以通用的语音机器人(id：001)回复，当识别到客户(uid：987)某段语音(12389)，nlp(自然语言处理)后，自动跳转到公司的指定客服张先生(id：019)进行回复，张先生将作为uid：987客户的指定顾问。

通用的语音机器人(id：001)中，构建语音模型和专家库作为语音合成的基础，基于语音模型和专家库合成的语音可以作为id：001的语音机器人。如图1、图2所示，具体步骤例如如下部分：

s1：语音识别步骤，用于通过语音识别模块对接听到的咨询语音进行识别；语音识别采用常规的算法实现，本发明不做具体限定，比如：基于动态时间规整的算法、基于参数模型的隐马尔可夫模型的方法、基于非参数模型的矢量量化的方法等，均在选择范围内。

s2：自然语言处理步骤，用于通过自然语言处理模块对识别后的语音进行自然语言处理；自然语言处理采用常规的算法实现，本发明不做具体限定，比如：基于传统机器学习的自然语言处理技术、基于深度学习的自然语言处理技术等，比如，基于传统机器学习的自然语言处理技术中的svm(支持向量机模型)、markov(马尔科夫模型)、crf(条件随机场模型)等方法，基于深度学习的自然语言处理技术中的卷积神经网络、循环神经网络等，均在选择范围内。

s3：语音合成步骤，用于通过语音合成模块对回复的语音进行语音合成；语音合成采用常规的算法实现，本发明不做具体限定，比如：tacotron--端到端的深度学习tts模型，直接用深度学习的方法训练出一个tts模型，模型训练完成后，给定input,模型就能生成对应的音频、lpc合成技术、psola合成技术、基于lma声道模型的语音合成方法等，均在选择范围内；且上述的语音合识别、自然语言处理和语音合成可以基于第三方或是集成在本发明的服务器中，均在构思之内。

其中，步骤s3具体包括如下步骤：

s31：专家库构建步骤，用于通过专家库建立单元采集专家的声音建立语音模型，并建立专家库，在进行语音合成时，基于专家库以及语音模型进行合成；所述专家库指的是将声音与自然语言处理模块中的语义对应后专家声音的素材库；语音模型指的是基于专家库采用机器学习算法(例如，深度学习，比如：卷积神经网络、循环神经网络等)构建的语音合成用的模型。

步骤s4具体包括如下步骤：

s41：语音交互子步骤，用于通过语音交互单元在对客户提出的问题经过步骤s2的自然语言处理处理后，基于专家库以及语音模型进行语音合成后发送至相应的商家端，当识别到客户提出的问题中有相应关键词时，向客户端与指定客服之间建立语音信道。本实施例中关键词的识别需要经过步骤s1的语音识别步骤处理后识别出来。

其中，步骤s41中相应关键词包括但不限于人工、客服。

本发明提供一种新的基于tts的语音交互的方法，通过建立专家库和语音模型，在给客户回复时，基于语音模型和专家库进行专家语音合成，且在商家与客户进行语音交互时，首先以合成的专家语音与客户进行自动交互，在识别到客户语音中的某个特定关键词时，自动跳转到公司所属的指定客服进行回复；该设计优化了不仅语音合成的模型，还确保了回答内容的准确性与回答声音准确性的兼顾。

另一些实施例中，在具体建立语音模型和专家库时，包括初始语音采集和更多语音采集，其中初始语音采集如下：

将商家选择任一一个专家(总共30位)作为标准声音建模，作为语音合成的基础。包括字级别和词级别和句级别和段级别等多种。其中，句级别和段级别的内容素材为商家业务部分制定的标准答案，其中包括100个常见问题的标准答案，其可以作为id：001的语音机器人。

更多语音采集如下：

首先，针对100个常见问题，采集其余29位专家的答复，并建立专家库，这样，既可以满足实施例1的需求。具体的建立步骤例如如下部分：

如图3、图4所示，步骤s31具体包括如下步骤：

s311：初始语音采集步骤，用于通过初始语音采集子模块采集商家所属的各专家中任一专家的声音作为标准声音进行建立语音模型，作为语音合成的基础；

s312：多语音采集步骤，用于通过多语音采集子模块采集余下专家的声音，根据各专家的声音建立相应的专家库，并基于专家库对语音模型进行训练。

本实施例中步骤s311中采集的专家声音包括但不限于字级别和词级别和句级别和段级别，其中句级别和段级别的内容素材为常见问题的标准答案，步骤s312中采集的专家声音为各专家对常见问题的答复。

在另一些实施例中，还需要培训新的专家并采集：

在学习阶段，被培训者tid：009需要反复听100个常见问题，以及针对常见问题的语音回答。比如，被培训者可以模仿客户向系统提出100个常见问题，反复听id：001的解答。在测试阶段，考题可能包括100个常见问题中的某些，或者新增的常见问题(考察应变能力)，直至测试通过，系统也已经采集了tid：009的足够音素，其可以直接转为专家身份，id：111；具体的步骤例如如下部分：

如图3、图4所示，步骤s31中还包括如下步骤：

s313：新专家培训步骤，用于通过新专家培训子模块向商家端的被培训者发送常见问题以培训新的专家，并采集被培训者的声音，在采集到的声音比对通过后作为专家声音储存到专家库。

本实施例中步骤s313中在培训新的专家时，具体包括如下步骤：

学习步骤，用于向被培训者的培训端发送常见问题以及针对常见问题的语音回答；

测试步骤，用于采集被培训者对常见问题的答复，并对答复进行比对判断，在比对判断通过后，向被培训者发送答复通过并转为专家身份，且将采集的答复存储到相应的专家库。在测试步骤中，对答复进行比对判断时，首先对培训者的答复声音进行语音识别和自然语言中的语义处理，然后在对答复的答案与自然语言处理模块中存储的标准答案进行匹配。

在另一些实施例中，李主管(管理人员)lid：005也会经常听常见问题的解答，并更新自己的语音库，这样被培训者可以优选被推送到李主管的解答；例如如下步骤：

如图3、图4所示，步骤s31中还包括如下步骤：

s314：专家库建立子步骤，用于通过专家库建立子模块采集商家所属的管理人员对常见问题的答复语音，并建立相应的专家库；

s315：专家库更新步骤，用于通过专家库更新子模块采集管理人员发送的对常见问题的答复，更新所属的专家库，同时更新自然语言处理模块中的答案库。

本实施例中步骤s315中，基于商家端的管理人员发送的监听指令在客户端与商家端或者客户端与指定客服之间的语音信道中建立监听通道，管理人员对语音通话进行监听，在监听过程中接收到商家端发送的标记指令时，对语音中的相应位置进行标记，并在识别到语音通话停止时，断开监听通道，并将标记位置对应的常见问题发送至商家端的管理人员。对语音标记时可以是声音标记、管理人员输入的文本标记、时间标记等，该标记采用标签的形式完成，在标记全部完成后形成标签列表，其他主管各更高级的领导均可以看到；向管理人员发送的标记位置对应的常见问题可以是语音，也可以是对语音进行语音识别和自然语言处理后的文本。

本实施例中步骤s315中，在更新完专家库后，将管理人员对常见问题的答复发送至商家端的各专家。将更新的语音发送给各专家，各专家可以听到或看到最新的针对常见问题的答复，在与客户的语音交互中可以实时更新自己的答案。

本实施例中步骤s313中向被培训者发送的常见问题的语音回答，优选为管理人员对常见问题的答复；且在训练步骤，被培训者对常见问题的答复中，所述的常见问题包括在学习阶段向被培训者发送的常见问题以及新增的常见问题，新增的常见问题为在网上随机下载的常见问题或接收的管理人员发送的新的常见问题。

本发明还提供一种基于tts的语音交互的系统，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述所述方法的步骤。

以上所述实施例仅仅是本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：娄鑫
技术所有人：中通天鸿(北京)通信科技股份有限公司
我是此专利的发明人

上一篇：一种生物质液体燃料加工处理设备的制作方法
上一篇：一种用于通信塔的安装基座的制作方法