语音交互的方法、语音交互的装置和计算机可读存储介质与流程

文档序号：32398368发布日期：2022-12-02 18:03阅读：46来源：国知局

1.本技术涉及语音合成技术领域，具体而言，涉及一种语音交互的方法、语音交互的装置和计算机可读存储介质。

背景技术：

2.我国地大物博，地区辽阔，现代汉语在不同地区有着语音、语法、习惯用语的众多差异。不同地区的人在使用对话助手系统时，大多需要使用普通话与对话助手进行交互，即使能使用方言与对话助手交流，对话助手也只是将方言转换成普通话后，经过自然语音理解，使用统一的标准话术回复，无法达到人与人之间亲切自然地沟通，在语义理解上，对话助手直接使用方言系统，这样会导致每个方言系统都需要单独训练方言模型，整个系统的扩展性较差，且播报音色大多数为普通话。因此，目前的对话助手中，由于无法使用方言与用户进行交流，回答用户的问题时回复内容的相似度较高，导致用户的体验效果较差。

技术实现要素：

3.本技术的主要目的在于提供一种语音交互的方法、语音交互的装置和计算机可读存储介质，以解决现有技术中目前的对话助手中，由于无法使用方言与用户进行交流，回答用户的问题时回复内容的相似度较高，导致用户的体验效果较差的问题。
4.根据本发明实施例的一个方面，提供了一种语音交互的方法，包括：获取说话者的语音信息，所述语音信息是指所述说话者在说话的过程中发出的语音的信息；对所述语音信息进行识别，确定所述语音信息对应的目标方言；至少根据所述语音信息，确定与所述说话者匹配的讲话风格，所述讲话风格是指所述说话者的口语习惯的风格；根据所述讲话风格和所述语音信息生成回复信息，并控制音频播报设备播放所述回复信息对应的语音，其中，所述回复信息是对应所述说话者的所述语音信息的回复内容的信息，控制所述音频播报设备播放所述回复信息对应的语音是采用所述目标方言进行播报的。
5.可选地，对所述语音信息进行识别，确定所述语音信息对应的目标方言，包括：采集初始语音数据，根据所述初始语音数据构建方言库，所述初始语音数据包括多个地区的方言的语音数据，一个所述方言库包括一种方言的语音数据；对所述初始语音数据进行预处理，得到训练语音数据，所述预处理包括以下至少之一：分词处理、过滤非方言数据处理、去停用词处理；构建方言识别模型，其中，所述方言识别模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括所述训练语音数据和所述训练语音数据对应的方言；将所述语音信息输入至所述方言识别模型中进行识别，得到识别结果，其中，所述识别结果是指所述语音信息对应的所述目标方言。
6.可选地，将所述语音信息输入至所述方言识别模型中进行识别，得到识别结果，包括：从多个所述方言中选取出与所述语音信息相似度大于或者等于相似度阈值的多个初始方言；从多个所述初始方言中选取出所述相似度最大的所述目标方言，得到目标识别结果。
7.可选地，至少根据所述语音信息，确定与所述说话者匹配的讲话风格，包括：获取
预先输入的所述说话者的特征信息，所述特征信息包括以下至少之一：性别、年龄、职业、民族、地区、兴趣；根据所述说话者的所述特征信息构建用户画像；将所述说话者的所述语音信息转换为目标文本信息，所述目标文本信息是指目标语言的所述语音信息对应的文本信息；根据所述用户画像、所述目标文本信息和所述语音信息，确定与所述说话者匹配的所述讲话风格。
8.可选地，根据所述用户画像、所述目标文本信息和所述语音信息，确定与所述说话者匹配的所述讲话风格，包括：根据所述目标文本信息进行语义识别，确定所述说话者的行为偏好信息；根据所述语音信息中的声纹特征，确定所述说话者的情绪信息；获取历史对话信息，所述历史对话信息是指历史时间段内语音交互的信息；根据所述用户画像、所述行为偏好信息、所述情绪信息和所述历史对话信息，构建向量矩阵，采用所述向量矩阵向量化表示所述说话者的用户特征，并确定所述讲话风格。
9.可选地，根据所述讲话风格和所述语音信息生成回复信息，包括：对所述目标文本信息进行语义识别，确定所述目标文本信息对应的语义识别结果；从数据库中获取多个问答对，一个所述问答对包括一个问题与一个答案；确定多个所述问题中与所述语义识别结果的相似度最高的目标问题；基于所述目标问题对应的目标答案，采用所述讲话风格，生成符合所述讲话风格的所述回复信息。
10.可选地，在生成符合所述讲话风格的所述回复信息之后，所述方法还包括：使用生成式对抗网络中的判别模型对所述回复信息进行识别，以确定所述回复信息是否为真实文本，得到分类结果；在所述分类结果表征所述回复信息是所述真实文本的情况下，确定所述回复信息为目标回复信息。
11.可选地，控制音频播报设备播放所述回复信息对应的语音，包括：提取多个方言库中的目标方言库，所述目标方言库中包括所述目标方言的目标语音数据包；根据所述回复信息，采用所述目标语音数据包生成待播报语音；控制所述音频播报设备播报所述待播报语音。
12.根据本发明实施例的另一方面，还提供了一种语音交互的装置，包括：获取单元，用于获取说话者的语音信息，所述语音信息是指所述说话者在说话的过程中发出的语音的信息；第一确定单元，用于对所述语音信息进行识别，确定所述语音信息对应的目标方言；第二确定单元，用于至少根据所述语音信息，确定与所述说话者匹配的讲话风格，所述讲话风格是指所述说话者的口语习惯的风格；第一处理单元，用于根据所述讲话风格和所述语音信息生成回复信息，并控制音频播报设备播放所述回复信息对应的语音，其中，所述回复信息是对应所述说话者的所述语音信息的回复内容的信息，控制所述音频播报设备播放所述回复信息对应的语音是采用所述目标方言进行播报的。
13.根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的方法。
14.在本发明实施例中，首先获取说话者的语音信息，之后对语音信息进行识别，确定语音信息对应的目标方言，之后至少根据语音信息，确定与说话者匹配的讲话风格，最后根据讲话风格和语音信息生成回复信息，并控制音频播报设备播放回复信息对应的语音，其中，控制音频播报设备播放回复信息对应的语音是采用目标方言进行播报的。该方案中，对说话者的语音进行识别，可以生成符合说话者的方言特征的回复信息，这样可以使用说话
者的方言与说话者进行交流，并且可以自动匹配合适的讲话风格，这样回答说话者的问题时候回复内容的相似度较低，是个性化的回复，改善了用户的体验效果。
附图说明
15.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
16.图1示出了根据本技术的实施例的一种语音交互的方法的流程示意图；
17.图2示出了根据本技术的实施例的一种语音交互的装置的结构示意图。
具体实施方式
18.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
19.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
20.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
21.应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。
22.正如背景技术中所说的，现有技术中目前的对话助手中，由于无法使用方言与用户进行交流，回答用户的问题时回复内容的相似度较高，导致用户的体验效果较差，为了解决上述问题，本技术的一种典型的实施方式中，提供了一种语音交互的方法、语音交互的装置和计算机可读存储介质。
23.根据本技术的实施例，提供了一种语音交互的方法。
24.图1是根据本技术实施例的语音交互的方法的流程图。如图1所示，该方法包括以下步骤：
25.步骤s101，获取说话者的语音信息，上述语音信息是指上述说话者在说话的过程中发出的语音的信息；
26.具体地，可以采用拾音设备获取说话者的语音信息，拾音设备可以是麦克风阵列，还可以是其他任何可行的用于获取说话者的语音信息的设备。
27.步骤s102，对上述语音信息进行识别，确定上述语音信息对应的目标方言；
28.具体地，通过对说话者的语音信息进行识别，可以确定说话者说话过程中使用的目标方言，例如a地区方言、b地区方言、c地区方言等等。
29.为了更为高效地对说话者的语音信息进行识别，以进一步准确地确定语音信息对应的目标方言，本技术的一种实施例中，对上述语音信息进行识别，确定上述语音信息对应的目标方言，包括：采集初始语音数据，根据上述初始语音数据构建方言库，上述初始语音数据包括多个地区的方言的语音数据，一个上述方言库包括一种方言的语音数据；对上述初始语音数据进行预处理，得到训练语音数据，上述预处理包括以下至少之一：分词处理、过滤非方言数据处理、去停用词处理；构建方言识别模型，其中，上述方言识别模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括上述训练语音数据和上述训练语音数据对应的方言；将上述语音信息输入至上述方言识别模型中进行识别，得到识别结果，其中，上述识别结果是指上述语音信息对应的上述目标方言。
30.具体地，可以通过网络爬虫或者数据外采的方式，构建多个地区的方言库，一般来说每个地区对应的方言基本上地区内部都可以通用。
31.为了保证训练模型时使用的训练数据较为干净，可以舍弃掉无关数据，以提高后续模型对于特征提取的准确度，可以在获取到初始语音数据后，对初始语音数据进行预处理，预处理可以包括以下方式：分词处理、过滤非方言数据处理、去停用词处理、分词处理和过滤非方言数据处理、分词处理和去停用词处理、过滤非方言数据处理和去停用词处理、分词处理和过滤非方言数据处理以及去停用词处理，这样经过迭代训练的方言识别模型可以准确地识别语音信息对应的目标方言。
32.在将语音信息输入至方言识别模型中进行识别之前，还可以对语音信息进行去噪处理，将语音信息中的静音片段移除，这样可以移除语音信息中无关的信息，再从语音信息中提取多个特征词语的实际语音信号，进行矢量化处理，生成对应的梅尔频率倒谱系数(mel-scale frequency cepstral cofficients，简称mfcc)对应的特征向量。
33.具体地，可以将经过去噪处理和静音移除处理后的语音信息输入至方言识别模型中，并生成矢量特征集(将语音信息转换为机器可以识别的信息，例如“今天”对应的矢量为000111)，从多个方言库中提取对应的语音数据，采用方言识别模型将语音信息对应的矢量特征集和方言库中的语音数据进行比对，确定语音信息对应的目标方言。
34.在识别语音信息的过程中，实际上会有较多的方言库中的方言都是与语音信息对应的方言相似的，为进一步准确地确定语音信息对应的目标方言，本技术的又一种实施例中，将上述语音信息输入至上述方言识别模型中进行识别，得到识别结果，包括：从多个上述方言中选取出与上述语音信息相似度大于或者等于相似度阈值的多个初始方言；从多个上述初始方言中选取出上述相似度最大的上述目标方言，得到目标识别结果。
35.具体地，在识别语音信息的过程中，可以确定多个初始方言，初始方言的特征与语音信息对应的方言的特征之间的相似度是大于或者等于相似度阈值的，这样可以先确定一个方言的范围，例如有三个地区的方言都是相近的，说话者使用的是b地区的方言，选取出的多个初始方言为a地区方言、b地区方言和c地区方言，a地区方言与说话者说话方言的相似度是85％，b地区方言与说话者说话方言的相似度是95％，c地区方言与说话者说话方言的相似度是90％，均大于相似度阈值80％，再从这三个方言中确定相似度最大的为b地区方言，b地区方言即为目标方言。
36.步骤s103，至少根据上述语音信息，确定与上述说话者匹配的讲话风格，上述讲话风格是指上述说话者的口语习惯的风格；
37.具体地，还可以根据语音信息确定与说话者匹配的讲话风格，这样可以自动匹配合适的讲话风格，这样回答说话者的问题时候回复内容的相似度不会较高，而是可以个性化的回复。
38.为了准确地确定与说话者匹配的讲话风格，采用与讲话者对应的讲话风格进行语音交流，进一步改善用户的体验效果，本技术的再一种实施例中，至少根据上述语音信息，确定与上述说话者匹配的讲话风格，包括：获取预先输入的上述说话者的特征信息，上述特征信息包括以下至少之一：性别、年龄、职业、民族、地区、兴趣；根据上述说话者的上述特征信息构建用户画像；将上述说话者的上述语音信息转换为目标文本信息，上述目标文本信息是指目标语言的上述语音信息对应的文本信息；根据上述用户画像、上述目标文本信息和上述语音信息，确定与上述说话者匹配的上述讲话风格。
39.具体地，可以先收集讲话者的特征信息，说话者在注册对话助手时，填写的特征信息中有性别、年龄、职业、民族、地区、兴趣，当然，性别还可以直接根据讲话者的语音信息确定，还可以根据讲话者的语音信息中的声纹特征确定讲话者的年龄范围，年龄范围可以分为儿童、青年、中年和老年。在获取到说话者的特征信息的情况下，可以根据说话者的特征信息构建用户标签，为说话者构建初始的用户画像。
40.实际上，可以采用解码器对提取到的语音信息进行解码，进一步识别语音信息，将语音信息转换为目标文本信息，进一步地，解码器采用搜索算法将语音信息中的方言特征向量解码成最大概率的词序列，通过声学模型和语言模型将语音信息生成文本信息，完成语音到文本的转换。具体地，声学模型可以是隐马尔科夫模型，语言模型可以是n-gram模型，当然，并不限于上述的情况，本领域技术人员还可以根据其他的模型来将语音转换为文本。
41.为保证可以进一步准确地确定与说话者匹配的讲话风格，本技术的另一种实施例中，根据上述用户画像、上述目标文本信息和上述语音信息，确定与上述说话者匹配的上述讲话风格，包括：根据上述目标文本信息进行语义识别，确定上述说话者的行为偏好信息；根据上述语音信息中的声纹特征，确定上述说话者的情绪信息；获取历史对话信息，上述历史对话信息是指历史时间段内语音交互的信息；根据上述用户画像、上述行为偏好信息、上述情绪信息和上述历史对话信息，构建向量矩阵，采用上述向量矩阵向量化表示上述说话者的用户特征，并确定上述讲话风格。
42.具体地，可以根据说话者经常询问的问题确定行为偏好信息，比如经常查询天气情况，那么说话者的行为偏好信息就是查询天气，而情绪信息可以是根据语音信息中的声纹特征直接确定得到，不同的情绪表现出的声纹特征是不一样的。确定说话者的讲话风格是庄重还是活泼，通过确定说话者的情绪信息可以较为准确地确定说话者的状态以及及时匹配对应的讲话风格，提升用户的满意度，例如，检测到说话者当前的情绪较为低落，可以用鼓励心灵的格言或者幽默语句争取改善用户的低落情绪，如果说话者当前的情绪较为愤怒，可以以委婉的语气进行语音交流，实际上也可以采用情绪识别模型对说话者的情绪进行识别，情绪识别模型可以是使用多组训练数据训练得到的，多组训练数据中的每一组训练数据均包括语音信息和语音信息对应的情绪，将当前说话者的语音信息输入至情绪识别
模型中，识别当前说话者的语音信息对应的声纹特征，并根据声纹特征确定说话者的情绪。而历史对话信息可以是编码器提取得到的。
43.还可以采用向量矩阵向量化表示说话者的用户特征，通过编码器对采集到的用户画像进行编码，将说话者的特征用一个固定长度n维向量表示，其中n维向量矩阵中的每一位取值为0或者1，就可以把说话者的性别、地区、职业、年龄、爱好、口头禅、地点、前几轮的对话意图提取等编码到向量矩阵中，例如向量矩阵为{0,1,1,2,1,2,1,2}，分别表示性别为女，地区为e地区，职业为f职业，年龄为青年，爱好为读书，口头禅是导航，地点是g地区，前几轮的对话意图是查询路线。
44.步骤s104，根据上述讲话风格和上述语音信息生成回复信息，并控制音频播报设备播放上述回复信息对应的语音，其中，上述回复信息是对应上述说话者的上述语音信息的回复内容的信息，控制上述音频播报设备播放上述回复信息对应的语音是采用上述目标方言进行播报的。
45.具体地，上述的步骤s104中，可以根据讲话风格和语音信息生成回复信息，并且播报回复信息对应的语音时是采用目标方言进行播报的，可以使用说话者的目标方言与说话者进行交流，这样回答说话者的问题时候回复内容的相似度不会较高，而是个性化的回复。
46.为了生成更符合说话者的表达习惯的回复信息，进一步提高说话者的体验效果，本技术的一种具体的实施例中，根据上述讲话风格和上述语音信息生成回复信息，包括：对上述目标文本信息进行语义识别，确定上述目标文本信息对应的语义识别结果；从数据库中获取多个问答对，一个上述问答对包括一个问题与一个答案；确定多个上述问题中与上述语义识别结果的相似度最高的目标问题；基于上述目标问题对应的目标答案，采用上述讲话风格，生成符合上述讲话风格的上述回复信息。
47.具体地，将语音信息转换为文本信息后，还可以继续转换为目标文本信息，例如将k地区方言的语音信息转换为了k地区方言的文本信息，再转换为了普通话的文本信息，并基于检索算法从多个问答对中选取出目标问答对，并经由确定的讲话风格生成个性化的回复信息，这样可以根据用户输入的信息、用户画像、用户的个性特征以及对话中的意图生成符合说话者的表达习惯的方言的自动回复，进一步提高了用户的体验效果。
48.对于生成回复信息，还可以使用解码器进行解码，以生成符合说话者的讲话风格的回复信息，具体地，可以通过预先训练好的回复语言模型分析用户画像、目标文本信息和语音信息以及当前轮次对话意图，以及说话者的讲话风格，这样可以得到符合说话者的讲话风格的回复信息，回复语言模型是是通过隐马尔科夫模型和循环神经网络网络模型训练得到，采用用户画像、目标文本信息和语音信息以及当前轮次对话意图预测下一个词语，即运用隐马尔科夫模型和循环神经网络网络模型建立的回复语言模型可以生成出对话的回复信息，使得人机交互更为自然准确。
49.具体地，语义识别可以采用语义识别模型进行识别，首先构建语义识别模型并进行训练，语义识别模型可以是nlp(自然语言处理，natural language processing，简称nlp)模型，还可以结合变种等进行语言表征，结合具体的匹配任务进行相似度打分训练，基于文本检索技术，通过对目标文本信息进行语义识别，选取出与目标文本信息的语义识别结果相似度最高的目标问题，并根据目标问题对应的目标答案结合讲话风格，生成符合要求(讲话风格)的基于目标方言的回复信息。
50.为了检测生成的回复信息是否可以贴近说话者的口语习惯，以保证回复信息可以满足说话者的需求，改善用户的体验效果，本技术的另一种具体的实施例中，在生成符合上述讲话风格的上述回复信息之后，上述方法还包括：使用生成式对抗网络中的判别模型对上述回复信息进行识别，以确定上述回复信息是否为真实文本，得到分类结果；在上述分类结果表征上述回复信息是上述真实文本的情况下，确定上述回复信息为目标回复信息。
51.具体地，采用生成式对抗网络中的判别模型，通过对合成的回复信息进行真实文本和合成文本的分类，得到分类结果，可以以判别模型的分类结果为依据，基于梯度翻转策略调整作为生成网络的参数，使得作为文本合成的生成网络合成的回复信息更贴近真实文本，从而让判别网络难辨真假。经过多次迭代训练，满足训练条件(生成式对抗网络中的分类器无法判别合成的回复信息是合成文本)时，训练结束后的生成式对抗网络中的生成网络可以作为回复生成模型，通过回复生成模型，生成个性化的回复信息。
52.为了进一步实现对话助手与说话者进行语音交流，还可以播报回复信息对应的语音，以使得说话者可以听到回复，本技术的又一种具体的实施例中，控制音频播报设备播放上述回复信息对应的语音，包括：提取多个方言库中的目标方言库，上述目标方言库中包括上述目标方言的目标语音数据包；根据上述回复信息，采用上述目标语音数据包生成待播报语音；控制上述音频播报设备播报上述待播报语音。
53.上述的方法中，首先获取说话者的语音信息，之后对语音信息进行识别，确定语音信息对应的目标方言，之后至少根据语音信息，确定与说话者匹配的讲话风格，最后根据讲话风格和语音信息生成回复信息，并控制音频播报设备播放回复信息对应的语音，其中，控制音频播报设备播放回复信息对应的语音是采用目标方言进行播报的。该方案中，对说话者的语音进行识别，可以生成符合说话者的方言特征的回复信息，这样可以使用说话者的方言与说话者进行交流，并且可以自动匹配合适的讲话风格，这样回答说话者的问题时候回复内容的相似度较低，是个性化的回复，改善了用户的体验效果。
54.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
55.一种具体的实施例中，如果检测到说话者的方言是k地区方言，那么可以使用k地区方言对应的方言库与说话者进行交流，方言库中都是预先构建的，比如k地区方言里常用的都是倒装句，整个流程中只需要识别说话者的目标方言以及自动匹配讲话风格，即可以高效地采用说话者对应的k地区方言以及对应的讲话风格与说话者进行交流，用户的体验效果较好。
56.本技术实施例还提供了一种语音交互的装置，需要说明的是，本技术实施例的语音交互的装置可以用于执行本技术实施例所提供的用于语音交互的方法。以下对本技术实施例提供的语音交互的装置进行介绍。
57.图2是根据本技术实施例的语音交互的装置的示意图。如图2所示，该装置包括：
58.获取单元10，用于获取说话者的语音信息，上述语音信息是指上述说话者在说话的过程中发出的语音的信息；
59.具体地，可以采用拾音设备获取说话者的语音信息，拾音设备可以是麦克风阵列，还可以是其他任何可行的用于获取说话者的语音信息的设备。
60.第一确定单元20，用于对上述语音信息进行识别，确定上述语音信息对应的目标方言；
61.具体地，通过对说话者的语音信息进行识别，可以确定说话者说话过程中使用的目标方言，例如a地区方言、b地区方言、c地区方言等等。
62.为了更为高效地对说话者的语音信息进行识别，以进一步准确地确定语音信息对应的目标方言，本技术的一种实施例中，第一确定单元包括第一构建模块、预处理模块、第二构建模块和识别模块，第一构建模块用于采集初始语音数据，根据上述初始语音数据构建方言库，上述初始语音数据包括多个地区的方言的语音数据，一个上述方言库包括一种方言的语音数据；预处理模块用于对上述初始语音数据进行预处理，得到训练语音数据，上述预处理包括以下至少之一：分词处理、过滤非方言数据处理、去停用词处理；第二构建模块用于构建方言识别模型，其中，上述方言识别模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括上述训练语音数据和上述训练语音数据对应的方言；识别模块用于将上述语音信息输入至上述方言识别模型中进行识别，得到识别结果，其中，上述识别结果是指上述语音信息对应的上述目标方言。
63.具体地，可以通过网络爬虫或者数据外采的方式，构建多个地区的方言库，一般来说每个地区对应的方言基本上地区内部都可以通用。
64.为了保证训练模型时使用的训练数据较为干净，可以舍弃掉无关数据，以提高后续模型对于特征提取的准确度，可以在获取到初始语音数据后，对初始语音数据进行预处理，预处理可以包括以下方式：分词处理、过滤非方言数据处理、去停用词处理、分词处理和过滤非方言数据处理、分词处理和去停用词处理、过滤非方言数据处理和去停用词处理、分词处理和过滤非方言数据处理以及去停用词处理，这样经过迭代训练的方言识别模型可以准确地识别语音信息对应的目标方言。
65.在将语音信息输入至方言识别模型中进行识别之前，还可以对语音信息进行去噪处理，将语音信息中的静音片段移除，这样可以移除语音信息中无关的信息，再从语音信息中提取多个特征词语的实际语音信号，进行矢量化处理，生成对应的梅尔频率倒谱系数(mel-scale frequency cepstral cofficients，简称mfcc)对应的特征向量。
66.具体地，可以将经过去噪处理和静音移除处理后的语音信息输入至方言识别模型中，并生成矢量特征集(将语音信息转换为机器可以识别的信息，例如“今天”对应的矢量为000111)，从多个方言库中提取对应的语音数据，采用方言识别模型将语音信息对应的矢量特征集和方言库中的语音数据进行比对，确定语音信息对应的目标方言。
67.在识别语音信息的过程中，实际上会有较多的方言库中的方言都是与语音信息对应的方言相似的，为进一步准确地确定语音信息对应的目标方言，本技术的又一种实施例中，识别模块包括第一选取子模块和第二选取子模块，第一选取子模块用于从多个上述方言中选取出与上述语音信息相似度大于或者等于相似度阈值的多个初始方言；第二选取子模块用于从多个上述初始方言中选取出上述相似度最大的上述目标方言，得到目标识别结果。
68.具体地，在识别语音信息的过程中，可以确定多个初始方言，初始方言的特征与语音信息对应的方言的特征之间的相似度是大于或者等于相似度阈值的，这样可以先确定一个方言的范围，例如有三个地区的方言都是相近的，说话者使用的是b地区的方言，选取出
的多个初始方言为a地区方言、b地区方言和c地区方言，a地区方言与说话者说话方言的相似度是85％，b地区方言与说话者说话方言的相似度是95％，c地区方言与说话者说话方言的相似度是90％，均大于相似度阈值80％，再从这三个方言中确定相似度最大的为b地区方言，b地区方言即为目标方言。
69.第二确定单元30，用于至少根据上述语音信息，确定与上述说话者匹配的讲话风格，上述讲话风格是指上述说话者的口语习惯的风格；
70.具体地，还可以根据语音信息确定与说话者匹配的讲话风格，这样可以自动匹配合适的讲话风格，这样回答说话者的问题时候回复内容的相似度不会较高，而是可以个性化的回复。
71.为了准确地确定与说话者匹配的讲话风格，采用与讲话者对应的讲话风格进行语音交流，进一步改善用户的体验效果，本技术的再一种实施例中，第二确定单元包括第一获取模块、第三构建模块、转换模块和第一确定模块，第一获取模块用于获取预先输入的上述说话者的特征信息，上述特征信息包括以下至少之一：性别、年龄、职业、民族、地区、兴趣；第三构建模块用于根据上述说话者的上述特征信息构建用户画像；转换模块用于将上述说话者的上述语音信息转换为目标文本信息，上述目标文本信息是指目标语言的上述语音信息对应的文本信息；第一确定模块用于根据上述用户画像、上述目标文本信息和上述语音信息，确定与上述说话者匹配的上述讲话风格。
72.具体地，可以先收集讲话者的特征信息，说话者在注册对话助手时，填写的特征信息中有性别、年龄、职业、民族、地区、兴趣，当然，性别还可以直接根据讲话者的语音信息确定，还可以根据讲话者的语音信息中的声纹特征确定讲话者的年龄范围，年龄范围可以分为儿童、青年、中年和老年。在获取到说话者的特征信息的情况下，可以根据说话者的特征信息构建用户标签，为说话者构建初始的用户画像。
73.实际上，可以采用解码器对提取到的语音信息进行解码，进一步识别语音信息，将语音信息转换为目标文本信息，进一步地，解码器采用搜索算法将语音信息中的方言特征向量解码成最大概率的词序列，通过声学模型和语言模型将语音信息生成文本信息，完成语音到文本的转换。具体地，声学模型可以是隐马尔科夫模型，语言模型可以是n-gram模型，当然，并不限于上述的情况，本领域技术人员还可以根据其他的模型来将语音转换为文本。
74.为保证可以进一步准确地确定与说话者匹配的讲话风格，本技术的另一种实施例中，第一确定模块包括第一确定子模块、第二确定子模块、获取子模块和第三确定子模块，第一确定子模块用于根据上述目标文本信息进行语义识别，确定上述说话者的行为偏好信息；第二确定子模块用于根据上述语音信息中的声纹特征，确定上述说话者的情绪信息；获取子模块用于获取历史对话信息，上述历史对话信息是指历史时间段内语音交互的信息；第三确定子模块用于根据上述用户画像、上述行为偏好信息、上述情绪信息和上述历史对话信息，构建向量矩阵，采用上述向量矩阵向量化表示上述说话者的用户特征，并确定上述讲话风格。
75.具体地，可以根据说话者经常询问的问题确定行为偏好信息，比如经常查询天气情况，那么说话者的行为偏好信息就是查询天气，而情绪信息可以是根据语音信息中的声纹特征直接确定得到，不同的情绪表现出的声纹特征是不一样的。确定说话者的讲话风格
是庄重还是活泼，通过确定说话者的情绪信息可以较为准确地确定说话者的状态以及及时匹配对应的讲话风格，提升用户的满意度，例如，检测到说话者当前的情绪较为低落，可以用鼓励心灵的格言或者幽默语句争取改善用户的低落情绪，如果说话者当前的情绪较为愤怒，可以以委婉的语气进行语音交流，实际上也可以采用情绪识别模型对说话者的情绪进行识别，情绪识别模型可以是使用多组训练数据训练得到的，多组训练数据中的每一组训练数据均包括语音信息和语音信息对应的情绪，将当前说话者的语音信息输入至情绪识别模型中，识别当前说话者的语音信息对应的声纹特征，并根据声纹特征确定说话者的情绪。而历史对话信息可以是编码器提取得到的。
76.还可以采用向量矩阵向量化表示说话者的用户特征，通过编码器对采集到的用户画像进行编码，将说话者的特征用一个固定长度n维向量表示，其中n维向量矩阵中的每一位取值为0或者1，就可以把说话者的性别、地区、职业、年龄、爱好、口头禅、地点、前几轮的对话意图提取等编码到向量矩阵中，例如向量矩阵为{0,1,1,2,1,2,1,2}，分别表示性别为女，地区为e地区，职业为f职业，年龄为青年，爱好为读书，口头禅是导航，地点是g地区，前几轮的对话意图是查询路线。
77.第一处理单元40，用于根据上述讲话风格和上述语音信息生成回复信息，并控制音频播报设备播放上述回复信息对应的语音，其中，上述回复信息是对应上述说话者的上述语音信息的回复内容的信息，控制上述音频播报设备播放上述回复信息对应的语音是采用上述目标方言进行播报的。
78.具体地，上述的第一处理单元，可以根据讲话风格和语音信息生成回复信息，并且播报回复信息对应的语音时是采用目标方言进行播报的，可以使用说话者的目标方言与说话者进行交流，这样回答说话者的问题时候回复内容的相似度不会较高，而是个性化的回复。
79.为了生成更符合说话者的表达习惯的回复信息，进一步提高说话者的体验效果，本技术的一种具体的实施例中，第一处理单元包括处理模块、第二获取模块、第二确定模块和第一生成模块，处理模块用于对上述目标文本信息进行语义识别，确定上述目标文本信息对应的语义识别结果；第二获取模块用于从数据库中获取多个问答对，一个上述问答对包括一个问题与一个答案；第二确定模块用于确定多个上述问题中与上述语义识别结果的相似度最高的目标问题；第一生成模块用于基于上述目标问题对应的目标答案，采用上述讲话风格，生成符合上述讲话风格的上述回复信息。
80.具体地，将语音信息转换为文本信息后，还可以继续转换为目标文本信息，例如将k地区方言的语音信息转换为了k地区方言的文本信息，再转换为了普通话的文本信息，并基于检索算法从多个问答对中选取出目标问答对，并经由确定的讲话风格生成个性化的回复信息，这样可以根据用户输入的信息、用户画像、用户的个性特征以及对话中的意图生成符合说话者的表达习惯的方言的自动回复，进一步提高了用户的体验效果。
81.对于生成回复信息，还可以使用解码器进行解码，以生成符合说话者的讲话风格的回复信息，具体地，可以通过预先训练好的回复语言模型分析用户画像、目标文本信息和语音信息以及当前轮次对话意图，以及说话者的讲话风格，这样可以得到符合说话者的讲话风格的回复信息，回复语言模型是是通过隐马尔科夫模型和循环神经网络网络模型训练得到，采用用户画像、目标文本信息和语音信息以及当前轮次对话意图预测下一个词语，即
运用隐马尔科夫模型和循环神经网络网络模型建立的回复语言模型可以生成出对话的回复信息，使得人机交互更为自然准确。
82.具体地，语义识别可以采用语义识别模型进行识别，首先构建语义识别模型并进行训练，语义识别模型可以是nlp(自然语言处理，natural language processing，简称nlp)模型，还可以结合变种等进行语言表征，结合具体的匹配任务进行相似度打分训练，基于文本检索技术，通过对目标文本信息进行语义识别，选取出与目标文本信息的语义识别结果相似度最高的目标问题，并根据目标问题对应的目标答案结合讲话风格，生成符合要求(讲话风格)的基于目标方言的回复信息。
83.为了检测生成的回复信息是否可以贴近说话者的口语习惯，以保证回复信息可以满足说话者的需求，改善用户的体验效果，本技术的另一种具体的实施例中，上述装置还包括第二处理单元和第三确定单元，第二处理单元用于在生成符合上述讲话风格的上述回复信息之后，使用生成式对抗网络中的判别模型对上述回复信息进行识别，以确定上述回复信息是否为真实文本，得到分类结果；第三确定单元用于在上述分类结果表征上述回复信息是上述真实文本的情况下，确定上述回复信息为目标回复信息。
84.具体地，采用生成式对抗网络中的判别模型，通过对合成的回复信息进行真实文本和合成文本的分类，得到分类结果，可以以判别模型的分类结果为依据，基于梯度翻转策略调整作为生成网络的参数，使得作为文本合成的生成网络合成的回复信息更贴近真实文本，从而让判别网络难辨真假。经过多次迭代训练，满足训练条件(生成式对抗网络中的分类器无法判别合成的回复信息是合成文本)时，训练结束后的生成式对抗网络中的生成网络可以作为回复生成模型，通过回复生成模型，生成个性化的回复信息。
85.为了进一步实现对话助手与说话者进行语音交流，还可以播报回复信息对应的语音，以使得说话者可以听到回复，本技术的又一种具体的实施例中，第一处理单元还包括提取模块、第二生成模块和控制模块，提取模块用于提取多个方言库中的目标方言库，上述目标方言库中包括上述目标方言的目标语音数据包；第二生成模块用于根据上述回复信息，采用上述目标语音数据包生成待播报语音；控制模块用于控制上述音频播报设备播报上述待播报语音。
86.上述的装置中，获取单元获取说话者的语音信息，第一确定单元对语音信息进行识别，确定语音信息对应的目标方言，第二确定单元至少根据语音信息，确定与说话者匹配的讲话风格，第一处理单元根据讲话风格和语音信息生成回复信息，并控制音频播报设备播放回复信息对应的语音，其中，控制音频播报设备播放回复信息对应的语音是采用目标方言进行播报的。该方案中，对说话者的语音进行识别，可以生成符合说话者的方言特征的回复信息，这样可以使用说话者的方言与说话者进行交流，并且可以自动匹配合适的讲话风格，这样回答说话者的问题时候回复内容的相似度较低，是个性化的回复，改善了用户的体验效果。
87.一种具体的实施例中，如果检测到说话者的方言是k地区方言，那么可以使用k地区方言对应的方言库与说话者进行交流，方言库中都是预先构建的，比如k地区方言里常用的都是倒装句，整个流程中只需要识别说话者的目标方言以及自动匹配讲话风格，即可以高效地采用说话者对应的k地区方言以及对应的讲话风格与说话者进行交流，用户的体验效果较好。
88.上述语音交互的装置包括处理器和存储器，上述获取单元、第一确定单元、第二确定单元和第一处理单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
89.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来使用方言与用户进行交流，并且按照用户的口语习惯的风格回答用户的问题，改善了用户的体验效果。
90.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
91.本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述语音交互的方法。
92.本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述语音交互的方法。
93.本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：
94.步骤s101，获取说话者的语音信息，上述语音信息是指上述说话者在说话的过程中发出的语音的信息；
95.步骤s102，对上述语音信息进行识别，确定上述语音信息对应的目标方言；
96.步骤s103，至少根据上述语音信息，确定与上述说话者匹配的讲话风格，上述讲话风格是指上述说话者的口语习惯的风格；
97.步骤s104，根据上述讲话风格和上述语音信息生成回复信息，并控制音频播报设备播放上述回复信息对应的语音，其中，上述回复信息是对应上述说话者的上述语音信息的回复内容的信息，控制上述音频播报设备播放上述回复信息对应的语音是采用上述目标方言进行播报的。
98.本文中的设备可以是服务器、pc、pad、手机等。
99.本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：
100.步骤s101，获取说话者的语音信息，上述语音信息是指上述说话者在说话的过程中发出的语音的信息；
101.步骤s102，对上述语音信息进行识别，确定上述语音信息对应的目标方言；
102.步骤s103，至少根据上述语音信息，确定与上述说话者匹配的讲话风格，上述讲话风格是指上述说话者的口语习惯的风格；
103.步骤s104，根据上述讲话风格和上述语音信息生成回复信息，并控制音频播报设备播放上述回复信息对应的语音，其中，上述回复信息是对应上述说话者的上述语音信息的回复内容的信息，控制上述音频播报设备播放上述回复信息对应的语音是采用上述目标方言进行播报的。
104.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
105.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的
方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
106.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
107.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
108.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
109.从以上的描述中，可以看出，本技术上述的实施例实现了如下技术效果：
110.1)、本技术的语音交互的方法，首先获取说话者的语音信息，之后对语音信息进行识别，确定语音信息对应的目标方言，之后至少根据语音信息，确定与说话者匹配的讲话风格，最后根据讲话风格和语音信息生成回复信息，并控制音频播报设备播放回复信息对应的语音，其中，控制音频播报设备播放回复信息对应的语音是采用目标方言进行播报的。该方案中，对说话者的语音进行识别，可以生成符合说话者的方言特征的回复信息，这样可以使用说话者的方言与说话者进行交流，并且可以自动匹配合适的讲话风格，这样回答说话者的问题时候回复内容的相似度较低，是个性化的回复，改善了用户的体验效果。
111.2)、本技术的语音交互的装置，获取单元获取说话者的语音信息，第一确定单元对语音信息进行识别，确定语音信息对应的目标方言，第二确定单元至少根据语音信息，确定与说话者匹配的讲话风格，第一处理单元根据讲话风格和语音信息生成回复信息，并控制音频播报设备播放回复信息对应的语音，其中，控制音频播报设备播放回复信息对应的语音是采用目标方言进行播报的。该方案中，对说话者的语音进行识别，可以生成符合说话者的方言特征的回复信息，这样可以使用说话者的方言与说话者进行交流，并且可以自动匹配合适的讲话风格，这样回答说话者的问题时候回复内容的相似度较低，是个性化的回复，改善了用户的体验效果。
112.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林琦谢园园唐雄飞李健陈明武卫东
技术所有人：北京捷通华声科技股份有限公司
我是此专利的发明人