语音消息处理方法、装置及电子设备与流程

文档序号：31707752发布日期：2022-10-01 12:37阅读：107来源：国知局

技术简介：
本专利针对语音消息处理中关键信息提取不精准、语音特性与发送者声纹不匹配的问题，提出通过语音转换、文本提取与文本转换模型协同工作，结合训练好的语音修正模型，基于相似度动态调整输出，最终生成兼具原语音特性和目标对象声纹特征的目标语音消息，提升语音处理的准确性与个性化适配性。
关键词：语音修正模型,声纹特性

1.本技术属于计算机技术领域，具体涉及一种语音消息处理方法、装置及电子设备。

背景技术：

2.随着科技的不断提升，人们使用电子设备的频率也越来越高，人们联系时经常会使用到一些应用程序中的语音消息功能，语音消息带来极大便捷的同时，其还具有生动且带有较强的用户特色，在传播中信息损失较小等特点。
3.但在使用过程中，用户在接收到多条时长较长的语音消息时，需要依次点开才能听取其内容，由于语音消息中有效消息较少，导致从语音消息中获取信息的效率低。

技术实现要素：

4.本技术实施例提供一种语音消息处理方法、装置及电子设备，能够解决现有接收到条数多时长长的语音消息，需要依次听取花费的时长较长，导致从语音消息中获取信息的效率低的问题。
5.第一方面，本技术实施例提供了一种语音消息处理方法，所述方法包括：
6.获取待处理语音消息；
7.确定所述待处理语音消息对应的关键语音消息；
8.通过训练好的语音修正模型，基于所述关键语音消息与所述待处理语音消息之间的相似程度，对所述关键语音消息进行语音修正，获得目标语音消息；
9.其中，所述训练好的语音修正模型是利用目标对象的样本语音微调训练得到的；所述目标对象为所述待处理语音消息对应的消息发送对象；所述目标语音消息具有所述待处理语音消息的语音特性以及所述目标对象的声纹特性。
10.第二方面，本技术实施例提供了一种语音消息处理装置，所述装置包括：
11.获取模块，用于获取待处理语音消息；
12.确定模块，用于确定所述待处理语音消息对应的关键语音消息；
13.修正模块，用于通过训练好的语音修正模型，基于所述关键语音消息与所述待处理语音消息之间的相似程度，对所述关键语音消息进行语音修正，获得目标语音消息；
14.其中，所述训练好的语音修正模型是利用目标对象的样本语音微调训练得到的；所述目标对象为所述待处理语音消息对应的消息发送对象；所述目标语音消息具有所述待处理语音消息的语音特性以及所述目标对象的声纹特性。
15.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
16.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
17.第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述
通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。
18.在本技术实施例中，首先获取待处理语音消息，然后确定待处理语音消息对应的关键语音消息，最后通过利用目标对象的样本语音微调训练得到的训练好的语音修正模型，基于关键语音消息与待处理语音消息之间的相似程度，对关键语音消息进行语音修正，获取具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息。本技术实施例通过将至少一条语音消息处理得到关键语音消息，利用训练好的语音修正模型对关键语音消息进行修正，可以得到具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息，在提升用户获取语音消息内容的效率的同时，还可以使用户感知到语音消息发送对象发送语音消息时的情绪，使得用户听到的目标语音消息与原始语音消息更接近，更像是语音消息发送对象本人将原始语音精简修正后的语音，提升语音消息处理的准确性。
附图说明
19.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
20.图1是本技术的一个实施例提供的一种语音消息处理方法的流程图；
21.图2是本技术的一个实施例提供的一种获取待处理语音消息的示意图；
22.图3是本技术的一个实施例提供的另一种获取待处理语音消息的示意图；
23.图4是本技术的一个实施例提供的进入语音消息处理界面的操作示意图；
24.图5是本技术的一个实施例提供的语音修正模型的结构示意图；
25.图6是本技术的一个实施例提供的语音网络的结构示意图；
26.图7是本技术的一个实施例提供的语音修正模型训练时的输入和输出的简单结构示意图；
27.图8是本技术的一个实施例提供的语音消息处理完成后的会话界面示意图；
28.图9是本技术的一个实施例提供的语音消息处理方法的整体流程示意图；
29.图10是本技术的一个实施例提供的一种语音消息处理装置的结构示意图；
30.图11是本技术的一个实施例提供的一种电子设备的结构示意图；
31.图12是本技术的一个实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
32.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本技术保护的范围。
33.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
34.在一些实施例中，用户在接收到消息发送对象发送的多条时长较长的语音消息时，需要依次点开才能听取其中的内容，花费的时间较长，而且由于多条时长较长的语音消息中有效的消息可能较少，这就导致用户从这些语音消息中获取信息的效率较低，为了解决上述问题，本方案提出了一种语音消息处理方法、装置及电子设备，通过将消息发送对象发送的至少一条语音消息转化成目标语音消息，该目标语音消息具有消息发送对象的声纹特性，并且该目标语音消息具有与至少一条语音消息相同的语音特性，例如消息发送对象发送的至少一条语音消息是开心的语气，得到的目标语音消息也是开心的语气，最后将该目标语音消息显示到会话界面中，使得用户听到的是内容简洁、具有消息发送对象声纹特性、与至少一条语音消息相同语音特性的语音消息，减少用户花费的时间，提高语音信息获取的效率。
35.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的一种语音消息处理方法、装置及电子设备进行详细地说明。
36.如图1所示，为本技术实施例提供的一种语音消息处理方法的流程示意图。该语音消息处理方法可以包括s101至s103所示的内容。
37.在s101中，获取待处理语音消息。
38.其中，待处理语音消息是消息发送对象发送的语音消息，待处理语音消息包括至少一条语音消息。若是待处理语音消息包括多条语音消息，获取待处理语音消息的方式可以是逐条选择；也可以是通过滑动选择多条语音消息，如图2所示，可以通过滑动选中用户1发送的多条语音消息；还可以通过选择消息发送对象，以选择该消息发送对象发送的多条语音消息，如图3所示，可以通过选中用户1的头像，以选择用户1发送的多条语音消息，其中，选中用户1的头像可以是长按用户1的头像，也可以是双击用户1的头像等，具体地本技术实施例中不做限定，根据实际应用确定。
39.通过上述方式可以获取待处理语音消息，然后用户可以通过向左滑动进入语音消息处理界面，将选中的语音消息转换成目标语音消息，如图4所示，为向左滑动进入语音消息处理界面的示意图，具体地语音消息处理流程如下所示。
40.在s102中，确定待处理语音消息对应的关键语音消息。
41.其中，关键语音消息指的是待处理语音消息经过语音编辑处理后得到的语音消息，该语音消息可以将待处理语音消息中的错误内容纠正，在语音消息较多(如语音消息时长较长、语音消息条数较多)时可以提取其中的关键内容，也即得到精简的语音消息，具体的在后续实施例中详细描述，本实施例中不再赘述。
42.在s103中，通过训练好的语音修正模型，基于关键语音消息与待处理语音消息之间的相似程度，对关键语音消息进行语音修正，获取目标语音消息。
43.其中，训练好的语音修正模型是利用目标对象的样本语音微调训练得到的；目标对象为待处理语音消息对应的消息发送对象；目标语音消息具有待处理语音消息的语音特性以及目标对象的声纹特性。
44.值得说明的是，目标对象的样本语音指的是该目标用户的本地语音，也即目标对象发送给用户的历史语音消息，其中，目标用户的本地语音可以存储在本地数据库中，在使用时可以直接调用。语音特性可以是语气、语调、语速、音量中的至少一项。
45.其中，语音修正指的是将关键语音消息修正成具有待处理语音消息的语音特性以
及目标对象的声纹特性的目标语音消息，使得用户最终听到的目标语音消息是与待处理语音消息语气、语调、声纹等都相似的语音消息，可以在提高用户获取语音信息效率的同时，还可以准确地接收到消息发送对象在发送待处理语音消息时的语气、语调、语速等信息，使得用户听到的语音消息更像消息发送对象本人说的话。
46.在本技术实施例中，首先获取待处理语音消息，然后确定待处理语音消息对应的关键语音消息，最后通过利用目标对象的样本语音微调训练得到的训练好的语音修正模型，基于关键语音消息与待处理语音消息之间的相似程度，对关键语音消息进行语音修正，获取具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息。本技术实施例通过将至少一条语音消息处理得到关键语音消息，利用训练好的语音修正模型对关键语音消息进行修正，可以得到具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息，在提升用户获取语音消息内容的效率的同时，还可以使用户感知到语音消息发送对象发送语音消息时的情绪，使得用户听到的目标语音消息与原始语音消息更接近，更像是语音消息发送对象本人将原始语音精简修正后的语音，提升语音消息处理的准确性。
47.在本技术的一个可能的实施方式中，确定待处理语音消息对应的关键语音消息，可以包括：通过语音转换模型，将待处理语音消息转换为消息文本；通过文本提取模型，从消息文本中提取关键内容，得到关键文本；通过文本转换模型，将关键文本转换为关键语音消息。
48.在本技术实施例中，语音转换模型为将语音消息转换为文字的模型，可以将待处理语音消息转换为消息文本，以便后续更快速的提取其中的关键内容。文本提取模型用于将语音消息时长较长或语音消息条数较多的待处理语音消息进行精简处理，提取待处理语音消息中的关键内容，以减少用户听取待处理语音消息花费的时间，提升用户获取待处理语音消息中内容的效率。文本转换模型为将文字转换为语音消息的模型，可以将上述提取的关键文本转换为关键语音消息，方便用户从中获取有效内容以及消息发送对象的情绪信息。
49.其中，文本提取模型可以为bertsum模型，也可以为其他模型，只需可以提取出消息文本中的关键内容即可，本技术实施例不做具体限定。
50.可选地，通过文本提取模型，从消息文本中提取关键内容，得到关键文本之间，该语音消息处理方法还可以包括：通过文本纠错模型，对消息文本进行纠错处理。
51.由于待处理语音消息中可能存在错误的发音或是口误等，此时可以利用文本纠错模型对转换的文本进行纠错处理，纠正文字中的错误。其中文本纠错模型可以采用现有的模型结构，例如传统自然语音纠错模型，如汉语语言模型(n-gram)，无需重新构建模型结构，可以节约资源。
52.相应的，通过文本提取模型，从消息文本中提取关键内容，得到关键文本，可以包括：通过文本提取模型，从纠错处理后的消息文本中提取关键内容，得到关键文本。
53.本技术实施例中，在对文本信息进行纠错处理后，利用文本提取模型，从纠错后的消息文本中提取关键内容，可以使得得到的关键文本更加准确，更加准确地表达出信息发送对象原本想要表达的意思。
54.上述实施例中的语音转换模型和文本转换模型，都可以根据目标对象对应的文本
语音映射关系进行转换，使得转换后的文本和语音更加具有信息发送对象的个人特色，解决语音转文字时口音、表述个性化的问题，以及使得文字转语音更加通常、生动，详见下述实施例。
55.在本技术的一个可能的实施方式中，通过语音转换模型，将待处理语音消息转换为消息文本，可以包括：通过语音转换模型，基于目标对象对应的文本语音映射关系，将待处理语音消息转换为消息文本。
56.其中，文本语音映射关系是利用目标对象的样本语音对语音修正模型进行微调训练获得的。文本语音映射关系包括文字与至少一个语音片段之间的映射关系，至少一个语音片段具有目标对象的声纹特性，每个语音片段的语音特性不同。
57.值得说明的是，语音修正模型是利用通用的样本语音，对待训练的语音修正模型进行训练得到的，其中，通用的样本语音可以是从网络上或者是数据库中获取的公共语音，待训练的语音修正模型可以利用现有模型的模型结构，例如联合任务学习训练模型，无需重新构建模型结构，可以节约资源。
58.本技术实施例中，利用目标对象的样本语音对语音修正模型进行微调训练，可以得到一个更加具有目标对象特色的语音修正模型，根据该具有目标对象特色的语音修正模型得到的文本语音映射关系也更具有目标对象的特色。通过目标对象对应的文本语音映射关系，可以快速对待处理语音消息进行切割处理，训练出多个语音候选片段，再确定出多个语音候选片段对应的文字片段权重，进而对应出相应的文字。
59.在本技术的一个可能的实施方式中，通过文本转换模型，将关键文本转换成关键语音消息，可以包括：通过文本转换模型，基于目标对象对应的文本语音映射关系，将关键文本转换为关键语音消息。
60.其中，文本语音映射关系是利用目标对象的样本语音对语音修正模型进行微调训练获得的。文本语音映射关系包括文字与至少一个语音片段之间的映射关系，至少一个语音片段具有目标对象的声纹特性，每个语音片段的语音特性不同。
61.其中，语音修正模型的训练与上述实施例相同，微调训练的过程也相同，本实施例中不再赘述。
62.本技术实施例中，利用目标对象的样本语音对语音修正模型进行微调训练，可以得到一个更加具有目标对象特色的语音修正模型，根据该具有目标对象特色的语音修正模型得到的文本语音映射关系也更具有目标对象的特色。通过目标对象对应的文本语音映射关系，可以快速准确地生成编辑后的语音。
63.上述实施例中的文本语音映射关系是利用目标对象的样本语音对语音修正模型进行微调训练的过程中获取的，是指一个文字与多个语音频段的映射关系，文本语音映射关系表x
u,i,j
→yu,i,j
可以如下所示：
64.65.其中，i为语音维度，j为文本维度，ω
i,j
为用户u的语音片段i对应的文本j的筛选权重。
66.在本技术的一个可能的实施方式中，通过训练好的语音修正模型，基于关键语音消息与待处理语音消息之间的相似程度，对关键语音消息进行语音修正，获取目标语音消息，可以包括：通过语音修正模型确定关键语音消息与待处理语音消息之间的相似程度；在相似程度小于预设阈值的情况下，将相似程度传递至语音转换模型和文本转换模型中的至少一个，以使语音转换模型和文本转换模型中的至少一个调整各自的输出结果，直至关键语音消息与待处理语音消息之间的相似程度大于或等于预设阈值，获取目标语音消息。
67.其中，预设阈值可以是用户自己设定的，也可以是根据语音修正模型训练过程中通用的样本语音中的相似程度确定的。该预设阈值的数值越大，表明最终的目标语音消息越接近目标用户自己重新表述的语音消息。
68.也就是说，本技术实施例中用到了pid控制(proportional-integral-derivative control，比例积分微分控制)原理，pid控制原理是根据给定值和实际输出值构成控制偏差，将偏差按比例、积分和微分通过线性组合构成控制量，对被控对象进行控制。本技术中给定值是指预设阈值，实际输出值是指相似度程度，偏差是指相似度程度与预设阈值之间的差值，被控对象是指语音修正模型和/或文本转换模型，通过相似度程度与预设阈值之间的差值来修正语音转换的文字以及语音权重分布，使得语音修正模型转换的文本更加准确，文本转换模型转换出的语音与原始语音的语音特色更加相似。
69.本技术实施例中的pid控制原理主要是用于模型在使用过程中主动根据相似度程度和预设阈值之间的差值，实时反馈给语音转换模型和文本转换模型，语音转换模型和文本转换模型根据该差值修正语音转换的文字以及语音权重分布，使得语音修正模型转换的文本更加准确，文本转换模型转换出的语音与原始语音的语音特色更加相似。
70.根据上述文本语音映射关系可知一个语音片段对应的文字的筛选权重不同，在语音转文本或文本转语音时会存在权重分配有误的情况，因此存在输出输入语音误差，在后续计算出相似度程度不满足预设阈值时，将误差值反馈至语音转换模块和文本转换模型中的至少一个，通过调整语音转换模块和/或和文本转换模型的输出结果来调整最终的相似度程度，以获取目标语音消息。
71.在本技术的一个可能的实施方式中，通过语音修正模型确定关键语音消息与待处理语音消息之间的相似程度，可以包括：通过语音修正模型的语音网络，获取关键语音消息的语音特征，以及待处理语音消息的语音特征；通过语音修正模型的文本网络，基于关键语音消息的语音特征，获取关键语音消息的文本语音组合特征，并基于待处理语音消息的语音特征，获取待处理语音消息的文本语音组合特征；通过语音修正模型的相似度评估网络，基于关键语音消息的文本语音组合特征，以及待处理语音消息的文本语音组合特征，确定关键语音消息与待处理语音消息之间的相似程度。
72.其中，语音修正模型包括三个网络，即语音网络、文本网络和相似度评估网络。语音网络的作用是将输入的语音消息划分成多个语音片段隐向量，输出语音特征向量，该语音特征向量可以表达输入语音消息的语音特性，例如语气、语调、语速、音量等，也就是说可以通过语音网络对输入的语音消息在语气、语调、语速、音量等方面进行重构，得出该语音消息的多个语音片段在各种语音特性上的一个权重，然后根据权重对语音消息进行重构。
将重构的语音消息输入至文本网络，通过文本网络将重构的语音消息转换成包括文字特性和语音特性的文本语音组合特征，也即通过文本网络得到的文本既具有文字层面的特征，又具有语音方面的特征，然后将两个输入语音消息经过语音网络和文本网络得到的文本语音组合特征输入至相似度评估网络中，确定两个输入语音消息的相似程度。
73.本技术实施例，通过语音修正模型的三个网络对关键语音消息与待处理语音消息分别进行处理，然后确定出相似程度，其中，语音网络可以更准确的确定出输入的语音消息的语气、语调、语速、音量等语音特性，以使得语音消息在经过文本网络后，可以使得转换的文本具有文字层面的特征和语音方面的特性，使得转换出的文本更加准确，以便在相似度评估网络中进行评估时，使得评估的结果更加准确。
74.如图5所示，为语音修正模型的结构示意图，根据图5可知，语音修正模型包括三部分，即语音网络、文本网络和相似度评估网络。语音消息输入至语音修正模型中，经过语音修正模型的语音网络划分成多个语音片段隐向量，如图6所示，该语音特征向量可以表达输入语音消息的语音特性，例如语气、语调、语速、音量等，也就是说可以通过语音网络对输入的语音消息在语气、语调、语速、音量等方面进行重构，得出该语音消息的多个语音片段在各种语音特性上的一个权重，然后根据权重对语音消息进行重构。这与现有技术中直接将语音消息转换为文本不同，本技术中在语音消息在经过文本网络后，可以使得转换的文本具有文字层面的特征和语音方面的特性，使得转换出的文本更加准确。然后将重构的语音消息输入至文本网络，通过文本网络将重构的语音消息转换成包括文字特性和语音特性的文本语音组合特征，也即通过文本网络得到的文本既具有文字层面的特征，又具有语音方面的特征，这与现有技术中仅仅将文本消息转换成语音消息不同，本技术中转换出的是具有原始语音特性的语音消息。最后可以将两个输入语音消息经过语音网络和文本网络得到的文本语音组合特征输入至相似度评估网络中，确定两个输入语音消息的相似程度。
75.在本技术的一个可能的实施方式中，语音修正模型的训练步骤包括：利用通用的样本语音，对待训练的语音修正模型进行预训练；利用目标对象的样本语音，对预训练后的语音修正模型进行微调训练，直至训练结束时，获得训练好的语音修正模型。
76.其中，通用的样本语音是指公共语音，而非某个特定人或是某个特定群体的语音，通用的样本语音可以是从网络上获取的，也可以是从语音数据库中获取的。目标对象的样本语音是指目标对象的语音，可以是待处理语音之前目标对象发送的语音消息，或是用户授权的设备本地的语音数据库中目标对象的语音消息。待训练的语音修正模型可以利用现有模型的模型结构，例如联合任务学习训练模型，无需重新构建模型结构，可以节约资源。
77.在本技术实施例中，语音修正模型是先利用通用的样本语音，也即公共语音对待训练的语音修正模型进行预训练，得到一个通用的语音修正模型，然后利用目标对象的样本语音对上述通用模型进行微调训练，可以得到具有目标对象特色的语音修正模型，使得利用该模型确定待处理语音消息与关键语音消息的相似程度，并对关键语音消息进行语音修正时，修正后的语音消息更具有目标对象的特色，与目标对象自身重新表达的更相似。
78.可选地，利用通用的样本语音，对待训练的语音修正模型进行预训练，可以包括：通过待训练的语音修正模型的语音网络，获取通用的样本语音中的至少两个样本语音消息的语音特征，其中，任意两个样本语音消息之间均具有预设相似程度；通过待训练的语音修正模型的文本网络，基于至少两个样本语音消息的语音特征，获取每个样本语音消息的文
本语音组合特征；通过待训练的语音修正模型的相似度评估网络，基于任意两个样本语音消息的文本语音组合特征，确定任意两个样本语音消息之间的相似程度；基于任意两个样本语音消息之间的相似程度与任意两个样本语音消息之间的预设相似程度之间的差异，训练语音网络和文本网络，直至任意两个样本语音消息之间的相似程度大于或等于预设相似程度，获得预训练后的语音修正模型。
79.其中，语音修正模型包括三个网络，即语音网络、文本网络和相似度评估网络。语音网络的作用是将输入的语音消息划分成多个语音片段隐向量，输出语音特征向量，该语音特征向量可以表达输入语音消息的语音特性，例如语气、语调、语速、音量等，也就是说可以通过语音网络对输入的语音消息在语气、语调、语速、音量等方面进行重构，得出该语音消息的多个语音片段在各种语音特性上的一个权重，然后根据权重对语音消息进行重构。将重构的语音消息输入至文本网络，通过文本网络将重构的语音消息转换成包括文字特性和语音特性的文本语音组合特征，也即通过文本网络得到的文本既具有文字层面的特征，又具有语音方面的特征，然后将两个输入语音消息经过语音网络和文本网络得到的文本语音组合特征输入至相似度评估网络中，确定两个输入语音消息的相似程度。
80.本技术实施例中，将任意两个具有预设相似程度的样本语音经过上述语音网络和文本网络后，分别得到各自的文本语音组合特征，再将任意两个文本语音组合特征输入至相似度评估网络确定出这两个样本语音的相似程度，若是确定出的任意两个样本语音消息的相似程度大于或等于该任意两个样本语音消息的预设相似程度，则说明语音修正模型已经训练好，否则继续训练语音网络和文本网络，直至满足上述条件。通过上述训练过程，可以训练得到通用的语音修正模型，使得经过该语音修正模型修正的精简语音消息与原始语音消息更加接近。
81.在对待训练的语音修正模型进行预训练，得到通用的语音修正模型之后，还可以利用目标对象的样本语音，对该通用的语音修正模型进行微调训练，得到符合目标对象语音特性的语音修正模型，具体的，微调训练的过程可以包括：通过训练后的语音修正模型的语音网络，获取目标对象的样本语音中的至少两个样本语音消息的语音特征，其中，任意两个样本语音消息之间均具有预设相似程度；通过训练后的语音修正模型的文本网络，基于至少两个样本语音消息的语音特性，获取每个样本语音消息的文本语音组合特征；通过训练后的语音修正模型的相似度评估网络，基于任意两个样本语音消息的文本语音组合特征，确定任意两个样本语音消息之间的相似程度；基于任意两个样本语音消息之间的相似程度与任意两个样本语音消息之间的预设相似程度之间的差异，训练语音网络和文本网络，直至任意两个样本语音消息之间的相似程度大于或等于预设相似程度，获得训练好的语音修正模型。
82.其中，训练后的语音修正模型的语音网络、文本网络和相似度评估网络的具体介绍在上述实施例中已经详细描述，本实施例不再赘述。
83.本技术实施例，将目标对象任意两个具有预设相似程度的样本语音经过上述语音网络和文本网络后，分别得到各自的文本语音组合特征，再将任意两个文本语音组合特征输入至相似度评估网络确定出这两个样本语音的相似程度，若是确定出的任意两个样本语音消息的相似程度大于或等于预设相似程度，则说明语音修正模型已经训练好，否则继续训练语音网络和文本网络，直至满足上述条件。通过上述训练过程，可以训练得到具有目标
对象特色的语音修正模型，使得经过该语音修正模型修正后的目标语音消息与待处理语音消息更加接近。
84.如图7所示，为语音修正模型训练时的输入和输出的简单结构示意图。图中输入的是通用的样本语音和目标对象的样本语音，在模型训练的过程中可以得到两个语音消息之间的相似程度和语音片段隐形量、文本语音映射关系、预设相似程度等，具体内容在上述实施例中已经详细描述，本实施例中不再赘述。
85.在本技术的一个可能的实施方式中，文本语音映射关系的获取步骤可以包括：从目标对象的样本语音中获取多个语音片段，通过语音修正模型的文本网络，获取每个语音片段对应的文字，根据每个语音片段，以及每个语音片段对应的文字，确定文本语音映射关系。
86.也就是说，可以通过目标对象的样本语音，获取其中的多个语音片段，输入至语音修正模型的文本网络中，得到每个语音片段对应的文字，根据每个语音片段，以及每个语音片段对应的文字，可以确定出文字与多个语音片段的映射关系，即文本语音映射关系。
87.在本技术的一个可能的实施方式中，获取待处理语音消息，可以包括：在会话界面中接收目标对象发送的至少一条语音消息。相应的，该语音消息处理方法还可以包括：在会话界面中显示目标语音消息。
88.也就是说，待处理语音消息是在用户的会话界面中接收的目标对象发送的至少一条语音消息。该至少一条语音消息可以是通过逐条选择获取的，也可以是通过滑动直接选取多条，还可以是通过选择目标对象，以获取目标对象发送的至少一条语音消息，具体地本技术实施例中不做限定，根据实际应用确定。最终获得的目标语音消息可以显示在会话界面中，以供用户听取，如图8所示，在将语音消息处理完成后，可以在会话界面中显示一个读的控件，在用户点击该控件后，可以听到内容简洁、具有用户1声纹特性，且与原始语音消息相同语音特性的语音消息，减少用户花费的时间，提高语音信息获取的效率。
89.如图9所示，为本技术的语音消息处理方法的整体流程示意图。具体地，在获取到待处理语音消息时，经过语音转换模型、文本纠错模型、文本提取模型和文本转换模型后得到关键语音消息，再将待处理语音消息和关键语音消息输入至语音修正模型中，可以得到目标语音消息。在这个过程中，语音修正模型可以根据待处理语音消息和关键语音消息的相似度程度，实时将相似度程度与预设相似程度的差值反馈至语音转换模型和文本转换模型中，以使得语音转换模型和文本转换模型根据该差值修正语音转换的文字以及语音权重分布，使得语音修正模型转换的文本更加准确，文本转换模型转换出的语音与原始语音的语音特色更加相似。具体地，在上述各个实施例中已经详细描述，本实施例不再赘述。
90.需要说明的是，本技术实施例提供的语音消息处理方法，执行主体可以为语音消息处理装置，或者该语音消息处理装置中的用于执行语音消息处理方法的控制模块。本技术实施例中以语音消息处理装置执行语音消息处理方法为例，说明本技术实施例提供的语音消息处理装置。
91.如图10所示，为本技术实施例提供的一种语音消息处理装置的示意图。该语音消息处理装置可以包括：获取模块1001、确定模块1002和修正模块1003。
92.其中，获取模块1001，用于获取待处理语音消息；确定模块1002，用于确定待处理语音消息对应的关键语音消息；修正模块1003，用于通过训练好的语音修正模型，基于关键
语音消息与待处理语音消息之间的相似程度，对关键语音消息进行语音修正，获得目标语音消息；其中，训练好的语音修正模型是利用目标对象的样本语音微调训练得到的；目标对象为待处理语音消息对应的消息发送对象；目标语音消息具有待处理语音消息的语音特性以及目标对象的声纹特性。
93.在本技术实施例中，首先获取模块1001获取待处理语音消息，然后确定模块1002确定待处理语音消息对应的关键语音消息，最后修正模块1003通过利用目标对象的样本语音微调训练得到的训练好的语音修正模型，基于关键语音消息与待处理语音消息之间的相似程度，对关键语音消息进行语音修正，获取具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息。本技术实施例通过将至少一条语音消息处理得到关键语音消息，利用训练好的语音修正模型对关键语音消息进行修正，可以得到具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息，在提升用户获取语音消息内容的效率的同时，还可以使用户感知到语音消息发送对象发送语音消息时的情绪，使得用户听到的目标语音消息与原始语音消息更接近，更像是语音消息发送对象本人将原始语音精简修正后的语音，提升语音消息处理的准确性。
94.可选地，确定模块1002，可以用于：通过语音转换模型，将待处理语音消息转换为消息文本；通过文本提取模型，从消息文本中提取关键内容，得到关键文本；通过文本转换模型，将关键文本转换为关键语音消息。
95.可选地，确定模块1002，可以用于：通过文本纠错模型，对消息文本进行纠错处理；通过文本提取模型，从纠错处理后的消息文本中提取关键内容，得到关键文本。
96.可选地，确定模块1002，可以用于：通过语音转换模型，基于目标对象对应的文本语音映射关系，将待处理语音消息转换为消息文本；其中，文本语音映射关系是利用目标对象的样本语音对语音修正模型进行微调训练获得的。
97.可选地，确定模块1002，可以用于：通过文本转换模型，基于目标对象对应的文本语音映射关系，将关键文本转换为关键语音消息；其中，文本语音映射关系是利用目标对象的样本语音对语音修正模型进行微调训练获得的。
98.可选地，确定模块1002，可以用于：文本语音映射关系包括文字与至少一个语音片段之间的映射关系，至少一个语音片段具有目标对象的声纹特性，每个语音片段的语音特性不同。
99.可选地，确定模块1002，可以用于：通过语音修正模型确定关键语音消息与待处理语音消息之间的相似程度；在相似程度小于预设阈值的情况下，将相似程度传递至语音转换模型和文本转换模型中的至少一个，以使语音转换模型和文本转换模型中的至少一个调整各自的输出结果，直至关键语音消息与待处理语音消息之间的相似程度大于或等于预设阈值，获得目标语音消息。
100.可选地，确定模块1002，可以用于：通过语音修正模型的语音网络，获取关键语音消息的语音特征，以及待处理语音消息的语音特征；通过语音修正模型的文本网络，基于关键语音消息的语音特征，获取关键语音消息的文本语音组合特征，并基于待处理语音消息的语音特征，获取待处理语音消息的文本语音组合特征；通过语音修正模型的相似度评估网络，基于关键语音消息的文本语音组合特征，以及待处理语音消息的文本语音组合特征，确定关键语音消息与待处理语音消息之间的相似程度。
101.可选地，修正模块1003，可以用于：利用通用的样本语音，对待训练的语音修正模型进行预训练；利用目标对象的样本语音，对预训练后的语音修正模型进行微调训练，直至训练结束时，获得训练好的语音修正模型。
102.可选地，修正模块1003，可以用于：通过待训练的语音修正模型的语音网络，获取通用的样本语音中的至少两个样本语音消息的语音特征，其中，任意两个样本语音消息之间均具有预设相似程度；通过待训练的语音修正模型的文本网络，基于至少两个样本语音消息的语音特征，获取每个样本语音消息的文本语音组合特征；通过待训练的语音修正模型的相似度评估网络，基于任意两个样本语音消息的文本语音组合特征，确定任意两个样本语音消息之间的相似程度；基于任意两个样本语音消息之间的相似程度与任意两个样本语音消息之间的预设相似程度之间的差异，训练语音网络和文本网络，直至任意两个样本语音消息之间的相似程度大于或等于预设相似程度，获得预训练后的语音修正模型。
103.可选地，确定模块1002，可以用于：从目标对象的样本语音中获取多个语音片段；通过语音修正模型的文本网络，获取每个语音片段对应的文字；根据每个语音片段，以及每个语音片段对应的文字，确定文本语音映射关系。
104.可选地，获取模块1001，可以用于：在会话界面中接收目标对象发送的至少一条语音消息；相应的，该语音消息处理装置还包括：显示模块。
105.其中，显示模块，用于在会话界面中显示目标语音消息。
106.本技术实施例中的语音消息处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，非移动电子设备可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
107.本技术实施例中的语音消息处理装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本技术实施例不作具体限定。
108.本技术实施例提供的语音消息处理装置能够实现图1-图9所示的方法实施例实现的各个过程，为避免重复，这里不再赘述。
109.可选地，如图11所示，本技术实施例还提供一种电子设备1100，包括处理器1101，存储器1102，存储在存储器1102上并可在所述处理器1101上运行的程序或指令，该程序或指令被处理器1101执行时实现上述语音消息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
110.需要说明的是，本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
111.图12为实现本技术实施例的一种电子设备的硬件结构示意图。
112.该电子设备1200包括但不限于：射频单元1201、网络模块1202、音频输出单元1203、输入单元1204、传感器1205、显示单元1206、用户输入单元1207、接口单元1208、存储器1209、以及处理器1210等部件。
113.本领域技术人员可以理解，电子设备1200还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1210逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图12中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
114.其中，处理器1210，用于获取待处理语音消息；确定待处理语音消息对应的关键语音消息；通过训练好的语音修正模型，基于关键语音消息与待处理语音消息之间的相似程度，对关键语音消息进行语音修正，获得目标语音消息；其中，训练好的语音修正模型是利用目标对象的样本语音微调训练得到的；目标对象为待处理语音消息对应的消息发送对象；目标语音消息具有待处理语音消息的语音特性以及目标对象的声纹特性。
115.在本技术实施例中，首先获取待处理语音消息，然后确定待处理语音消息对应的关键语音消息，最后通过利用目标对象的样本语音微调训练得到的训练好的语音修正模型，基于关键语音消息与待处理语音消息之间的相似程度，对关键语音消息进行语音修正，获取具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息。本技术实施例通过将至少一条语音消息处理得到关键语音消息，利用训练好的语音修正模型对关键语音消息进行修正，可以得到具有待处理语音消息的语音特性以及目标对象的声纹特性的目标语音消息，在提升用户获取语音消息内容的效率的同时，还可以使用户感知到语音消息发送对象发送语音消息时的情绪，使得用户听到的目标语音消息与原始语音消息更接近，更像是语音消息发送对象本人将原始语音精简修正后的语音，提升语音消息处理的准确性。
116.应理解的是，本技术实施例中，输入单元1204可以包括图形处理器(graphics processing unit，gpu)12041和麦克风12042，图形处理器12041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1206可包括显示面板12061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板12061。用户输入单元1207包括触控面板12071以及其他输入设备12072。触控面板12071，也称为触摸屏。触控面板12071可包括触摸检测装置和触摸控制器两个部分。其他输入设备12072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1209可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1210可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1210中。
117.本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述语音消息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
118.其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等。
119.本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述语音消息处理方法实施
例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
120.应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
121.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
122.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
123.上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷夏飞
技术所有人：维沃移动通信有限公司
我是此专利的发明人

上一篇：一种基于并行聚类的监察统计分析方法和装置
下一篇：LED显示装置及对其进行控制的方法与流程