基于人工智能的远程语音调整方法及相关设备与流程

文档序号：24646255发布日期：2021-04-13 15:16阅读：152来源：国知局

1.本发明涉及人工智能技术领域，具体涉及一种基于人工智能的远程语音调整方法、装置、计算机设备及存储介质。

背景技术：

2.远程视频服务为用户的业务办理提供了很多便利，甚至使业务“足不出户”成为了可能，也在一定程度上降低了网点装修、场地开销、服务人员分散难管理等实际操作问题带来的成本。
3.发明人在实现本发明的过程中发现，远程视频服务的效果的好坏很大程度上依赖远程坐席人员的个人状态。例如：远程坐席人员因为身体不适等因素影响，视频语音会有些异常，导致客户接收到远程语音时会出现理解上的歧义，影响用户的体验，降低语音交互的效果。

技术实现要素：

4.鉴于以上内容，有必要提出一种基于人工智能的远程语音调整方法、装置、计算机设备及存储介质，能够提高远程语音的语音质量，从而提高语音交互的效果。
5.本发明的第一方面提供一种基于人工智能的远程语音调整方法，所述方法包括：
6.获取远程坐席在正常录音时的多个第一语音，并提取所述多个第一语音的第一声线特征；
7.获取所述远程坐席在远程服务时的第二语音，并提取所述第二语音的第二声线特征；
8.根据所述第一声线特征确定所述第二声线特征中存在缺陷的声线特征；
9.将所述第二声线特征中存在缺陷的声线特征编码为第一声音图像；
10.调用声音图像处理模型对所述第一声音图像进行处理得到第二声音图像；
11.根据所述第二声音图像将所述第二语音调整为标准语音。
12.在一个可选的实施例中，所述将所述第二声线特征中存在缺陷的声线特征编码为第一声音图像包括：
13.获取存在缺陷的声线特征的目标梅尔频率；
14.将所述目标梅尔频率编码成一维向量；
15.将所述一维向量编码成二维矩阵；
16.确定所述二维矩阵为第一声音图像。
17.在一个可选的实施例中，所述将所述一维向量编码成二维矩阵包括：
18.计算所述一维向量的长度；
19.随机生成多个自然数对，其中，每个自然数对包括第一自然数及第二自然数；
20.计算每个自然数对中的第一自然数与第二自然数的乘积；
21.从所述乘积中筛选出最接近所述长度的目标乘积；
22.根据所述目标乘积对应的第一自然数及第二自然数将所述一维向量编码成二维矩阵，其中，所述二维矩阵的长为所述目标乘积对应的第一自然数，所述二维矩阵的宽为所述目标乘积对应的第二自然数。
23.在一个可选的实施例中，所述从所述乘积中筛选出最接近所述长度的目标乘积包括：
24.计算所述乘积与所述长度之间的第一差值；
25.从所述乘积中筛选出小于预设差值阈值的第一差值对应的乘积为候选乘积；
26.计算每个候选乘积对应的第一自然数与第二自然数之间的第二差值；
27.从所述候选乘积中筛选出最小的第二差值对应的候选乘积为目标乘积。
28.在一个可选的实施例中，所述提取所述多个第一语音的第一声线特征包括：
29.提取每个第一语音的第一梅尔频谱系数；
30.根据预设采样率采集每个第一梅尔频谱系数中的线性频率；
31.计算同一个线性频率对应的多个梅尔频率的加和平均值；
32.根据采集的线性频率及每个线性频率对应的加和平均值创建梅尔频谱系数曲线；
33.对所述梅尔频谱系数曲线进行平滑处理得到第三梅尔频谱系数；
34.确定所述第三梅尔频谱系数为第一声线特征。
35.在一个可选的实施例中，所述根据所述第一声线特征确定所述第二声线特征中存在缺陷的声线特征包括：
36.确定所述第一声线特征在预设第一方向上的第一极点特征及在预设第二方向上的第二极点特征；
37.根据所述第一极点特征及所述第二极点特征确定所述第一声线特征及所述第二声线特征中的声线特征匹配范围；
38.在所述声线特征匹配范围内，将所述第二声线特征中高于对应的第一声线特征第一阈值的声线特征及低于对应的第一声线特征第二阈值的声线特征确定为存在缺陷的声线特征。
39.在一个可选的实施例中，所述根据所述第二声音图像将所述第二语音调整为标准语音包括：
40.将所述第二声音图像逆编码为目标声线特征；
41.使用所述目标声线特征更新所述第二声线特征中存在缺陷的声线特征，得到标准语音。
42.本发明的第二方面提供一种基于人工智能的远程语音调整装置，所述装置包括：
43.第一提取模块，用于获取远程坐席在正常录音时的多个第一语音，并提取所述多个第一语音的第一声线特征；
44.第二提取模块，用于获取所述远程坐席在远程服务时的第二语音，并提取所述第二语音的第二声线特征；
45.缺陷确定模块，用于根据所述第一声线特征确定所述第二声线特征中存在缺陷的声线特征；
46.特征编码模块，用于将所述第二声线特征中存在缺陷的声线特征编码为第一声音图像；
47.图像处理模块，用于调用声音图像处理模型对所述第一声音图像进行处理得到第二声音图像；
48.语音调整模块，用于根据所述第二声音图像将所述第二语音调整为标准语音。
49.本发明的第三方面提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述基于人工智能的远程语音调整方法。
50.本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于人工智能的远程语音调整方法。
51.综上所述，本发明所述的基于人工智能的远程语音调整方法、装置、计算机设备及存储介质，首先获取远程坐席在正常录音时的多个第一语音，并提取所述多个第一语音的第一声线特征，作为远程坐席在远程服务时的第二语音的评价依据，如此，在提取远程坐席在远程服务时的第二语音的第二声线特征之后，即可根据所述第一声线特征确定所述第二声线特征中存在缺陷的声线特征，通过将所述第二声线特征中存在缺陷的声线特征编码为第一声音图像，并调用声音图像处理模型对所述第一声音图像进行处理得到第二声音图像，能够提高存在缺陷的声线特征的处理效率和质量，最后根据所述第二声音图像将所述第二语音调整为标准语音，使得远程坐席的远程语音的语音质量得以提高，从而提高了语音交互的效果。
附图说明
52.图1是本发明实施例一提供的基于人工智能的远程语音调整方法的流程图。
53.图2是本发明实施例二提供的基于人工智能的远程语音调整装置的结构图。
54.图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
55.为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。
56.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。
57.本发明实施例提供的基于人工智能的远程语音调整方法由计算机设备执行，相应地，基于人工智能的远程语音调整装置运行于计算机设备中。
58.图1是本发明实施例一提供的基于人工智能的远程语音调整方法的流程图。所述基于人工智能的远程语音调整方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。
59.s11，获取远程坐席在正常录音时的多个第一语音，并提取所述多个第一语音的第一声线特征。
60.正常录音是指远程坐席在上岗前且个人状态较佳时的语音，由语音采集设备采集远程坐席在不同场景不同时间段的第一语音，并发送给计算机设备，由计算机设备根据多
个第一语音提取第一声线特征，作为所述远程坐席在正常录音时的第一声线特征，并以此评价远程坐席在远程服务时的第二语音是否有缺陷。
61.在一个可选的实施例中，所述提取所述多个第一语音的第一声线特征包括：
62.提取每个第一语音的第一梅尔频谱系数；
63.根据预设采样率采集每个第一梅尔频谱系数中的线性频率；
64.计算同一个线性频率对应的多个梅尔频率的加和平均值；
65.根据采集的线性频率及每个线性频率对应的加和平均值创建梅尔频谱系数曲线；
66.对所述梅尔频谱系数曲线进行平滑处理得到第三梅尔频谱系数；
67.确定所述第三梅尔频谱系数为第一声线特征。
68.在语音识别(speech recognition)领域，最常用到的语音特征就是梅尔倒谱系数。梅尔倒谱系数是在mel标度频率域提取出来的倒谱参数，mel标度描述了人耳频率的非线性特性。
69.该可选的实施例中，远程坐席在不同场景不同时间段的正常录音之间略微存在差异，将在正常录音时的多个第一语音对应的梅尔频谱系数的均值作为第一声线特征。
70.通过将多个第一语音对应的梅尔频谱系数的均值作为第一声线特征，能够避免单一的语音对应的梅尔频谱系数的绝对化，后续评价远程坐席在远程服务时的第二语音是否存在缺陷时，能够更加准确。
71.s12，获取所述远程坐席在远程服务时的第二语音，并提取所述第二语音的第二声线特征。
72.在远程坐席进行远程服务时，通过语音采集设备采集远程坐席的第二语音，并发送给计算机设备，由计算机设备提取第二语音中的第二声线特征。
73.计算机设备提取第二语音的第二梅尔倒谱系数作为第二声线特征。
74.s13，根据所述第一声线特征确定所述第二声线特征中存在缺陷的声线特征。
75.由于个人原因，远程坐席在远程服务时，可能会出现焦躁或者沙哑的声音，导致远程服务的质量欠佳，计算机设备将第一声线特征与第二声线特征进行比较，根据比较结果确定第二声线特征中是否有存在缺陷的声线特征。具体的，当所述比较结果为第一声线特征与第二声线特征差距较大时，确定第二声线特征中有存在缺陷的声线特征；当所述比较结果为第一声线特征与第二声线特征差距较小时，确定第二声线特征中不存在有缺陷的声线特征。
76.在一个可选的实施例中，所述根据所述第一声线特征确定所述第二声线特征中存在缺陷的声线特征包括：
77.确定所述第一声线特征在预设第一方向上的第一极点特征及在预设第二方向上的第二极点特征；
78.根据所述第一极点特征及所述第二极点特征确定所述第一声线特征及所述第二声线特征中的声线特征匹配范围；
79.在所述声线特征匹配范围内，将所述第二声线特征中高于对应的第一声线特征第一阈值的声线特征及低于对应的第一声线特征第二阈值的声线特征确定为存在缺陷的声线特征。
80.其中，预设第一方向为从线性频率由小到大的方向，预设第二方向为从线性频率
由大到小的方向。
81.其中，所述第一声线特征在预设第一方向上的第一极点特征是指从线性频率由小到大的方向上的第一个极值点对应的梅尔频率，所述第一声线特征在预设第二方向上的第二极点特征是指从线性频率由大到小的方向上的最后一个极值点对应的梅尔频率。
82.确定所述第一声线特征在预设第一方向上的第一极点特征及在预设第二方向上的第二极点特征，由此将第一极点特征及第二极点特征之间的声线特征确定为第一声线特征中的声线特征匹配范围中的声线特征；并确定第二声线特征中与第一极点特征对应的第一声线特征匹配点，确定第二声线中与第二极点特征对应的第二声线特征匹配点，由此根据第一声线特征匹配点及第二声线特征匹配点确定第二声线特征中的声线特征匹配范围，将第一声线特征中的声线特征匹配范围中的声线特征与第二声线特征中的声线特征匹配范围中的声线特征进行匹配。
83.其中，所述预设第一阈值可以是预先设置的第一临界值，所述预设第二阈值可以是预先设置的第二临界值，所述预设第一阈值可以与预设第二阈值相同，也可以不同。
84.所述预设第一阈值还可以是多个第一梅尔频谱系数中的最大梅尔频谱系数与多个梅尔频率的加和平均值之间的差值，所述预设第二阈值还可以是多个第一梅尔频谱系数中的最小梅尔频谱系数与多个梅尔频率的加和平均值之间的差值。
85.该可选的实施例中，由于远程坐席在录音开始的前几秒和录音结束的后几秒，并没有语音，且任何录音采集设备在录音时都会存在设备噪音，因此通过预设第一方向上的第一极点特征及预设第二方向上的第二极点特征确定第一声线特征和第二声线特征之间的声线特征匹配范围，能够去掉设备噪音之间的匹配，有助于提高声线特征的匹配效率。
86.s14，将所述第二声线特征中存在缺陷的声线特征编码为第一声音图像。
87.将声线特征编码为声音图像，借助于图像处理的方式对声音图像进行增强处理，提高存在缺陷的声线特征的处理效率和处理质量。
88.在一个可选的实施例中，所述将所述第二声线特征中存在缺陷的声线特征编码为第一声音图像包括：
89.获取存在缺陷的声线特征的目标梅尔频率；
90.将所述目标梅尔频率编码成一维向量；
91.将所述一维向量编码成二维矩阵；
92.确定所述二维矩阵为第一声音图像。
93.该可选的实施例中，计算机设备可以仅将第二声线特征中存在缺陷的声线特征编码为声音图像，也可以将所有的第二声线特征编码为声音图像。
94.计算机设备将存在缺陷的声线特征中的目标梅尔频率先按照线性频率由小到大的顺序排列为一维向量，再将一维向量编码成二维矩阵，如此，该二维矩阵即可代表声音图像。
95.在一个可选的实施例中，所述将所述一维向量编码成二维矩阵包括：
96.计算所述一维向量的长度；
97.随机生成多个自然数对，其中，每个自然数对包括第一自然数及第二自然数；
98.计算每个自然数对中的第一自然数与第二自然数的乘积；
99.从所述乘积中筛选出最接近所述长度的目标乘积；
100.根据所述目标乘积对应的第一自然数及第二自然数将所述一维向量编码成二维矩阵，其中，所述二维矩阵的长为所述目标乘积对应的第一自然数，所述二维矩阵的宽为所述目标乘积对应的第二自然数。
101.其中，第一自然数小于第二自然数，且所述第一自然数与第二自然数的乘积大于一维向量的长度，如此，能够将一维向量编码为二维向量。
102.示例性的，假设一维向量的长度为l，多个自然数对为(a1，b1)、(a2，b2)、(a3，b3)，则从a1*b1、a2*b2、a3*b3中筛选出最接近所述长度的目标乘积。
103.假设所述目标乘积为a1*b1，则计算机设备以a1为二维矩阵的长，以b1为二维矩阵的宽。
104.该可选的实施例中，由于第一自然数与第二自然数的乘积大于一维向量的长度，那么将一维向量编码为二维向量后，二维向量的元素值的数量必定大于一维向量的元素值的数量，对于不够的则以0进行填充。
105.在一个可选的实施例中，所述从所述乘积中筛选出最接近所述长度的目标乘积包括：
106.计算所述乘积与所述长度之间的第一差值；
107.从所述乘积中筛选出小于预设差值阈值的第一差值对应的乘积为候选乘积；
108.计算每个候选乘积对应的第一自然数与第二自然数之间的第二差值；
109.从所述候选乘积中筛选出最小的第二差值对应的候选乘积为目标乘积。
110.示例性的，假设长度为18，乘积有4*5，3*6，4*6，3*7，则计算机设备从所述乘积中筛选出小于预设差值(例如，3)的第一差值对应的候选乘积4*5，3*6，3*7，由于4和5之间的第二差值为1，3和6之间的第二差值为3，3和7之间的第二差值为4，则计算机设备确定4*5为目标乘积。
111.通过上述实施例，能够将一维向量尽可能的编码为长和宽较为合适的声音图像，声音图像的质量较高。
112.s15，调用声音图像处理模型对所述第一声音图像进行处理得到第二声音图像。
113.计算机设备中预先存储有卷积神经网络，将声音图像输入卷积神经网络，并经过卷积神经网络的卷积层、池化层和全连接层的处理后，得到图像信息增强的第二声音图像。
114.s16，根据所述第二声音图像将所述第二语音调整为标准语音。
115.计算机设备在得到第二声音图像之后，根据所述第二声音图像更新并调整所述远程坐席的第二语音为标准语音。
116.每个人的声音都可能或多或少的存在缺陷，比如鼻音很重等，人的发声范围通常在100hz～10khz，可以将100hz～10khz的范围划分为低频、中频以及高频三个范围。调整第二声音中的低音频段，能够达到超重低音的效果。调整第二声音中的中音频段，能够达到声音清澈的效果，而不会让人觉得沉闷。调整第二声音中的高音频段，能够达到高音频段的声音明亮高亢的效果。
117.在一个可选的实施例中，所述根据所述第二声音图像将所述第二语音调整为标准语音包括：
118.将所述第二声音图像逆编码为目标声线特征；
119.使用所述目标声线特征更新所述第二声线特征中存在缺陷的声线特征，得到标准
语音。
120.电子设备将所述第一声线特征中不存在缺陷的声线特征及所述目标声线特征进行合并，得到标准语音。
121.其中，逆编码的过程为将第二声线特征中存在缺陷的声线特征编码为第一声音图像的逆过程。
122.计算机设备可以先将所述标准语音缓存在缓存队列，预设时间段后，再从所述缓存队列中拉取标准声音，并播放给远程坐席的服务对象。
123.本发明提供的基于人工智能的远程语音调整方法，首先获取远程坐席在正常录音时的多个第一语音，并提取所述多个第一语音的第一声线特征，作为远程坐席在远程服务时的第二语音的评价依据，如此，在提取远程坐席在远程服务时的第二语音的第二声线特征之后，即可根据所述第一声线特征确定所述第二声线特征中存在缺陷的声线特征，通过将所述第二声线特征中存在缺陷的声线特征编码为第一声音图像，并调用声音图像处理模型对所述第一声音图像进行处理得到第二声音图像，能够提高存在缺陷的声线特征的处理效率和质量，最后根据所述第二声音图像将所述第二语音调整为标准语音，使得远程坐席的远程语音的语音质量得以提高，从而提高了语音交互的效果。
124.图2是本发明实施例二提供的基于人工智能的远程语音调整装置的结构图。
125.在一些实施例中，所述基于人工智能的远程语音调整装置20可以包括多个由计算机程序段所组成的功能模块。所述基于人工智能的远程语音调整装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)基于人工智能的远程语音调整的功能。
126.本实施例中，所述基于人工智能的远程语音调整装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：第一提取模块201、第二提取模块202、缺陷确定模块203、特征编码模块204、图像处理模块205及语音调整模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。
127.所述第一提取模块201，用于获取远程坐席在正常录音时的多个第一语音，并提取所述多个第一语音的第一声线特征。
128.正常录音是指远程坐席在上岗前且个人状态较佳时的语音，由语音采集设备采集远程坐席在不同场景不同时间段的第一语音，并发送给计算机设备，由计算机设备根据多个第一语音提取第一声线特征，作为所述远程坐席在正常录音时的第一声线特征，并以此评价远程坐席在远程服务时的第二语音是否有缺陷。
129.在一个可选的实施例中，所述第一提取模块201提取所述多个第一语音的第一声线特征包括：
130.提取每个第一语音的第一梅尔频谱系数；
131.根据预设采样率采集每个第一梅尔频谱系数中的线性频率；
132.计算同一个线性频率对应的多个梅尔频率的加和平均值；
133.根据采集的线性频率及每个线性频率对应的加和平均值创建梅尔频谱系数曲线；
134.对所述梅尔频谱系数曲线进行平滑处理得到第三梅尔频谱系数；
135.确定所述第三梅尔频谱系数为第一声线特征。
136.在语音识别(speech recognition)领域，最常用到的语音特征就是梅尔倒谱系数。梅尔倒谱系数是在mel标度频率域提取出来的倒谱参数，mel标度描述了人耳频率的非线性特性。
137.该可选的实施例中，远程坐席在不同场景不同时间段的正常录音之间略微存在差异，将在正常录音时的多个第一语音对应的梅尔频谱系数的均值作为第一声线特征。
138.通过将多个第一语音对应的梅尔频谱系数的均值作为第一声线特征，能够避免单一的语音对应的梅尔频谱系数的绝对化，后续评价远程坐席在远程服务时的第二语音是否存在缺陷时，能够更加准确。
139.所述第二提取模块202，用于获取所述远程坐席在远程服务时的第二语音，并提取所述第二语音的第二声线特征。
140.在远程坐席进行远程服务时，通过语音采集设备采集远程坐席的第二语音，并发送给计算机设备，由计算机设备提取第二语音中的第二声线特征。
141.计算机设备提取第二语音的第二梅尔倒谱系数作为第二声线特征。
142.所述缺陷确定模块203，用于根据所述第一声线特征确定所述第二声线特征中存在缺陷的声线特征。
143.由于个人原因，远程坐席在远程服务时，可能会出现焦躁或者沙哑的声音，导致远程服务的质量欠佳，计算机设备将第一声线特征与第二声线特征进行比较，根据比较结果确定第二声线特征中是否有存在缺陷的声线特征。具体的，当所述比较结果为第一声线特征与第二声线特征差距较大时，确定第二声线特征中有存在缺陷的声线特征；当所述比较结果为第一声线特征与第二声线特征差距较小时，确定第二声线特征中不存在有缺陷的声线特征。
144.在一个可选的实施例中，所述缺陷确定模块203根据所述第一声线特征确定所述第二声线特征中存在缺陷的声线特征包括：
145.确定所述第一声线特征在预设第一方向上的第一极点特征及在预设第二方向上的第二极点特征；
146.根据所述第一极点特征及所述第二极点特征确定所述第一声线特征及所述第二声线特征中的声线特征匹配范围；
147.在所述声线特征匹配范围内，将所述第二声线特征中高于对应的第一声线特征第一阈值的声线特征及低于对应的第一声线特征第二阈值的声线特征确定为存在缺陷的声线特征。
148.其中，预设第一方向为从线性频率由小到大的方向，预设第二方向为从线性频率由大到小的方向。
149.其中，所述第一声线特征在预设第一方向上的第一极点特征是指从线性频率由小到大的方向上的第一个极值点对应的梅尔频率，所述第一声线特征在预设第二方向上的第二极点特征是指从线性频率由大到小的方向上的最后一个极值点对应的梅尔频率。
150.确定所述第一声线特征在预设第一方向上的第一极点特征及在预设第二方向上的第二极点特征，由此将第一极点特征及第二极点特征之间的声线特征确定为第一声线特征中的声线特征匹配范围中的声线特征；并确定第二声线特征中与第一极点特征对应的第一声线特征匹配点，确定第二声线中与第二极点特征对应的第二声线特征匹配点，由此根
据第一声线特征匹配点及第二声线特征匹配点确定第二声线特征中的声线特征匹配范围，将第一声线特征中的声线特征匹配范围中的声线特征与第二声线特征中的声线特征匹配范围中的声线特征进行匹配。
151.其中，所述预设第一阈值可以是预先设置的第一临界值，所述预设第二阈值可以是预先设置的第二临界值，所述预设第一阈值可以与预设第二阈值相同，也可以不同。
152.所述预设第一阈值还可以是多个第一梅尔频谱系数中的最大梅尔频谱系数与多个梅尔频率的加和平均值之间的差值，所述预设第二阈值还可以是多个第一梅尔频谱系数中的最小梅尔频谱系数与多个梅尔频率的加和平均值之间的差值。
153.该可选的实施例中，由于远程坐席在录音开始的前几秒和录音结束的后几秒，并没有语音，且任何录音采集设备在录音时都会存在设备噪音，因此通过预设第一方向上的第一极点特征及预设第二方向上的第二极点特征确定第一声线特征和第二声线特征之间的声线特征匹配范围，能够去掉设备噪音之间的匹配，有助于提高声线特征的匹配效率。
154.所述特征编码模块204，用于将所述第二声线特征中存在缺陷的声线特征编码为第一声音图像。
155.将声线特征编码为声音图像，借助于图像处理的方式对声音图像进行增强处理，提高存在缺陷的声线特征的处理效率和处理质量。
156.在一个可选的实施例中，所述特征编码模块204将所述第二声线特征中存在缺陷的声线特征编码为第一声音图像包括：
157.获取存在缺陷的声线特征的目标梅尔频率；
158.将所述目标梅尔频率编码成一维向量；
159.将所述一维向量编码成二维矩阵；
160.确定所述二维矩阵为第一声音图像。
161.该可选的实施例中，计算机设备可以仅将第二声线特征中存在缺陷的声线特征编码为声音图像，也可以将所有的第二声线特征编码为声音图像。
162.计算机设备将存在缺陷的声线特征中的目标梅尔频率先按照线性频率由小到大的顺序排列为一维向量，再将一维向量编码成二维矩阵，如此，该二维矩阵即可代表声音图像。
163.在一个可选的实施例中，所述将所述一维向量编码成二维矩阵包括：
164.计算所述一维向量的长度；
165.随机生成多个自然数对，其中，每个自然数对包括第一自然数及第二自然数；
166.计算每个自然数对中的第一自然数与第二自然数的乘积；
167.从所述乘积中筛选出最接近所述长度的目标乘积；
168.根据所述目标乘积对应的第一自然数及第二自然数将所述一维向量编码成二维矩阵，其中，所述二维矩阵的长为所述目标乘积对应的第一自然数，所述二维矩阵的宽为所述目标乘积对应的第二自然数。
169.其中，第一自然数小于第二自然数，且所述第一自然数与第二自然数的乘积大于一维向量的长度，如此，能够将一维向量编码为二维向量。
170.示例性的，假设一维向量的长度为l，多个自然数对为(a1，b1)、(a2，b2)、(a3，b3)，则从a1*b1、a2*b2、a3*b3中筛选出最接近所述长度的目标乘积。
171.假设所述目标乘积为a1*b1，则计算机设备以a1为二维矩阵的长，以b1为二维矩阵的宽。
172.该可选的实施例中，由于第一自然数与第二自然数的乘积大于一维向量的长度，那么将一维向量编码为二维向量后，二维向量的元素值的数量必定大于一维向量的元素值的数量，对于不够的则以0进行填充。
173.在一个可选的实施例中，所述从所述乘积中筛选出最接近所述长度的目标乘积包括：
174.计算所述乘积与所述长度之间的第一差值；
175.从所述乘积中筛选出小于预设差值阈值的第一差值对应的乘积为候选乘积；
176.计算每个候选乘积对应的第一自然数与第二自然数之间的第二差值；
177.从所述候选乘积中筛选出最小的第二差值对应的候选乘积为目标乘积。
178.示例性的，假设长度为18，乘积有4*5，3*6，4*6，3*7，则计算机设备从所述乘积中筛选出小于预设差值(例如，3)的第一差值对应的候选乘积4*5，3*6，3*7，由于4和5之间的第二差值为1，3和6之间的第二差值为3，3和7之间的第二差值为4，则计算机设备确定4*5为目标乘积。
179.通过上述实施例，能够将一维向量尽可能的编码为长和宽较为合适的声音图像，声音图像的质量较高。
180.所述图像处理模块205，用于调用声音图像处理模型对所述第一声音图像进行处理得到第二声音图像。
181.计算机设备中预先存储有卷积神经网络，将声音图像输入卷积神经网络，并经过卷积神经网络的卷积层、池化层和全连接层的处理后，得到图像信息增强的第二声音图像。
182.所述语音调整模块206，用于根据所述第二声音图像将所述第二语音调整为标准语音。
183.计算机设备在得到第二声音图像之后，根据所述第二声音图像更新并调整所述远程坐席的第二语音为标准语音。
184.每个人的声音都可能或多或少的存在缺陷，比如鼻音很重等，人的发声范围通常在100hz～10khz，可以将100hz～10khz的范围划分为低频、中频以及高频三个范围。调整第二声音中的低音频段，能够达到超重低音的效果。调整第二声音中的中音频段，能够达到声音清澈的效果，而不会让人觉得沉闷。调整第二声音中的高音频段，能够达到高音频段的声音明亮高亢的效果。
185.在一个可选的实施例中，所述语音调整模块206根据所述第二声音图像将所述第一语音调整为标准语音包括：
186.将所述第二声音图像逆编码为目标声线特征；
187.使用所述目标声线特征更新所述第二声线特征中存在缺陷的声线特征，得到标准语音。
188.电子设备将所述第一声线特征中不存在缺陷的声线特征及所述目标声线特征进行合并，得到标准语音。
189.其中，逆编码的过程为将第二声线特征中存在缺陷的声线特征编码为第一声音图像的逆过程。
190.计算机设备可以先将所述标准语音缓存在缓存队列，预设时间段后，再从所述缓存队列中拉取标准声音，并播放给远程坐席的服务对象。
191.本发明提供的基于人工智能的远程语音调整装置，首先获取远程坐席在正常录音时的多个第一语音，并提取所述多个第一语音的第一声线特征，作为远程坐席在远程服务时的第二语音的评价依据，如此，在提取远程坐席在远程服务时的第二语音的第二声线特征之后，即可根据所述第一声线特征确定所述第二声线特征中存在缺陷的声线特征，通过将所述第二声线特征中存在缺陷的声线特征编码为第一声音图像，并调用声音图像处理模型对所述第一声音图像进行处理得到第二声音图像，能够提高存在缺陷的声线特征的处理效率和质量，最后根据所述第二声音图像将所述第二语音调整为标准语音，使得远程坐席的远程语音的语音质量得以提高，从而提高了语音交互的效果。
192.参阅图3所示，为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中，所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
193.本领域技术人员应该了解，图3示出的计算机设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。
194.在一些实施例中，所述计算机设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。
195.需要说明的是，所述计算机设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。
196.在一些实施例中，所述存储器31中存储有计算机程序，所述计算机程序被所述至少一个处理器32执行时实现如所述的基于人工智能的远程语音调整方法中的全部或者部分步骤。所述存储器31包括只读存储器(read
‑
only memory，rom)、可编程只读存储器(programmable read
‑
only memory，prom)、可擦除可编程只读存储器(erasable programmable read
‑
only memory，eprom)、一次可编程只读存储器(one
‑
time programmable read
‑
only memory，otprom)、电子擦除式可复写只读存储器(electrically
‑
erasable programmable read
‑
only memory，eeprom)、只读光盘(compact disc read
‑
only memory，cd
‑
rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
197.进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。
198.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品
服务层以及应用服务层等。
199.在一些实施例中，所述至少一个处理器32是所述计算机设备3的控制核心(control unit)，利用各种接口和线路连接整个计算机设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机设备3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于人工智能的远程语音调整方法的全部或者部分步骤；或者实现基于人工智能的远程语音调整装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(central processing unit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
200.在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
201.尽管未示出，所述计算机设备3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、wi
‑
fi模块等，在此不再赘述。
202.上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
203.在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
204.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
205.另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
206.对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。
207.最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈诗儒
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人