语音数据重构方法、装置及电子设备与流程

文档序号:20579758发布日期:2020-04-29 01:23阅读:234来源:国知局
语音数据重构方法、装置及电子设备与流程

本发明涉及一种语音数据重构方法,同时涉及一种语音数据重构装置,还涉及一种电子设备,属于语音处理技术领域。



背景技术:

实时语音通话在即时通信、呼叫中心等领域都有广泛应用。网络阻塞、丢包和抖动等网络问题都是常见的、也是不可避免的,对语音通话质量产生负面影响,甚至是阻碍沟通。

在基于ip的语音传输中,在丢包重传后,传统的处理方式为直接在缺失的数据部分插入白噪声,或者对缺失的数据的在前和在后数据进行拼接。这种方法无法还原真实的声音数据,且存在卡顿、信息缺失等问题。



技术实现要素:

本发明所要解决的首要技术问题在于提供一种语音数据重构方法。

本发明所要解决的另一技术问题在于提供一种语音数据重构装置。

本发明所要解决的又一技术问题在于提供一种电子设备,用于实现语音数据重构。

为实现上述的发明目的,本发明采用下述的技术方案:

根据本发明实施例的第一方面,提供一种语音数据重构方法,包括如下步骤:

根据缺失数据的上下文,确定所述缺失数据的语义信息,所述缺失数据为发声者的语音数据中缺失的部分;

基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换,得到所述缺失数据的重构数据。

其中较优地,所述根据缺失数据的上下文,确定所述缺失数据的语义信息,包括如下步骤:

获取所述缺失数据的在前数据和在后数据;

基于所述在前数据和在后数据进行语音识别计算,确定所述缺失数据对应的最高概率的音素。

其中较优地,所述方法还包括:基于所述音素的概率以及所述缺失数据对应的文本的置信度进行判断;在二者的关系满足设定条件的情况下,基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换。

其中较优地,所述方法还包括:在所述二者的关系不满足设定条件的情况下,用白噪声代替所述缺失数据,或,对所述在前数据和在后数据进行延展后拼接。

其中较优地,所述二者的关系满足设定条件包括:

m×w+n×q>k;

其中,w表示所述音素的概率,q表示所述缺失数据对应的文本的置信度,m表示w的权重,n表示q的权重,k为设定的阈值。

其中较优地,所述方法还包括:基于所述发声者的语音数据实时收集所述发声者的音素信息并实时训练所述发声者的声学模型。

根据本发明实施例的第二方面,提供一种语音数据重构装置,包括:

语义分析模块,用于根据缺失数据的上下文,确定所述缺失数据的语义信息,所述缺失数据为发声者的语音数据中缺失的部分;

第一重构模块,用于基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换,得到所述缺失数据的重构数据。

其中较优地,所述语义分析模块包括:数据获取子模块,用于获取所述缺失数据的在前数据和在后数据;语音识别子模块,用于基于所述在前数据和在后数据进行语音识别计算,确定所述缺失数据对应的最高概率的音素。

其中较优地,所述装置还包括:判断模块,用于基于所述音素的概率以及所述缺失数据对应的文本的置信度进行判断,并且在二者的关系满足设定条件的情况下,触发所述第一重构模块;在二者的关系不满足设定条件的情况下,触发第二重构模块;第二重构模块,用于对所述在前数据和在后数据进行延展后拼接,或用白噪声代替所述缺失数据。

其中较优地,所述二者的关系满足设定条件包括:

m×w+n×q>k;

其中,w表示所述音素的概率,q表示所述缺失数据对应的文本的置信度,m表示w的权重,n表示q的权重,k为阈值。

其中较优地,所述装置还包括:模型训练模块,用于基于所述发声者的语音数据实时收集所述发声者的音素信息并实时训练所述发声者的声学模型。

根据本发明实施例的第三方面,提供一种电子设备,用于进行语音数据重构,所述电子设备包括:

存储器,用于存储计算机指令;

处理器,用于从所述存储器中调用和执行所述计算机指令,从而实现前文第一方面所提供的提供语音数据重构方法或其优选处理方式。

与现有技术相比较,本发明通过上下文分析得到语义信息,能够在语义层面对丢包数据进行再造,尽可能地满足语义逻辑关系;通过利用发声者的声学模型对语义信息进行文本语音转换得到语音数据,从而还原音频数据;语义再造与语音还原相结合,最终重构得到的数据能够比较准确地还原缺失的信息且携带了更多特征信息,具有更加平滑、流畅和自然的播放效果。

附图说明

图1为本发明实施例提供的语音数据重构方法的流程示意图;

图2为本发明实施例提供的语义分析方法的流程示意图;

图3为本发明实施例提供的语音数据重构方法的流程示意图;

图4为本发明实施例提供的语音数据重构装置的架构示意图;

图5为本发明实施例提供的语音数据重构装置的架构示意图;

图6为本发明实施例提供的电子设备的架构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

在基于ip的语音传输技术中,面对语音数据丢包的问题,现有技术无法很好的还原声音数据,存在卡顿、信息缺失等问题。

针对上述问题,本发明充分考虑到语义逻辑及声音特征对于在语音数据以及语音播报中的重要性,并提出了一种语音数据重构方法、装置及电子设备。

首先,对本发明各个实施例中涉及或可能涉及的名词/术语进行简单解释:

asr:automaticspeechrecognition,语音识别。

tts:texttospeech,文字语音转换。

arm:audioreconstructionmodel,音频重构模型。

fec:forwarderrorcorrection,前向纠错。

nack:alostpacketretransmitprotocol,一种丢包重传响应。

hmm:hiddenmarkovmodel,隐马尔可夫模型。

gmm:gussianmixturemodel,高斯混合模型。

am:acousticmodel,声学模型。

lm:languagemodel,语言模型。

图1是本发明实施例提供的语音数据重构方法的流程示意图,参照图1,所述方法包括:

100:根据缺失数据的上下文,确定所述缺失数据的语义信息。所述缺失数据为发声者的语音数据中缺失的部分。

例如,在连续的数据包中,中间第k个数据包丢失,该第k个数据包即为缺失数据。第k个数据包之前的一个或多个数据包以及第k个数据包之后的一个或多个数据包所包含的信息,即该缺失数据的上下文。需要说明的是,理论上,上下文信息越多,语义分析结果越准确但耗时越长。本领域技术人员可以根据其对于实时性和准确性的不同需求自行选取上下文的长度(即,数据包的数量),本发明实施例对此并不进行具体限制。

102:基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换,得到所述缺失数据的重构数据。

在本发明实施例中,发声者的声学模型可以通过预先训练获得,并且可以在实时语音处理中进行实时训练以完善声学模型。

采用本发明实施例提供的方法,一方面,通过上下文分析得到缺失数据的语义信息,相比于传统技术而言补充了信息缺失且符合语义逻辑;另一方面,通过发声者的声学模型对补充的语义信息进行文本语音转换,进一步提供了音频信息且符合发声者的发音特点。两方面相结合,通过同时从语义和声音两方面进行数据重构,不仅能够比较准确地还原缺失的信息且携带了更多特征信息,具有更加平滑、流畅和自然的播放效果。

可选地,在本发明实施例的一种实现方式中,基于所述发声者的语音数据实时收集所述发声者的音素信息并实时训练所述发声者的声学模型。这样,能够考虑发声者最近的状态进行文本语音转换,得到的音频数据更加符合发声者当下的状态。为了达到这样的效果,在声学模型中可以弱化发声者的历史声学特征而强化发生者近期的声学特征。

可选地,在本发明实施例的一种实现方式中,参照图2,处理100可以通过以下方式实现:

1002:获取缺失数据的在前数据和在后数据。

例如,针对语音缓冲区中即将播放的数据,检测到其中存在缺失数据,缺失的数据包为r,则选取数据包r的前j个数据包作为在前数据,后d个数据包作为在后数据。其中,j和d均为正整数,且其数值大小可以由本领域技术人员综合考虑实时性和准确性的要求后自行设定。

1004:基于所述在前数据和在后数据进行语音识别计算,确定所述缺失数据对应的最高概率的音素。

例如,将前j个数据包和后d个数据包输入到语音识别模块中,具体而言,输入到语音识别模块的gmm和hmm子模块进行计算,得到数据包r与音素的对应关系以及对应的概率,从中选取概率最高的音素作为缺失数据对应的语义信息。该过程可以通过传统的gmm和hmm得到,在语义方面具有较高的准确性,且与上下文逻辑相关。

可选地,在本实现方式中,如虚线框所示,还包括:

1006:基于所述音素的概率以及所述缺失数据对应的文本的置信度进行判断,在满足设定条件的情况下触发处理102。

步骤1006的作用在于考虑进行文本语音转换的必要性,避免不必要的数据处理,节省系统资源。例如,如果1004得到的语义信息质量太差,即使进行文本语音转换也无法得到期望的效果,反而造成资源浪费。

可选地,在1006中,判断m×w+n×q>k是否成立。其中,w表示所述音素的概率,q表示所述缺失数据对应的文本的置信度,m表示w的权重,n表示q的权重,k为阈值。如果上述关系成立,则表示语义信息质量较高,可以进行文本语音转换;否则不进行文本语音转换。

示例性地,m=1,n=1。实际上,本领域技术人员可以根据不同的语音场景、不同的语音识别方法、不同的语音重构方法等灵活选取m和n的值以及灵活涉及w和q之间的组合关系,并且可以利用本申请的思路针对w、q和k的值进行深度学习训练(例如,有监督的学习方法),得到合适的k值。对于上述参数的具体数值,本实现方式不进行具体限定。

图3是本发明实施例提供的语音数据重构方法的流程示意图。参照图3,所述方法包括:

300:语音数据接收与缓存。具体而言,接收语音数据并存入语音缓冲区,进行常规的fec、nack等处理。

301:asr识别、声学模型实时训练。具体而言,调用语音识别模块在语音接收端进行持续的asr识别,收集语音发声者的音素信息,实时训练特有的声学模型。为了提升效果,声学模型am初始就可以经过预训练。声学模型随着语音交流逐步累积和修正,为后继的tts做准备。

302:缺失数据检查与处理。具体而言,当语音缓冲区的数据即将播放时,检查对应区域中是否存在缺失的数据。如果缺失包为r,取缺失数据的前j个数据和后d个数据输入到语音识别模块的gmm、hmm子模块,计算缺失数据对应的一个或者多个音素的概率信息w。

303:从语音识别模块获取对应的句子文本(即前j个数据+后d个数据+数据包r的语义)的置信度q。

304:计算重构数据的置信度。具体而言,将302和303得到的参数输入到语音重构模块arm,根据函数关系e=f(w,q)计算重构数据的置信度e。关于函数关系的具体说明请参照图2所示实施例中的详细说明,此处不赘述。

305:判断e是否大于k。如果是,说明置信度较高,则执行306;否则,置信度较低,执行307。

306:文本语音转换。具体而言,使用步骤301的声学模型通过tts生成缺失数据包的替换数据包,并插入到缓冲区。

307:白噪声处理或拼接处理。其中,白噪声处理是指在缺失数据包处插入白噪声。拼接处理是指:对数据包r的在前数据和在后数据进行延展后拼接,并在接口处进行平滑处理。所述延展包括:将在前数据的最后一个数据包和在后数据的第一个数据包延展1.5倍。

采用本发明实施例提供的方法,一方面,通过考虑数据重构的必要性,避免了无效的数据重构造成的计算成本和时间成本的浪费;另一方面,从语义和声音两方面进行数据重构,能够尽可能地还原真实数据,提高语音数据的质量。

进一步地,本发明还提供一种语音数据重构装置。如图4所示,该装置包括语义分析模块40和第一重构模块42。其中,语义分析模块40用于根据缺失数据的上下文,确定所述缺失数据的语义信息,所述缺失数据为发声者的语音数据中缺失的部分。第一重构模块42用于基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换,得到所述缺失数据的重构数据。

可选地,在本发明实施例的一种实现方式中,如图4中虚线框所示,语义分析模块40包括数据获取子模块400,用于获取所述缺失数据的在前数据和在后数据;语音识别子模块402,用于基于所述在前数据和在后数据进行语音识别计算,确定所述缺失数据对应的最高概率的音素。

图5是本发明实施例提供的语音数据重构装置的框图。参照图5,语音数据重构装置除了包括语义分析模块40和第一重构模块42植物,还包括判断模块44,用于基于所述音素的概率以及所述缺失数据对应的文本的置信度进行判断,并且在二者的关系满足设定条件的情况下,触发所述第一重构模块42。

可选地,如图中虚线框所示,语音数据重构装置还可以包括第二重构模块46,用于对所述在前数据和在后数据进行延展后拼接,或用白噪声代替所述缺失数据。此时,判断模块44还用于在所述音素的概率以及所述缺失数据对应的文本的置信度不满足设定条件的情况下,触发第二重构模块46。

示例性地,前文所述设定条件为m×w+n×q>k;其中,w表示所述音素的概率,q表示所述缺失数据对应的文本的置信度,m表示w的权重,n表示q的权重,k为阈值。

可选地,如图中虚线框所示,语音数据重构装置还可以包括模型训练模块48,用于基于所述发声者的语音数据实时收集所述发声者的音素信息并实时训练所述发声者的声学模型。

在上述关于语音数据重构装置的实施例中,关于相关名词/术语、具体逻辑处理过程、参数数值或范围、技术效果等的描述,请参照方法实施例中的对应描述,此处不再赘述。

进一步地,本发明还提供一种电子设备,用于进行语音数据重构。如图6所示,该电子设备至少包括处理器和存储器,还可以根据实际需要进一步包括通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口。其中,存储器、通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口均与该处理器连接。存储器可以是静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)、磁存储器、快闪存储器等,处理器可以是中央处理器(cpu)、图形处理器(gpu)、现场可编程逻辑门阵列(fpga)、专用集成电路(asic)、数字信号处理(dsp)芯片等。其它通信组件、传感器组件、电源组件、多媒体组件等均可以采用通用部件实现,在此就不具体说明了。

在本发明的一个实施例中,处理器从处理器中调用并执行计算机指令从而实现以下操作:a)根据缺失数据的上下文,确定所述缺失数据的语义信息,所述缺失数据为发声者的语音数据中缺失的部分;b)基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换,得到所述缺失数据的重构数据。

其中,操作a可以通过以下逻辑实现:获取所述缺失数据的在前数据和在后数据;基于所述在前数据和在后数据进行语音识别计算,确定所述缺失数据对应的最高概率的音素。

此外,处理器还可以基于所述音素的概率以及所述缺失数据对应的文本的置信度进行判断;在二者的关系满足设定条件的情况下,基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换;在所述二者的关系不满足设定条件的情况下:用白噪声代替所述缺失数据,或,对所述在前数据和在后数据进行延展后拼接。

此外,处理器可以基于发声者的语音数据实时收集所述发声者的音素信息并实时训练所述发声者的声学模型。

关于电子设备中处理器的操作的具体说明,请参照方法实施例中的线形描述,此处不再赘述。

与现有技术相比较,本发明从语义和声音两方面进行数据重构,在尽可能地满足语义逻辑关系的同时,尽量还原发声者的声音状态,使得最终重构得到的数据能够比较准确、真实地还原缺失的信息,具有更加平滑、流畅和自然的播放效果。

上面对本发明所提供的语音数据重构方法、装置及电子设备进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1