一种实现语音分离的方法及装置与流程

文档序号:32656503发布日期:2022-12-23 21:52阅读:74来源:国知局

1.本技术涉及信号处理技术领域,尤其涉及一种实现语音分离的方法及装置。


背景技术:

2.近年来,线上会议技术的兴起方便了人们日常生活以及办公学习等方面,在进行线上会议时,参会者往往不止一个,大家在会议中各抒己见时,若需要记录各个参会者的意见,由专人记录则效率较低而且容易出现记录不清的情况,而在生活场景中,当多人进行讨论时,如要分析录音,也存在着可能分离不准确且效率低的情况。
3.基于此,出现了语音分离技术,现有技术中,一般是对输入语音的时频域信号进行处理,将时频域信号一致的语音信号按照时域特征进行拼接得到分离出的语音信号,由于其处理过程需要大量运算,导致其存在耗时长的问题。


技术实现要素:

4.基于此,本技术提供了一种实现语音分离的方法和装置,旨在减少语音分离所需时间。
5.第一方面,本技术实施例提供了一种实现语音分离的方法,所述方法包括:
6.实时获取输入语音;
7.将所述输入语音分割为至少一个语音段;
8.将所述语音段按时间顺序排列;
9.对所述语音段进行类别预测;
10.将类别预测结果一致的语音段按照所述时间顺序进行拼接得到语音序列。
11.可选的,将所述输入语音分割为至少一个语音段包括:
12.利用静音检测技术识别出所述输入语音中的语音信号及非语音信号,并在所述非语音信号持续期间将所述语音信号分割为至少一个语音段。
13.可选的,对所述语音段进行类别预测包括:
14.将所述语音段确定为正样本,并利用数据增强方法构造与所述正样本对应的负样本;
15.将所述正样本和所述负样本组合为正负样本对;
16.将所述正负样本对投影到特征行空间作为实例特征,将所述正负样本对投影到特征列空间作为类别特征;
17.通过骨干网络提取所述语音段的特征;
18.将所述语音段特征分别与所述实例特征和所述类别特征进行对比,确定所述语音段的类别。
19.可选的,所述利用数据增强方法构造与所述正样本对应的负样本,包括:
20.改变所述正样本的基频率、音速以及音量,添加噪声,生成与所述正样本对应的负样本。
21.可选的,将所述语音段特征分别与所述实例特征和所述类别特征进行对比,确定所述语音段的类别,包括:
22.利用概率线性判别分析算法评价所述语音段特征与所述实例特征和所述类别特征的相近距离损失并生成分数,得到所述语音段特征与所述实例特征的第一相近距离损失分数,并得到所述语音段特征与所述类别特征的第二相近距离损失分数,其中,所述相近距离损失分数高低代表所述语音段特征与所述类别特征的相似程度的高低;
23.根据所述第一相近距离损失分数和所述第二相近距离损失分数确定所述语音段的类别。
24.第二方面,本技术实施例提供了一种实现语音分离的装置,所述装置包括:
25.语音获取模块,用于实时获取输入语音;
26.语音分割模块,用于将所述输入语音分割为至少一个语音段;
27.排序模块,用于将所述语音段按时间顺序排列;
28.类别预测模块,用于对所述语音段进行类别预测;
29.语音段拼接模块,用于将类别预测结果一致的语音段按照所述时间顺序进行拼接得到语音序列。
30.可选的,所述语音分割模块包括:
31.信号识别单元,用于识别出所述输入语音中的语音信号及非语音信号;
32.语音信号分割单元,用于将识别出的语音信号分割为至少一个语音段。
33.可选的,所述类别预测模块包括:
34.样本确定与构造单元,用于将所述语音段确定为正样本,并利用数据增强方法构造与所述正样本对应的负样本;
35.样本组合单元,用于将所述正样本和所述负样本组合为正负样本对;
36.样本投影单元,用于将所述正负样本对投影到向量行空间作为实例特征,将所述正负样本对投影到向量列空间作为类别特征;
37.特征提取单元,用于提取所述语音段的特征;
38.特征对比单元,用于将所述语音段特征分别与所述实例特征和所述类别特征进行对比;
39.类别确定单元,用于确定所述语音段的类别。
40.第三方面,本技术实施例提供了一种语音分离设备,所述设备包括:
41.存储器,用于存储所述实现语音分离的指令或代码;
42.处理器,用于执行所述实现语音分离的指令或代码,以实现第一方面所述的实现语音分离的方法。
43.第四方面,本技术提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现第一方面所述的实现语音分离的方法。
44.本技术通过实时获取输入语音,然后将输入语音分割为语音段并按时间顺序进行排列,再提取语音段特征,并将所述语音段特征与实例特征和类别特征进行对比并生成分数,由此实现对所述语音段特征进行类别预测,最后将类别预测结果一致的语音段按照时间顺序进行拼接,得到分离后的语音序列;由于只将语音段特征与所述实例特征与类别特征进行特征对比,无需进行其他转化类型的运算,省去了繁琐的数据计算过程,所以计算量
小,耗时短。
附图说明
45.为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
46.图1为本技术实施例提供的实现语音分离的方法的一种方法流程图;
47.图2为本技术实施例提供的一种对语音段进行类别预测的方法流程图;
48.图3为本技术实施例提供的实现语音分离的装置的一种结构示意图。
具体实施方式
49.现有技术中,一般是对输入语音的时频域信号进行语音分离处理,根据语音分离结果,首先得到所述时频域混合信号的期望信号方差,并进行去混响处理,然后将时频域信号一致的语音信号按照时域特征进行拼接得到分离出的语音信号。
50.经研究,在现有技术中,并未给出具体的语音分离方法,并且获取期望信号方差的过程需要很多算法支撑,在去混响阶段也有很多设备需要参与,由于其处理过程需要大量运算,导致其存在耗时长的问题。
51.基于此,本技术提供了一种语音分离的方法,通过实时获取输入语音,然后将输入语音分割为语音段并按时间顺序进行排列,再提取语音段特征,并将所述语音段特征与实例特征和类别特征进行对比并生成分数,由此实现对所述语音段特征进行类别预测,最后将类别预测结果一致的语音段按照时间顺序进行拼接,得到分离后的语音序列;由于只将语音段特征与所述实例特征与类别特征进行特征对比,无需进行其他转化类型的运算,省去了繁琐的数据计算过程,所以计算量小,耗时短。
52.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
53.参见图1,图1为本技术实施例提供的实现语音分离的方法的一种方法流程图,包括:
54.s101:实时获取输入语音。
55.实时获取指的是接收到语音信号后立即将接收到的语音信号作为输入语音。
56.输入语音指的是待分离的混合语音信号,例如线上会议场景中,a与b各自说了一句话,a与b说的话就组成一段语音信号,若a与b说话存在时间间隔,那么a与b说的话加上说话间的时间间隔就组成了一段混合语音信号,也就是所说的输入语音。
57.s102:将所述输入语音分割为至少一个语音段。
58.将输入语音分割为至少一个语音段的依据是分辨出语音信号与非语音信号,并将语音信号与非语音信号分隔开,然后将分辨出的语音信号分割为至少一个语音段。
59.在一种可能的实现方式中,将所述输入语音分割为至少一个语音段包括:
60.利用静音检测技术识别出所述输入语音中的语音信号及非语音信号,并在所述非语音信号持续期间将所述语音信号分割为至少一个语音段。
61.所述静音检测技术是指音频中有一段静音,需要切掉静音部分,这样可以更准确的识别语音信号,也叫端点检测,用于检测出含有声音信息的音频,切除静音的部分;当然在本技术实施例中,也可以使用其他技术对语音信号和非语音信号进行识别,均不影响本方案的最终实现。
62.利用静音检测技术识别出语音信号以及非语音信号后,就可以将非语音信号切除,并将识别出的语音信号部分进行分割,分割为至少一个语音段。
63.s103:将所述语音段按时间顺序排列。
64.时间顺序指的是输入语音中语音信号出现的先后顺序。
65.此步骤目的是使得分离后的语音信号仍然能保持原来的整体性,例如,输入语音信号分割为语音段1、语音段2、语音段3,如果没有此排序步骤,则分离出的信号在经过分割等步骤后可能顺序会变为语音段3、语音段2、语音段1或语音段2、语音段3、语音段1等错误顺序。
66.s104:对所述语音段进行类别预测。
67.类别预测指的是对所述语音段进行归类处理,目的是判断语音段各自归属的声源,每一个声源可以设置为一个类别。
68.类别预测是通过提取语音段特征,并将提取到的语音段特征与类别特征进行对比,最终得到语音段的类别预测信息的。
69.s105:将类别预测结果一致的语音段按照所述时间顺序进行拼接得到语音序列。
70.类别预测结果一致代表这些语音段为同一声源发出的,按照时间顺序进行拼接是为了还原声源发出的声音在原语音信号中的位置,由此,完成了语音分离任务。
71.例如语音段1、语音段2和语音段3类别预测结果均为类别a,则按照步骤s103提到的排列顺序对所述语音段排列,得到一个语音序列,并将其作为声源a发出的声音。
72.在上述步骤中,s103也可以和s102同时执行或调换顺序,均不影响本方案最终实现。
73.在本技术实施例中,通过实时获取输入语音,然后将输入语音分割为语音段并按时间顺序进行排列,再提取语音段特征,并将所述语音段特征与实例特征和类别特征进行对比并生成分数,由此实现对所述语音段特征进行类别预测,最后将类别预测结果一致的语音段按照时间顺序进行拼接,得到分离后的语音序列;由于只将语音段特征与所述实例特征与类别特征进行特征对比,无需进行其他转化类型的运算,省去了繁琐的数据计算过程,所以计算量小,耗时短。
74.在本技术实施例中,上述图1所述的步骤s104存在多种可能的实现方式,下面分别进行介绍。需要说明的是,下文介绍中给出的实现方式仅作为示例性的说明,并不代表本技术实施例的全部实现方式。
75.参见图2,图2为本技术实施例提供的一种对语音段进行类别预测的方法流程图,该方法主要包括以下步骤:
76.s201:将语音段确定为正样本,并利用数据增强方法构造与所述正样本对应的负样本。
77.其中,正样本指的是与语音段相关的样本,在本技术实施例中指的是分割后产生的所有语音段;负样本指的是与所述语音段不相关的样本,在本技术实施例中,所述负样本是通过数据增强方法创建的。
78.数据增强指的是采用预设的数据变换规则进行已有数据的扩增,包含单样本数据增强和多样本数据增强,例如,已有数据为n个,通过数据增强可以为n个已有数据生成对应的2n个样本或更多,通过数据增强生成的样本与已有数据并不相同。
79.在一种可能的实现方式中,所述利用数据增强方法构造与所述正样本对应的负样本,包括:
80.改变所述正样本的基频率、音速以及音量,添加噪声,生成与所述正样本对应的负样本。
81.其中,所述基频率指的是一个复杂声波中最低的频率,例如,一个人压低语调说话,那么发出的语音信号基频率就会变低。
82.音速指的是语音速度,音量指的是语音信号强度。
83.添加噪声指的是为语音信号添加一些无关声音。
84.s202:将所述正样本和所述负样本组合为正负样本对。
85.这一步骤的目的是将增加样本数量,方便进行特征对比。
86.s203:将所述正负样本对投影到特征行空间作为实例特征,将所述正负样本对投影到特征列空间作为类别特征。
87.特征行空间和特征列空间可以理解为两个集合,其中特征行空间代表实例特征集合;特征列空间代表类别特征集合,也可理解为对应某一实例可能属于的类别集合,例如,正样本为苹果,与苹果对应的负样本为胡萝卜,则苹果和胡萝卜在所述特征行空间就是两个实例特征,在特征列空间中就包括苹果所属的水果类以及胡萝卜所属的蔬菜类,当输入样本为苹果时,通过特征对比可以确认苹果是一种水果。
88.s204:通过骨干网络提取所述语音段的特征。
89.骨干网络是一种深度学习模型,主要用于目标检测任务的基本特征提取。
90.将实例输入骨干网络后,骨干网络会自动识别实例特征并进行特征提取,最终得到实例特征,例如,将一段语音信号输入骨干网络,骨干网络就会自动识别输入语音信号中的语音特征并对识别出的特征进行提取,如音调、语速等。
91.当然,也可以采用其它类型的特征提取方法,不影响本方案最终实现。
92.s205:将所述语音段特征分别与所述实例特征和所述类别特征进行对比,确定所述语音段的类别。
93.通过语音段特征与实例特征的对比得到语音段所属的实例,通过语音段特征与类别特征对比确定所述语音段的具体类别。
94.在一种可能的实现方式中,将所述语音段特征分别与所述实例特征和所述类别特征进行对比,确定所述语音段的类别包括:
95.利用概率线性判别分析评价所述语音段特征与所述实例特征和所述类别特征的相近距离损失并生成分数,得到所述语音段特征与所述实例特征的第一相近距离损失分数,并得到所述语音段特征与所述类别特征的第二相近距离损失分数;
96.根据所述第一相近距离损失分数和所述第二相近距离损失分数确定所述语音段
的类别。
97.其中,概率线性判别分析(plda)可以用于类推理、分类、假设检验以及聚类,常用于模式识别领域,而本技术也可以近似为语音领域的模式识别任务,所以使用plda算法可以实现本技术实施例所述的类别预测。
98.相近距离损失代表相近距离的实际值与理论值的差距大小,可以理解为特征之间相似程度的高低,差距越大则代表相似程度越低,所述差距越小则代表相似程度越高。
99.此时,生成的相近距离损失分数可以作为一个量化数据来表示相近距离的实际值与理论值的差距大小,相近距离损失分数的高低与相近距离损失大小呈正相关或负相关关系,例如当相近距离损失分数的高低与相近距离损失大小呈正相关关系时,相近距离损失分数越高,相近距离损失越大;相近距离损失分数越低,相近距离损失越小。
100.在一种可能的实现方式中,根据所述第一相近距离损失分数和所述第二相近距离损失分数确定所述语音段的类别包括:
101.将第一相近距离损失分数和第二相近距离损失分数进行加和,若相近距离损失分数的高低与相近距离损失大小呈负相关关系,则当加和值取得局部最小值时,可判定语音段属于第二相近距离损失分数最高的类别。
102.例如语音段与类别a的第二相近距离损失分数为1,与类别b的第二相近距离损失分数为2,则可以判断语音段属于类别a,局部最小值指的是在某一范围内的最小值,例如2在2到4的范围内属于局部最小值,但在1到3的范围内则不是局部最小值。也可以取得局部最大值,当然还可以使用其他方法进行所述类别预测,均不影响本方案的最终实现。
103.本技术实施例提供了一种对语音段进行类别预测的方法,通过构造正负样本对,并将正负样本对作为实例特征与类别特征投影到特征空间,再用骨干网络提取语音段特征,并将语音段特征与实例特征和类别特征做对比,从而确定语音段所属的类别,确认了语音段类别以后,就可以进行后续操作并最终完成语音分离,该类别预测方法由于仅需要做特征比对,所以计算量小,耗时短。
104.以上为本技术实施例提供的语音分离方法的一些具体实现方式,基于此,本技术还提供了对应的装置。下面将从功能模块化的角度对本技术实施例提供的装置进行介绍。
105.参见图3所示的实现语音分离的装置的结构示意图,该装置包括:
106.语音获取模块301,用于实时获取输入语音;
107.语音分割模块302,用于将输入语音分割为至少一个语音段;
108.排序模块303,用于将语音段按时间顺序排列;
109.类别预测模块304,用于对语音段进行类别预测;
110.语音段拼接模块305,用于将类别预测结果一致的语音段按照时间顺序进行拼接得到语音序列。
111.在一种可能的实现方式中,所述语音分割模块302包括:
112.信号识别单元,用于识别出输入语音中的语音信号及非语音信号;
113.语音信号分割单元,用于将识别出的语音信号分割为至少一个语音段。
114.在一种可能的实现方式中,所述类别预测模块304包括:
115.样本确定与构造单元,用于将语音段确定为正样本,并利用数据增强方法构造与正样本对应的负样本;
116.样本组合单元,用于将正样本和负样本组合为正负样本对;
117.样本投影单元,用于将正负样本对投影到向量行空间作为实例特征,将正负样本对投影到向量列空间作为类别特征;
118.特征提取单元,用于提取语音段的特征;
119.特征对比单元,用于将语音段特征分别与实例特征和类别特征进行对比;
120.类别确定单元,用于确定语音段的类别。
121.在一种可能的实现方式中,特征对比单元包括:
122.对比分数生成子单元,用于评价语音段特征与实例特征和类别特征的相近距离损失并生成相近距离损失分数;
123.分数处理子单元,用于处理相近距离损失分数。
124.在本技术实施例中,通过实时获取输入语音,然后将输入语音分割为语音段并按时间顺序进行排列,再提取语音段特征,并将所述语音段特征与实例特征和类别特征进行对比并生成分数,由此实现对所述语音段特征进行类别预测,最后将类别预测结果一致的语音段按照时间顺序进行拼接,得到分离后的语音序列;由于只将语音段特征与所述实例特征与类别特征进行特征对比,无需进行其他转化类型的运算,省去了繁琐的数据计算过程,所以计算量小,耗时短。
125.本技术实施例还提供了对应的设备以及计算机存储介质,用于实现本技术实施例提供的方案。
126.其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本技术任一实施例所述的实现语音分离的方法。
127.所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本技术任一实施例所述的实现语音分离的方法。
128.本技术实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
129.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,rom)/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
130.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
131.以上所述仅是本技术示例性的实施方式,并非用于限定本技术的保护范围。
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!