一种音频拼接方法、电子设备及存储介质

文档序号:34665093发布日期:2023-07-05 13:23阅读:75来源:国知局
一种音频拼接方法、电子设备及存储介质

本发明涉及音频处理,特别是涉及一种音频拼接方法、电子设备及存储介质。


背景技术:

1、在音频处理场景中,经常需要获取很多视频中属于某个目标对象的音频部分,并对该音频部分进行拼接,获取目标对象的完整音频,然而,在实际应用场景中,音频部分中音频信息会比较复杂,比如环境中的各种噪声等,现有技术中,获取针对目标对象的一段完整录音,往往在拼接时会出现重复片段,或有些音频片段噪声比较大甚至在去噪后仍有噪声,且在拼接后的音频中容易出现语义不清晰、语义上下矛盾等问题。


技术实现思路

1、针对上述技术问题,本发明采用的技术方案为:一种音频拼接方法,用于对依序安装在设定位置的zm个智能设备获取目标对象的原始音频片段进行拼接,从而获得目标对象的最终音频,其中,所述智能设备能够实现同步录音录像,且任意两个智能设备对应的设定位置不同,所述方法包括如下步骤:

2、s610,获取智能设备采集目标对象音频信息的时间段列表zb={zb1,zb2,…,zbzi,…,zbzm}和对应的原始音频片段列表za={za1,za2,…,zazi,…,zazm},其中,zbzi是第zi个智能设备采集目标对象音频信息的时间段,zazi是第zi个智能设备获取的目标对象对应的原始音频片段,zi的取值范围是1到zm,且任意两个相邻的zbi和zbi+1有重合时间段zbzi。

3、s620,获取zazi在zbzi时间段的第一重合音频片段zazizbzi和zazi+1在zbzi时间段的第二重合音频片段zazi+1zbzi。

4、s630,对zazizbzi和zazi+1zbzi进行噪声检测,获取zazizbzi和zazi+1zbzi的噪音值,当zazizbzi的噪音值不大于zazi+1zbzi中的噪音值时,将zazizbzi作为中间音频片段zczi,zazi+1zbzi作为备用音频片段zhzi,否则,将zazi+1zbzi作为中间音频片段zczi,将zazizbzi作为备用音频片段zhzi。

5、s640,将zczi对应的原始音频片段进行语义检测获取第一语义检测值,当第一语义检测值大于第一预设阈值,执行s650,否则,执行s660,其中,所述第一语义检测值是在基于zczi对应的原始音频片段识别出的原始语句列表中,用于表示与其他全部原始语句间相似度的最小值。

6、s650,对zhzi对应的原始音频片段裁减掉zhzi,且将裁减掉zhzi后的原始音频片段与zczi对应的原始音频片段按照时间段顺序进行拼接,从而获取最终音频。

7、s660,对zhzi对应的原始音频片段进行去噪声处理,且对zhzi对应的去噪后的原始音频片段进行语义检测,获取第二语义检测值,其中,所述第二语义检测值是在基于去噪后的zhzi对应的原始音频片段识别出的原始语句列表中,用于表示与其他全部原始语句间相似度的最小值。

8、s670,当第二语义检测值大于第一预设阈值,对zczi对应的原始音频片段裁减掉zczi,且将裁减掉zczi后的原始音频片段与zhzi对应的去噪后的原始音频片段按照时间段顺序进行拼接,从而获取最终音频。

9、本发明的另一方面还公开了一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如前所述的方法。

10、本发明的又一方面还公开了一种电子设备,包括处理器和如前所述的非瞬时性计算机可读存储介质。

11、本发明至少具有以下有益效果:

12、基于上述,获取目标对象出现在智能设备的时间段列表和对应的原始音频列表,获取第一重合音频片段和第二重合音频片段,对第一重合音频片段和第二重合音频片段进行噪声检测,将噪音值较小的作为中间音频片段,噪音值较大的作为备用音频片段,对中间音频片段对应的原始音频片段进行语义检测,当第一语义检测值大于第一预设阈值,将中间音频片段对应的原始音频片段和备用音频片段对应的原始音频片段进行裁,剪按照时间段顺序进行拼接获取最终音频,当第一语义检测值不大于第一预设阈值,对备用音频片段对应的原始录音片段进行去噪处理,且对去噪后的zhzi对应的原始音频片段进行语义检测,获取第二语义检测值,当第二语义检测值大于第一预设阈值,将备用音频片段对应的原始音频片段和中间音频片段对应的原始音频片段进行裁剪,之后拼接获取最终音频,本发明采用上述方法实现目标对象的最终音频完整,在拼接处连贯,且获取的最终音频噪声更小,语义更通顺、清晰。



技术特征:

1.一种音频拼接方法,其特征在于,用于对依序安装在设定位置的zm个智能设备获取目标对象的原始音频片段进行拼接,从而获得目标对象的最终音频,其中,所述智能设备能够实现同步录音录像,且任意两个智能设备对应的设定位置不同,所述方法包括如下步骤:

2.根据权利要求1所述的音频拼接方法,其特征在于,获取第zi个智能设备采集目标对象音频信息的时间段包括如下步骤:

3.根据权利要求2所述的音频拼接方法,其特征在于,zbzi的获取包括以下步骤:

4.根据权利要求1所述的音频拼接方法,其特征在于,s630中,将zazizbzi进行噪声检测,获取zazizbzi的噪音值包括如下步骤:

5.根据权利要求1所述的音频拼接方法,其特征在于,s640中将zczi对应的原始音频片段进行语义检测,获取第一语义检测值包括如下步骤:

6.根据权利要求1所述的音频拼接方法,其特征在于,s660中对zhzi对应的原始音频片段进行去噪声处理至少包括使用线性滤波器对zhzi对应的原始音频片段进行去噪声处理。

7.根据权利要求5所述的音频拼接方法,其特征在于,s643中获取zezizj与其他原始词向量的原始相似度zfzizj包括如下步骤:

8.根据权利要求7所述的音频拼接方法,其特征在于,将s6432替换为s6433,其中,s6433:将余弦相似度列表中的最小值作为原始相似度zfzizj。

9.一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项所述的音频拼接方法。

10.一种电子设备,其特征在于,包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。


技术总结
本发明提供了一种音频拼接方法、电子设备及存储介质,用于对依序安装在设定位置的Zm个智能设备获取目标对象的音频片段进行拼接,从而获得目标对象的最终音频,所述方法包括如下步骤:获取智能设备采集目标对象音频信息的时间段列表和对应的原始音频片段列表,获取第一重合音频片段和第二重合音频片段,进行噪声检测获取中间音频片段和备用音频片段,对中间音频片段对应的原始音频片段进行语义检测,当语义检测值大于第一预设阈值,将备用音频片段对应的原始音频片段裁剪,并和中间音频片段对应的原始音频片段进行拼接,从而获取最终音频,使得无重合的目标对象的最终音频更加完整,语义更通顺、清晰。

技术研发人员:李昌晋,曹喜信,曹昕妍
受保护的技术使用者:北京大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1