基于深度学习的船舶音频生成方法

文档序号:42369972发布日期:2025-07-08 20:57阅读:31来源:国知局

本发明涉及深度学习音频处理领域,具体涉及一种基于深度学习的船舶音频生成方法。


背景技术:

1、随着全球经济一体化的快速发展,海上交通日益繁忙,船舶作为海上最重要的交通工具,其数量逐年增加。与此同时,深度学习技术的发展为音频处理领域带来了革命性的进步。在此背景下,使用深度学习技术从大量音频数据中自动学习并提取关键特征,对船舶进行分类、监管等任务变得具有一定的潜力。

2、识别算法要想达到良好的识别效果的前提是要有庞大的数据供网络训练,而水下目标声信号的获取往往存在一定困难。由于船舶音频数据集不足的情况限制,现有的有关船舶任务的深度学习模型在其对应任务上的表现往往不尽如人意,训练出的模型也难以投入实际应用。

3、因此,研究如何利用少量的目标声信号生成音频,具有一定的理论价值和重要的现实意义。


技术实现思路

1、本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于深度学习的船舶音频生成方法,它能够在音频数据稀缺的情况下,有效地生成船舶音频数据,为小样本条件下声学目标智能识别能力持续提升提供样本数据保障。

2、为了解决上述技术问题,本发明的技术方案是:一种基于深度学习的船舶音频生成方法,包括:

3、获取船舶音频集,对船舶音频集中的所有船舶音频进行预处理,得到各个船舶音频所对应的梅尔频谱图;

4、构建音频生成模型,音频生成模型包括vae模块、diffusion模块和clap模块,利用预处理后的数据集对音频生成模型进行训练,得到训练好的音频生成模型;其中,

5、在训练过程中,vae模块对梅尔频谱图进行编码,获取相应船舶音频潜在特征;clap模块将船舶音频与相关文本描述映射到同一语义空间,获取船舶音频与文本描述之间的关联;在潜在特征进行前向传播的过程中,diffusion模块逐步向潜在特征中添加高斯噪声,在潜在特征向后传播的过程中,diffusion模块以clap模块处理后的文本编码作为条件,引导逐步去噪,恢复潜在特征;vae模块再将恢复出来的潜在特征转换回梅尔频谱图;

6、将文本提示输入训练好的音频生成模型的clap模块,利用训练好的音频生成模型生成船舶音频。

7、进一步,对船舶音频预处理,具体步骤为:

8、先将船舶音频剪切成预设时长片段并按类别存储;

9、然后将船舶音频加载并重采样到统一的采样率;

10、再通过短时傅里叶变换转换到频域,并将幅度值转换为分贝值;

11、最后利用分贝值计算梅尔频谱图。

12、进一步,vae模块包括编码器、潜在空间和解码器;其中,

13、编码器用于将梅尔频谱图映射到潜在空间的参数;

14、潜在空间用于基于编码器映射到其的参数生成潜在特征;

15、解码器用于将diffusion模块处理后的潜在特征转换回梅尔频谱图。

16、进一步,训练过程中,vae模块的工作过程表示为:

17、μ,log(σ2)=encoder(x)

18、z=μ+σ☉∈

19、

20、式中,x表示编码器的输入数据;均值μ和方差σ2的对数均为编码器将输入数据x映射到潜在空间的参数;∈表示vae从标准正态分布中采样的一个噪声向量;z表示潜在空间生成的潜在特征;zd表示经diffusion模块处理后的潜在特征。

21、进一步,训练过程中,clap模块的工作过程为:

22、首先,通过文本编码器将文本转换为高纬向量表示,捕捉文本语义信息;通过音频编码器将梅尔频谱图转换为高纬向量表示,捕捉音频声学特征;

23、然后,进行对比学校,选择匹配的文本-音频对作为正样本对,不匹配的文本-音频对作为负样本对,并余弦相似度分别计算正样本对和负样本对之间的相似度;

24、最后,使用对比损失函数来训练,使正样本对的相似度大于负样本对的相似度,通过最小化对比损失,clap模块学习到将语义相关的文本和音频映射到相近的向量表示。

25、进一步,将文本提示输入训练好的音频生成模型的clap模块,利用训练好的音频生成模型生成船舶音频;具体为:

26、首先,文本提示输入clap模块的文本编码器中,文本编码器将文本提示转换为文本编码;

27、然后,文本编码结果作为条件输入diffusion模块,diffusion模块以文本编码作为引导,通过训练好的迭代去噪过程生成与文本提示相匹配的音频潜在表示;

28、之后,音频潜在表示输入vae模块的解码器,解码器将音频潜在表示转换为梅尔频谱图;

29、最后,声码器将此梅尔频谱图转换为可听的音频波形。

30、采用上述技术方案后,本发明引入运用了变分自编码器(vae)、对比语言-音频预训练(clap)和扩散模型(diffusion)技术。vae技术将音频数据压缩成低维潜在表示,帮助模型学习到数据的核心特征,减少存储和计算需求,同时vae利用自监督学习的方式,不需要大量的标注数据,可以从未标注的音频中学习到有用的特征表示;接着,clap技术通过对比学习将文本和音频映射到同一语义空间,实现了跨模态的对齐,实现音频和文本之间的有效关联,这使得模型能够理解文本描述和音频内容之间的对应关系,为生成与文本相匹配的音频提供了基础;最后,结合diffusion技术,通过先逐步加噪再迭代去噪来逐步精细化数据,这样有助于捕捉音频的细节,生成自然且逼真的音频样本。本发明借助于文本条件的引导,能够根据给定的文本提示生成自然且逼真的音频内容,不仅提高了音频生成的质量和逼真度,还为船舶音频相关的深度学习任务提供了有力的支持,有效解决了现有数据集不足的问题。



技术特征:

1.一种基于深度学习的船舶音频生成方法,其特征在于,

2.根据权利要求1所述的基于深度学习的船舶音频生成方法,其特征在于,

3.根据权利要求1所述的基于深度学习的船舶音频生成方法,其特征在于,

4.根据权利要求3所述的基于深度学习的船舶音频生成方法,其特征在于,

5.根据权利要求1所述的基于深度学习的船舶音频生成方法,其特征在于,

6.根据权利要求1所述的基于深度学习的船舶音频生成方法,其特征在于,将文本提示输入训练好的音频生成模型的clap模块,利用训练好的音频生成模型生成船舶音频;具体为:


技术总结
本发明涉及深度学习音频处理领域,具体涉及一种基于深度学习的船舶音频生成方法。方法包括:获取船舶音频集,对船舶音频集中的所有船舶音频进行预处理,得到各个船舶音频所对应的梅尔频谱图;构建音频生成模型,音频生成模型包括VAE模块、Diffusion模块和Clap模块,利用预处理后的数据集对音频生成模型进行训练,得到训练好的音频生成模型;将文本提示输入训练好的音频生成模型的Clap模块,利用训练好的音频生成模型生成船舶音频。本发明能够在音频数据稀缺的情况下,有效地生成船舶音频数据,为小样本条件下声学目标智能识别能力持续提升提供样本数据保障。

技术研发人员:杨彪,沈睿扬,陈阳,王睿
受保护的技术使用者:常州大学
技术研发日:
技术公布日:2025/7/7
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!