一种音频溯源方法、装置及设备与流程

文档序号：37075930发布日期：2024-02-20 21:30阅读：10来源：国知局

本说明书实施例涉及人工智能领域，尤其涉及一种音频溯源方法、装置及设备。

背景技术：

1、在业务快速发展过程中，各个业务场景，例如贷后、客服、电话销售等业务的音频数量也会激增，对应音频的提取和使用过程中成为公司的一个风险点，因为盗录音频、网络转发音频等渠道传播音频的成本较低，因此音频被广泛流传、盗录，所以经常出现版权纠纷、音频溯源困难等问题。

2、现有技术可以通过建立数据库的方式将原始音频和对应的标识信息进行存储，但因为音频在盗录或转发过程中，可能会加入一些杂音，这些杂音可能无法通过滤波的方式滤除，因此盗录或转发的音频文件的特征和原始音频文件的特征并不会完全相同，仅能由工作人员人工分析盗录或转发的音频文件和原始音频文件是否一致，从而对盗录或转发的音频进行溯源。但这种方法的效率较低，而且由于需依赖人工经验，溯源的准确度较低，甚至无法作为版权纠纷的有力证据。

3、现在亟需一种音频溯源优化方法，从而解决目前人工进行音频溯源的效率低、准确度低，甚至无法作为版权纠纷的有力证据的问题。

技术实现思路

1、为解决目前人工进行音频溯源的效率低、准确度低，甚至无法作为版权纠纷的有力证据的问题，本说明书实施例提供了一种音频溯源方法、装置及设备，通过将音频转换成音频特征矩阵的形式来训练音频溯源模型，从而利用音频溯源模型对待溯源音频进行溯源。

2、为了解决上述技术问题中的任意一种，本说明书实施例的具体技术方案如下：

3、一方面，本说明书实施例提供了一种音频溯源方法，包括，

4、获取待溯源音频数据；

5、按照预定时间窗口对所述待溯源音频数据进行分帧，得到多个音频帧；

6、提取每一所述音频帧的特征，并根据每一音频帧的特征以及所述音频帧的时间序列构建音频特征矩阵；

7、将所述音频特征矩阵输入到预先训练的音频溯源模型中进行计算，得到所述待溯源音频数据对应的音频信息，其中所述音频溯源模型用于计算输入的音频特征矩阵对应的音频信息。

8、进一步地，提取每一所述音频帧的特征进一步包括：

9、通过短时傅里叶变换将所述音频帧从时域数据转换为频域数据，得到所述音频帧的特征。

10、进一步地，所述音频的特征包括音频频谱或梅尔频率倒谱系数。

11、进一步地，训练所述音频溯源模型的步骤包括：

12、获取多个训练音频数据；

13、按照预定时间窗口对所述训练音频数据进行分帧，得到所述训练音频数据的多个训练音频帧；

14、提取每一所述训练音频帧的特征，并根据每一训练音频帧的特征以及音频帧的时间顺序构建训练音频特征矩阵；

15、将所述训练音频数据对应的音频信息作为标签，对所述训练音频特征矩阵进行标注，得到训练数据集；

16、所述训练数据集输入到机器学习模型中进行训练，得到所述音频溯源模型。

17、进一步地，根据每一训练音频帧的特征以及音频帧的时间顺序构建训练音频特征矩阵之后，所述方法还包括：

18、对所述训练音频特征矩阵进行标准化，以便于将对标准化后的所述训练音频特征矩阵进行标注。

19、进一步地，训练音频中包括循环拼接的多个训练水印声音，所述训练水印声音是根据所述训练音频对应的音频信息生成的；

20、获取多个训练音频数据进一步包括：

21、若所述水印声音的频率大于高频阈值，按照频率值超过第一频率阈值的采样频率对所述训练音频进行采样；提取采样到的音频中的频率位于与所述高频阈值对应的第一频率区间内的部分作为所述训练水印声音，并将所述训练水印声音作为所述待溯源音频数据；

22、若所述水印声音的频率低于低频阈值，按照频率值低于第二频率阈值的采样频率对所述训练音频进行采样；提取采样到的音频中的频率位于与所述低频阈值对应的第二频率区间内的部分作为所述训练水印声音，并将所述训练水印声音作为所述待溯源音频数据。

23、进一步地，所述训练数据集输入到机器学习模型中进行训练，得到所述音频溯源模型进一步包括：

24、将所述第一频率区间和第二频率区间作为所述机器学习模型的训练参数；

25、根据所述机器学习模型对所述训练数据集的计算结果、所述音频信息计算模型精度；

26、判断所述模型精度是否满足预定精度的要求；

27、若否，则对所述第一频率区间和第二频率区间进行调整，利用调整后的第一频率区间和第二频率区间重新执行获取多个训练音频数据的步骤；

28、若是，则将所述第一频率区间和第二频率区间作为所述音频溯源模型的参数，以便于在对待溯源音频进行溯源时，根据所述第一频率区间或第二频率区间获取所述待溯源音频中的水印声音，并利用所述水印声音对应的音频特征矩阵以及所述音频溯源模型得到所述水印声音对应的音频信息。

29、另一方面，本说明书实施例还提供了一种音频溯源装置，所述装置包括：

30、待溯源音频数据获取单元，用于获取待溯源音频数据；

31、分帧单元，用于按照预定时间窗口对所述待溯源音频数据进行分帧，得到多个音频帧；

32、音频特征矩阵构建单元，用于提取每一所述音频帧的特征，并根据每一音频帧的特征以及所述音频帧的时间序列构建音频特征矩阵；

33、音频信息计算单元，用于将所述音频特征矩阵输入到预先训练的音频溯源模型中进行计算，得到所述待溯源音频数据对应的音频信息，其中所述音频溯源模型用于计算输入的音频特征矩阵对应的音频信息。

34、另一方面，本说明书实施例还提供了一种计算机设备，包括存储器、处理器、以及存储在存储器上的计算机程序，处理器执行所述计算机程序时实现上述的方法。

35、最后，本说明书实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的方法。

36、利用本说明书实施例，首先获取数字形式的待溯源音频数据，然后按照预定时间窗口对待溯源音频数据进行分帧，得到多个音频帧，然后再提取每个音频帧的特征，根据每一音频帧的特征以及音频帧的时间序列构建音频特征矩阵，最后将音频特征矩阵输入到音频溯源模型中进行计算，得到待溯源新品数据对应的音频信息，实现了将音频转换成音频特征矩阵的形式来训练音频溯源模型，从而利用音频溯源模型对待溯源音频进行溯源，相比于传统人工进行音频溯源的方法，即便待溯源音频中存在无法通过滤波滤除的杂音，也能够精确地识别出音频信息，提高了音频溯源的准确度，解决了目前人工进行音频溯源的效率低、准确度低，甚至无法作为版权纠纷的有力证据的问题。

技术特征：

1.一种音频溯源方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，提取每一所述音频帧的特征进一步包括：

3.根据权利要求2所述的方法，其特征在于，所述音频的特征包括音频频谱或梅尔频率倒谱系数。

4.根据权利要求1所述的方法，其特征在于，训练所述音频溯源模型的步骤包括：

5.根据权利要求4所述的方法，其特征在于，根据每一训练音频帧的特征以及音频帧的时间顺序构建训练音频特征矩阵之后，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，训练音频中包括循环拼接的多个训练水印声音，所述训练水印声音是根据所述训练音频对应的音频信息生成的；

7.根据权利要求6所述的方法，其特征在于，所述训练数据集输入到机器学习模型中进行训练，得到所述音频溯源模型进一步包括：

8.一种音频溯源装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述权利要求1至7中任一项所述的方法。

技术总结
本说明书实施例涉及人工智能领域，尤其涉及一种音频溯源方法、装置及设备。包括：获取待溯源音频数据；按照预定时间窗口对所述待溯源音频数据进行分帧，得到多个音频帧；提取每一所述音频帧的特征，并根据每一音频帧的特征以及所述音频帧的时间序列构建音频特征矩阵；将所述音频特征矩阵输入到预先训练的音频溯源模型中进行计算，得到所述待溯源音频数据对应的音频信息，其中所述音频溯源模型用于计算输入的音频特征矩阵对应的音频信息。通过本说明书实施例的方法，通过将音频转换成音频特征矩阵的形式来训练音频溯源模型，从而利用音频溯源模型对待溯源音频进行溯源。

技术研发人员：张兆强,腾肖飞,吴迪
受保护的技术使用者：上海睿德汇智科技有限公司北京分公司
技术研发日：
技术公布日：2024/2/19

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张兆强,腾肖飞,吴迪
技术所有人：上海睿德汇智科技有限公司北京分公司
我是此专利的发明人

上一篇：一种电动调节的移动查房车的制作方法
上一篇：一种具有杀菌功能的点钞机的制作方法