音频处理方法、装置、电子设备及存储介质与流程

文档序号：36998286发布日期：2024-02-09 12:40阅读：17来源：国知局

本发明实施例涉及通信，尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术：

1、目前，针对视频会议、语音会议等会议场景，尤其是视频会议场景下，可通过获得说话人的面部信息和语音信息，并根据声道信息，将会议语音转化为会议日志并标注出不同的说话人，以提升会后总结效率。然而，在实际应用中，由于未必能采集到每一个会议发言人的面部信息，导致难以确定所有会议发言人的身份信息，进而难以生成得到准确的会议日志。

技术实现思路

1、本发明实施例提供一种音频处理方法、装置、电子设备及存储介质，以解决相关技术中的会议日志存在的准确性差的问题。

2、为解决上述问题，本发明是这样实现的：

3、第一方面，本发明实施例提供了一种音频处理方法，所述方法包括：

4、获取待处理音频信息，所述待处理音频信息包括主音轨音频文件和至少两个子音轨音频文件；

5、获取所述至少两个子音轨音频文件中的每一个第一语音片段在主音轨中的时间戳信息，所述主音轨为所述主音轨音频文件所对应的音轨；

6、基于每一第一语音片段的时间戳信息以及对应的说话人标签信息，生成音频日志信息。

7、第二方面，本发明实施例提供了一种音频处理装置，所述装置包括：

8、第一获取模块，用于获取待处理音频信息，所述待处理音频信息包括主音轨音频文件和至少两个子音轨音频文件；

9、第二获取模块，用于获取所述至少两个子音轨音频文件中的每一个第一语音片段在主音轨中的时间戳信息，所述主音轨为所述主音轨音频文件所对应的音轨；

10、生成模块，用于基于每一第一语音片段的时间戳信息以及对应的说话人标签信息，生成音频日志信息。

11、第三方面，本发明实施例提供了一种终端设备，包括收发机和处理器，

12、所述处理器，用于：

13、获取待处理音频信息，所述待处理音频信息包括主音轨音频文件和至少两个子音轨音频文件；

14、获取所述至少两个子音轨音频文件中的每一个第一语音片段在主音轨中的时间戳信息，所述主音轨为所述主音轨音频文件所对应的音轨；

15、基于每一第一语音片段的时间戳信息以及对应的说话人标签信息，生成音频日志信息。

16、第四方面，本发明实施例提供了一种终端设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现上述第一方面所述的音频处理方法的步骤。

17、第五方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的音频处理方法的步骤。

18、在本发明实施例中，通过说话人标签信息可以确定每个第一语音片段的说话人信息，且通过每一第一语音片段的时间戳信息，可以确定每个第一语音片段在主音轨中的起止时间，从而可以通过每一第一语音片段的时间戳信息以及对应的说话人标签信息，生成音频日志信息，从而在未采集到说话人的脸部信息的情况下，也能确定每一说话人的语音片段在主音轨中的时间戳信息，使得语音片段的时间戳标定更加准确，提升了音频日志信息的准确性。

技术特征：

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述至少两个子音轨音频文件中的每一个语音片段在主音轨中的时间戳信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于每一第一语音片段的时间戳信息以及对应的说话人标签信息，生成音频日志信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述至少两个子音轨音频文件包括目标子音轨音频文件，所述目标子音轨音频文件包括至少两个说话人的语音信息；

5.根据权利要求2所述的方法，其特征在于，所述将所述多个第一语音片段与所述多个第二语音片段进行对齐处理，得到每一个第一语音片段在主音轨中的时间戳信息，包括：

6.一种音频处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第二获取模块包括：

8.根据权利要求7所述的装置，其特征在于，所述生成模块包括：

9.根据权利要求8所述的装置，其特征在于，所述至少两个子音轨音频文件包括目标子音轨音频文件，所述目标子音轨音频文件包括至少两个说话人的语音信息；

10.根据权利要求7所述的装置，其特征在于，所述对齐处理单元，具体用于：

11.一种终端设备，其特征在于，包括收发机和处理器，

12.一种终端设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的音频处理方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的音频处理方法的步骤。

技术总结
本发明提供一种音频处理方法、装置、电子设备及存储介质，涉及通信技术领域。该音频处理方法包括：获取待处理音频信息，所述待处理音频信息包括主音轨音频文件和至少两个子音轨音频文件；获取所述至少两个子音轨音频文件中的每一个第一语音片段在主音轨中的时间戳信息，所述主音轨为所述主音轨音频文件所对应的音轨；基于每一第一语音片段的时间戳信息以及对应的说话人标签信息，生成音频日志信息。这样可以提升音频日志信息的准确性。

技术研发人员：张润清,蔡敦波,张燚钧,杜宇健,黄智国
受保护的技术使用者：中移（苏州）软件技术有限公司
技术研发日：
技术公布日：2024/2/8

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张润清,蔡敦波,张燚钧,杜宇健,黄智国
技术所有人：中移（苏州）软件技术有限公司
我是此专利的发明人

上一篇：一种高性能铜包铝复合导体材料及其制备方法和应用与流程
上一篇：基于折光度的酒精溶液浓度测量方法及装置

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。