一种批量定位语音内容的方法及装置与流程

文档序号：22919752发布日期：2020-11-13 16:06阅读：291来源：国知局

技术特征：

1.一种批量定位语音内容的方法，其特征在于,包括如下步骤:

s1.录音开始之前进行提示音播放，提示音播放完成后再开始录制音频，录制并保存包括提示音的音频文件之后，将保存的音频文件的路径记录到路径记录文件中；

s2.对路径记录文件内纪录的全部路径进行遍历读取；对实际不存在的路径或该路径下找不到音频文件时则报错并记录在生成的错误日志中；

当遍历读取过程中，发现语料音频文件之后，对语料音频文件的特征进行读取处理为单声道音频文件；

s3.对音频文件前部分时间的内容进行提示音检测定位，所述前部分至少包括音频文件的前半部分，检测出提示音的文件，删除最后一个提示音之前的音频段；

若在音频文件的前部分内都没有检测到提示音，则认为该音频文件错误，将错误路径记录写入错误日志；

s4.再次筛选检测，具体包括：

s41.对已经检测出提示音并删除部分音频段的音频文件重新进行提示音检测，如果没有再次检测到提示音的音频文件，则对该文件保存；

s42.对检测到新的提示音的音频文件，进行重新定位并删除新提示音之前的音频段；

重复进行s41-s42，直至检测不出新的提示音；

s5.重复步骤s3-s4，处理完所有检测出的音频文件后结束。

2.如权利要求1所述批量定位语音内容的方法，其特征在于，所述提示音为周期性重复的音频信号。

3.如权利要求2所述的批量定位语音内容的方法，其特征在于，对提示音的检测方式为：检测音频文件，发现与提示音音频幅值特征匹配的音频段时，记录该音频段起点；继续判断后续是否周期出现与提示音音频周期特征匹配的音频，周期次数相同则标记为提示音。

4.如权利要求1所述的批量定位语音内容的方法，其特征在于，所述步骤s1-s5中的数据处理过程基于python算法编程实现。

5.如权利要求4所述的批量定位语音内容的方法，其特征在于，所述步骤s2中处理为单声道音频文件的具体过程为：调用python库函数自动读取音频文件，获得当前音频文件的采样点数、采样频率、声道数；通过判断声道数为1还是2来确定当前音频是单声道音频还是双声道音频，对于双声道音频文件，分离其中一个声道的音频处理为单声道音频文件。

6.一种批量定位语音内容的装置，其特征在于,包括依序连接的提示音播报模块、音频录制模块、路径记录模块、路径读取模块、音频文件遍历寻找模块和音频处理模块；所述音频处理模块包括依序连接的音频文件特征提取模块、单声道处理模块、提示音检测模块和音频段删除模块；所述音频文件特征提取模块与所述音频文件遍历寻找模块连接；

所述装置还包括与路径读取模块、音频文件遍历寻找模块和提示音检测模块连接的错误日志生成模块。

7.如权利要求6所述的批量定位语音内容的装置，其特征在于，还包括与所述路径读取模块连接的窗口生成模块。

技术总结
一种批量定位语音内容的方法，包括如下步骤:S1.录音开始之前进行提示音播放将保存的音频文件的路径记录到路径记录文件中；S2.对路径记录文件内纪录的全部路径进行遍历读取；S3.对音频文件前部分时间的内容进行提示音检测定位S4.对已经检测出提示音并删除部分音频段的音频文件重新进行提示音检测，如果没有再次检测到提示音的音频文件，则对该文件保存；直至检测不出新的提示音；S5.处理完所有检测出的音频文件后结束。本发明还公开了一种批量定位语音内容的装置。本发明音可以通过精确定位提示音位置找出全部音频文件中的语音录制位置，提高了语音语料文件处理速度。

技术研发人员：舒畅;何云鹏;许兵
受保护的技术使用者：成都启英泰伦科技有限公司
技术研发日：2020.09.22
技术公布日：2020.11.13

完整全部详细技术资料下载

当前第2页1 2

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！