一种提高犬吠声识别率的方法与流程

文档序号：36275914发布日期：2023-12-06 21:15阅读：64来源：国知局

本发明涉及智能音频处理，特别涉及一种提高犬吠声识别率的方法。

背景技术：

1、听觉和视觉都是人类获取外界信息的两大重要来源，缺少其一，都会造成人类无法正确判断外界环境的变化。比如盲人，比如视线昏暗、遮挡情况，又比如想了解不同地理位置所发生的变化等。由于以上原因，人们就想得到利用现有的计算机技术来进行图像识别与语音识别，辅助获取不能直接获得的外界信息，而且可以通过计算机技术来替代部分人工，从而提高工作效率。如今，视觉即图像识别的发展日益成熟，但语音识别却发展缓慢。图像识别往往由于光线需要直线传播的特性而失去其原本该有的功能，而语音因为其具有可以绕过障碍物传播的特性而发挥作用，替代图像识别达到一定的目的。

2、如何能够从万千嘈杂的环境中识别出某一目标类，从而可以利用该目标音频类获取有用的信息受到越来越多研究者的关注。本方法旨在提高犬吠识别率其源于宠物狗投食器，识别有无犬吠声从而智能化对其投食，该方法也可扩展为任意音频的识别和检测。

3、现有音频识别算法流程一般分为：音频预处理；特征提取；训练生成音频模板库；识别；后期针对误检或漏检的音频添加训练样本，从而迭代出降低误检和提高正检的音频识别模型，当然部分研究者构建复杂的网络进行目标音频类的学习，但往往复杂的网络结构对应的检测时间会被拉长，即音频识别的灵敏度滞后。

4、在增加训练样本时，现有的音频识别方法针对漏检和误检的音频进行批量加入，但真正进入识别的设备由于播放源和收录源不同，对同一条犬吠的识别效果却相差很大，因此如何在提高训练音频数量的同时还能提高训练音频的质量，并能够对齐设备，训练出最好的模型，并能够对齐实时音频在代码端和设备识别端都是研究者们亟待解决的问题。

5、而对于没有背景噪音和带有不同种背景噪音的目标音频如何提高其识别率，在音频识别中也让研究者投入了众多的精力去思考。

技术实现思路

1、为了解决上述现有技术中的问题，本申请的目的在于：为解决犬吠识别率低且误报高提供了一种方法，即目标音频检测中提高识别率的一套方法策略。

2、本申请提出的提高犬吠识别率低的方法主要集中在提高犬吠音频的质量，使学习得到的模型更具有针对性，更适用于目标环境。并在犬吠音频识别前期加入判断策略和优化机制，不仅能够提高正检同时对降低误检也具有极大的帮助，且本方法在其他类音频识别领域也同样具有较高的实用性和通用性。

3、具体地，本发明提供一种提高犬吠声识别率的方法，所述方法包括以下步骤：

4、s1.收集犬吠音频，增加与识别设备的密切性：

5、收集音频数据，其中犬吠为正样本，背景噪音为负样本；

6、采用设备端转录犬吠正样本音频的方法将原犬吠音频和转录后的犬吠音频同时作为训练样本，增强音频与识别检测设备的强关联性；

7、s2.长时静音消除：

8、在犬吠音频样本中消除静音占比大于犬吠声的音频或者犬吠声总时长远小于静音时长的音频流，即在每次进入模型检测的音频内静音时长：犬吠声时长≤1:4，从而防止静音占比大的音频作为正样本进入模型训练；

9、s3.增强音频泛化性：

10、在音频预处理端增加随机缩放音频流音量、时间平移、音高以及音速，即在音频进入网络训练前，提前设定随机种子变量，达到对部分音频随机地进行预处理，从而更大程度模拟现实生活场景下的犬吠声，使其能够在音频识别中不受识别犬吠声的设备与犬吠时的距离的影响；

11、s4.添加音频实时流的缓存策略：

12、增加对待检测音频的缓存策略，所述缓存策略从算法层面来讲：即申请一块内存空间作为待检测实时音频流的缓存空间，若进入识别模型的音频时长为x,设备识别该音频执行时间为y，则在没有其他ai应用的时候，缓存空间大小需满足最大可以存放n*(x+y)时长的音频流，其中n为整数，取1，2，3，…，使实时音频流缓存至该空间，方便后期与滑动窗口机制共同作用保证实时音频流进入模型检测的完整性；

13、s5.基于短时能量过滤近似无声段音频流：

14、针对非犬吠声的低能量音频流误检，采用为短时能量设置阈值的方法对低能量音频流进行识别时进行过滤；如果某部分音频短时能量趋近于零(本文设置短时能量低于10-2)时，，则这部分音频可以认为近似无声段，从而可降低实际生活中的所述近似无声段的音频流触发犬吠声误识；

15、s6.设定音频流的滑动窗口机制：

16、对待检测识别的实时音频流在步骤s4保存实时音频流完整性的作用下添加滑动窗口机制，使得在进入音频段检测识别时，分别处于相邻两段音频内的犬吠声的音频流能够被完整检测，即处于未加滑动窗口策略和所述机制时相邻两次识别的音频之间由于设备识别花费的时间内漏掉的音频流被检测。

17、所述步骤s1中，为了学习不同的犬吠声，需要全方位去收集，且收集时注意剔除背景噪音音量大于犬吠声的样本音频，或针对信噪高的音频利用输入信号的短时能量或短时平均幅度将犬吠声和背景噪声分开。

18、所述步骤s2中，防止静音占比大的音频作为正样本，是因为犬吠音频中的静音消除，经分析多种犬吠声音频，有些犬吠声在前后两次连续狂吠的间隙时间不同，而所述间隙之间为静音；而该间隙时间如果恰好被作为正样本进入训练，则会体现出静音误识别现象，因此要长时静音消除。

19、所述步骤s3中，犬吠声的差异不仅体现在种类的差异，还体现在环境和音量的差异，不同种类、年龄和环境的犬吠声能够进行人工收集。

20、所述步骤s4中，还应该对识别设备上有无其他ai应用进行了解，若有其它ai应用，需要考虑其它ai应用开启后导致犬吠声识别时间的消耗，由于在多个ai共同作用时，犬吠音频在数据预处理阶段和检测识别阶段所耗费的时间会受其他音频检测的影响而增大，因此缓存机制的设定与ai应用密切联系，若时间消耗增加为z，则设定的缓存策略中的缓存空间需满足n*(x+y+z)。

21、所述步骤s5中，语音和背景噪音的区别能够体现在音频能量上，语音段的能量比背景噪声能量大，语音段的能量为噪声段能量叠加语音声波能量之和。

22、所述步骤s6中，所述滑动窗口机制是为了将连续完整的犬吠声添加至检测识别，通过增大检测次数调高犬吠声的检测识别效果。

23、所述步骤s1中，采用设备端转录犬吠正样本音频的方法是编写设备转录算法，控制算法脚本内实时音频流的降噪参数以及调节音量的参数，将转录脚本运行于转录设备端，音频播放源能够任意用手机或电脑，从而将原音经转录算法生成转录音频，目的是使进入识别设备的犬吠音频流相对清晰，从而有利于犬吠声的识别。

24、由此，本申请的优势在于：本申请的方案使用简单的方法，最大的优点旨在提高犬吠音频质量，使学习得到的模型更容易更具有针对性的识别，并通过前期音频预处理和后期识别前的条件判断以及识别过程中的识别机制提高犬吠识别率。

技术特征：

1.一种提高犬吠声识别率的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种提高犬吠声识别率的方法，其特征在于，所述步骤s1中，为了学习不同的犬吠声，需要全方位去收集，且收集时注意剔除背景噪音音量大于犬吠声的样本音频，或针对信噪高的音频利用输入信号的短时能量或短时平均幅度将犬吠声和背景噪声分开。

3.根据权利要求1所述的一种提高犬吠声识别率的方法，其特征在于，所述步骤s2中，防止静音占比大的音频作为正样本，是因为犬吠音频中的静音消除，经分析多种犬吠声音频，有些犬吠声在前后两次连续狂吠的间隙时间不同，而所述间隙之间为静音；而该间隙时间如果恰好被作为正样本进入训练，则会体现出静音误识别现象，因此要长时静音消除。

4.根据权利要求1所述的一种提高犬吠声识别率的方法，其特征在于，所述步骤s3中，犬吠声的差异不仅体现在种类的差异，还体现在环境和音量的差异，不同种类、年龄和环境的犬吠声能够进行人工收集。

5.根据权利要求1所述的一种提高犬吠声识别率的方法，其特征在于，所述步骤s4中，还应该对识别设备上有无其他ai应用进行了解，若有其它ai应用，需要考虑其它ai应用开启后导致犬吠声识别时间的消耗，由于在多个ai共同作用时，犬吠音频在数据预处理阶段和检测识别阶段所耗费的时间会受其他音频检测的影响而增大，因此缓存机制的设定与ai应用密切联系，若时间消耗增加为z，则设定的缓存策略中的缓存空间需满足n*(x+y+z)。

6.根据权利要求1所述的一种提高犬吠声识别率的方法，其特征在于，所述步骤s5中，所述阈值被设置短时能量低于10-2。

7.根据权利要求1所述的一种提高犬吠声识别率的方法，其特征在于，所述步骤s5中，语音和背景噪音的区别能够体现在音频能量上，语音段的能量比背景噪声能量大，语音段的能量为噪声段能量叠加语音声波能量之和。

8.根据权利要求1所述的一种提高犬吠声识别率的方法，其特征在于，所述步骤s6中，所述滑动窗口机制是为了将连续完整的犬吠声添加至检测识别，通过增大检测次数调高犬吠声的检测识别效果。

9.根据权利要求1所述的一种提高犬吠声识别率的方法，其特征在于，所述步骤s1中，采用设备端转录犬吠正样本音频的方法是编写设备转录算法，控制算法脚本内实时音频流的降噪参数以及调节音量的参数，将转录脚本运行于转录设备端，音频播放源能够任意用手机或电脑，从而将原音经转录算法生成转录音频，目的是使进入识别设备的犬吠音频流相对清晰，从而有利于犬吠声的识别。

技术总结
本发明提供一种提高犬吠声识别率的方法，包括：S1.收集犬吠音频，增加与识别设备的密切性；S2.长时静音消除；S3.增强音频泛化性；S4.添加音频实时流的缓存策略；S5.基于短时能量过滤近似无声段音频流；S6.设定音频流的滑动窗口机制。本申请方法就是将数据的预处理与策略机制判断共同致力于犬吠音频的识别中，巧妙地分析影响犬吠音频识别的统一特性，在不影响原检测目标召回率和精确度的情况下进一步提高了犬吠音频的识别率和误检率。

技术研发人员：孔得平
受保护的技术使用者：北京君正集成电路股份有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孔得平
技术所有人：北京君正集成电路股份有限公司
我是此专利的发明人