一种基于语音的动物识别方法及装置的制作方法

文档序号：2834988阅读：326来源：国知局

专利名称：一种基于语音的动物识别方法及装置的制作方法
技术领域：
本发明涉及具有语音识别功能的移动终端，尤其涉及一种基于语音的动物识别方法及装置。
背景技术：
人类有人类的语言，而且可以听其声知其人，原因是每个人语音中的音调，音色等一些语音的特征参数是难以改变的。动物也有动物的语言，不同的动物所发出的叫声也是不同的，每个物种、每个物种的不同个体均有其独特的叫声特征，例如通过人耳即可轻松地区别出猫的叫声和狗的叫声。对于人们所熟悉的物种叫声往往可以通过人耳轻松地识别该物种，但是对于不熟悉的物种就难以识别，而且人耳听力有限，容易受到主观认知的影响。当人们处在野外环境中，有时需要警惕周围野生动物的出没，需要掌握周围的动物物种及其数量分布，达到趋利避害的目的。另外，出于野外观测或野生动物监测保护的目的，经常地也需要随时关注周围的动物物种。在这些情况下，动物的叫声是识别物种、追寻动物踪迹的重要线索之一。因而提供一种能通过其叫声识别动物的方法和便携式装置具有现实的意义和实际的需求。

发明内容
为了克服上述所指的现有技术中的不足之处，本发明提供一种基于语音的动物识别方法及装置，以实现利用手机等移动终端监听用户周围动物的叫声，识别周围的动物物种及其数量分布。本发明是通过以下技术方案实现的:
一种基于语音的动物识别方法，应用于移动终端，其步骤包括:
a、采集若干动物物种的语音样本，提取各语音样本的声波特征参数建立声纹模型，构成一声纹数据库；
b、获取待分析的动物语音信号，利用单声道语音分离技术从所述动物语音信号中分离出至少一个源信号；
C、提取各源信号的声纹，并与声纹数据库中各动物物种的声纹模型进行匹配； d、记录匹配成功的源信号所对应的动物物种。进一步地，所述所述步骤a采集若干动物物种的语音样本包括:采集至少一类动物物种的动物语音样本；采集从属于一类动物物种的至少一品种的动物语音样本。所述步骤d中的匹配成功是指源信号的声纹与声纹数据库中一动物物种的声纹模型的相似值在预设的阀值范围以内。所述步骤d之后，还包括:分别统计对应同一类动物物种的经匹配成功的源信号数目；在移动终端的显示装置上显示统计结果。所述声波特征参数包括线性预测倒谱系数、Mel频率倒谱系数、基于小波分析的特征参数中的一种或两种以上，所述声纹数据库中的声纹模型及源信号的声纹为宽带声纹、窄带声纹、振幅声纹、等高线声纹、时间波谱声纹、断面声纹中的一种或两种以上。所述单声道语音分离技术基于计算场景分析方法、非负矩阵分解算法、带稀疏限制性条件的非负矩阵分解算法中一种或两种以上的组合。本发明还公开了一种基于语音的动物识别装置，包括:
数据库单元，用于采集若干动物物种的语音样本，提取各语音样本的声波特征参数建立声纹模型，构成一声纹数据库；
语音分离单元，用于获取待分析的动物语音信号，利用单声道语音分离技术从所述动物语音信号中分离出至少一个源信号；
匹配单元，用于提取各源信号的声纹，并与声纹数据库中各动物物种的声纹模型进行匹配；
记录单元，用于记录匹配成功的源信号所对应的动物物种，所述匹配成功是指源信号的声纹与声纹数据库中一动物物种的声纹模型的相似值在预设的阀值范围以内。进一步地，所述所述数据库单元用于采集若干动物物种的语音样本包括:用于采集至少一类动物物种的动物语音样本；用于采集从属于一类动物物种的至少一品种的动物语音样本。本发明的基于语音的动物识别装置还包括:一统计单元，用于分别统计对应同一类动物物种的经匹配成功的源信号数目；一显示单元，用于显示统计结果。与现有技术相比，通过本发明可实现利用手机等移动终端监听用户周围动物的叫声，可以通过语音频谱分析的方法，提取出动物叫声的声波特征参数与数据库模型匹配，作为识别不同动物物种和数量的依据，从而掌握周围的动物物种及其数量分布，尤其在野外可以达到趋利避害的目的，而且操作体验具有娱乐趣味性。

附图1为本发明实施例的智能手机的基于语音的动物识别方法的实现流程示意图。
具体实施例方式为了便于本领域技术人员的理解，下面结合附图对本发明作进一步的描述。一种基于语音的动物识别方法，应用于移动终端，其步骤包括:
a、采集若干动物物种的语音样本，提取各语音样本的声波特征参数建立声纹模型，构成一声纹数据库；
b、获取待分析的动物语音信号，利用单声道语音分离技术从所述动物语音信号中分离出至少一个源信号；
C、提取各源信号的声纹，并与声纹数据库中各动物物种的声纹模型进行匹配； d、记录匹配成功的源信号所对应的动物物种。进一步地，所述所述步骤a采集若干动物物种的语音样本包括:采集至少一类动物物种的动物语音样本；采集从属于一类动物物种的至少一品种的动物语音样本。在具体实现中，对于一类动物物种可采集多个品种的动物语音样本，以提高识别的准确性和应用广泛性。所述步骤d中的匹配成功是指源信号的声纹与声纹数据库中一动物物种的声纹模型的相似值在预设的阀值范围以内。若源信号的声纹与声纹数据库中一动物物种的声纹模型匹配成功，则记录此动物物种对应该源信号。所述步骤d之后，还包括:分别统计对应同一类动物物种的经匹配成功的源信号数目；在移动终端的显示装置上显示统计结果，即显示获取的动物语音信号中所包含的若干类动物物种的叫声，及所识别的对应每一类动物物种的动物个体的数目。比如识别获取的动物语音信号中包含一只猫和3只狗的叫声。本发明的语音识别方法为某种动物的种群进行识别，根据这种动物的整体发声特征来进行识别，这与语音识别中的语种识别系统和孤立词识别系统有相似之处。语音信号分析往往分为时域、频域、倒频域等方法，时域分析具有简单直观、清晰易懂、运算量小等优点，但是由于语音信号的频域对外界环境变化具有一定的顽健性，语音中最重要的特性大多反映在其功率谱上，更为有效的分析多是围绕频域进行，利用频域分析获得的共振峰、基音周期等参数反映了语音的声学特性。在本发明中，提取各语音样本的声波特征参数利用快速傅里叶变换等方法，所述声波特征参数包括但不限于线性预测倒谱系数、Mel频率倒谱系数、基于小波分析的特征参数中的一种或两种以上，所述声纹数据库中的声纹模型及源信号的声纹为宽带声纹、窄带声纹、振幅声纹、等高线声纹、时间波谱声纹、断面声纹中的一种或两种以上。其中，前二种显示语声的频率与强度随时间推移的变化特征；中间三种显示语音强度或声压随时间变化的特征；断面声纹只是显示某一时间点上声波强度和频率特征的声纹图。本发明的较佳实施例中，所述单声道语音分离技术基于现有技术中的计算场景分析方法CASA、非负矩阵分解算法NMF、带稀疏限制性条件的非负矩阵分解算法SNMF中一种或两种以上的组合，还可采用或结合语音客观质量评估方法OQAS等用于单声道的盲信号分离方法。计算场景分析方法CASA是在计算机听觉研究领域里，借鉴计算机视觉研究中的“视觉场景分析”概念而建立声音信号处理模型，至2006年时，根据人类听觉信号处理规则和特点建立起来的听觉场景分析模型，已经达到了相当高的水平，能够较好的将基频分布范围处于相同频带上的多个同时语音进行分离。而利用NMF算法或SNMF算法实现声音信号的分离，就是使系统能像人的大脑一样识别声音的局部特征，实质就是在声音频域中提取所需的声音信号的局部特征，实现声音信号的分离后，合成若干个源信号。上述算法及其组合应用于单声道盲信号的分离为现有技术，在此不进一步展开赘述。而在具体实现中，所述移动终端可提供选项供用户选择是否对声音信号进行分离处理，当用户确信获取的声音信号中只包含单一动物个体的叫声时，可选择不对声音信号进行分离处理，而直接进行声纹的匹配，以提高系统运算速度，避免资源的浪费。具体地，如附图1所示，以智能手机为例，本发明还提供了一种实施例的智能手机的基于语音的动物识别方法的实现流程，其步骤包括:
001、采集若干动物物种的语音样本；
002、提取各语音样本的声波特征参数，建立声纹数据库；
003、手机耳麦或听筒获取待分析的动物语音信号；
004、利用单声道语音分离技术从所述动物语音信号中分离出至少一个源信号； 005、提取各源信号的声纹；
006、将源信号的声纹并与声纹数据库中各动物物种的声纹模型进行匹配；
007、判断是否匹配成功，若是，执行步骤008，否则，忽略该源信号；
008、记录匹配成功的源信号所对应的动物物种；
009、在显示屏幕上显示识别的动物物种及对应个体数目。本发明还公开了一种基于语音的动物识别装置，包括:
数据库单元，用于采集若干动物物种的语音样本，提取各语音样本的声波特征参数建立声纹模型，构成一声纹数据库；
语音分离单元，用于获取待分析的动物语音信号，利用单声道语音分离技术从所述动物语音信号中分离出至少一个源信号；
匹配单元，用于提取各源信号的声纹，并与声纹数据库中各动物物种的声纹模型进行匹配；
记录单元，用于记录匹配成功的源信号所对应的动物物种，所述匹配成功是指源信号的声纹与声纹数据库中一动物物种的声纹模型的相似值在预设的阀值范围以内。进一步地，所述所述数据库单元用于采集若干动物物种的语音样本包括:用于采集至少一类动物物种的动物语音样本；用于采集从属于一类动物物种的至少一品种的动物语音样本。本发明的基于语音的动物识别装置还包括:一统计单元，用于分别统计对应同一类动物物种的经匹配成功的源信号数目；一显示单元，用于显示统计结果。在具体应用中，所述显示单元可为智能手机的显示屏幕。以上内容是结合具体的优选方式对本发明所作的进一步详细说明，不应认定本发明的具体实施只局限于以上说明。对于本技术领域的技术人员而言，在不脱离本发明构思的前提下，还可以作出若干简单推演或替换，均应视为由本发明所提交的权利要求确定的保护范围之内。
权利要求
1.一种基于语音的动物识别方法，应用于移动终端，其步骤包括: a、采集若干动物物种的语音样本，提取各语音样本的声波特征参数建立声纹模型，构成一声纹数据库； b、获取待分析的动物语音信号，利用单声道语音分离技术从所述动物语音信号中分离出至少一个源信号； C、提取各源信号的声纹，并与声纹数据库中各动物物种的声纹模型进行匹配； d、记录匹配成功的源信号所对应的动物物种。
2.根据权利要求1所述的基于语音的动物识别方法，其特征在于，所述所述步骤a采集若干动物物种的语音样本包括: 采集至少一类动物物种的动物语音样本；采集从属于一类动物物种的至少一品种的动物语音样本。
3.根据权利要求2所述的基于语音的动物识别方法，其特征在于:所述步骤d中的匹配成功是指源信号的声纹与声纹数据库中一动物物种的声纹模型的相似值在预设的阀值范围以内。
4.根据权利要求3所述的基于语音的动物识别方法，其特征在于:所述步骤d之后，还包括: 分别统计对应同一类动物物种的经匹配成功的源信号数目；在移动终端的显示装置上显示统计结果。
5.根据权利要求1-4中任一项所述的基于语音的动物识别方法，其特征在于:所述声波特征参数包括线性预测倒谱系数、Mel频率倒谱系数、基于小波分析的特征参数中的一种或两种以上，所述声纹数据库中的声纹模型及源信号的声纹为宽带声纹、窄带声纹、振幅声纹、等高线声纹、时间波谱声纹、断面声纹中的一种或两种以上。
6.根据权利要求1-4中任一项所述的基于语音的动物识别方法，其特征在于:所述单声道语音分离技术基于计算场景分析方法、非负矩阵分解算法、带稀疏限制性条件的非负矩阵分解算法中一种或两种以上的组合。
7.一种基于语音的动物识别装置，其特征在于，包括: 数据库单元，用于采集若干动物物种的语音样本，提取各语音样本的声波特征参数建立声纹模型，构成一声纹数据库；语音分离单元，用于获取待分析的动物语音信号，利用单声道语音分离技术从所述动物语音信号中分离出至少一个源信号；匹配单元，用于提取各源信号的声纹，并与声纹数据库中各动物物种的声纹模型进行匹配；记录单元，用于记录匹配成功的源信号所对应的动物物种。
8.根据权利要求7所述的基于语音的动物识别装置，其特征在于，所述所述数据库单元用于采集若干动物物种的语音样本包括: 用于采集至少一类动物物种的动物语音样本；用于采集从属于一类动物物种的至少一品种的动物语音样本。
9.根据权利要求8所述的基于语音的动物识别装置，其特征在于:所述匹配成功是指源信号的声纹与声纹数据库中一动物物种的声纹模型的相似值在预设的阀值范围以内。
10.根据权利要求9所述的基于语音的动物识别装置，其特征在于，还包括:统计单元，用于分别统计对应同一类动物物种的经匹配成功的源信号数目；显示单元，用于显示统计结果。
全文摘要
一种基于语音的动物识别方法及装置，所述方法包括采集若干动物物种的语音样本，提取各语音样本的声波特征参数建立声纹模型，构成一声纹数据库；获取待分析的动物语音信号，利用单声道语音分离技术从所述动物语音信号中分离出至少一个源信号；提取各源信号的声纹，并与声纹数据库中各动物物种的声纹模型进行匹配；记录匹配成功的源信号所对应的动物物种。利用手机等移动终端监听用户周围动物的叫声，通过语音频谱分析的方法，提取出动物叫声的声波特征参数与数据库模型匹配，从而识别周围的动物物种及其数量分布，尤其在野外可以达到趋利避害的目的，而且操作体验具有娱乐趣味性。
文档编号G10L17/26GK103117061SQ20131004380
公开日2013年5月22日申请日期2013年2月5日优先权日2013年2月5日
发明者曾元清, 刘立森申请人:广东欧珀移动通信有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾元清;刘立森
技术所有人：广东欧珀移动通信有限公司
我是此专利的发明人