基于语音识别技术的生物多样性物种分析方法与流程

文档序号:20497749发布日期:2020-04-21 22:31阅读:544来源:国知局
基于语音识别技术的生物多样性物种分析方法与流程

本发明涉及语音识别技术领域,具体涉及一种基于语音识别技术的生物多样性物种分析方法。



背景技术:

不少学者在利用生物语音区分单个种群内部的亚种类,比如区分一条狗是拉布拉多犬还是中华田园犬或者是金毛犬等等。有的采用语音识别技术对淡眉柳莺,中国叶莺,甘肃柳莺,夜莺进行分类训练,将模型训练好之后,采用同样种类的莺对模型进行训练分类,得到了89.1%-92.5%左右的正确率,是一个比较理想的结果。

有的使用频谱重心,频谱带宽,频谱范围,频谱扩展度等十九个特征组成作为特征向量,并且将之应用于正弦模型,实现鸟类的一个种群分类。最后得到渡鸦,冠鸦,喜鹊,松鸦,蒲苇莺,刺嘴莺六种鸟类的分类准确率分别是69%、36%、41%、36%、56%、53%,虽然tech得到的准确率并不太理想,但是有几处创新是值得借鉴的,比如特征选择环节就可以加入到现有的语音系统当中去。

尽管语音识别的研究工作从以前到现在从未终止,但仍然在技术研究的时候存在着很多的难题:其中之一是在噪声干扰很强的时候,噪声会干扰到我们本来想提取的声音,识别就更加困难了。

因为噪声的原因,所以语音数据的采集基本上都需要在高保真设备上进行,尤其需要在无噪声环境下进行采集。然而语音识别在实际应用中,不可能保证环境是无噪声的环境,就算是低噪声的环境也不太容易寻找得到,这时环境噪声所带来的问题就显得尤为突出。线性预测技术是语音识别技术中较为有效的技术手段,但是该技术恰恰是最容易受噪声影响的。



技术实现要素:

针对现有技术的不足,本发明公开一种基于语音识别技术的生物多样性物种分析方法,能够解决现有技术的不足。

为实现以上目的,本发明通过以下技术方案予以实现:

基于语音识别技术的生物多样性物种分析方法,包括以下步骤:

s1:采集物种鸣声并通过专家进行鉴定,生成确定的物种鸣声,建立模式鸣声库;

s2:根据所述模式鸣声库对所述确定的物种鸣声进行音节分割并提取音节特征;

s3:根据所述音节特征建立训练数据与检测数据库和识别模型;

s4:采集待鉴定鸣声并提取鸣声特征;

s5:根据识别模型对所述鸣声特征进行识别,生成识别结果。

优选的技术方案,所述步骤s2中包括步骤s20从音节中提取出用于描述识别对象特征的参数。

优选的技术方案,所述训练数据与检测数据库中的训练数据包括用于建立识别模型的音节。

优选的技术方案,所述训练数据与检测数据库中的测试数据包括用于评估模型准确度的音节。

本发明公开一种基于语音识别技术的生物多样性物种分析方法,具有以下优点:

采用算法分析的方式来对收集、转换并存储的生物多样性资源数据进行聚类分析,通过聚类分析结果来找出生物多样性分布规律,为生物多样性管理提供丰富的素材,同时扩展生物多样性分析功能。建立生物资源数据库,并利用强大的地理空间信息处理功能,将地理信息系统技术与数据库技术有机地结合,进行图库查询以及多种数据查询方法和输出方式。

结合生物多样性的分布规律,依托语音识别、语音交互等技术系统,识别物种类别和活动范围,建立一套生物行为数据管理与分布轨迹分析系统,实现物种管理和分析预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例所述基于语音识别技术的生物多样性物种分析方法包含声音采集与专家鉴定、根据确定的物种鸣声建立模式鸣声库、音节分割和音节特征的提取、建立训练数据与检测数据库、基于训练数据的模型构建和识别等过程。

训练数据即用于建立识别模型的音节。测试数据为评估模型准确度的音节。特征提取即从音节中提取出用于描述识别对象特征的参数,最后识别出确定的具体物种。

具体流程为:将原始声音材料经过去噪处理,从一段鸣声中提取出单个音节,随机分成训练数据库和检测数据库,然后提取出两个数据库中每个音节的特征参数,最后根据训练数据库的音节的特征参数建立每个物种的特征模版,用特征模版去匹配待识别检测数据库的音节特征,根据模版匹配程度以确定物种。

具体的还包括以下工作过程:

声音信号预处理

语音特征提取就是从数字信号中提取出与我们所要得到的主要信息相关的内容,一般会从视域和频域两个不同的角度去进行。这些特征可以从不同的角度去分类。通常,在进行特征提取之前,都要对原始序列做一系列的预处理,主要包括声道转换、预加重、重采样、组帧、加窗等。

声道转换:如果所要提取的语音特征不区分声道,则必须将多声道的语音转换成单声道。

预加重:预加重的目的就是只保留一定频率范围的信号。

重采样:语音信号可能来自不同的设备,录制的时候所设置的参数也不尽相同,所以需要对采样率进行重采样。

组帧:为了保证语音信号的连续性。

加窗:加窗就相当于把每一帧里面对应的元素变成它与窗序列对应元素的乘积。

有效声音片段提取

从自然界中直接采集得到的声音信号存在着大量的无声段、背景声音段或者动物声音夹杂过多杂音片段,这些片段统称为无效声音片段。这些片段是需要被剔除的片段,因为这些片段不仅会使系统的计算量大大的增加,同时还会使得系统的识别率大大的减低,这个时候就需要对整个信号进行检测,探测出有效声音片段的起点和终点,这个过程称为端点检测。

特征提取

常用的特征分为时域特征和频域特征。时域特征就是直接从时域上进行提取,也就是直接从数字信号中进行计算,而不需要对数字信号进行某种变换之后再提取特征;而频域特征则是先将信号进行傅里叶变换,得到频谱,然后从频谱上进行特征提取。声音识别中已知的特征有很多,而这些特征在一个系统中通常并不单独使用,而是作为一个组合使用在识别系统当中,但是对于不同的具体应用要选择不同的特征组合。因为对于一个特定系统来说,选择特征组合应该使得该特征组合使得种群内部的距离尽可能的小,而使得种群之间的距离尽可能的大,这样可以显著的提高系统的识别精度。

特征选择

依次利用单个特征对系统进行测试,以得到的平均准确率作为该特征的分类能力,然后以此分类能力为依据对每个特征进行由高到低的排序。依次选取分类能力最强的特征加入到特征向量中,并利用该特征向量对系统再一次进行测试。如此往复,直到当次选择的特征向量经过系统之后得出的平均准确率和上一次选择的特征向量经过系统后得出的平均准确率的差值是一个足够小的值。

语音识别和物种比对

通过录入大量生物物种语音作为训练数据,建立语音模板库。再根据前端采集的语音数据与模板库的数据进行比对分析和物种识别,识别算法一般采用经典的viterbi算法,该算法解决给定一个观察值序列(提取的语音特征)以及模型参数(训练的语音关键词模型),如何确定一个最佳状态序列的问题,得出各个训练模型最佳序列的输出概率值后选取概率最大的模型作为识别结果。由于任何语音特征数据经过模型后都会产生一个最佳序列,同时也会得出其对应的输出概率,所以场景中的各种语音数据与语音库匹配后都会有一个识别结果,因此语音识别引擎之后必须用拒识算法忽略这些非相关的语音数据的影响。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1