基于GoogLeNet网络模型鸟类种群识别分析方法与流程

文档序号：13804796阅读：567来源：国知局

本发明涉及一种鸟类识别的方法，特别是涉及一种基于googlenet网络模型的鸟类种群智能识别分析方法。

背景技术：

随着工业社会的发展给自然界带来的越来越沉重的负担，人们越来越注重人与自然的和谐相处。与传统的动物园观赏相比，越来越多的游客倾向于类似鸟语林式的半开放动物游览区。以鸟类动物园为例，这种开放式的动物园往往在山谷上方设立大型网架，形成相对封闭的较大空间，不同种类的鸟类在其间自由飞行、栖息，游客可以观赏到更为活泼的鸟儿，充分享受大自然的美妙与乐趣。

然而，此类动物园中，由于鸟类移动性较大，栖息地难以确定，如何设置标牌介绍某种特定鸟类的相关信息成为了一个亟待解决的问题。本文提出的一种基于googlenet网络模型的鸟类种群智能识别分析方法与系统，能够实时地根据用户拍摄的鸟类视频识别出鸟类种类，能够很好地解决这个问题。

同时，在航空产业中，鸟类识别问题也有着重要应用。鸟类和飞机在空中相撞导致的飞行事故，重者可使发动机失去动力，甚至使飞机坠毁，造成重大人员伤亡。故实时侦测空中是否存在鸟类对于飞机的安全航行而言，也有重要意义。

传统的鸟类识别的算法多是基于鸟的外形、红外热成像技术获取的静态图像特征等方式达到鸟类种类识别的目的。这些方法的缺陷在于，识别过程复杂，且识别效果不高。

经过对现有鸟类识别技术的检索发现，中国专利公开号为cn105069817a的专利记载了一种“鸟类识别方法”，公开日为2015年11月18日。该技术通过红外热成像技术追踪移动物体，并根据物体飞行轨迹、大小判断是否为鸟类，若是鸟类再通过红外热成像技术获取静态图像，通过对图像的背景、成像大小光斑的处理采集鸟的基本信息，与数据库中信息对比进行判别。这种方法采用先判别是否包含鸟类再判别鸟类种类的两次判别流程，在识别效果上达到了不错的效果，缺点是，需要追踪物体移动，对于静止的鸟类不能识别，且不能实时返回判别结果。

中国专利公开号为cn106534806a的专利记载了一种“基于ar增强现实技术的鸟类识别娱乐系统”，公开日为2017年03月22日。该技术首先建立鸟类的特征识别数据库，存储不同种类鸟类的外形特征数据，再通过视频采集单元，获取带有鸟类静止或运动的视频，分析视频帧中鸟类的种类。该方法仅依靠鸟类的外形特征识别，存在一定的误差。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

技术实现要素：

针对现有技术中存在的上述不足，本发明的目的是提供一种基于googlenet网络模型鸟类种群识别分析方法，该方法填补了利用深度学习模型进行鸟类识别的相关的专利的空白，识别准确率高，且能实时输出、更新识别结果，适用于多种场景。

本发明是通过下述技术方案来解决上述技术问题的。

一种基于googlenet网络模型鸟类种群识别分析方法，包括如下步骤：

步骤s1，建立训练图片样本数据库，得到用于训练googlenet网络模型的样本数据库；

步骤s2，用不同种类图片样本训练googlenet网络模型，得到用于判别是否为鸟类图片的googlenet网络a；

步骤s3，用不同种类鸟类图片训练googlenet网络模型，得到用于精确判别鸟类种类的googlenet网络b；

步骤s4，对实时输入的待识别视频解帧成待识别图片流；

步骤s5，对步骤s4中得到的图片流中的每一帧图片，依次输入googlenet网络a，判别是否为鸟类图片；

步骤s6，若步骤s5中判断为是，则将该图片输入googlenet网络b，识别得到图片包含的鸟类种类；

步骤s7，步骤s4中图片流经步骤s5～步骤s6的两次识别后得到图片识别结果流，并从图片识别结果流中输出最终识别结果。

优选地，所述步骤s1包括如下步骤：

步骤s1.1，用mysql制作样本管理工具建立包含不同种类图片的样本数据库a；

步骤s1.2，用mysql制作样本管理工具建立包含不同种类鸟类图片的样本数据库b。

优选地，所述步骤s1.1和s1.2中，建立样本数据库a和样本数据库b均包括如下步骤：

步骤a，用mysql制作能够实现建立、管理用户数据库功能的样本管理工具；

步骤b，在样本管理工具中新建图片数据库；

步骤c，在新建图片数据库中新建图片类别；

步骤d，录入图片样本记录，每个图片样本记录均包括样本id、样本名称和样本路径；

其中，样本数据库a包含多种鸟类和非鸟类类型的图片；样本数据库b包含多种不同种类的鸟类图片。

优选地，所述步骤s2包括如下步骤：

步骤s2.1，从样本数据库a中读出图片样本记录；

步骤s2.2，以图片样本作为训练数据，以样本id作为标签，训练googlenet网络模型。

优选地，所述步骤s3包括如下步骤：

步骤s3.1，从样本数据库b中读出图片样本记录；

步骤s3.2，以图片样本作为训练数据，以样本id作为标签，训练googlenet网络模型。

优选地，所述步骤s4中，用opencv工具将实时输入的待识别视频解帧成待识别图片流。

优选地，所述步骤s7包括如下步骤：

步骤s7.1，从图片识别结果流中依次取连续5帧图片的识别结果；

步骤s7.2，统计5帧结果中出现鸟类的种类及鸟类种类出现的频次，得到出现频次最多的鸟类种类，作为此5帧的鸟类识别结果；

步骤s7.3，判断步骤s7.2中得到的识别结果与前5帧得到的识别结果是否相同，若相同则返回步骤s7.1和步骤s7.2，若不同则更新显示结果；

步骤s7.4，重复步骤s7.1～步骤s7.3，直至图片识别结果流中没有未读取的识别结果为止。

与现有技术相比，本发明具有如下有益效果：

1、本发明采用了深度学习的googlenet网络模型，将深度网络学习模型在视频图像处理领域的巨大优势应用于鸟类识别这一特定的实际应用场合中，极大地提升了鸟类识别的可信程度，也大大简化了识别流程，降低了识别时间，达到了实时识别的效果。能够应用于上文提到的包括半开放式动物园观赏和航空安全检测等多种应用场景。

2、本发明填补了利用深度学习模型进行鸟类种群识别的相关的专利的空白，识别准确率高，且能实时输出、更新识别结果，适用于多种场景。

附图说明

图1为本发明基于googlenet网络模型的鸟类种群智能识别分析方法与系统的模型框架图。

图2为用样本管理工具建立训练图片样本数据库的流程图。

图3为每个样本记录的组成表示。

图4为googlenet网络结构模型图。

图5为googlenet网络结构模型图中inception模块结构图。

图6为根据图片识别结果流输出识别结果的流程图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

实施例

如图1所示，本实施例提供了一种基于googlenet网络模型的鸟类种群智能识别分析方法，其步骤主要包括：

步骤1，用mysql制作样本管理工具，建立起训练图片样本数据库，得到用于训练googlenet网络模型的样本数据库；

步骤2，用不同种类图片样本训练googlenet深度学习网络模型，得到可判别是否为鸟类图片的googlenet网络1；

步骤3，用不同种类鸟类图片训练googlenet深度学习网络模型，得到可精确判别鸟类种类的googlenet网络2；

步骤4，对实时输入的待识别视频解帧成待识别图片流；

步骤5，对步骤4中得到的图片流中的每一帧图片，依次输入googlenet网络1，判别是否为鸟类图片；

步骤6，若步骤5中判断为是，则将该图片输入googlenet网络2，识别得到图片包含的鸟类种类；

步骤7，步骤4中图片流经步骤5～步骤6的两次识别后可得到图片识别结果流，从图片识别结果流中输出最终识别结果。

所述步骤1包括如下步骤：

步骤1.1，用mysql制作样本管理工具建立包含不同种类图片的样本数据库1；

步骤1.2，用mysql制作样本管理工具建立包含不同种类鸟类图片的样本数据库2；

所述步骤1.1和1.2中，建立样本数据库步骤包括：

1)用mysql(关系型数据库管理系统)制作可实现建立、管理用户数据库功能的样本管理工具；用样本管理工具建立训练样本数据库的流程如图2所示，利用此样本管理工具可以很方便的实现录入、删除、修改样本记录。

2)在样本管理工具中新建图片数据库；

3)在新建图片数据库中新建图片类别；

4)录入图片样本记录，如图3所示，每个图片样本记录包含样本id、样本名称和样本路径；

其中，步骤1.1中样本数据库包含非鸟类(如汽车、人、背景等)、鸟类类型的图片，图片样本记录中的样本id即为汽车、人、背景、鸟类等标签；本方法的步骤1.2中样本数据库2包含44种不同种类的鸟类图片，图片样本记录中的样本id即为鸟类种类标签。

所述步骤2包括如下步骤：

步骤2.1，从步骤1.1中的样本数据库1中读出图片样本记录，包含样本路径和样本id等；

步骤2.2，以图片样本作为训练数据，样本id作为标签，训练googlenet网络模型；深度学习神经网络模型近年来在图像识别领域取得了巨大成功，一般来说，提升网络性能最直接的办法就是增加网络深度和宽度，这也就意味着巨量的参数，但是巨量参数容易产生过拟合，也会大大增加计算量。一种解决方法是：将全连接和部分卷积转化为稀疏连接。然而，使用随机稀疏连接可能导致稀疏数据的不均匀，大大降低了计算机软硬件的计算效率。问题的关键就转变为：如何既保持网络结构的稀疏性，又能利用密集矩阵的高计算性能。googlenet网络模型的主要思想就是通过构建密集的块结构来近似最优的稀疏结构，从而达到提高性能而又不大量增加计算量的目的。googlenet网络模型的结构图如图4与图5所示，该模型共22层，相比于其他热门深度学习网络模型，如alexnet和vgg等小很多，性能优越。

所述步骤3包括如下步骤：

步骤3.1，从步骤1.2中的样本数据库2中读出图片样本记录，包含图片样本路径和样本id等；

步骤3.2，以图片样本作为训练数据，样本id作为标签，训练googlenet网络模型；

所述步骤4中，用opencv工具(跨平台计算机视觉库)将实时输入的待识别视频解帧成待识别图片流。

如图6所示，所述步骤7包括如下步骤：

步骤7.1，从图片识别结果流中依次取连续5帧图片的识别结果；

步骤7.2，统计5帧结果中出现鸟类的种类及鸟类种类出现的频次，得到出现频次最多的鸟类种类，作为此5帧的鸟类识别结果；

步骤7.3，判断步骤7.2中得到的识别结果与前5帧得到的识别结果是否相同，若相同则返回步骤7.1，若不同则更新显示结果；

步骤7.4，重复步骤7.1～步骤7.3，直至图片识别结果流中没有未读取的识别结果为止。

本实施例填补了利用深度学习模型进行鸟类识别的相关的专利的空白，识别准确率高，且能实时输出、更新识别结果，适用于多种场景。

以上所述的具体实施例，对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋兴浩;孙锬锋;许可
技术所有人：上海交通大学
我是此专利的发明人

上一篇：一种基于地理实体编码的空间数据库检索方法与流程
上一篇：自动合成图片推送方法、装置及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。