一种基于神经网络和视觉分析的图像识别方法与流程

文档序号:21826579发布日期:2020-08-11 21:49阅读:235来源:国知局
一种基于神经网络和视觉分析的图像识别方法与流程

本发明涉及图像处理技术领域,尤其涉及一种基于神经网络和视觉分析的图像识别方法。



背景技术:

神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。深度神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。

多媒体识别是通过计算机视觉或其他传感器等多媒体手段检查对象的特征,进行辨认和判断的一种技术,核心在于如何寻找对象的特征并作取样,提取其唯一性的内容,转换为数字信息,并基于相关算法识别不同的目标和对象。其中视觉分析主要是通过将场景中背景和目标分离进而分析并追踪在摄像机场景内出现的目标。用户可以根据的视频内容分析功能,通过在不同摄像机的场景中预设不同的报警规则,一旦目标在场景中出现了违反预定义规则的行为,系统会自动发出报警,监控工作站自动弹出报警信息并发出警示音,用户可以通过点击报警信息,实现报警的场景重组并采取相关措施。

因此,亟待提供一种结合神经网络和视觉分析的图像识别方法。



技术实现要素:

本发明所要解决的技术问题是提供一种能够高效识别图像的基于神经网络和视觉分析的图像识别方法。

为解决上述问题,本发明所采取的技术方案是:

一种基于神经网络和视觉分析的图像识别方法,所述方法包括:

采集训练样本图像和类别,并将所述训练样本图像按照类别顺序建立训练样本集;

根据所述训练样本集生成图像集数;

基于所述图像集数,使用深度神经网络或hog+svm算法对所述训练样本集进行训练,得到训练器模型;

获取待识别图像,利用所述训练器模型处理所述待识别图像后得到训练后的图像,通过视觉分析对所述训练后的图像进行识别。

作为本发明的进一步改进,所述基于所述图像集数,使用深度神经网络对所述训练样本集进行训练,得到训练器模型,包括:

设定预先建立的深度神经网络参数的初始值,所述深度神经网络包括输入层、中间变量层和输出层,所述中间变量层的节点包括各个输出神经元节点的兴奋型变量节点和抑制型变量节点,所述中间变量层的各节点分别与所述输入层的每个输入神经元节点通过可变权值连接,所述可变权值包括可变的长期权值和短期权值,所述输出层的每个输出神经元节点分别与所述中间变量层中对应的兴奋型变量节点和抑制型变量节点相连接;

根据所述图像集数对所述神经网络进行训练,直到各个神经元的可变权值的变动在预设允许范围内结束训练。

作为本发明的进一步改进,所述参数包括用于调节长期权值和短期权值对输出神经元的影响比例的变量σ、隐藏变量的变化步长δ、权值的变化步长ρ、神经元非线性函数的变化曲率a、偏移量s和随训练次数变化的变量b。

作为本发明的进一步改进,所述通过视觉分析对所述训练后的图像进行识别,包括:

对所述训练后的图像进行图像预处理得到预处理后的图像,所述图像预处理包括图像转换、图像增强、滤波和水平矫正;

对所述预处理后的图像进行图像分析得到分析后的图像,所述图像分析包括:图像分割、目标定位、目标跟踪和特征提取;

对所述分析后的图像进行图像理解识别目标。

作为本发明的进一步改进,所述滤波方式为高斯滤波,所述滤波包括:

采用以下高斯混合模型公式对所述处理后的图像进行背景建模:

其中,p(xt)为t时刻被观测像素值x出现的概率,k为混合系数,ωi,t为t时刻第i个高斯分量的权重,η(xt,μi,t,∑i,t)为第i个均值为μi,t,协方差为∑i,t的高斯分量的概率密度函数。

作为本发明的进一步改进,所述图像分割方法包括阈值分割方法、边缘检测方法、区域提取方法、灰度图像分割方法、彩色图像分割方法、文理图像分割方法、直方图分割方法和小波变换分割方法。

采用上述技术方案所产生的有益效果在于:

本发明所提供的一种基于神经网络和视觉分析的图像识别方法,方法包括:采集训练样本图像和类别,并将训练样本图像按照类别顺序建立训练样本集;根据训练样本集生成图像集数;基于图像集数,使用深度神经网络或hog+svm算法对训练样本集进行训练,得到训练器模型;获取待识别图像,利用训练器模型处理待识别图像后得到训练后的图像,通过视觉分析对训练后的图像进行识别,该图像处理方法可以放到监控现场前端,实现车牌颜色及数字的即时识别。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于神经网络和视觉分析的图像识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对发明进行清楚、完整的描述。

图1是本发明实施例提供的一种基于神经网络和视觉分析的图像识别方法的流程图,该方法包括:

s101、采集训练样本图像和类别,并将所述训练样本图像按照类别顺序建立训练样本集。

具体的,首先采集训练样本图像且分不同的类别,每类别的图像的样本数相同,例如采集的图像共有10类,第一类图像的样本数为1000,则其它9类图像的样本数也为1000。然后将训练样本按照类别顺序建立训练样本集,即输入样本的顺序为第一类图像样本、第二类图像样本、第三类图像样本、……、第十类图像样本、第十一类图像样本。

s102、根据所述训练样本集生成图像集数。

s103、基于所述图像集数,使用深度神经网络或hog+svm算法对所述训练样本集进行训练,得到训练器模型。

深度神经网络学习包含了4个基本组成环节。环境和知识库是以某种知识表示形式表达的信息的集合,分别代表外界信息来源和系统所具有的知识;环境向系统的学习环节提供某些信息,而学习环节则利用这些信息对系统的知识库进行改进,以提高系统执行环节完成任务的效能。“执行环节”根据知识库中的知识完成某种任务,同时将获得的信息反馈给学习环节。

在具体的应用中,环境,知识库和执行部分决定了具体的工作内容,学习部分所需要解决的问题完全由上述3部分确定。影响学习系统设计的最重要的因素是环境向系统提供的信息,或者更具体地说是信息的质量。知识库里存放的是指导执行部分动作的一般原则,但环境向学习系统提供的信息却是各种各样的。如果信息的质量比较高,与一般原则的差别比较小,则学习部分比较容易处理。

知识库是影响学习系统设计的第二个因素。知识的表示有多种形式,比如特征向量、一阶逻辑语句、产生式规则、语义网络和框架等等。这些表示方式各有其特点,在选择表示方式时要兼顾以下4个方面:表达能力强、易于推理、容易修改知识库、知识表示易于扩展。

对于知识库最后需要说明的一个问题是学习系统不能在全然没有任何知识的情况下凭空获取知识,每一个学习系统都要求具有某些知识理解环境提供的信息,分析比较,做出假设,检验并修改这些假设。因此,更确切地说,学习系统是对现有知识的扩展和改进。

执行部分是整个学习系统的核心,因为执行部分的动作就是学习部分力求改进的动作。采用先进的基于机器学习的海量数据存储、管理、分析手段,建立典型场景的多媒体数据库,开展智能监控技术研究是完全可行的,并且具有重要的理论意义和应用价值。

使用深度神经网络对所述训练样本集进行训练,得到训练器模型的方法包括以下步骤:

s1031:设定预先建立的深度神经网络参数的初始值,所述深度神经网络包括输入层、中间变量层和输出层,所述中间变量层的节点包括各个输出神经元节点的兴奋型变量节点和抑制型变量节点,所述中间变量层的各节点分别与所述输入层的每个输入神经元节点通过可变权值连接,所述可变权值包括可变的长期权值和短期权值,所述输出层的每个输出神经元节点分别与所述中间变量层中对应的兴奋型变量节点和抑制型变量节点相连接。

其中,神经网络的参数包括用于调节长期权值和短期权值对输出神经元的影响比例的变量σ、隐藏变量的变化步长δ、权值的变化步长ρ、神经元非线性函数的变化曲率a、偏移量s和随训练次数变化的变量b,需要对神经网络的参数设置初始值。本实施例中,σ一般设置在0.1至0.3之间;δ一般设置在0.5至3之间;ρ设置在0至1之间,且不为0;a设置在30至100之间;b的初始值设置为0.5;s设置为0.05至0.15之间。在其他实施例中,这些参数可为其他值。此外,a分为a+和a-,且a+和a-初始值相等;b分为b+和b-,且b+和b-初始值相等;ρ分为ρ+和ρ-,且ρ+和ρ-初始值相等。

s1032:根据所述图像集数对所述神经网络进行训练,直到各个神经元的可变权值的变动在预设允许范围内结束训练。

s104、获取待识别图像,利用所述训练器模型处理所述待识别图像后得到训练后的图像,通过视觉分析对所述训练后的图像进行识别。

s1041:对所述训练后的图像进行图像预处理得到预处理后的图像,所述图像预处理包括图像转换、图像增强、滤波和水平矫正。

所述滤波方式为高斯滤波,采用高斯混合模型进行背景建模,这种模型能够根据样本值(像素点的颜色值)进入模型的不同频率,以及和模型中各个分布成功匹配的不同频率,来不断更新模型中所有高斯分布的参数,即对各个高斯分布的权重、均值和协方差等参数进行训练,使背景像素值分布收敛于一个或某几个高斯分布,实现背景像素值的聚类,从而实现对背景的建模。图像中每个像素点的混合高斯模型可以表示为:

其中,p(xt)为t时刻被观测像素值x出现的概率,k为混合系数,ωi,t为t时刻第i个高斯分量的权重,η(xt,μi,t,∑i,t)为第i个均值为μi,t,协方差为∑i,t的高斯分量的概率密度函数。

高斯混合背景建模算法根据当前像素值与模型中的k个高斯分布的匹配情况,对模型进行更新。如果像素值在某高斯分布均值的2.5倍方差范围之内,称之为成功匹配上该分布。如果当前像素值与k个高斯分布都不匹配,则用一个新的高斯分布取代权重值最小的那个分布,新的分布的均值即为当前的像素值,同时为它分配一个较大的初始协方差和一个较小的初始权重值。

s1042:对所述预处理后的图像进行图像分析得到分析后的图像,所述图像分析包括:图像分割、目标定位、目标跟踪和特征提取。

所述图像分割方法包括阈值分割方法、边缘检测方法、区域提取方法、灰度图像分割方法、彩色图像分割方法、文理图像分割方法、直方图分割方法和小波变换分割方法。

s1043:对所述分析后的图像进行图像理解识别目标。

主要通过图像序列的语义理解识别目标,图像序列的语义理解就是通过对监控场景中的目标物行为的分析理解,给出相应的事件与行为描述。在动态图像的语义理解中,如何对行为建立好的模型从而进行行为的识别并与语义相联系是其中最为关键的内容。目前已经存在的行为建模方法有:模版匹配方法、框架模型、状态空间模型、神经网络模型和语义化的推理模型等。

基于模版匹配的方法,首先把一个图像序列转化成为一个静态的形状模型,然后,通过与预先存储的行为原型的比较进行识别。它的优点在于计算复杂度低且简单易行,但是,它对噪声和运动的时间间隔内的变化比较敏感。框架模型在动态图像语义化理解中经常用来对运动进行建模,采用事例框架来对行为建模。这种方法比较适合对静态图像进行解释,对比较复杂的动态场景中发生的运动来建立该模型不太合适。状态空间方法把每一种静态姿势定义为一个状态,状态空间的交互关联用一定的概率来表示。任意运动序列都通过状态表示的不同姿势间的某种组合来实现,组合概率的最大值作为行为分类的标准。神经网络具有非线性映射的能力,可以采用神经网络来实现从几何化的描述到语义概念之间的映射。神经网络具有学习能力,使得它能够通过学习得到行为模型,但是神经网络无法合理利用已知的知识。语义化的推理网络是一种常用的知识表达结构,同时也是一种推理结构,被广泛地用于动态图像序列的语义理解。

本发明所提供的一种基于神经网络和视觉分析的图像识别方法,方法包括:采集训练样本图像和类别,并将训练样本图像按照类别顺序建立训练样本集;根据训练样本集生成图像集数;基于图像集数,使用深度神经网络或hog+svm算法对训练样本集进行训练,得到训练器模型;获取待识别图像,利用训练器模型处理待识别图像后得到训练后的图像,通过视觉分析对训练后的图像进行识别,该图像处理方法可以放到监控现场前端,实现车牌颜色及数字的即时识别。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1