基于层次时间记忆算法的图像理解系统及其图像理解方法

文档序号:6367178阅读:161来源:国知局
专利名称:基于层次时间记忆算法的图像理解系统及其图像理解方法
技术领域
本发明涉及图像语义理解,特别是一种基于层次时间记忆算法的图像理解系统及图像理解方法,具体是指ー种基于层次时间记忆算法,对图像的多个属性进行识别,根据识别结果添加语义标签,将图像内容信息转化成自然语言描述的图像理解的方法。
背景技术
图像理解(Image Understanding, IU)就是对图像的语义理解。它是以图像为对象,知识为核心,研究图像中有什么目标、目标之间的相互关系、图像是什么场景以及如何应用场景的ー门学科。图像理解属于数字图像处理的研究内容之一,属于高层操作。其重点是在图像分析的基础上进一歩研究图像中各目标的性质及其相互关系,并得出对图像内容含义的理解以及对原来客观场景的解释,进而指导和规划行为。图像理解所操作的对象是从描述中抽象出来的符号,其处理过程和方法与人类的思维推理有许多相似之处。目前常用的图像理解方法主要是先使用ー些图像处理算法对图像进行特征提取,然后再使用图像识别算法和推理算法对提取出的特征进行分类识别,常用的图像处理算法包括快速傅利叶变换、边缘提取等算法,常用的图像识别和推理算法包括支持向量机(SVM)、隐藏马尔科夫模型(Hidden Markov Models, HMM)和矩特征Zernike矩等,从算法的实现上来看,目前常用的图像处理算法普遍存在着计算量大的缺点,隐藏马尔科夫模型中已有的ニ维Markov模型存在着局部依赖性强、计算过程复杂难以编程实现的缺点,矩特征Zernike矩对图像的识别效果容易受參数的影响,识别波动率大。层次时间记忆是ー种新型的算法模型,模仿了人类新大脑皮层的结构和信息处理方式,应用了贝叶斯网络中的节点间信息持续共享原理和信度传播原理。层次时间记忆网络是ー个树形多层的节点层次结构,包括输入层、中间层和输出节点,其中输入层中包含有多个输入层节点,中间层中包含有多个中间层节点,而且层次时间记忆网络中的每个节点均包含ー个具有计算功能的计算单元和ー个具有存储功能的存储单元,并且接收到的信息在垂直的范围内可以循环传递。作为ー种新的算法模型,层次时间记忆算法模型以其抗噪声、容错、自适应、自学能力强和识别于一体等特点受到研究人员的重视,在模式识别领域中得到探索性的应用。本发明提出的基于层次时间记忆算法的图像理解系统和图像理解方法,针对图像理解的需求,应用了ー种新的、运算量更小的层次时间记忆算法,并结合了数据库技术,使得图像理解系统更容易实现,而且具有更强的灵活性,并克服了采用传统的图像理解方法计算量大、实现困难等缺点,可以广泛的应用在非结构化数据存储、个性化网络服务和安防监控等多种领域。

发明内容
本发明公布了一种基于层次时间记忆算法的图像理解系统及其图像理解方法,根据本发明所述的图像理解系统和图像理解方法,可以有效的将图像内容信息转化为自然语言描述,实现对图像内容的深度理解。本发明的技术解决方案如下一种基于层次时间记忆算法的图像理解系统,其特点在于包括依次连接层次时间记忆网络训练模块、层次时间记忆网络数据库和图像理解模块,所述的层次时间记忆网络训练模块包括图像存储子模块和训练实施子模块,所述的图像理解模块包括读取子模块和理解实施子模块,其连接关系是所述的图像存储子模块的输入端即层次时间记忆网络训练模块的输入端,所述的图像存储子模块的输出端与所述的训练实施子模块的输入端相连,所述的训练实施子模块的输出端与所述的层次时间记忆网络数据库的输入端相连,所述的读取子模块的第一输入端供接收外部待理解目标图像,该读取子模块的第二输入端与所述的层次时间记忆网络数 据库的输出端相连,读取子模块的输出端与所述的理解实施子模块的输入端相连,该理解实施子模块的输出端即为本系统的输出端。利用上述的图像理解系统的图像理解方法,其特征在于该方法包括以下步骤a)所述的层次时间记忆网络训练模块的输入端接收训练图像,构建训练图像集P并存入所述的图像存储子模块;b)所述的训练实施子模块利用训练图像集P对层次时间记忆网络进行训练;c)将训练好的层次时间记忆网络存入所述的层次时间记忆网络数据库;d)所述的图像理解模块接收外部待理解的目标图像op,利用层次时间记忆网络数据库中存储的各层次时间记忆网络对所述的目标图像op进行理解。所述的构建训练图像集P的过程如下根据实际需求,用户有目的地选取具有代表性的分属n个类别的若干图像组成训练图像集P,并且将所述的图像按类别存放在不同的图像组中,并为每个图像组设置语义标签,即P = {(SP1, Iabel1), (SP2, Iabel2), ... (SPi, Iabeli), ... (SPn, labeln)},n ^ I其中SPi为第i个图像组,Iabeli为第i个图像组的语义标签,Iabeli是SPi所属类别的自然语言描述,每ー个图像组中又包含若干图像,为图像组中每个图像进行编号,第i个图像组SPi表示为SPi = {pia, pij2,…Pi,」,上式表示图像组SPi中的每ー个图像Pu的第一个下标i代表此图像所在的图像组,并且Pm也有相应的语义标签Iabeli,然后用户将训练图像集P输入到层次时间记忆网络训练模块的输入端,将所述的训练图像集P的图像按图像组和语义标签分别存储在图像存储子模块(1-1)。所述的训练实施子模块对层次时间记忆网络进行训练,包括以下步骤b-1)所述的训练实施子模块创建ー个未经训练的层次时间记忆网络uHTM,以下简称为uHTM,uHTM是ー个树形多层的节点层次结构,包括输入层、中间层和ー个输出节点,所述的输入层包含NXM个输入层节点,所述的中间层包含eXf个中间层节点,每个中间层
节点与所述的输入层中IxmClマ’ m ニア)个输入层节点相连,所述的N,M,且e和f可分别整除N和M,所述的输出节点与所述的中间层的e X f个中间层节点相连,所有的节点都包含一个计算单元和ー个存储单元;b-2)所述的训练实施子模块对存储在图像存储子模块的训练图像集P中的每个图像Pi, p采用分量法、最大值法或加权 平均法等图像灰度化处理方法,提取其ニ维灰度信息,得到ニ维矩阵Ai, j ;b-3)所述的训练实施子模块采用最邻近插值、双线性插值或三次卷积法等常用图像缩放算法将所述的ニ维矩阵Ai, j转换成大小为NXM的ニ维矩阵Bi, j,并且Bi, j与训练图像集P中的每个图像Pu对应着相同的图像组,所述的ニ维矩阵集B =…
R R }
Di,j,Di,j+l J ,b-4)空间模式集的学习,包括下列步骤①设定训练初始值所述的训练实施子模块设定欧氏距离參数D和欧氏距离參数增量AD,并将uHTM的中间层中每ー个中间层节点的空间模式集Y和uHTM的输出节点的空间模式集Z初始化为空集,将uHTM的输出节点的时间模式集Time初始化为空集,并设定uHTM的输出节点的空间模式集Z中所能包含的聚类矩阵的个数最大值为N。,并保存在相应节点的存储单元中;②所述的ー个输入层节点按B1,いB1,…ん彳,BiJ1…的顺序读取所述的ニ维矩阵集B = {Bia,…Bi,」.,Bij J+1-}中的ニ维矩阵Bi,j保存在相应节点的存储单元;③将该ニ维矩阵传递给与此输入层节点相连的uHTM的中间层节点;④所述的中间层节点,将从与其相连的I Xm个输入层节点接收到的ニ维矩阵
组成ー个IXm的矩阵Ma,并保存到该中间层节点的存储单元中,然后该中间层节点的计算単元对该中间层节点的空间模式集Y进行判断并进行处理当空间模式集Y为空集,则直接将该IXm的矩阵Ma作为ー个聚类矩阵加入到该中间层节点的空间模式集Y中;当空间模式集Y不为空集,则此中间层节点的计算单元按下列公式计算出矩阵Ma与空间模式集Y中各聚类矩阵的欧氏距离d(Ma,0)d (Ma, 0) = H (Ma(x, y) - 0(x, y))2
\ X=I タ=1其中0为空间模式集Y中的一个聚类矩阵,Ma (X,y)和0(x,y)分别代表矩阵Ma与矩阵0中坐标为(x,y)的值;当所述的欧氏距离d(Ma,0) > D,则保持空间模式集Y不变,当所述的d(Ma,0)彡D,则将该IXm的矩阵Ma作为ー个新的聚类矩阵加入到空间模式集Y中,⑤所有的中间层节点按步骤④处理后,然后计算出中间层节点的空间模式集Y中的各聚类矩阵的平均值矩阵Me,然后将该平均值矩阵Me传递给uHTM的输出节点;⑥所述的输出节点从各个中间层节点接收到的eXf个平均值矩阵Me正好可以组成ー个NXM的矩阵Mt,并将该Mt存储在所述的输出节点的存储单元中,然后所述的输出节点的计算单元检查该输出节点的存储单元所存储的空间模式集Z并作如下处理当所述的空间模式集Z为空集,则将输入矩阵Bi,j作为ー个聚类矩阵加入空间模式集Z中;当空间模式集Z不为空,则计算矩阵Mt与空间模式集Z中各聚类矩阵的欧氏距离,当所述的欧氏距离大于或等于所述的欧氏距离參数D,维持现状,若所述的欧氏距离小于欧氏距离參数D,则将所述的输入的ニ维矩阵作为ー个新的聚类矩阵加入到所述的空间模式集Z,聚类矩阵数N+1 ;⑦当聚类矩阵数=Nc吋,则转入步骤⑧,Nc为本输出节点的空间模式集Z中聚类矩阵的个数的最大值N。;当聚类矩阵数< N。,且ニ维矩阵集B中所有的ニ维矩阵未被读取完,则返回步骤②,继续进行空间模式集的学习; 当聚类矩阵数< N。,且ニ维矩阵集B中所有的ニ维矩阵已被读完,则令欧氏距离參数D = D+A D,返回步骤②重新进行空间模式集的学习;⑧空间模式集的学习结束,将空间模式集Z =,…CaJ保存在输出节点的存储单元中,其中Cg代表ー个聚类矩阵,即输入的ニ维矩阵集B中的ー个NXM的ニ维矩阵
Bi,j°b-5)时间模式集的学习①所述的uHTM的输出节点的计算单元将所述的空间模式集Z = Ic1,…,cg,
中的聚类矩阵分成n组,分组方法为,由空间模式集的学习过程可知,空间模式集Z = Jc1,…,cg,中的姆ー个聚类矩阵都是ニ维矩阵集B = {Bia, Blj2-^Bijl,…も丨Bi,j+1...}中的一个ニ维矩阵,当ニ维矩阵Cg的第一个下标为i,则将Cg归入分组Gi中,分组之后,就得到一个时间模式集Time = (G1,…Gi,…Gj,其中分组Gi中包含qi个聚类矩阵;②uHTM的输出节点的计算单元根据ニ维矩阵集B中不同ニ维矩阵输入的前后关系计算出时间邻接矩阵T,为了计算时间邻接矩阵,首先要计算出时间模式集Time =(G1,…Gi, -GJ中各分组中聚类矩阵的平均值矩阵E1,…Ei,…En,其中平均值矩阵Ei是分组Gi中包含的qi个聚类矩阵的平均值矩阵,由以上计算过程可知,平均值矩阵Ei的大小也为NXM,然后利用以下公式计算出时间邻接矩阵T :
I n-\T = -Yj(Em-E1)
n !=1其中n为时间模式集Time = (G1, -Gi, ".Gj中分组的个数,得到的时间邻接矩阵T也是ー个NXM的ニ维矩阵,并将时间邻接矩阵T保存在uHTM的输出节点的存储单元中;③uHTM的输出节点的计算单元依据以下公式计算时间模式集Time中姆ー个分组Gi对应的时间邻接量h ^ Z Zr(^v)
qt u=i v=i其中 是分组Gi中聚类矩阵的数量,T (u,v)为时间邻接矩阵T中坐标为(U,v)的元素;④uHTM中的输出节点将所述的空间模式集Z、时间模式集Time以及时间模式集Time中各分组Gi对应的时间邻接量h存储在输出节点的存储单元中,获得训练好的层次时间记忆网络tHTM ;b-5)训练实施子模块(1-2)将训练后的层次时间记忆网络tHTM用可扩展标记语言(XML)保存成XML文件,将此XML文件的文件名XMLname、存储路径XMLpath、层次时间记忆网络输入端的大小InputSize、可识别语义标签的数量LabelNum和语义标签集Labels组成数据帧HTMInfo,其中Labels的表示方法为Labels = " Iabelflabel2+...+Iabeli+...+Iabeln"即各语义标签Iabeli按其下标i的大小依次排列,中间用字符“ + ”相连,作为分割各语义标签的标志位,然后将HTMInfo通过层次时间记忆网络训练模块的输出端发送到层次时间记忆网络数据库进行存储。所述的将训练好的层次时间记忆网络存入所述的层次时间记忆网络数据库的具体过程是在层次时间记忆网络数据库中创建数据表trainedHTM,表的结构如以下SQL语言所述CREATE TABLE IF NOT EXISTS trainedHTM(XMLname CHAR (255) NOT NULL,XMLpath CHAR (255) NOT NULL,InputSize CHAR(255) NOT NULL,LabelNum INT NOT NULL,Labels CHAR(255) NOT NULL)其中XMLname为保存有训练好的层次时间记忆网络的XML文件的文件名,XMLname为上述XML文件的存储路径,InputSize为输入层大小,LabelNum为可识别的语义标签的数目,Labels为语义标签集,CHAR表示此字段为字符格式,INT表示此字段为整数格式,NOT NULL表示此字段不能为空,然后依照上述数据表trainedHTM的数据结构,将从层次时间记忆网络训练模块的输出端接收到的数据帧HTMInfo存入层次时间记忆网络数据库的数据表trainedHTM中;所述的对所述的目标图像op进行理解,包括以下步骤I)所述的读取子模块的第一输入端接收待理解的目标图像op存储在读取子模块(3-1);2)所述的读取子模块的第二输入端从层次时间记忆网络数据库中输出端读取数据表trainedHTM中的读取与待理解的目标图像op相关的数据项HTMdatak,并将其发送给理解实施子模块;3)理解实施子模块从所述的数据项HTMdatak中解析出训练好的层次时间记忆网络tHTMk的XML文件的文件名XMLnamek, XML文件的存储路径XMLpathk,层次时间记忆网络输入层大小InputSizek,可识别的语义标签的数量LabelNumk和语义标签集Labelsk,并根据存储路径XMLpathk加载XML文件,解析出训练好的层次时间记忆网络tHTMk,并设定判定阈值th ;4)理解实施子模块采用分量法、最大值法或加权平均法等图像灰度化处理方法,对所述的目标图像OP的ニ维灰度信息,得到ニ维矩阵A2 ;采用最邻近插值、双线性插值或三次卷积法等常用图像缩放算法对ニ维矩阵A2进行大小变换,得到目标矩阵B2,使目标矩阵B2的大小与所述的层次时间记忆网络tHTMk的输入层的大小InputSizek —致;5)所述的tHTMi的输入层节点读入目标矩阵B2对应元素的数值;6)理解实施子模块计算目标矩阵B2与tHTMk中输出节点的空间模式集Z = h,…,中各聚类矩阵的欧氏距离,并依据空间模式集Z = h,…,Cg,'"CaJ中各聚类矩阵Cg在输出节点的时间模式集Time = (G1, -Gi,…Gj中的分组确定Dg对应的分组Gi,即如果Cg位于分组Gi中,则Dg就对应着分组Gi ;7)理解实施子模块利用下式计算目标图像op与各语义标签Iabeli相匹配程度的中间概率值tprc^ tProl =tl — ^_,Dg
其中Ai为tHTMi的输出节点保存的时间邻接量,Dg为目标矩阵B2与属于分组Gi中各聚类矩阵Ci的欧氏距离,Qi为Gi中聚类矩阵的数量;8)计算归一化概率值Proi
toro. pr°l ^tpr0j
i=\其中n为输出节点的时间模式集Time = {Gp -Gi,…Gj中的分组的个数,依上述归ー化公式,可以保证Proi位于0和I之间;9)将归ー化概率值Proi与事先设定好的判定阈值th进行比较,当Proi ^ th,则将语义标签Iabeli添加到所述的目标图像op的语义描述字段S中,转入步骤10)当pr0i <th,则不将语义标签Iabeli添加到此目标图像op的语义描述字段S中,并转到步骤2),所述的读取子模块从层次时间记忆网络数据库中读取其他数据项;当Pr0i < th,且遍历层次时间记忆网络数据库中的所有数据项,则转入步骤11);10)图像理解模块通过其输出端将目标图像op的语义描述字段S输出,实现了对目标图像op的自然语言理解;11)图像理解模块通过其输出端输出Err,表示对目标图像op理解失败。与现在技术相比,本发明具有以下优点本发明中提出的基于层次时间记忆算法的图像理解系统及其图像理解方法,应用了ー种新的、运算量更小的层次时间记忆算法和数据库技术,利用本发明中所述的图像理解系统和图像理解方法可以有效的将图像内容信息转化为自然语义描述,实现对图像内容的深度理解,由于运用了数据库技术,用户可以灵活的对其需要理解的图像内容信息进行配置,具有极高的灵活性和通用性。与传统的图像理解方法相比,本发明中提出的图像理解系统和图像理解方法较大程度的減少了运算时间,克服了传统图像方法计算量大、灵活性和通用性差等缺点。


图I基于层次时间记忆算法的图像理解系统的结构框图
图2时间记忆网络训练模块I的结构框3图像理解模块3的结构框4层次时间记忆网络训练流程5空间模式集的学习流程6时间模式集的学习流程7外部待理解的目标图像op图8对输入的目标图像op进行理解的流程9用层次时间记忆网络tHTM对B2实施理解的流程10输出的语义描述字段S
具体实施例方式以下结合附图和实施例对本发明做进ー步说明,但不应以此限制本发明的保护范围。请參照图1,图I是本发明中基于层次时间记忆算法的图像理解系统的结构框图,由图I可见,本发明中所述的基于层次时间记忆算法的图像理解系统,包括依次连接层次时间记忆网络训练模块I、层次时间记忆网络数据库2和图像理解模块3,所述的层次时间记忆网络训练模块I包括图像存储子模块1-1和训练实施子模块1-2,所述的图像存储子模块1-1的输入端即层次时间记忆网络训练模块I的输入端,图像存储子模块1-1的输出端与训练实施子模块1-2的输入端相连,训练实施子模块1-2的输出端(即层次时间记忆网络训练模块I的输出端)与层次时间记忆网络数据库2的输入端相连,所述的图像理解模块3包括读取子模块3-1和理解实施子模块3-2,所述的读取子模块3-1的第一输入端(即图像理解模块3的第一输入端)接收外部待理解目标图像,读取子模块3-1的第二输入端与层次时间记忆网络数据库2的输出端相连,读取子模块3-1的输出端与理解实施子模块3-2的输入端相连,理解实施子模块3-2的输出端即为图像理解模块3的输出端。所述的图像理解系统的图像理解方法,该方法包括以下步骤a)所述的层次时间记忆网络训练模块I的输入端接收训练图像集P,构建训练图像集P ;b)所述的层次时间记忆网络训练模块I利用训练图像集P对层次时间记忆网络进行训练;c)将训练好的层次时间记忆网络存入所述的层次时间记忆网络数据库2 ;d)所述的图像理解模块3接收外部待理解的目标图像op,利用层次时间记忆网络数据库2中存储的各层次时间记忆网络对所述的目标图像op进行理解。以下结合本发明实施例在场景理解中的具体应用对上述步骤进行详细阐述
所述的层次时间记忆网络训练模块I的输入端接收训练图像,构建训练图像集P,包括以下步骤根据场景理解的实际需求,用户有目的选取具有代表性的分属于“人”和“车”两个不同类别的图像组SP1和SP2,共100张图像组成训练图像集P,井分别为代表“人”和“车”的两个图像组SP1和SP2设定语义标签people和car,表示为P= {(SP1, people), (SP2, car)}
其中图像组SP1和图像组SP2所对应的语义标签分别为people和car, people和car是对图像组SP1和SP2中的图像所属类别“人”和“车”的自然语言描述,在本实施例中,图像组SP1中包含45张图像,图像组SP2中包含55张图像,对图像组SP1和图像组SP2中的图像进行编号,记为SP1 = {pia, Plj2, ...P2,45]SP2 = {p2jl, P2,2, ...P2,55];上式表示如果图像的第一个下标i为1,则代表此图像所在的图像组为SP1JP么其语义标签为people,如果图像Pi, j的第一个下标i为2,则代表此图像所在的图像组为SP2,其语义标签为car,然后用户将训练图像集P输入到层次时间记忆网络训练模块I的输入端,所述的层次时间记忆网络训练模块I将从其输入端接收到的训练图像集P以及其中的各图像组和语义标签存储在图像存储子模块1-1中;请參照图4,图4是层次时间记网络的训练流程图,从图中可见,利用本发明中提出的图像理解方法中的步骤b,对层次时间记忆网络进行训练的步骤如下b-1)所述的训练实施子模块1-2创建ー个未经训练的层次时间记忆网络uHTM,以下简称为uHTM,uHTM是ー个树形多层的节点层次结构,包括输入层、中间层和ー个输出节点,将所述的输入层的大小设为160X 210,即uHTM包含160X 210个输入层节点,将uHTM的中间层的大小设为16X21 (此处16 ( 160,21 ( 210,且16和21可分别整除160和210),所述的中间层包含16X21个中间层节点,所述的中间层中每个中间层节点与uHTM的输入
层中10 XlO (此处,10 = F,10 = | )个输入层节点相连,uHTM的输出节点与uHTM的中
间层中所有的16X21个中间层节点相连,以上所述的uHTM中所有的节点都包含一个计算単元和一个存储単元;b-2)在本实施例中所述的训练实施子模块1-2对所述的训练图像集P的每个图像Pm,采用分量法这种最为典型的图像灰度化处理方法,提取出图像的8阶ニ维灰度矩阵,得到8阶ニ维灰度ニ维矩阵Ay ;b-3)在本实施例中所述的训练实施子模块1-2采用常用图像缩放算法中的最邻近插值法将所述的ニ维矩阵Ai, j转换成大小为160X210的ニ维矩阵Bi, j,并且Bi, j与训练图像集P中的每个图像Pu—一对应,在本实施例中得到的ニ维矩阵集为B = {Bia, Blj2-
Bi,I,…Bi, j,Bi,刊…B2,55];b-4)请參照图5,图5是空间模式集的学习流程图,由图5可见,时间模式集的学习,包括下列步骤 ①设定训练初始值所述的训练实施子模块(1-2)设定欧氏距离參数D = 25和欧氏距离參数增量AD = I. 5,并将uHTM的中间层中每ー个中间层节点的空间模式集Y和uHTM的输出节点的空间模式集Z初始化为空集,将uHTM的输出节点的时间模式集Time初始化为空集,并设定uHTM的输出节点的空间模式集Z中所能包含的聚类矩阵的个数最大值为N。= 20,并保存在相应节点的存储单元中;②所述的ー个输入层节点按B1,p …By,…Bi^ BmV"B2,55的顺序读取所述的ニ维矩阵集B = {Bia, B1,…も,」.,BmvU中的ニ维矩阵Bi,彳保存在相应节点的存储单元;
③将该ニ维矩阵传递给与此输入层节点相连的uHTM的中间层节点;④所述的中间层节点,将从与其相连的10X10个输入层节点接收到的ニ维矩阵Bijj组成ー个10X10的矩阵Ma,并保存到该中间层节点的存储单元中,然后该中间层节点的计算单元对该中间层节点的空间模式集Y进行判断并进行处理当空间模式集Y为空集,则直接将该IOX 10的矩阵Ma作为ー个聚类矩阵加入到该中间层节点的空间模式集Y中;当空间模式集Y不为空集,则此中间层节点的计算单元按下列公式计算出矩阵Ma与空间模式集Y中各聚类矩阵的欧氏距离d(Ma,0)
权利要求
1.一种基于层次时间记忆算法的图像理解系统,其特征在于包括依次连接层次时间记忆网络训练模块(I)、层次时间记忆网络数据库(2)和图像理解模块(3),所述的层次时间记忆网络训练模块⑴包括图像存储子模块(1-1)和训练实施子模块(1-2),所述的图像理解模块(3)包括读取子模块(3-1)和理解实施子模块(3-2),其连接关系是 所述的图像存储子模块(1-1)的输入端即层次时间记忆网络训练模块(I)的输入端,所述的图像存储子模块(1-1)的输出端与所述的训练实施子模块(1-2)的输入端相连,所述的训练实施子模块(1-2)的输出端与所述的层次时间记忆网络数据库(2)的输入端相连,所述的读取子模块(3-1)的第一输入端供接收外部待理解目标图像,该读取子模块(3-1)的第二输入端与所述的层次时间记忆网络数据库(2)的输出端相连,读取子模块(3-1)的输出端与所述的理解实施子模块(3-2)的输入端相连,该理解实施子模块(3-2)的输出端即为本系统的输出端。
2.利用权利要求I所述的图像理解系统的图像理解方法,其特征在于该方法包括以下步骤 a)所述的层次时间记忆网络训练模块(I)的输入端接收训练图像,构建训练图像集P并存入所述的图像存储子模块(1-1); b)所述的训练实施子模块(1-2)利用训练图像集P对层次时间记忆网络进行训练; c)将训练好的层次时间记忆网络存入所述的层次时间记忆网络数据库(2); d)所述的图像理解模块(3)接收外部待理解的目标图像op,利用层次时间记忆网络数据库(2)中存储的各层次时间记忆网络对所述的目标图像op进行理解。
3.根据权利要求2所述的图像理解方法,其特征在于,所述的构建训练图像集P的过程如下 根据实际需求,用户有目的地选取具有代表性的分属η个类别的若干图像组成训练图像集P,并且将所述的图像按类别存放在不同的图像组中,并为每个图像组设置语义标签,即P = {(SP1, Iabel1), (SP2, Iabel2), ... (SPi, Iabeli), ... (SPn, Iabeln)}, n ^ I 其中=SPi为第i个图像组,Iabeli为第i个图像组的语义标签,Iabeli是SPi所属类别的自然语言描述,每一个图像组中又包含若干图像,为图像组中每个图像进行编号,第i个图像组SPi表示为SPi = {pia,Pij2,…Pi’j,…} 上式表示图像组SPi中的每一个图像?“的第一个下标i代表此图像所在的图像组,并且Pi, j也有相应的语义标签Iabeli,然后用户将训练图像集P输入到层次时间记忆网络训练模块(I)的输入端,将所述的训练图像集P的图像按图像组和语义标签分别存储在图像存储子模块(ι-i)中。
4.根据权利要求2所述的图像理解方法,其特征在于,所述的训练实施子模块(1-2)对层次时间记忆网络进行训练,包括以下步骤 b-Ι)所述的训练实施子模块(1-2)创建一个未经训练的层次时间记忆网络uHTM,以下简称为uHTM,uHTM是一个树形多层的节点层次结构,包括输入层、中间层和一个输出节点,所述的输入层包含NXM个输入层节点,所述的中间层包含eXf个中间层节点,每个中间层节点与所述的输入层中
5.根据权利要求2所述的所述的图像理解方法,其特征在于,所述的将训练好的层次时间记忆网络存入所述的层次时间记忆网络数据库(2)的具体过程是在层次时间记忆网络数据库(2)中创建数据表trainedHTM,表的结构如以下SQL语言所述CREATE TABLE IF NOT EXISTS trainedHTM(XMLname CHAR(255) NOT NULL,XMLpath CHAR(255) NOT NULL,InputSize CHAR(255) NOT NULL,LabelNum INT NOT NULL,Labels CHAR(255) NOT NULL) 其中XMLname为保存有训练好的层次时间记忆网络的XML文件的文件名,XMLname为上述XML文件的存储路径,InputSize为输入层大小,LabelNum为可识别的语义标签的数目,Labels为语义标签集,CHAR表示此字段为字符格式,INT表示此字段为整数格式,NOTNULL表示此字段不能为空,然后依照上述数据表trainedHTM的数据结构,将从层次时间记忆网络训练模块(I)的输出端接收到的数据帧HTMInfo存入层次时间记忆网络数据库(2)的数据表trainedHTM中。
6.根据权利要求2所述的所述的图像理解方法,其特征在于,所述的对所述的目标图像op进行理解包括以下步骤 1)所述的读取子模块(3-1)的第一输入端接收待理解的目标图像(op)存储在读取子模块(3-1)中; 2)所述的读取子模块(3-1)的第二输入端从层次时间记忆网络数据库(2)中输出端读取数据表trainedHTM中的读取与待理解的目标图像op相关的数据项HTMdatak,并将其发送给理解实施子模块(3-2); 3)理解实施子模块(3-2)从所述的数据项HTMdatak中解析出训练好的层次时间记忆网络tHTMk的XML文件的文件名XMLnamek, XML文件的存储路径XMLpathk,层次时间记忆网络输入层大小InputSizek,可识别的语义标签的数量LabelNumk和语义标签集Labelsk,并根据存储路径XMLpathk加载XML文件,解析出训练好的层次时间记忆网络tHTMk,并设定判定阈值th ; 4)理解实施子模块(3-2)采用分量法、最大值法或加权平均法等图像灰度化处理方法,对所述的目标图像op的二维灰度信息,得到二维矩阵A2 ;采用最邻近插值、双线性插值或三次卷积法等常用图像缩放算法对二维矩阵A2进行大小变换,得到目标矩阵B2,使目标矩阵B2的大小与所述的层次时间记忆网络tHTMk的输入层的大小InputSizek —致; 5)所述的tHTMi的输入层节点读入目标矩阵B2对应元素的数值; 6)理解实施子模块(3-2)计算目标矩阵B2与tHTMk中输出节点的空间模式集
全文摘要
一种基于层次时间记忆算法的图像理解系统及其图像理解方法,该图像理解系统由层次时间记忆网络训练模块、层次时间记忆网络数据库和图像理解模块组成,其图像理解方法包括构建训练图像集P、利用训练图像集P训练层次时间记忆网络、将训练好的层次时间记忆网络存入层次时间记忆网络数据库中和利用层次时间记忆网络数据库中存储的各层次时间记忆网络对目标图像进行理解四个步骤,本发明应用了新的时间模式集学习方法和数据库技术,可以快速的将多项图像内容属性转化为自然语义描述,实现对图像的深度理解,与传统的图像理解方法相比,此方法简单实用,具有很高的实用性和灵活性。
文档编号G06K9/64GK102663445SQ20121008803
公开日2012年9月12日 申请日期2012年3月29日 优先权日2012年3月29日
发明者夏知拓, 王昊, 阮昊 申请人:中国科学院上海光学精密机械研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1