一种基于标签转移及lstm模型的人像语义分析的方法及系统的制作方法

文档序号:9911662阅读:847来源:国知局
一种基于标签转移及lstm模型的人像语义分析的方法及系统的制作方法
【技术领域】
[0001]本发明属于目标检测与图片识别领域,涉及一种基于标签转移及LSTM(时间递归 神经网络)模型的人像图片语义分析的方法。
【背景技术】
[0002] 人像图片语义分析在视频监控,虚拟现实,图片搜索,机器学习等领域有广泛的应 用,也是计算机视觉和模式识别领域的重要研究方向。常见的方法分为2种,一种是管道式 的方法,将人像语义分析分成人像的标注,和自然语言描述的生成2个部分。其中常见的方 法有基于行人检测提取包含人像的部位,基于图片的分割和CRF(条件随机场)模型完成人 像的部位标注,然后基于RNN(递归神经网络)构建语言模型,生成自然语言描述。另一种是 直达式的,直接将图片直接转化成自然语言的描述。常见的方法有基于深度学习的卷积神 经网络和递归神经网络构建模型的方法。方法一的优点在于将整个分析过程细分到人像分 害J,人像特征提取和部位标注,自然语言描述生成这几个部分,每个部分可以独立调试,并 且每个部分可以很方便地更换算法,不会影响到其他部分的调试。缺点在于每个部分的误 差都会对最终结果造成影响,最终结果需要反复调试。第二种方法的优点在于不需要细分 到以上提到的几个部分,然后利用卷积神经网络在图片特征提取的优势,更好的利用这些 特征完成语义描述,缺点在于调试的难度大大增加。
[0003] 人像图片语义描述目前的研究大多关注于图片的整体描述,即人像和背景环境的 描述,没有对人像进行细粒度的描述。为了使得描述更加细粒度,有必要对人像进行细粒度 的分析和语义描述。
[0004] LSTM(时间递归神经网络)模型采用了特殊隐式单元被证明比传统的RNNs(递归神 经网络)更加有效。目前LSTM(时间递归神经网络)网络或者相关的门控单元同样用于编码 和解码网络,并且在机器翻译中表现良好。

【发明内容】

[0005] 本发明的内容在于提供一种基于标签转移及时间递归神经网络模型的人像图片 细粒度语义分析的方法。主要是为单幅图片中的人像提供语言描述,是一中从图片到文本 的方法。
[0006] 为了实现上诉方法的目的,本发明采用的技术方案如下:
[0007] 基于标签转移及LSTM模型的人像图片细粒度语义分析的方法,包含三个模块:人 像检测模块、人像主要部位标注模块、自然描述语言生成模块。其包含以下步骤:
[0008] 1)采用BING显著性检测算法预处理图片,提取可能包含人像的候选矩形区域,每 个矩形区域都会相应的得分,得分越高,表示该矩形区域含有物体的可能性越大。候选区域 的数目大概2000个;
[0009] 2)提取候选矩形区域的左上和右下角的坐标信息,利用I0U算法计算相似矩阵,然 后在利用图谱聚类算法聚类。
[0010] 相似矩阵的计算公式为:
[0011] 其中:r(i,j)表示区域i和区域j的相似度,s(i),s(j)表示位置信息,si,sj表示区 域i和区域j的面积,st表示区域i和区域j的重叠面积。
[0012] st的计算公式为:st = |min(xil ·xjl)_max(xi0,xj0) | * |min(yil,yjl)_max(yi0, xi〇)
[0013]其中:xil,xi〇,yjl,yj〇分另Ij为区域i和区域j的左上角和右下角的坐标;
[0014] 3)根据形状特征对聚类之后的候选矩形区域进行筛选,减少候选数目,并计算筛 选过后的平均面积,去除低于平均面积的区域,然后选择每类中得分最高的2个区域合并, 得到最终的候选区域;
[0015] 4)对合并之后的区域提取H0G(方向梯度直方图)特征,利用SVM(支持向量机)进行 人像检测,确定区域是否含有人像;
[0016] 5)提取包含人像的矩形区域进行超像素分割,然后提取超像素的纹理,颜色,和位 置特征,迭代地合并颜色,纹理相近的超像素区域;
[0017] 6)将训练样本库中的人像图片的分割图归一化到相同的尺寸,然后选取每个标签 对应区域重叠度达90%的部分作为该标签的标准区域,制作人像标准分割标注模板,然后 根据模板区域与包含人像的区域归一化到同样尺寸,然后根据初步分割区域与模板区域的 位置信息为每个分割区域提供预标注。
[0018] 预标注公式^
I表示区i标注为标签j的可能性大小。
[0019] 其中Si表示第i个区域,Lj表示第j个标签,表示区域i和标签j所在区域的位 置相关性,表示区域i和所有标签区域的相关性。
[0020] p(|)的计算公式为
i,s(lj)表示区域i、标签j所在区域的位置信 息。
[0021] 的计算公式为:
[0022]然后把L(Si,Lj)作为特征向量,利用SVM(支持向量机)分类对人像分割区域分类, 将模板标注转移到待识别区域,并合并标签相同的区域,完成人像分割区域的标注;
[0023] 7)将训练图片人像的语义描述作为训练样本,训练LSTM(时间递归神经网络)模 型;
[0024] 8)根据人像分割区域的标注,并提取该区域的颜色特征,得到标注词组,然后加入 语义描述辅助词组,通过LSTM(时间递归神经网络)模型得到人像的自然语义描述。
[0025] 与传统方法和现有的研究方向相比,本发明通过显著性检测的方法提取到可能存 在人像的候选区域,并通过聚类分析,结合形态学信息进行一步的刷选,很大程度上减少了 提取包含人像区域的计算量。在人像细粒度分割部分,采用了超像素分割和选择性分区域 合并的方法,保证了每个区域合并的之后的特征一致。在标注模块,设计了一个基于位置信 息的标签转移的方法,计算出每个区域和每个标签之间的概率,并利用SVM(支持向量机)分 类,提供了一种新的高效标注方法。通过加入LSTM(时间递归神经网络)自然语言生成模块, 将人像图片细粒度分析标注转化成自然语句,更加直观。
【附图说明】
[0026]图1为本发明的模块划分图。
[0027]图2为本发明的流程示意图。
[0028] 图3为本发明人像区域提取后的效果图。
[0029] 图4为本发明人像细粒度标注示意图。
[0030] 图5为本发明自然语言描述生成效果图。
【具体实施方式】
[0031] 下面将结合本发明中的附图,对本发明的技术方案进行清晰,完整的解释。
[0032] 本发明的内容在于提供一种基于标签转移及时间递归神经网络模型的人像图片 细粒度语义分析的方法。该方法为单幅图片中的人像提供细粒度的语言描述,是一中从图 片到文本的方法。包含三个部分,人像区域提取部分,人像细粒度标注部分,自然语言描述 生成部分。图1是发明的模块划分图。
[0033]在测试过程中,首先通过显著性检测和聚类分析预测出可能是人像的候选区域。 然后对候选区域进行人像检测,得到包含人像的最终区域。然后,在用超像素分割和选择性 分区域合并的方法,将人像划分成不同的区域。再利用基于位置信息的标签转移的方法,对 划分的区域进行预标注,把标注信息作为特征向量,构建SVM(支持向量机)分类器,完成最 后的标注。最后根据标注信息生成词组,利用LSTM(时间递归神经网络)模型生成自然描述 语言。图2是本发明的流程示意图。如图2所示,本发明包含以下步骤:
[0034]步骤1,对单幅图片,利用BING显著性检测的方法得到可能包含物体的候选矩形区 域,大概2000多个。每个区域都有相对应的得分和左上角和右下角的坐标信息,得分越高说 明这个矩形区域包含物体的可能性越大;
[0035]步骤2,提取候选矩形区域的左上和右下角的坐标信息,利用I0U算法计算相似矩 阵,然后在利用图谱算法聚类,初步划分为10类。
[0036]相似矩阵的计算公式^
[0037]其中:r(i,j)表示区域i和区域j的相似度,s(i),s(j)表示位置信息,si,sj表示区 域i和区域j的面积,st表示区域i和区域j的重叠面积。
[0038] st的计算公式为:st = |min(xil ·xjl)_max(xi0,xj0) | * |min(yil,yjl)_max(yi0, xi〇)
[0039]其中:xil,xi0,yjl,yj0分别为区域i和区域j的左上角和右下角的坐标;
[0040]步骤3,根据候选区域的形状特征进行筛选,保留长宽比在1/
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1