一种基于标签转移及lstm模型的人像语义分析的方法及系统的制作方法

文档序号：9911662阅读：847来源：国知局

一种基于标签转移及lstm模型的人像语义分析的方法及系统的制作方法
【技术领域】
[0001]本发明属于目标检测与图片识别领域，涉及一种基于标签转移及LSTM(时间递归神经网络)模型的人像图片语义分析的方法。
【背景技术】
[0002] 人像图片语义分析在视频监控，虚拟现实，图片搜索，机器学习等领域有广泛的应用，也是计算机视觉和模式识别领域的重要研究方向。常见的方法分为2种，一种是管道式的方法，将人像语义分析分成人像的标注，和自然语言描述的生成2个部分。其中常见的方法有基于行人检测提取包含人像的部位，基于图片的分割和CRF(条件随机场)模型完成人像的部位标注，然后基于RNN(递归神经网络)构建语言模型，生成自然语言描述。另一种是直达式的，直接将图片直接转化成自然语言的描述。常见的方法有基于深度学习的卷积神经网络和递归神经网络构建模型的方法。方法一的优点在于将整个分析过程细分到人像分害J，人像特征提取和部位标注，自然语言描述生成这几个部分，每个部分可以独立调试，并且每个部分可以很方便地更换算法，不会影响到其他部分的调试。缺点在于每个部分的误差都会对最终结果造成影响，最终结果需要反复调试。第二种方法的优点在于不需要细分到以上提到的几个部分，然后利用卷积神经网络在图片特征提取的优势，更好的利用这些特征完成语义描述，缺点在于调试的难度大大增加。
[0003] 人像图片语义描述目前的研究大多关注于图片的整体描述，即人像和背景环境的描述，没有对人像进行细粒度的描述。为了使得描述更加细粒度，有必要对人像进行细粒度的分析和语义描述。
[0004] LSTM(时间递归神经网络)模型采用了特殊隐式单元被证明比传统的RNNs(递归神经网络)更加有效。目前LSTM(时间递归神经网络）网络或者相关的门控单元同样用于编码和解码网络，并且在机器翻译中表现良好。

【发明内容】

[0005] 本发明的内容在于提供一种基于标签转移及时间递归神经网络模型的人像图片细粒度语义分析的方法。主要是为单幅图片中的人像提供语言描述，是一中从图片到文本的方法。
[0006] 为了实现上诉方法的目的，本发明采用的技术方案如下：
[0007] 基于标签转移及LSTM模型的人像图片细粒度语义分析的方法，包含三个模块：人像检测模块、人像主要部位标注模块、自然描述语言生成模块。其包含以下步骤：
[0008] 1)采用BING显著性检测算法预处理图片，提取可能包含人像的候选矩形区域，每个矩形区域都会相应的得分，得分越高，表示该矩形区域含有物体的可能性越大。候选区域的数目大概2000个；
[0009] 2)提取候选矩形区域的左上和右下角的坐标信息，利用I0U算法计算相似矩阵，然后在利用图谱聚类算法聚类。
[0010] 相似矩阵的计算公式为：
[0011] 其中：r(i，j)表示区域i和区域j的相似度，s(i)，s(j)表示位置信息，si，sj表示区域i和区域j的面积，st表示区域i和区域j的重叠面积。
[0012] st的计算公式为：st = |min(xil ·xjl)_max(xi0，xj0) | * |min(yil，yjl)_max(yi0， xi〇)
[0013]其中：xil，xi〇，yjl，yj〇分另Ij为区域i和区域j的左上角和右下角的坐标；
[0014] 3)根据形状特征对聚类之后的候选矩形区域进行筛选，减少候选数目，并计算筛选过后的平均面积，去除低于平均面积的区域，然后选择每类中得分最高的2个区域合并，得到最终的候选区域；
[0015] 4)对合并之后的区域提取H0G(方向梯度直方图）特征，利用SVM(支持向量机)进行人像检测，确定区域是否含有人像；
[0016] 5)提取包含人像的矩形区域进行超像素分割，然后提取超像素的纹理，颜色，和位置特征，迭代地合并颜色，纹理相近的超像素区域；
[0017] 6)将训练样本库中的人像图片的分割图归一化到相同的尺寸，然后选取每个标签对应区域重叠度达90%的部分作为该标签的标准区域，制作人像标准分割标注模板，然后根据模板区域与包含人像的区域归一化到同样尺寸，然后根据初步分割区域与模板区域的位置信息为每个分割区域提供预标注。
[0018] 预标注公式^
I表示区i标注为标签j的可能性大小。
[0019] 其中Si表示第i个区域，Lj表示第j个标签，表示区域i和标签j所在区域的位置相关性，表示区域i和所有标签区域的相关性。
[0020] p(|)的计算公式为
i，s(lj)表示区域i、标签j所在区域的位置信息。
[0021] 的计算公式为：
[0022]然后把L(Si，Lj)作为特征向量，利用SVM(支持向量机)分类对人像分割区域分类，将模板标注转移到待识别区域，并合并标签相同的区域，完成人像分割区域的标注；
[0023] 7)将训练图片人像的语义描述作为训练样本，训练LSTM(时间递归神经网络）模型；
[0024] 8)根据人像分割区域的标注，并提取该区域的颜色特征，得到标注词组，然后加入语义描述辅助词组，通过LSTM(时间递归神经网络)模型得到人像的自然语义描述。
[0025] 与传统方法和现有的研究方向相比，本发明通过显著性检测的方法提取到可能存在人像的候选区域，并通过聚类分析，结合形态学信息进行一步的刷选，很大程度上减少了提取包含人像区域的计算量。在人像细粒度分割部分，采用了超像素分割和选择性分区域合并的方法，保证了每个区域合并的之后的特征一致。在标注模块，设计了一个基于位置信息的标签转移的方法，计算出每个区域和每个标签之间的概率，并利用SVM(支持向量机)分类，提供了一种新的高效标注方法。通过加入LSTM(时间递归神经网络）自然语言生成模块，将人像图片细粒度分析标注转化成自然语句，更加直观。
【附图说明】
[0026]图1为本发明的模块划分图。
[0027]图2为本发明的流程示意图。
[0028] 图3为本发明人像区域提取后的效果图。
[0029] 图4为本发明人像细粒度标注示意图。
[0030] 图5为本发明自然语言描述生成效果图。
【具体实施方式】
[0031] 下面将结合本发明中的附图，对本发明的技术方案进行清晰，完整的解释。
[0032] 本发明的内容在于提供一种基于标签转移及时间递归神经网络模型的人像图片细粒度语义分析的方法。该方法为单幅图片中的人像提供细粒度的语言描述，是一中从图片到文本的方法。包含三个部分，人像区域提取部分，人像细粒度标注部分，自然语言描述生成部分。图1是发明的模块划分图。
[0033]在测试过程中，首先通过显著性检测和聚类分析预测出可能是人像的候选区域。然后对候选区域进行人像检测，得到包含人像的最终区域。然后，在用超像素分割和选择性分区域合并的方法，将人像划分成不同的区域。再利用基于位置信息的标签转移的方法，对划分的区域进行预标注，把标注信息作为特征向量，构建SVM(支持向量机)分类器，完成最后的标注。最后根据标注信息生成词组，利用LSTM(时间递归神经网络)模型生成自然描述语言。图2是本发明的流程示意图。如图2所示，本发明包含以下步骤：
[0034]步骤1，对单幅图片，利用BING显著性检测的方法得到可能包含物体的候选矩形区域，大概2000多个。每个区域都有相对应的得分和左上角和右下角的坐标信息，得分越高说明这个矩形区域包含物体的可能性越大；
[0035]步骤2,提取候选矩形区域的左上和右下角的坐标信息，利用I0U算法计算相似矩阵，然后在利用图谱算法聚类，初步划分为10类。
[0036]相似矩阵的计算公式^
[0037]其中：r(i，j)表示区域i和区域j的相似度，s(i)，s(j)表示位置信息，si，sj表示区域i和区域j的面积，st表示区域i和区域j的重叠面积。
[0038] st的计算公式为：st = |min(xil ·xjl)_max(xi0，xj0) | * |min(yil，yjl)_max(yi0， xi〇)
[0039]其中：xil，xi0，yjl，yj0分别为区域i和区域j的左上角和右下角的坐标；
[0040]步骤3,根据候选区域的形状特征进行筛选，保留长宽比在1/

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张冲;赵志宏;陈松宇;黄积杨;
技术所有人：南京大学;
我是此专利的发明人

上一篇：台标识别方法
上一篇：确定字符倾斜角度的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。