一种基于标签转移及lstm模型的人像语义分析的方法及系统的制作方法_2

文档序号：9911662阅读：来源：国知局

3到1/2之间的候选矩形区域，并计算保留矩形区域平均面积，去除低于平均面积的区域，并选择每类中得分最高的2个区域合并，得到最终的候选区域；
[0041]步骤4,对合并之后的区域进行人像检测，确定区域是否含有人像。具体是提取候选区的H0G(方向梯度直方图）特征，然后根据现有的成熟的人像检测分类器，检测该区域是否含有人像，并去除不包含人像的区域，保留包含人像的分区域。效果如图3所示；
[0042]步骤5,对提取包含人像的矩形区域进行超像素分割，然后提取超像素的纹理，颜色，和位置特征，迭代地合并颜色，纹理相近的超像素区域。合并超像素模块中，分三个大区域，上，中，下进行合并，这三个区域之间有重叠部分。在每个区域中，每次合并2个超像素，并且根据采用颜色，纹理，和超像素的大小作为合并的选择参数，优先合并颜色，纹理相似度高，超像素面积小的2个超像素。并迭代的进行下去，迭代停止的条件是，合并之后的超像素的平均大小达到对应到步骤(6)中的标准分割模板对应部分的分割区域的平均大小的2/ 3.因此这3个区域的合并停止阈值是不同的；
[0043] 步骤6,将训练样本库中的人像图片的分割图归一化到相同的尺寸，然后选取每个标签对应区域重叠度达90 %的部分作为该标签的标准区域，制作人像标准分割标注模板，然后根据模板区域与识别主体区域归一化到同样尺寸，然后根据初步分割区域与模板区域的位置信息为每个分割区域提供预标注。
[0044] 预标注公式为
表示区i标注为标签j的可能性大小。
[0045] 其中Si表示第i个区域，Lj表示第j个标签，？@>表示区域i和标签j所在区域的位置相关性，P 表示区域i和所有标签区域的相关性。
[0046] 的计算公式为
3i，s(lj)表示区域i、标签j所在区域的位置信息。
[0047] 的计算公式为
[0048]然后把L(Si，Lj)作为特征向量，利用SVM(支持向量机)分类对人像分割区域分类，将模板标注转移到待识别区域，并合并标签相同的区域，完成人像分割区域的标注；
[0049]步骤7,将已知标注信息的图片自然语言描述作为训练样本，参考Andre j Karpathy的char-rnn模型，训练LSTM(时间递归神经网络）自然语言生成模型；
[0050] 步骤8,提取步骤6合并之后的分割区域的颜色信息，结合该区域的标签，构筑该区域的，描述性的词组，然后添加辅助性词组，如一个，人，穿着等，利用步骤7训练的模型，生成自然语言描述。效果如图5所示。
[0051] 以上所述仅为本发明的较佳的实施例之一，不应当用以限制本发明的保护范围，凡在本发明的主体设计思想和精神下，对本发明做出的任何修改，等同替换，改进等，均应包含在本发明的保护的范围之内。
【主权项】
1. 一种基于标签转移及LSTM(时间递归神经网络）模型的人像图片语义分析的方法及系统，其特征在于，包括以下步骤： 1) 采用BING显著性检测算法预处理图片，提取可能包含人像的候选矩形区域，每个矩形区域都会相应的得分，得分越高，表示该矩形区域含有物体的可能性越大； 2) 提取候选矩形区域的左上和右下角的坐标信息，利用IOU算法计算相似矩阵，然后在利用图谱聚类算法聚类； 3) 根据形状特征对聚类之后的候选矩形区域进行筛选，减少候选数目，并计算筛选过后的平均面积，去除低于平均面积的区域，然后选择每类中得分最高的2个区域合并； 4) 对合并之后的区域提取HOG(方向梯度直方图）特征，利用SVM(支持向量机)进行人像检测，确定区域是否含有人像； 5) 对提取包含人像的矩形区域进行超像素分割，然后提取超像素的纹理，颜色，和位置特征，迭代地合并颜色，纹理相近的超像素区域； 6) 通过将训练样本中的标准人像区域归一化处理，并提取重叠部分，制作人体标准分割标注模板，然后根据模板区域与待标注人像分割区域的位置信息，计算该分割区域为某一标签的概率，作为特征向量，利用SVM(支持向量机)构造分类器对人像分割区域分类，然后合并标签相同的区域，完成人像分割区域的标注和标签转移； 7) 将训练图片的人像的语义描述作为训练样本，训练LSTM(时间递归神经网络)模型； 8) 根据人像分割区域的标注，并提取该区域的颜色特征，得到标注词组，然后加入语义描述辅助词组，通过LSTM(时间递归神经网络)模型得到人像的自然语义描述。2. 根据权利要求1所述的方法，其特征在于，步骤（1)中采用BING显著性检测算法将整个图片划分为N个候选矩形区域，减少了提取人像区域的检测窗口数目，每个区域都会有相应的得分，该得分表示该区域含有物体的概率。3. 根据权利要求1所述的方法，其特征在于，步骤(2)中，对候选区域提取使用图谱聚类的方法对候选区域根据坐标位置信息进行聚类，其中通过I0U算法计算区域间的相似性，得出相似矩阵。其中：r(i，j)表示区域i和区域j的相似度，s(i)，s(j)表示位置信息，si，sj表示区域i 和区域j的面积，st表示区域i和区域j的重叠面积。 st的计算公式为：st = |min(xil. X jl )_max(xiO，x jO) | * | min(yil，y jl )_max(yiO，xiO) 其中:1：11，1；[〇,7」1，7」0分别为区域;[和区域」的左上角和右下角的坐标。4. 根据权利要求1所述的方法，其特征在于，步骤(3)中，利用候选矩形区域的形态学信息（长宽比）刷选，保留长宽比在1/3到1/2之间的候选矩形区域，并计算保留矩形区域平均面积，去除低于平均面积的区域，并选择每类中得分最高的2个区域合并，得到最终的候选区域。相对于传统的滑动窗口的人像检测方法，将待识别的区域控制在较小的数目范围内，减少了识别的工作量。5. 根据权利要求1所述的方法，其特征在于，步骤(5)中在合并超像素模块中，分三个大区域，上，中，下进行合并，这三个区域之间有重叠部分。在每个区域中，每次合并2个超像素，并且根据采用颜色，纹理，和超像素的大小作为合并的选择参数，优先合并颜色，纹理相似度高，超像素面积小的2个超像素，并迭代的进行下去，迭代停止的条件是，合并之后的超像素的平均大小达到对应到步骤(6)中的标准分割模板对应部分的分割区域的平均大小的 2/3,这3个区域停止合并采用不同的阈值。6. 根据权利要求1所诉的方法，其特征在于，步骤(6)中将训练样本库中的人像图片的分割图归一化到相同的尺寸，然后选取每个标签对应区域重叠度达90 %的部分作为该标签的标准区域，制作人体标准分割标注模板，然后根据模板区域与识别主体区域归一化到同样尺寸，然后根据初步分割区域与模板区域的位置信息为每个分割区域提供预标注。其中Si表示第i个区域，Lj表示第j个标签表示区域i和标签j所在区域的位置相关性：表示区域i和所有标签区域的相关性。，s(lj)表示区域i、标签j所在区域的位置信息。然后把L(Si，Lj)作为特征向量，利用SVM(支持向量机)分类对人像分割区域分类，将模板标注转移到待识别区域，并合并标签相同的区域，完成人像分割区域的标注。7. 根据权利要求1所诉的方法，其特征在于，步骤(8)中，对人像的各个分割区域，提取颜色信息结合区域的标注信息，构造描述词组，然后加入辅助性的连接词组，利用步骤(7) 训练好的模型，得到该图片中人像的细粒度的自然语句的描述。
【专利摘要】本发明提供了根据标签转移及时间递归神经网络模型的人像图片语义分析的方法及系统，包括以下步骤。1、基于显著性检测的方法提取可能包含人像的矩形区域。2、根据候选区域的位置信息聚类，并进行筛选。3、对剩下区域进行人像检测，确定人像区域。5、对最终区域进行超像素分割，然后选择性地迭代合并超像素。6、制作人体标准分割标注模板，根据位置信息计算标签转移概率，并结合支持向量机完成分割区域标注。7、将训练图片人像的语义描述做样本，训练LSTM(时间递归神经网络)模型。8、根据人像分割区域的标注和颜色构建描述词组，加入辅助性词组，利用模型生成描述语句。通过上诉方法可以得到人像图片的细粒度的标注信息和自然的语义描述。
【IPC分类】G06K9/32, G06K9/62, G06K9/46
【公开号】CN105678297
【申请号】CN201511028331
【发明人】张冲, 赵志宏, 陈松宇, 黄积杨
【申请人】南京大学
【公开日】2016年6月15日
【申请日】2015年12月29日

完整全部详细技术资料下载

当前第2页1 2