本发明涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法,属于视觉媒体处理技术领域。
背景技术:
可视媒体语义索引的精度增强是利用概念相关性对索引结果进行进一步改善的关键技术。这种索引增强技术的作用是给出可视媒体进行概念探测的结果,对概念探测的结果应用概念的量化关系进行调整和改善,以达到对大量可视媒体有效索引的目的。发明名称为“一种用于可视媒体语义索引的精度增强方法”(申请号:201610108055.3)的专利申请公开了一种全局增强和局部增强相结合的方式,对可视媒体语义索引的结果进行改善。但是在全局增强过程中,该专利申请采用的加权矩阵分解的方法,无法更好地利用时序可视媒体中语义概念出现的时间特征,故在时序可视媒体语义索引精度增强的过程中还存在改善的空间。尤其随着图像流、视频等时序可视媒体体量的快速增长,对时序可视媒体如可穿戴视觉采集设备记录的连续图像流或者视频的有效索引具有很高的应用价值。
对时序可视媒体语义索引的精度增强方法同样需要满足如下要求:1)对语义概念索引的灵活性;2)对不同数量和质量的标注数据的适应性;3)对大规模样本数据的扩展性。在时序可视媒体语义索引增强的过程中,应该尽量保证上述三点,这样才能保证增强方法在视觉大数据上的灵活应用,从而达到预期的效果。
技术实现要素:
本发明的目的是提出一种基于非负张量分解的时序可视媒体语义索引精度增强方法,以应对当前单类概念探测器造成的概念探测精度低及不均衡的问题,既可应对普通的索引精度增强任务,也可处理由于外部知识或标注数据不足造成的概念相关性构建缺陷,并且可以用于为不同应用域中的语义索引结果进行精度增强。
本发明提出的的基于非负张量分解的时序可视媒体语义索引精度增强方法,包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量t(tijk)n×m×l,其中,l表示时序可视媒体按固定时间间隔切分成段的分段总数量,n表示每个时间间隔中所包含的连续图片的数量,m表示时序可视媒体中的概念的个数,张量t中的每个元素tijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值,1≤k≤l;
(2)设定一个探测置信度阈值,分别将上述张量t中的初始探测置信度值即每个元素tijk与设定的探测置信度阈值进行比较,若张量t中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量t中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为t”,将张量t”中的每个元素记为t”ijk,其中,1≤i≤n,1≤j≤m,1≤k≤l;
(3)采用加权非负张量分解方法对上述更新后的张量t”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量t',具体包括以下步骤:
(3-1)构建三个初始非负矩阵
(3-2)构建一个权重张量w,w=(wijk)n×m×l,其中wijk∈[0,1],1≤i≤n,1≤j≤m,1≤k≤l,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量t中的初始探测置信度值,对权重张量w中的各元素wijk进行赋值,若上述步骤(1)张量t中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量w的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量t中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量w的元素wijk赋以值[0,0.5];
(3-3)根据上述步骤(3-1)构建的三个非负矩阵
其中u(1),u(2)及u(3)分别代表上述非负矩阵
(3-4)求解上述费效函数f,得到优化后的非负矩阵
以u(1)的迭代优化过程为例:
采用上述方法,得到矩阵u(2)和u(3)的优化结果,将迭代收敛后的
根据上述优化结果,利用下式,计算得到一个张量
(3-5)将上述步骤(3-4)的张量
其中,α的取值范围为(0,1),t'即为精度增强后的时序可视媒体语义索引。
本发明提出的基于非负张量分解的时序可视媒体语义索引精度增强方法,其优点是:
1、本发明提出的基于非负张量分解的时序可视媒体语义索引精度增强方法中,充分使用概念的时间相关性如同时出现和重复出现规律等,对精度较低的概念探测结果进行修正,从而增强了视觉媒体语义索引的准确率。由于本方法不依赖于大量语义标注数据集和知识库,方法直接应用于概念探测的结果,具有很强的灵活性和适应性。
2、本发明方法对时序可视媒体在时间维度上采用了时间分段的组织方式,可以充分保留时序可视媒体在单个时间分段中语义的强相关性,尤其对于事件记录等具有强时间关联特征的可视媒体进行索引,具有更好的精度增强效果。
3、本发明方法对时序可视媒体的典型应用领域具有很好的适应性,如各种视频的语义索引。另外,随着可穿戴视觉感知设备的不断普及如谷歌眼镜、微软的sensecam等,对穿戴者行为记录的视频或者连续的图像流的语义索引均可以采用本发明的方法进行精度增强。
具体实施方式
本发明提出的的基于非负张量分解的时序可视媒体语义索引精度增强方法,包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量t(tijk)n×m×l,其中,l表示时序可视媒体按固定时间间隔切分成段的分段总数量,n表示每个时间间隔中所包含的连续图片的数量,m表示时序可视媒体中的概念(即物体或场景)的个数,张量t中的每个元素tijk表示在第k个时间间隔中第i个图片对第j个概念(即物体或场景)的探测置信度值,1≤k≤l;
(2)设定一个探测置信度阈值,分别将上述张量t中的初始探测置信度值即每个元素tijk与设定的探测置信度阈值进行比较,若张量t中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量t中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为t”,将张量t”中的每个元素记为t”ijk,其中,1≤i≤n,1≤j≤m,1≤k≤l;
(3)采用加权非负张量分解方法对上述更新后的张量t”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量t',具体包括以下步骤:
(3-1)构建三个初始非负矩阵
(3-2)构建一个权重张量w,w=(wijk)n×m×l,其中wijk∈[0,1],1≤i≤n,1≤j≤m,1≤k≤l,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量t中的初始探测置信度值,对权重张量w中的各元素wijk进行赋值,若上述步骤(1)张量t中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量w的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量t中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量w的元素wijk赋以值[0,0.5];
(3-3)根据上述步骤(3-1)构建的三个非负矩阵
其中u(1),u(2)及u(3)分别代表上述非负矩阵
(3-4)求解上述费效函数f,得到优化后的非负矩阵
以u(1)的迭代优化过程为例:
采用上述方法,得到矩阵u(2)和u(3)的优化结果,将迭代收敛后的
根据上述优化结果,利用下式,计算得到一个张量
(3-5)将上述步骤(3-4)的张量
其中,α的取值范围为(0,1),t'即为精度增强后的时序可视媒体语义索引。