本公开涉及信息处理领域,具体涉及一种不受到训练数据和类别的限制而实现视频文本定位的信息处理装置和信息处理方法。
背景技术:
1、视频文本定位是一种多模态任务,给定一个视频和一句文本,自动定位出文本表达的内容在视频中的起止位置。早期的视频动作定位主要针对预先定义好的类别(例如,只有针对“喝水”、“踢球”等动作进行训练后,才能针对上述动作进行定位。如果没有针对上述动作进行训练,则不能针对上述动作进行定位),极大的限制了模型的灵活性和实用性。在后来发展的视频文本定位中,根据文本与图像的语义相关性,找出动作的起止时刻。这一任务的常用评估标准是“r@n,iou@m”,含义是在前n个识别结果中,出现识别结果与真值的iou大于等于m时则判断为正确。近几年这一任务得到了较大的关注,涌现出了各种各样的方法。主要分为两阶段法和端对端法这两大类,此外也出现了包括弱监督学习、强化学习等方案,然而,这些方案均受到训练数据的限制。
技术实现思路
1、在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
2、鉴于以上问题,本公开的目的是提供能够解决现有技术中的一个或多个缺点的信息处理装置和信息处理方法。
3、根据本公开的一方面,提供了一种信息处理装置,包括:分割单元,被配置成基于第一数量的图像的特征,将第一数量的图像分割为至少一个图像集合,其中,每个图像集合中包括的任意两个图像之间的相似度均大于预定第一阈值;获得单元,被配置成基于文本的特征与每个图像的特征,分别计算表示文本与每个图像之间的匹配程度的图文匹配分数,从而获得第一数量的图文匹配分数;以及确定单元,被配置成基于由反映第一数量的图像之间的关系的关系矩阵和第一数量的图文匹配分数构建的构建矩阵,从第一数量的图像当中确定与文本相关的至少一个相关图像集合,其中,图像的特征和文本的特征是通过预先训练的图文匹配模型获得的。
4、根据本公开的另一方面,提供了一种信息处理方法,包括:分割步骤,基于第一数量的图像的特征,将第一数量的图像分割为至少一个图像集合,其中,每个图像集合中包括的任意两个图像之间的相似度均大于预定第一阈值;获得步骤,基于文本的特征与每个图像的特征,分别计算表示文本与每个图像之间的匹配程度的图文匹配分数,从而获得第一数量的图文匹配分数;以及确定步骤,基于由反映第一数量的图像之间的关系的关系矩阵和第一数量的图文匹配分数构建的构建矩阵,从第一数量的图像当中确定与文本相关的至少一个相关图像集合,其中,图像的特征和文本的特征是通过预先训练的图文匹配模型获得的。
5、根据本公开的又一方面,提供了一种记录有程序的计算机可读记录介质,程序用于使得计算机执行以下步骤:分割步骤,基于第一数量的图像的特征,将第一数量的图像分割为至少一个图像集合,其中,每个图像集合中包括的任意两个图像之间的相似度均大于预定第一阈值;获得步骤,基于文本的特征与每个图像的特征,分别计算表示文本与每个图像之间的匹配程度的图文匹配分数,从而获得第一数量的图文匹配分数;以及确定步骤,基于由反映第一数量的图像之间的关系的关系矩阵和第一数量的图文匹配分数构建的构建矩阵,从第一数量的图像当中确定与文本相关的至少一个相关图像集合,其中,图像的特征和文本的特征是通过预先训练的图文匹配模型获得的。
6、根据本公开的其它方面,还提供了用于实现根据本公开的方法的计算机程序代码和计算机程序产品。
7、在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
1.一种信息处理装置,包括:
2.根据权利要求1所述的信息处理装置,其中,所述确定单元被配置成:
3.根据权利要求2所述的信息处理装置,其中,
4.根据权利要求2所述的信息处理装置,其中,
5.根据权利要求2所述的信息处理装置,其中,
6.根据权利要求2所述的信息处理装置,其中,所述确定单元被配置成针对每个当前图像集合:
7.根据权利要求6所述的信息处理装置,其中,所述图文匹配程度是所述邻近图像集合中包括的图像的图文匹配分数的峰值。
8.根据权利要求6所述的信息处理装置,其中,所述图文匹配曲线的平坦度是所述邻近图像集合中包括的图像的图文匹配分数的均值与峰值之间的比率。
9.一种信息处理方法,包括:
10.一种记录有程序的计算机可读记录介质,所述程序用于使得计算机执行以下步骤: