信息处理装置和信息处理方法及计算机可读记录介质与流程

文档序号：34825281发布日期：2023-07-20 08:50阅读：69来源：国知局

本公开涉及信息处理领域，具体涉及一种不受到训练数据和类别的限制而实现视频文本定位的信息处理装置和信息处理方法。

背景技术：

1、视频文本定位是一种多模态任务，给定一个视频和一句文本，自动定位出文本表达的内容在视频中的起止位置。早期的视频动作定位主要针对预先定义好的类别(例如，只有针对“喝水”、“踢球”等动作进行训练后，才能针对上述动作进行定位。如果没有针对上述动作进行训练，则不能针对上述动作进行定位)，极大的限制了模型的灵活性和实用性。在后来发展的视频文本定位中，根据文本与图像的语义相关性，找出动作的起止时刻。这一任务的常用评估标准是“r@n,iou@m”，含义是在前n个识别结果中，出现识别结果与真值的iou大于等于m时则判断为正确。近几年这一任务得到了较大的关注，涌现出了各种各样的方法。主要分为两阶段法和端对端法这两大类，此外也出现了包括弱监督学习、强化学习等方案，然而，这些方案均受到训练数据的限制。

技术实现思路

1、在下文中给出了关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

2、鉴于以上问题，本公开的目的是提供能够解决现有技术中的一个或多个缺点的信息处理装置和信息处理方法。

3、根据本公开的一方面，提供了一种信息处理装置，包括：分割单元，被配置成基于第一数量的图像的特征，将第一数量的图像分割为至少一个图像集合，其中，每个图像集合中包括的任意两个图像之间的相似度均大于预定第一阈值；获得单元，被配置成基于文本的特征与每个图像的特征，分别计算表示文本与每个图像之间的匹配程度的图文匹配分数，从而获得第一数量的图文匹配分数；以及确定单元，被配置成基于由反映第一数量的图像之间的关系的关系矩阵和第一数量的图文匹配分数构建的构建矩阵，从第一数量的图像当中确定与文本相关的至少一个相关图像集合，其中，图像的特征和文本的特征是通过预先训练的图文匹配模型获得的。

4、根据本公开的另一方面，提供了一种信息处理方法，包括：分割步骤，基于第一数量的图像的特征，将第一数量的图像分割为至少一个图像集合，其中，每个图像集合中包括的任意两个图像之间的相似度均大于预定第一阈值；获得步骤，基于文本的特征与每个图像的特征，分别计算表示文本与每个图像之间的匹配程度的图文匹配分数，从而获得第一数量的图文匹配分数；以及确定步骤，基于由反映第一数量的图像之间的关系的关系矩阵和第一数量的图文匹配分数构建的构建矩阵，从第一数量的图像当中确定与文本相关的至少一个相关图像集合，其中，图像的特征和文本的特征是通过预先训练的图文匹配模型获得的。

5、根据本公开的又一方面，提供了一种记录有程序的计算机可读记录介质，程序用于使得计算机执行以下步骤：分割步骤，基于第一数量的图像的特征，将第一数量的图像分割为至少一个图像集合，其中，每个图像集合中包括的任意两个图像之间的相似度均大于预定第一阈值；获得步骤，基于文本的特征与每个图像的特征，分别计算表示文本与每个图像之间的匹配程度的图文匹配分数，从而获得第一数量的图文匹配分数；以及确定步骤，基于由反映第一数量的图像之间的关系的关系矩阵和第一数量的图文匹配分数构建的构建矩阵，从第一数量的图像当中确定与文本相关的至少一个相关图像集合，其中，图像的特征和文本的特征是通过预先训练的图文匹配模型获得的。

6、根据本公开的其它方面，还提供了用于实现根据本公开的方法的计算机程序代码和计算机程序产品。

7、在下面的说明书部分中给出本公开实施例的其它方面，其中，详细说明用于充分地公开本公开实施例的优选实施例，而不对其施加限定。

技术特征：

1.一种信息处理装置，包括：

2.根据权利要求1所述的信息处理装置，其中，所述确定单元被配置成：

3.根据权利要求2所述的信息处理装置，其中，

4.根据权利要求2所述的信息处理装置，其中，

5.根据权利要求2所述的信息处理装置，其中，

6.根据权利要求2所述的信息处理装置，其中，所述确定单元被配置成针对每个当前图像集合：

7.根据权利要求6所述的信息处理装置，其中，所述图文匹配程度是所述邻近图像集合中包括的图像的图文匹配分数的峰值。

8.根据权利要求6所述的信息处理装置，其中，所述图文匹配曲线的平坦度是所述邻近图像集合中包括的图像的图文匹配分数的均值与峰值之间的比率。

9.一种信息处理方法，包括：

10.一种记录有程序的计算机可读记录介质，所述程序用于使得计算机执行以下步骤：

技术总结
公开了一种信息处理装置和信息处理方法及计算机可读记录介质。其中，信息处理装置包括：分割单元，被配置成基于第一数量的图像的特征，将第一数量的图像分割为至少一个图像集合，其中，图像集合中包括的任意两个图像之间的相似度均大于预定第一阈值；获得单元，被配置成基于文本的特征与每个图像的特征，分别计算表示文本与每个图像之间的匹配程度的图文匹配分数，从而获得第一数量的图文匹配分数；以及确定单元，被配置成基于由反映第一数量的图像之间的关系的关系矩阵和第一数量的图文匹配分数构建的构建矩阵，从第一数量的图像当中确定与文本相关的至少一个相关图像集合，其中，图像的特征和文本的特征是通过预先训练的图文匹配模型获得的。

技术研发人员：王平,孙利,汪留安,孙俊
受保护的技术使用者：富士通株式会社
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王平孙利汪留安孙俊
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：近红外定量模型构建方法、装置及存储介质与流程
上一篇：一种动态双模式张量管理设计方案的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。