基于多模态信息融合的视频分析方法及装置、介质、装置与流程

文档序号：34945444发布日期：2023-07-29 01:20阅读：19来源：国知局

本发明涉及图像处理，尤其是涉及一种基于多模态信息融合的视频分析方法及装置、介质、装置。

背景技术：

1、视频监控设备遍布商场、银行、办公楼、居民小区、停车场、交通路口等公共场所的各个角落。若要在这些场所找人，最有效的方法是调出监控录像进行目标的检测定位与跟踪，问题的关键在于如何在一段监控视频中搜索出指定的对象。由于监控探头数量众多，单纯依靠人工查看，消耗大量的精力在寻找和分辨行人身份上，容易疲劳、易出疏漏，极大地降低了效率。

技术实现思路

1、针对以上至少一个技术问题，本发明实施例提供一种基于多模态信息融合的视频分析方法及装置、介质、装置。

2、根据第一方面，本发明实施例提供的基于多模态信息融合的视频分析方法，包括：

3、接收用户指令，根据所述用户指令分析用户意图；

4、根据用户意图，从预先构建的多模态信息处理网络中选择多个所需模块，并确定各个所需模块的执行顺序；

5、获取待处理视频；

6、通过所述多个所需模块按照所述执行顺序的协同配合，从所述待处理视频中进行目标搜索处理，并输出目标相关信息。

7、根据第二方面，本发明实施例提供的基于多模态信息融合的视频分析装置，包括：

8、指令接收单元，用于接收用户指令，根据所述用户指令分析用户意图；

9、模块选择单元，用于根据用户意图，从预先构建的多模态信息处理网络中选择多个所需模块，并确定各个所需模块的执行顺序；

10、视频获取单元，用于获取待处理视频；

11、结果输出单元，用于通过所述多个所需模块按照所述执行顺序的协同配合，从所述待处理视频中进行目标搜索处理，并输出目标相关信息。

12、根据第三方面，本发明实施例提供计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行实现第一方面提供的方法。

13、根据第四方面，本发明实施例提供的计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面提供的方法。

14、本发明实施例提供的基于多模态信息融合的视频分析方法及装置、介质、装置，根据用户指令进行用户意图识别，涉及到自然语言处理技术。而且，基于多个所需模块进行目标搜索进而输出目标相关信息，涉及到视频处理技术等，因此本发明实施例提供的方法是一种多模态信息融合的视频分析方法，实现了通过语言+图像的方式来对监控视频进行内容提取与分析，有效减少视频监控分析的人力、时间、物力和财力的投入，具有实际应用价值。将安全监管部门的工作人员从以往的“人海战术”中解脱出来，能够提升整个国家、社会、城市的综合管理和安全防范水平。

技术特征：

1.一种基于多模态信息融合的视频分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多模态信息处理网络中包括多个视觉基础模块，所述多个视觉基础模块包括：图像处理模块、目标检测模块、目标跟踪模块、目标属性识别模块、目标行为识别模块和图像文字识别模块；其中：

3.根据权利要求2所述的方法，其特征在于，若所述用户指令为一段文字指令，且所述文字指令为定位所述待处理视频中具有第一特征的第一目标，则所述多个所需模块包括图像处理模块、目标检测模块、目标跟踪模块、目标属性识别模块和图像文字识别模块，且所述多个所需模块的执行顺序为图像处理模块、目标检测模块、目标属性识别模块、目标跟踪模块和图像文字识别模块；其中：

4.根据权利要求2所述的方法，其特征在于，若所述用户指令为一段文字指令和一张第一图片，且所述文字指令为从所述待处理视频中定位出所述第一图像中的目标，该目标为第二目标，则所述多个所需模块包括图像处理模块、目标检测模块、目标跟踪模块、目标属性识别模块和图像文字识别模块，且所述多个所需模块的执行顺序为图像处理模块、目标检测模块、目标属性识别模块、目标跟踪模块和图像文字识别模块；其中：

5.根据权利要求3或4所述的方法，其特征在于，所述目标跟踪模块还用于：若目标的数量大于1，则对各个目标进行数量统计和对各个目标同时进行跟踪；所述目标跟踪模块支持单目标跟踪模式和多目标跟踪模式。

6.根据权利要求3或4所述的方法，其特征在于，所述目标相关信息包括每一个目标所在矩形框的坐标信息、时间戳信息和定位信息。

7.根据权利要求3或4所述的方法，其特征在于，所述目标检测模块的检测类型包括行人和车辆。

8.一种基于多模态信息融合的视频分析装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行实现权利要求1～7中的任一项所述的方法。

10.一种计算设备，其特征在于，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1～7中的任一项所述的方法。

技术总结
本发明提供一种基于多模态信息融合的视频分析方法及装置、介质、设备。方法包括：接收用户指令，根据所述用户指令分析用户意图；根据用户意图，从预先构建的多模态信息处理网络中选择多个所需模块，并确定各个所需模块的执行顺序；获取待处理视频；通过所述多个所需模块按照所述执行顺序的协同配合，从所述待处理视频中进行目标搜索处理，并输出目标相关信息。本发明实现了通过语言+图像的方式来对监控视频进行内容提取与分析，有效减少视频监控分析的人力、物力和财力的投入，具有实际应用价值。

技术研发人员：杨彤,李雪,段强,姜凯
受保护的技术使用者：山东浪潮科学研究院有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨彤李雪段强姜凯
技术所有人：山东浪潮科学研究院有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。