定位视频位置的方法、装置、电子设备和存储介质与流程

文档序号：37672911发布日期：2024-04-18 20:45阅读：15来源：国知局

本申请涉及视频定位，尤其涉及一种定位视频位置的方法、装置、电子设备和存储介质。

背景技术：

1、随着短视频平台以及录影设备的普及化，人们越来越倾向于通过视频来获取信息。然而，当视频较长的时候，从该视频中挑选自己需要的内容就变得较为困难。因此，如何快速从视频中定位用户需要的内容，降低用户浏览视频的成本，成为本领域技术人员亟待解决的技术问题。

技术实现思路

1、有鉴于此，本申请提出一种定位视频位置的方法、装置、电子设备和存储介质，该方法能够快速从视频中定位用户需要的内容，降低用户浏览视频的成本。

2、本申请提出的技术方案具体如下：

3、第一方面，本申请的实施例提供一种定位视频位置的方法，包括：

4、基于用户对目标视频的浏览需求，在文本内容中确定与所述浏览需求匹配的目标文本内容；所述文本内容包括根据所述目标视频中的音频生成的文本；

5、根据所述目标文本内容在所述目标视频中对应的位置，从所述目标视频中截取符合所述浏览需求的目标视频段。

6、第二方面，本申请的实施例提供一种定位视频位置的装置，包括：

7、确定模块，用于基于用户对目标视频的浏览需求，在文本内容中确定与所述浏览需求匹配的目标文本内容；所述文本内容包括根据所述目标视频中的音频生成的文本；

8、截取模块，用于根据所述目标文本内容在所述目标视频中对应的位置，从所述目标视频中截取符合所述浏览需求的目标视频段。

9、进一步地，以上所述的装置中，所述浏览需求包括用户提问；所述装置还包括：

10、答复模块，用于根据所述用户提问和关键内容，生成与所述用户提问对应的答复内容；所述关键内容包括所述目标文本内容和/或所述目标视频段。

11、进一步地，以上所述的装置中，所述答复模块，具体用于：

12、将所述用户提问和所述关键内容输入到预先训练的问答模型中，以使所述问答模型根据所述用户提问和所述关键内容，生成与所述用户提问对应的答复内容。

13、进一步地，以上所述的装置中，所述文本内容包括所述目标视频的文字版预览报告；所述装置还包括：

14、第一生成模块，用于将所述目标视频中的音频转换为目标文本；通过对所述目标文本进行语义理解，将所述目标文本划分为多个意群文本；其中，不同意群文本对应不同的主题；针对每个意群文本均生成意群标题和意群摘要，将所有意群文本对应的意群标题和意群摘要组合为所述文字版预览报告。

15、进一步地，以上所述的装置中，还包括：

16、第二生成模块，用于根据所述目标视频的视频帧，生成所述目标视频的图片版预览报告。

17、进一步地，以上所述的装置中，所述第二生成模块，具体用于：

18、确定所述视频帧中的目标视频帧与目标关键帧之间的相似度；所述相似度包括图像相似度和语义相似度；所述目标视频帧为所述视频帧中的任意一帧，所述目标关键帧为与所述目标视频帧之间的时间间隔最短的视频关键帧；根据所述相似度，以及，所述目标视频帧与所述目标关键帧之间的时间间隔，确定所述目标视频帧与所述目标关键帧之间的综合相似度；所述综合相似度与所述相似度为正比关系，所述综合相似度与所述时间间隔为反比关系；根据所述综合相似度和设定相似度阈值确定所述目标视频帧是否为所述目标视频中的视频关键帧，将所述目标视频中的所有的视频关键帧组合为所述图片版预览报告。

19、进一步地，以上所述的装置中，所述第二生成模块，具体用于：

20、将所述目标视频帧输入到预先训练的图像理解模型中，以使所述图像理解模型对所述目标视频帧进行图像理解，得到所述图像理解模型输出的所述目标视频帧的关键词描述；计算第一数值和第二数值的比值，确定所述比值为所述目标视频帧与所述目标关键帧之间的语义相似度；所述第一数值为所述目标视频帧的关键词描述与所述目标关键帧的关键词描述之间的交集中关键词的数量，所述第二数值为所述目标视频帧的关键词描述与所述目标关键帧的关键词描述之间的并集中关键词的数量。

21、第三方面，本申请的实施例提供一种电子设备，包括：

22、存储器和处理器；其中，所述存储器用于存储程序；所述处理器，用于通过运行所述存储器中的程序，实现以上任意一项所述的方法。

23、第四方面，本申请的实施例提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现以上任意一项所述的方法。

24、第五方面，本申请的实施例提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行以上任意一项所述的方法。

25、本申请提出的定位视频位置的方法，能够基于用户对目标视频的浏览需求，在文本内容中确定与浏览需求匹配的目标文本内容，其中，上述的文本内容包括根据目标视频中的音频生成的文本。然后根据目标文本内容在目标视频中对应的位置，从目标视频中截取符合浏览需求的目标视频段。如此设置，能够基于用户的浏览需求自动从目标视频中截取符合浏览需求的目标视频段，有效降低了用户浏览视频的成本。

技术特征：

1.一种定位视频位置的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述浏览需求包括用户提问；所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述用户提问和关键内容，生成与所述用户提问对应的答复内容，包括：

4.根据权利要求1所述的方法，其特征在于，所述文本内容包括所述目标视频的文字版预览报告；所述文字版预览报告的生成过程包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标视频的视频帧，生成所述目标视频的图片版预览报告，包括：

7.根据权利要求6所述的方法，其特征在于，确定所述视频帧中的目标视频帧与目标关键帧之间的语义相似度，包括：

8.一种定位视频位置的装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7中任意一项所述的方法。

技术总结
本申请提出一种定位视频位置的方法、装置、电子设备和存储介质，能够基于用户对目标视频的浏览需求，在文本内容中确定与浏览需求匹配的目标文本内容，其中，上述的文本内容包括根据目标视频中的音频生成的文本。然后根据目标文本内容在目标视频中对应的位置，从目标视频中截取符合浏览需求的目标视频段。如此设置，能够基于用户的浏览需求自动从目标视频中截取符合浏览需求的目标视频段，有效降低了用户浏览视频的成本。

技术研发人员：李飞,黄爽,姜孝伟,龙明康,潘青华
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李飞,黄爽,姜孝伟,龙明康,潘青华
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：一种新能源汽车的电池安全监测装置
上一篇：一种用于石棉橡胶板加工原料搅拌机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。