技术编号:37468348
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本发明涉及视频问答,特别涉及一种基于分层与整体多模态特征结合的视频问答方法。背景技术、对于视频问答这个任务来说,尽管越来越多的研究者开始探讨这个研究,但是现有的模型依旧不能达到令人满意的水平。现有的模型主要分为早期基于注意力的模型、基于记忆网络的模型、基于transformer的模型、基于图神经网络的模型和其他模型。有学者提出了一种基于双向lstm的方法,该方法具有空间和时间注意力机制,可以更好地关注视频中的关键帧和帧中的关键区域。有学者首先将记忆网络纳入并修改到视频问答中,以将视频和字幕特征...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。