一种多模态健身知识图谱理解与构建方法

文档序号：31360040发布日期：2022-08-31 14:24阅读：178来源：国知局

一种多模态健身知识图谱理解与构建方法
一、技术领域
1.知识图谱、自然语言处理、计算机视觉、人工智能
二、

背景技术：

2.2.1通用技术方法介绍
3.知识图谱(knowledge graph)是人工智能的重要分支技术，它是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系，其基本组成单位是“实体-关系-实体”三元组，以及实体及其相关属性-值对，实体间通过关系相互联结，构成树状的知识结构。
4.长短期记忆网络(lstm，long short-term memory)是一种时间循环神经网络，是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的，所有的循环神经网络都具有一种重复神经网络模块的链式形式。
5.卷积运算是深度卷积神经网络的重要模块，其本质是类似于神经元输出功能的一个权值共享的节点，用于提取特征。其中，一维卷积是仅对特征的某一个维度进行卷积的卷积运算。
6.2.2相似方法介绍
7.一种人体运动知识图谱构建方法及系统(申请号：202210085083.3)[1]是一种和本申请类似的体育知识图谱构建的方法。
[0008]
本方法与其不同之处在于：(1)文献[1]采用人体骨骼关键点方法识别关键帧的人体姿态，并由一些列姿态构成动作，而本方法用基于i3d方法[2]的视频特征提取并直接对动作进行分类；(2)在生成知识图谱三元组数据的过程中，文献[1]采用杰拉德相似度度量的方法判断一个三元组是否已经存在于图谱中，而本方法采用了分级的知识谱图构建方式，即学科——运动种类——运动项目——运动动作名称——动作视频，动作视频仅在动作名——动作视频这一层级进行图谱的构建，若已经存在，则不构建，保证了体育知识谱图结构的唯一性。
三、

技术实现要素：

[0009]
本发明专利提供了一种多模态健身知识图谱理解与构建方法，其采用健身视频和健身对应的解说文字作为多模态模型的输入，构建了一种基于深度神经网络的健身动作示范动作语义理解与提取的标准知识图谱三元组提取方法。该方法基于视频特征的提取识别动作种类，基于解说文字的词向量特征的提取识别动作名称，基于视频特征与词向量特征的提取与融合匹配两者是否对应，若一致则建立“运动动作名称：包含：对应演示动作视频”三元组。基于健身知识图谱库的“学科——运动种类——运动项目——运动动作名称”的传统知识图谱架构，实现了对知识图谱的运动动作名称进一步添加“运动动作名称：包含：对应演示动作视频”这种三元组的方法，实现了一种多模态的健身知识图谱的构建。
四、附图说明
[0010]
图1是本申请方法生成“运动动作名称：包含：对应演示动作视频”三元组的流程图。其通过i3d方法[2]提取视频特征，并进一步通过全连接层识别动作的种类；同时通过词向量提取[4]生成词向量特征并通过长短期记忆网络识别文字的运动动作名称描述对象；最后通过视频、文字多模态特征判定两者描述的内容是否一致并确认所属关系。
[0011]
图2是本申请方法为健身知识谱图库添加“运动动作名称：包含：对应演示动作视频”这种三元组的方法。健身知识谱图库采用了分级的知识谱图构建方式，即学科——运动种类——运动项目——运动动作名称——动作视频的图谱结构，每级每一个实体名称都是唯一的。当需要添加“运动动作名称：包含：对应演示动作视频”这种三元组时，基于健身知识图谱库的“学科——运动种类——运动项目——运动动作名称”的传统知识图谱架构，寻找唯一的运动动作名称，并加入三元组信息。
五、具体实施方式
[0012]
本申请通过2个步骤，实现了一种多模态健身知识图谱理解与构建方法。
[0013]
步骤一：识别“运动动作名称：包含：对应演示动作视频”三元组
[0014]
通过i3d方法[2]提取视频特征，并进一步通过全连接层识别动作的种类；同时通过词向量提取[4]生成词向量特征并通过长短期记忆网络识别文字的运动动作名称描述对象；最后通过视频、文字多模态特征判定两者描述的内容是否一致并确认所属关系，即“运动动作名称：包含：对应演示动作视频”三元组。
[0015]
步骤二：添加“运动动作名称：包含：对应演示动作视频”三元组
[0016]
健身知识谱图库采用了分级的知识谱图构建方式，即学科——运动种类——运动项目——运动动作名称——动作视频的图谱结构，每级每一个实体名称都是唯一的。当需要添加“运动动作名称：包含：对应演示动作视频”这种三元组时，基于健身知识图谱库的“学科——运动种类——运动项目——运动动作名称”的传统知识图谱架构，寻找唯一的运动动作名称，并加入三元组信息。
[0017]
参考文献：
[0018]
[1]中国发明专利：一种人体运动知识图谱构建方法及系统，申请号：202210085083.3
[0019]
[2]carreira，andrew zisserman：quo vadis，action recognition？a new model and the kinetics dataset.cvpr 2017：4724-4733
[0020]
[3]jiefeng li，chao xu，zhicun chen，siyuan bian，lixin yang，cewu lu：hybrik：a hybrid analytical-neural inverse kinematics solution for 3d human pose and shape estimation.cvpr 2021： 3383-3393
[0021]
[4]tomas mikolov，kai chen，greg corrado，and jeffrey dean.efficient estimation of word representations in vector space.iclr workshop，2013。

技术特征：
1.本发明专利提供了一种多模态健身知识图谱理解与构建方法，其特征在于：(1)采用健身视频和健身对应的解说文字作为多模态模型的输入，构建了一种基于深度神经网络的健身动作示范动作语义理解与提取的标准知识图谱三元组提取方法。该方法基于视频特征的提取识别动作种类，基于解说文字的词向量特征的提取识别动作名称，基于视频特征与词向量特征的提取与融合匹配两者是否对应，若一致则建立“运动动作名称：包含：对应演示动作视频”三元组。(2)基于健身知识图谱库的“学科——运动种类——运动项目——运动动作名称”的传统知识图谱架构，实现了对知识图谱的运动动作名称进一步添加“运动动作名称：包含：对应演示动作视频”这种三元组的方法，实现了一种多模态的健身知识图谱的构建。

技术总结
本发明专利提供了一种多模态健身知识图谱理解与构建方法，其特征在于：(1)采用健身视频和健身对应的解说文字作为多模态模型的输入，构建了一种基于深度神经网络的健身动作示范动作语义理解与提取的标准知识图谱三元组提取方法。该方法基于视频特征的提取识别动作种类，基于解说文字的词向量特征的提取识别动作名称，基于视频特征与词向量特征的提取与融合匹配两者是否对应，若一致则建立“运动动作名称：包含：对应演示动作视频”三元组。(2)基于健身知识图谱库的“学科——运动种类——运动项目——运动动作名称”的传统知识图谱架构，实现了对知识图谱的运动动作名称进一步添加“运动动作名称：包含：对应演示动作视频”这种三元组的方法，实现了一种多模态的健身知识图谱的构建。谱的构建。

技术研发人员：王秋睿王子朴周志雄
受保护的技术使用者：首都体育学院
技术研发日：2022.06.07
技术公布日：2022/8/30

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王秋睿王子朴周志雄
技术所有人：首都体育学院
我是此专利的发明人

上一篇：一种用于摄像头模组IR贴合的设备的制作方法
上一篇：一种用于改性造粒的均混装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。