以视频为中心的融媒体内容推荐方法及装置与流程

文档序号：25586919发布日期：2021-06-22 17:02阅读：268来源：国知局

本发明涉及互联网技术领域，尤其涉及一种以视频为中心的融媒体内容推荐方法及装置。

背景技术：

融媒体是对多种媒体内容进行功能整合的一种媒体形式，即充分利用互联网这个载体，把广播、电视、报纸这些既有共同点，又存在互补性的不同媒体，在人力、内容、宣传等方面进行全面整合，实现资源通融、内容兼容、宣传互融、利益共融的新型媒体。

融媒体发展的一个重要技术基础就是互联网，随着个人电脑和手机等终端设备的硬件技术的不断发展，越来越多的人选择使用个人电脑或者手机等终端设备观看由视频网站提供的各种电视节目。所谓视频网站是指在相关的技术平台支持下，让互联网用户在线流畅发布、浏览和分享视频作品的网站，比如优酷网、乐视网、爱奇艺等；通常视频网站也会推出自己的视频客户端应用程序(也称视频客户端)，专门用于在手机或者个人电脑等终端设备上播放视频网站提供的视频作品，例如：优酷视频客户端、爱奇艺视频客户端等。近些年短视频的发展又掀起了一波新的热潮，比如抖音、快手等。媒体和个人创作者都会通过短视频平台发布自己创作的内容，以赢得关注和粉丝，同时通过广告和电子商务的方式实现流量的转化盈利。

因此，在融媒体众多的媒体形式中，视频内容无疑是核心，而其中所蕴含的核心商业模式则是通过流量转化所引导的电商交易。这里有两个步骤，一是通过融合媒体的内容传播(以视频为主体)吸引更多用户的收看和跟随，即流量；第二个步骤则在用户消费内容的时候以恰当的方式向用户推荐商品(实物或虚拟商品)，通过电商实现交易，也即是内容营销的成功转化。

电子商务同样脱胎于互联网，并且已经经历了长足的发展，形成了极为庞大的生态和经济规模。随着电子商务的不断发展，越来越多的用户选择在网上进行购物。用户通过浏览器访问电子商务网站，就可以方便地选择自己所需要的商品。在很多情况下，电子商务网站会向用户进行商品推荐，例如，用户购买了某一种商品之后，会向其推荐与该商品相似或者关联的商品，又如，还可以向用户推荐新的上架的商品，打折的商品，热销的商品等等。一般来说，目前互联网上的电子商务网站是基于商品销售排行、用户对商品的评价评分或者对用户在电子商务网站的其他行为数据的分析来进行商品推荐。这种由用户直面商城的模式显然已经落后，因此发展出了社交电商、直播电商、短视频电商等新的模式。在融媒体这一新形态被定义和发展的今天，凭借其多样化的媒体形式立体协作，以及快速传播和广度覆盖的能力，势必会成为电子商务的重要引导力量。

在已经公开的类似的技术方案中，通过物体识别技术将视频内容和待推销的商品关联进行推荐的方法已有若干，比如“基于视频内容的商品推荐方法和系统”(申请号：201510093789.4)、“基于视频的商品推荐方法及装置”(申请号：201610511072.1)等。这些方法的目的就是希望让用户在收看视频的过程中能够同时看到相同的实物商品，以提升用户体验和提高商品销售转化的可能性。这些方案的可行性基本可以是被确认的，但是依然存在的问题有如下几点：

1、仅仅是基于视频并针对实物商品进行的关联和推荐，不适于当今融媒体内容发展的大趋势，无法以视频为中心挖掘出更多相关性内容，推荐过程的“带宽”受限，无法形成内容矩阵和网络，以及推荐的“核裂变”效应；

2、用户体验是否提高值得商榷，因为单纯依据视频图像匹配出的商品进行推荐，大概率会给用户造成困扰，因为商品信息繁杂，很多商品其实并不是用户想要的，频繁的推荐相当于频繁地播放用户不想看的广告，会给用户带来很不好的体验。

技术实现要素：

本发明的目的在于提供一种以视频为中心的融媒体内容推荐方法，能够以视频媒体中心向用户高效率地传播各种形式的综合性内容，并通过人工智能的手段分析和挖掘出视频内容中包含的实体元素和风格要素，通过动态关联可销售的商品完成对用户精准的商品推荐。

为了实现上述目的，本发明的第一方面提供一种以视频为中心的融媒体内容推荐方法，包括：

整合多格式多媒体的内容数据库，聚合内容元数据信息构建内容元数据库；

将所述内容元数据库中的每个所述内容元数据信息进行标签，基于所述内容元数据信息及所述标签形成融合媒体知识图谱；

实时捕获视频播放时当前关键帧中的实体元素和风格要素，从所述融合媒体知识图谱搜索出用户关注的目标元素信息；

根据所述目标元素信息从商品库中筛选出候选商品，并向用户推荐。

优选地，整合多格式多媒体的内容数据库，聚合内容元数据信息构建内容元数据库的方法包括：

将视频格式的多媒体内容数据库、图片格式的多媒体内容数据库以及文章格式的多媒体内容数据库中的内容元数据信息进行聚合，构建内容元数据库；

所述内容元数据信息包括视频数据、图片数据以及文章数据的内容标题及内容描述。

较佳地，将所述内容元数据库中的每个所述内容元数据信息进行标签的方法包括：

针对所述内容元数据库中的各内容元数据信息进行分类、分词和词性标注，保留其中的关键信息词；

将全部所述内容元数据信息对应的关键信息词随机分配成多组数据；

取其中一组数据采用预设的标签体系人工标签后作为初始训练数据集，并设置初始训练模型；

针对所述初始训练数据集中的每个标签进行训练得到标签分类模型；

利用所述标签分类模型训练其他组数据，直至标签准确率达到准确率阈值输出所述标签分类模型，否则针对所述标签分类模型持续优化；

采用输出的所述标签分类模型对所述内容元数据库中的各内容元数据信息进行标签。

进一步地，针对所述标签分类模型持续优化的方法包括：

通过扩充所述初始训练数据集，和/或，调整所述初始训练模型对所述标签分类模型进行优化。

优选地，在实时捕获视频播放时当前关键帧中的实体元素和风格要素之前还包括以下中的一种或多种：

分析多媒体内容数据库中的视频数据，识别出关键帧图像的实体元素信息和风格要素信息扩充入融合媒体知识图谱；

分析多媒体内容数据库中的图片数据，识别出图片的实体元素信息和风格要素信息扩充入融合媒体知识图谱；

分析多媒体内容数据库中的文章数据，识别出其中的关键文字实体信息扩充入融合媒体知识图谱。

较佳地，所述关键帧图像和所述图片中实体元素信息和风格要素信息的识别方法包括：

针对所述关键帧图像和所述图片中的人脸和人体姿态进行检测，识别出人脸和躯干四肢；

基于人脸识别结果搜索演员数据库得到演员的身份信息，以及基于躯干四肢识别结果识别演员的服饰风格得到演员的服装信息；

针对所述关键帧图像和所述图片中除人脸和人体姿态之外的物体进行识别，得到物体的商品信息；

针对所述关键帧图像和所述图片中的文字进行识别，得到文字信息；

将所述身份信息、所述服装信息、所述商品信息、所述文字信息中的一种或多种扩充入融合媒体知识图谱。

进一步地，所述文章数据中关键文字实体信息的识别方法包括：

将所述文章数据按照句子的分隔符分句，并对每个分句进行唯一id的分句标识；

将每个句子的对象数据及其前后两个分句的分句标识进行关联，扩充入融合媒体知识图谱；

将每个句子进行分词，去除噪声词后针对每个分词进行唯一id的分词标识，扩充入融合媒体知识图谱；

根据所述文章数据的内容属性进行唯一id的文章标识，将所述文章数据的对象数据、所述文章数据与分句的关联关系以及所述分句与分词的关联关系，扩充入融合媒体知识图谱。

优选地，从所述融合媒体知识图谱搜索出用户关注的目标元素信息的方法包括：

将所述实体元素和所述风格要素转换为特征向量，从所述融合媒体知识图谱检索出相关的元素信息；

基于预设关键帧间隔数内元素信息出现的次数，动态调整元素信息的强度值；

当所述元素信息的强度值达到强度阈值时，将对应的所述元素信息作为目标元素信息输出。

优选地，根据所述目标元素信息从商品库中筛选出候选商品，并向用户推荐的方法包括：

若所述目标元素信息包括演员信息，从商品库搜索与所述演员信息相关的商品作为候选商品放入候选商品列表；

若所述目标元素信息包括服装信息，从商品库搜索与所述服装信息相关的商品作为候选商品放入候选商品列表；

若所述目标元素信息包括物体的商品信息，从商品库搜索与所述商品信息相关的商品作为候选商品放入候选商品列表；

针对所述候选商品列表中的候选商品进行相关性评分，筛选出评分最高的候选商品推荐给用户。

可选地，在向用户推荐候选商品之后还包括：

根据用户针对推荐的候选商品的交互数据，动态调整元素信息的强度值。

与现有技术相比，本发明提供的以视频为中心的融媒体内容推荐方法具有以下有益效果：

本发明提供的以视频为中心的融媒体内容推荐方法中，通过整合多格式多媒体的内容数据库形成基础内容仓库，然后对其中的内容元数据信息进行聚合处理构建内容元数据库，接着采用预设的标签体系对各个内容元数据信息打标签，并基于内容元数据信息及所打的标签形成融合媒体知识图谱，当用户在收看视频的过程中，实时捕获视频播放时关键帧中的实体元素和风格要素，基于每个关键帧的实体元素和风格要素构成的特征向量动态检索和匹配融合媒体知识图谱中的相关内容，包括视频、图片和文章，搜索出用户关注的目标元素信息，最后将目标元素信息作为输入搜索后端的商品库，找出最适于推荐的候选商品推荐给用户。因此，本发明具有如下有益效果：

1、建立了多格式多媒体内容的融合知识图谱，实现融合媒体内容的动态协作，能够给用户推荐更多内容，实现了更有效的内容营销；

2、基于知识图谱的语义化的内容推荐，可以实现比关键词匹配的方式更具泛化能力和更精准的推荐，同时效率也更好；

3、以视频媒体中心向用户高效率地传播各种形式的综合性内容，并通过人工智能的手段分析和挖掘出视频内容中包含的实体元素和风格要素，通过动态关联可销售的商品完成对用户精准的内容推荐和/或商品推荐。

本发明的第二方面提供一种以视频为中心的融媒体内容推荐装置，应用于上述技术方案所述的以视频为中心的融媒体内容推荐方法中，所述装置包括：

聚合单元，用于整合多格式多媒体的内容数据库，聚合内容元数据信息构建内容元数据库；

图谱单元，用于将所述内容元数据库中的每个所述内容元数据信息进行标签，基于所述内容元数据信息及所述标签形成融合媒体知识图谱；

检索单元，用于实时捕获视频播放时当前关键帧中的实体元素和风格要素，从所述融合媒体知识图谱搜索出用户关注的目标元素信息；

推荐单元，用于根据所述目标元素信息从商品库中筛选出目标商品信息，并向用户推荐。

与现有技术相比，本发明提供的以视频为中心的融媒体内容推荐装置的有益效果与上述技术方案提供的以视频为中心的融媒体内容推荐方法的有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述以视频为中心的融媒体内容推荐方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的以视频为中心的融媒体内容推荐方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一中以视频为中心的融媒体内容推荐方法的流程示意图；

图2为本发明实施例一中以视频为中心的融媒体内容推荐方法的模块交互示意图；

图3为本发明实施例一中在视频编码的过程中加入关键帧分析和识别的流程示意图；

图4为本发明实施例一中在视频转码中间的过滤器中增加关键帧分析和识别的流程示意图；

图5为本发明实施例一中在线交互视频平台的逻辑结构。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种以视频为中心的融媒体内容推荐方法，包括：整合多格式多媒体的内容数据库，聚合内容元数据信息构建内容元数据库；将内容元数据库中的每个内容元数据信息进行标签，基于内容元数据信息及标签形成融合媒体知识图谱；实时捕获视频播放时当前关键帧中的实体元素和风格要素，从融合媒体知识图谱搜索出用户关注的目标元素信息；根据目标元素信息从商品库中筛选出候选商品，并向用户推荐。

本实施例提供的以视频为中心的融媒体内容推荐方法中，通过整合多格式多媒体的内容数据库形成基础内容仓库，然后对其中的内容元数据信息进行聚合处理构建内容元数据库，接着采用预设的标签体系对各个内容元数据信息打标签，并基于内容元数据信息及所打的标签形成融合媒体知识图谱，当用户在收看视频的过程中，实时捕获视频播放时关键帧中的实体元素和风格要素，基于每个关键帧的实体元素和风格要素构成的特征向量动态检索和匹配融合媒体知识图谱中的相关内容，包括视频、图片和文章，搜索出用户关注的目标元素信息，最后将目标元素信息作为输入搜索后端的商品库，找出最适于推荐的候选商品推荐给用户。因此，本实施例具有如下有益效果：

1、建立了多格式多媒体内容的融合知识图谱，实现融合媒体内容的动态协作，能够给用户推荐更多内容，实现了更有效的内容营销；

2、基于知识图谱的语义化的内容推荐，可以实现比关键词匹配的方式更具泛化能力和更精准的推荐，同时效率也更好；

上述实施例中，整合多格式多媒体的内容数据库，聚合内容元数据信息构建内容元数据库的方法包括：

将视频格式的多媒体内容数据库、图片格式的多媒体内容数据库以及文章格式的多媒体内容数据库中的内容元数据信息进行聚合，构建内容元数据库；内容元数据信息包括视频数据、图片数据以及文章数据的内容标题及内容描述。

具体实施时，多媒体内容数据库的数据格式包括视频格式、图片格式和文章格式，其中，视频格式的多媒体内容数据库中存储有多个视频数据，图片格式的多媒体内容数据库中存储有多个图片数据，文章格式的多媒体内容数据库中存储有多个文章数据，内容元数据信息的主要作用是对各条视频数据、图片数据及文章数据主要内容及标题的描述。通过对多格式多媒体的内容数据库中的内容元数据信息进行统一整合，能够实现数据关联的互联互通，实现融合媒体数据内容的动态协作，为用户带来更多的推荐内容。

上述实施例中，将内容元数据库中的每个内容元数据信息进行标签的方法包括：

针对内容元数据库中的各内容元数据信息进行分类、分词和词性标注，保留其中的关键信息词；将全部内容元数据信息对应的关键信息词随机分配成多组数据；取其中一组数据采用预设的标签体系人工标签后作为初始训练数据集，并设置初始训练模型；针对初始训练数据集中的每个标签进行训练得到标签分类模型；利用标签分类模型训练其他组数据，直至标签准确率达到准确率阈值输出标签分类模型，否则针对标签分类模型持续优化；采用输出的标签分类模型对内容元数据库中的各内容元数据信息进行标签。

上述实施例中，针对标签分类模型持续优化的方法包括：通过扩充初始训练数据集，和/或，调整初始训练模型对标签分类模型进行优化。

需要说明的是，任何数据都会带有一些元数据，经过对这些元数据恰当的分类和处理，就可以形成一系列描述内容的标签，这些标签可以作为知识图谱构建的数据基础。本实施例采用两级分类的标签体系，标签体系的内容分类及元数据的一个典型示例如下表1-1所示：

表1-1

依据上述分类结构和元数据信息设计的标签体系，可以更贴合内容数据库内在特征有针对性且更加准确地打上标签。内容的标题和描述是主要的标签识别的来源，标签是预先设计好的针对二级分类的标签集。所以打标的方法可以通过如下迭代过程完成：

1、针对内容元数据库中的各内容元数据信息进行分类、分词和词性标注，保留其中的关键信息词，即名词、形容词、动词；

2、将标题和描述的关键信息词连同其他元数据信息构成内容的初始元信息向量；

3、将二级分类的内容数据随机等数量地分为10组，取第1组数据进行人工打标签，构成初始训练数据集，并设置初始训练模型(svm)；

4、针对初始训练数据集中的每个标签进，利用初始训练模型对训练数据集进行训练，得到标签分类模型；

5、取下一组数据采用上述标签分类模型自动打标签，并将标签结果人工核验，计算标签分类模型针对该组数据的当前标签准确率；

6、如果当前的训练数据集已经达到m组，如m取4，则进入步骤7，否则，如果当前标签准确率不高于90％并且比上一轮评估有所下降，那么使用核验完成之后的数据集再加上前一组数据重新构成训练数据集，并返回步骤4重新训练标签分类模型，如果当前标签准确率高于90％且没有比上一轮下降，则取下一组数据重新执行步骤5；

7、如果当前标签准确率不理想，如不高于90％或训练集越大准确率越低，那么需调整初始训练模型为混合型，即加入逻辑回归、决策树模型，并用集成学习组织多个模型，构成新的初始训练模型后返回步骤4重新训练标签分类模型，如果当前标签准确率理想，则直接进入步骤8；

8、采用理想的训练标签分类模型对剩余组数据进行自动打标签即可。

本实施例中的融合媒体知识图谱是最为核心的数据，也是几个重要方法过程的枢纽。图2展示了本方案的几个核心模块的关系，可以看出融合媒体知识图谱的重要性。表1-2列出了该融合媒体知识图谱包含的节点模型，即实体对象信息模型，表1-3列出了边模型，即对象关系信息模型。其中主标签前缀含义如下：v-视频，p-图像，t-文本，h-人，o-物，r-关系。

表1-2

表1-3

上述实施例中，在实时捕获视频播放时当前关键帧中的实体元素和风格要素之前还包括以下中的一种或多种：

分析多媒体内容数据库中的视频数据，识别出关键帧图像的实体元素信息和风格要素信息扩充入融合媒体知识图谱；分析多媒体内容数据库中的图片数据，识别出图片的实体元素信息和风格要素信息扩充入融合媒体知识图谱；分析多媒体内容数据库中的文章数据，识别出其中的关键文字实体信息扩充入融合媒体知识图谱。

其中，关键帧图像和图片中实体元素信息和风格要素信息的识别方法包括：

针对关键帧图像和图片中的人脸和人体姿态进行检测，识别出人脸和躯干四肢；基于人脸识别结果搜索演员数据库得到演员的身份信息，以及基于躯干四肢识别结果识别演员的服饰风格得到演员的服装信息；针对关键帧图像和图片中除人脸和人体姿态之外的物体进行识别，得到物体的商品信息；针对关键帧图像和图片中的文字进行识别，得到文字信息；将身份信息、服装信息、商品信息、文字信息中的一种或多种扩充入融合媒体知识图谱。

具体实施时，分析关键帧图像和图片的内容，识别出视频的关键帧图像和图片中的实体元素和风格要素，并将这些信息存储到融合媒体知识图谱中。具体过程如下：

1、首先对关键帧图像和图片进行人脸和人体姿态检测，发现是否存在人脸或人的躯干以及四肢，如果存在，那么进入步骤2，否则进入步骤3；

2、对关键帧图像和图片中的人脸进行识别，并将识别结果和演员库进行比对，得出演员信息；对关键帧图像和图片中的演员着装进行服饰风格的识别，如色彩、款式和面料以及整体风格得出服装信息，并将演员信息和服装信息存入融合媒体知识图谱；

3、对关键帧图像和图片中的物体进行检测和识别，无需得出精确的物体识别结果，只需要得出其形状分类、颜色分类，以及大致的物品分类概率就可以，将这些信息存入融合媒体知识图谱；

4、如果关键帧图像和图片在步骤2和步骤3检测之外的区域中存在文字，比如字幕，标牌等，那么可以进一步利用ocr技术提取文字信息，并对文字信息进行文本分词和词性标注，保留有实际意义的词，主要包括名词、动词和形容词，将这些关键词信息存入融合媒体知识图谱。

上述实施例中涉及的人脸检测和识别，以及肢体检测都已经有了非常成熟和健壮的算法作为支撑，服装和服装风格的识别近几年也有了诸如deepfashion之类的模型和算法来支持，对于物体的轮廓检测、色彩和纹理识别，以及根据物体轮廓和纹理进行粗糙分类的算法就更加成熟了。中文ocr和分词、词性标注技术也已经非常成熟完全可以在方案中直接应用。所以这里是利用这些相对成熟的技术从图片中提取对于整体技术方案有实质性帮助的信息。

其中，文章数据中关键文字实体信息的识别方法包括：

将文章数据按照句子的分隔符分句，并对每个分句进行唯一id的分句标识；将每个句子的对象数据及其前后两个分句的分句标识进行关联，扩充入融合媒体知识图谱；将每个句子进行分词，去除噪声词后针对每个分词进行唯一id的分词标识，扩充入融合媒体知识图谱；根据文章数据的内容属性进行唯一id的文章标识，将文章数据的对象数据、文章数据与分句的关联关系以及分句与分词的关联关系，扩充入融合媒体知识图谱。

具体实施时，分析文章数据的内容，识别出文章数据的关键文字实体信息，并将这些信息存储到融合媒体知识图谱中。具体过程如下：

1、以每一篇文章数据作为基本的处理单位，将文章按照句子分隔符，如换行符、句号、叹号、问号、分号等拆分为多个句子，基于句子的内容给每一个句子生成一个全局唯一id，将句子对象数据及其前后各两个句子的id进行关联，并存入融合媒体知识图谱；

2、对于划分出的每一个句子，对其进行分词操作，同时对每一个词语进行词性标注；

3、将词性标注的词语，根据词性只保留有实际意义的词，包括名词、动词和形容词，其余的词语对象可以舍弃。对于每一个保留的词语，根据它们的文本内容生成一个全局唯一id，将词语对象数据存入融合媒体知识图谱；

4、根据文章的基本属性生成一个全局唯一id，将文章对象数据、文章与的句子的关联关系、句子词语的关联关系三者同时存入融合媒体知识图谱。

具体实施时，上述过程涉及的中文分词和词性标注方法，都已经有了非常成熟的技术方案和开源软件，比如结巴分词、斯坦福nlp库等。

上述实施例中，从融合媒体知识图谱搜索出用户关注的目标元素信息的方法包括：

将实体元素和风格要素转换为特征向量，从融合媒体知识图谱检索出相关的元素信息；基于预设关键帧间隔数内元素信息出现的次数，动态调整元素信息的强度值；当元素信息的强度值达到强度阈值时，将对应的元素信息作为目标元素信息输出。

具体实施时，在用户收看某个视频内容的过程中，随着时间的推移，每一个关键帧图像依时序展现在用户终端，每展现一幅图像，就可以认为图像所关联的内容信息作用于用户一次，那么一些信息对用户的作用就会随着时间推移而累加并加强，同时另一些信息也会随着时间推移而衰减。相同或类似的信息长时间反复发生作用，就会加强到一定程度对用户产生显著的正向作用；相反地，同样的信息如果长时间没有发生作用，那么就会减弱从而失去对用户的正向作用。基于这样的一种基本原理，就可以利用融合媒体知识图谱生成推荐内容，并达成理想的效果。示例如下：

1、终端在播放视频的过程中，每播放一个关键帧都可以随之得到其包含的信息，比如演员的身份信息，服装的色彩款式等服装信息，主要物体的形状、颜色和分类概率等商品信息，以及关键文字信息等。这些信息元素可以组织成一个信息对象，然后给信息对象中的每一个信息元素赋予一个强度值。信息元素初始生成的时候，强度值都是0；

2、随着视频播放的推进，信息对象中的信息元素每复现一次，强度值加1。这里要注意的是，如果用户操控终端快进、快退、或定位到相对当前时间点之前或之后的某一个播放位置，那么该过程的规则依然适用；

3、随着视频播放的继续推进，如果一个信息元素在一定关键帧间隔数x内都没有被加强，那么就进入衰减阶段，衰减阶段的模型可以用“半衰期”来量化，如果“半衰期”是y，那么就意味着每隔y个关键帧，信息元素的强度值减半，如果信息元素已经进入了衰减阶段，但是在某一个关键帧播放的时候又再次出现，那么强度可以继续加1，并退出衰减阶段；

4、利用融合媒体信息协作模型，可以以主视频关键帧本身的信息元素作为输入，搜寻、匹配并输出更多相关的信息元素。这些外围信息元素根本上来源于融合媒体知识图谱中的各种内容，一部分可以加强主视频信息元素的强度，一部分也可以减弱主视频信息元素的强度，还有一部分可以独立发挥作用，也就是要单独计算强度。

5、当任意一个信息元素的强度超过预设的阈值，就可以触发内容推荐机制。以信息元素作为输入在融合媒体知识图谱中搜索与其相关度最高的内容作为被推荐的内容，包括视频、图片、文章。

上述实施例过程为：参数x表达了对信息元素有效性的容忍度，x越大则越希望信息元素能够存活。参数y表达了在超过容忍度之后，信息元素失效的快慢。y越小则表示希望信息元素越快失效。如果一个内容总体的信息元素数量较多，那么可以设置较小的x，反之设置较大的x；如果信息元素变化频率高，那么可以设置较小的y，反之设置较大的y。因此，参数x和y的设置可以通过如下两种不同方法实现：

1、静态规则：根据视频的类型和时长进行设置。不同类型的视频时长不同，信息元素的种类和变换的频率也不同。一般情况下，电视剧的时长在30分钟到1个小时，信息元素种类多，变换频率低；电影的时长在1.5个小时到3个小时，信息元素种类多，变换频率高；综艺节目时长在1小时到2小时，信息元素种类少或集中，变换频率也低；自媒体视频时长在5分钟到10分钟，信息元素种类少或集中，变换频率也低；短视频时长则在15秒到1分钟，信息元素种类少或集中，变换频率也低。所以，对于电视剧，可以设置较小的x和较大的y；对于电影，可以设置较小的x和y；对于综艺、自媒体视频和短视频，则可以设置较大的x和较大的y。当然，x和y的长短都是相对于视频总时长来说的，不同视频x和y的绝对值需要和视频本身的总时长有关。比如，如果一个关键帧间隔是5秒。那么，电视剧可设置x＝12，y＝60；电影可设置x＝12，y＝24；综艺节目可设置x＝60，y＝60；自媒体视频可设置x＝12，y＝12；短视频可设置x＝1,2,3，y＝1,2,3。

2、动态规则：根据信息元素的种类和变换率进行设置。同样遵循上述基本原则，只不过是通过运行时计算进行动态调整的策略来实现的。假设关键帧的间隔是s，视频总时长为t，那么一共就有关键帧数量n＝t/s个关键帧间隔，视频信息元素的总量是可以预先获知的，即不同信息元素的数量记为i，在每一个关键帧播放的时候都记录下不同信息元素的数量，那么在任意一个关键帧播放的时候，就可以知道已经有多少比例的信息元素已经出现过了，设这个比例为p。随着播放进度的推移，p一定是从0到1单调递增的，如果当前是第n个关键帧间隔，那么用p*i/n可以表示已经经历的播放进度中的信息元素的密度，以此来动态地衡量信息元素变化频率，如果i较大，可以设置x＝max(1,n/100)；如果i较小，可以设置x＝max(3,n/20)。如果p*i/n较大，那么可以设置y＝max(1,n/100)；如果p*i/n较小，那么可以设置y＝max(3,n/20)。当然这里的取值不是绝对的，完全可以划分出更多的区间间隔，甚至通过连续函数来设置。

上述实施例中根据目标元素信息从商品库中筛选出候选商品，并向用户推荐的方法包括：

若目标元素信息包括演员信息，从商品库搜索与演员信息相关的商品作为候选商品放入候选商品列表；若目标元素信息包括服装信息，从商品库搜索与服装信息相关的商品作为候选商品放入候选商品列表；若目标元素信息包括物体的商品信息，从商品库搜索与商品信息相关的商品作为候选商品放入候选商品列表；针对候选商品列表中的候选商品进行相关性评分，筛选出评分最高的候选商品推荐给用户。

上述实施例中的商品推荐过程具体如下：

1、利用融合媒体信息协作模型得出的可以推荐商品的信息元素中(以下步骤中简称“输入的信息元素”)，如果包含演员、知名人士等身份信息，将该关键人物信息输入商品库，看商品库中是否有关键人物代言的或者与其紧密相关的商品，有的话作为候选商品放入候选商品列表；

2、如果输入的信息元素中包含服装相关的信息，如色彩、款式、面料等，那么以此作为输入在商品库中检索匹配的服装商品信息，并将检索结果放入候选商品列表。

3、如果输入的信息元素中包含物体形状、颜色和分类概率信息，那么以此作为输入在商品库中检索商品属性能够匹配的商品信息，并将检索结果放入候选商品列表；

4、如果输入的信息元素中包含文字信息，那么以此作为关键词输入商品库进行检索，将得到的检索结果放入候选商品列表。

以上步骤的检索都会有一个结果相关性评分，按照该相关性评分对候选商品列表进行综合排序，评分越高的排在越靠前的位置，然后推荐给用户。

优选地，上述实施例中在向用户推荐候选商品之后还包括：根据用户针对推荐的候选商品的交互数据，动态调整元素信息的强度值。

具体实施时，内容和商品推荐给用户之后，系统收集用户交互数据并进行统计，可以得到每一条相关内容和商品信息的展现量(imp)、点击率(ctr)或购买转化率(cvr)。这些数据综合起来可以被称为用户对推荐结果的认可度a，经过归一化处理a的取值在0和1之间。通过推荐的内容和商品将a反向作用到信息元素上。如果a超过一定阈值，那么认为对应的信息元素可以被加强，其强度值增加比例为a，如果信息元素已经进入了衰减期，那么就退出衰减期。很明显，上述过程可以直接调节和优化内容推荐，并间接影响商品推荐的结果，a的计算方法是需要根据实际实施的场景来决定的，哪个因素(imp、ctr、cvr)更重要，其对应的权重也就越大，本实施例对此不做限制。

具体实施时，融合媒体知识图谱支持通过信息元素检索相关内容的功能，其过程如下：

1、在实体对象数据(节点数据)的视频、图片、文章(即v_开头和p_开头以及t_article标签的节点)的基础元数据中，对输入的信息元素数据(字符串)进行模糊匹配，将匹配上的内容数据放入候选推荐内容集合。

2、在实体对象数据的人、服装、物品的属性数据中，对输入的信息元素数据(字符串)进行模糊匹配，将匹配上的数据放入相关对象集合。

3、根据对象关系数据中的r_[pic,article,label]_[person,garment,thing]，找到相关标签集合所关联的图片、文章和标签数据，并将其中的图片和文章数据放入候选推荐内容集合(如果存在重复的则忽略)，将标签数据放入相关标签集合。

4、在实体对象数据的标签(t_label)的文本中，对输入的信息元素数据(字符串)进行模糊匹配，将匹配上的标签数据放入相关标签集合(如果存在重复的则忽略)。

5、根据对象关系数据(边数据)中的r_[video,pic,article]_label，找到相关标签集合所关联的视频、图片和文章数据，放入候选推荐内容集合(如果存在重复的则忽略)。

6、对于候选推荐内容集合中的每一个内容节点，将所有属性数据作为特征集合(记为b)和主视频的特征集合(记为a)进行“距离计算”，距离越小的表示相关性越高，排名越靠前。这样就得出了排好序的候选推荐内容列表。其中距离计算可使用如下方法实现：

a)首先以集合包含度计算b在a中的相似度即a和b的交集元素数量除以a的元素数量。这样所有候选内容就可以得出一个与主视频的包含相似度，相似度越高排名越靠前。

b)对于包含相似度相等的候选内容，可以进一步利用ochiai系数来进行二级排序，k值越高排名越靠前。

对于上述实施例中的融合媒体信息协作模型需要说明的是：

融合媒体信息协作模型是用来量化相关媒体内容对主视频关键帧内容信息元素强度值的影响的。这种影响包含三种情况：加强、减弱、不相关。加强的作用是增大对应信息元素的强度值，减弱的作用是减小对应信息元素的强度值，不相关的作用是初始化新的信息元素来计算强度值。比如主视频累积的信息元素及强度为{a:a,b:b,c:c,d:d,e:e,f:f}，最新得到的关键帧包含的信息元素为[a,b,c]，那么更新后的累积信息元素强度就是{a:a+1,b:b+1,c:c+1,d:d,e:e,f:f}，同时与该关键帧相关的内容中有一篇新闻报道其信息元素为[b,c,d,g]。其中b和c对主视频的影响是加强，d是减弱，g因为并没有出现在目前的主视频中其影响就是不相关。由该新闻报道更新之后的累积信息元素强度就是{a:a+1,b:b+2,c:c+2,d:d-1,e:e,f:f,g:0}。

之所以会出现减弱的情况，是因为针对同一信息元素的不同来源的内容有可能会有不同的价值导向。比如主视频是由某明星主演的一部电影，那么在大多数关键帧的信息元素中都会出现该明星，但是某一篇相关的新闻文章是该明星的负面报道，那么就会减弱其强度值。再比如某一物品在关键帧中被加强，但是在某一文章或视频中被曝光存在质量问题，那么就会减弱其强度值。

融合媒体信息协作模型也是通过知识图谱的方式构建的，具体的方式就是在表1-3的相关关系对象中增加强度影响属性。比如文章-人(r_article_person)上增加属性：强度影响值＝+1，表示加强，加强值为1。增加协作信息之后的属性信息如表1-4所示。

表1-4

基于融合媒体知识图谱模型说明一下融合媒体信息协作模型的工作过程：

1、根据主视频的基础元数据和标签初始化信息元素列表，初始强度都设置为0；

2、主视频开始播放，如果当前关键帧全局id为f，那么在知识图谱中找到关键帧全局id为f的关系数据r_frame_person、r_frame_garment、r_frame_thing，找到其中包含的人物、服装和物品数据，并根据强度影响值更新主视频的信息元素列表的强度值；

3、根据关键帧的人物、服装和物品数据在知识图谱中分别查找r_[pic,article,label]_person，r_[pic,article,label]_garment，r_[pic,article,label]_thing数据，定位其中的图片、文章和标签节点，并根据其中的属性数据提取信息元素，然后结合关系数据中的强度影响值更新主视频的信息元素列表的强度值；

4、如果主视频当前的信息元素的强度值中有超过预设阈值的，那么触发根据这些信息元素的内容推荐和商品推荐过程；

5.返回步骤2继续执行，直到主视频播放完毕或客户端主动退出为止。

为了提升系统整体运行效率，提取视频关键帧进行视觉信息和文字信息分析识别的过程可以和视频编转码器结合起来，这样可以省去对已经编转码好的视频重新进行解码和分析的过程，即利用编转码的中间图像结果作为分析识别过程的输入数据，显著节约计算资源。这里分为两种场景：

1、对原始视频信号进行编码；

2、对已经经过编码的视频文件进行转码，即先解码再编码为另一种格式；

第一种场景的方案如图3所示，在视频编码器进行帧内预测的时候，利用编码器对原始图像信号预处理的结果进行分析和识别。这样有几点好处：

a、帧内预测的前提就是当前帧的判定是否为关键帧，所以就可以直接得到关键帧对象，无需对码流协议进行再拆解和分析；

b、经过编码器预处理的数据都是规整的，一般是yuv格式的原始图像数据，这种格式更加便于分析，因为y是亮度信息，可方便地用于分析图像的人脸、物体边缘轮廓、文字ocr等；uv是色度信息，便于分析图像色彩风格；

3、可直接利用编码器申请的内存空间，节省计算资源。

第二种场景的方案如图4所示，在转码过程的中间，通常会有一个图像过滤器对解码之后的图像进行处理。关键帧分析识别模块就可以作为过滤器的扩展功能实现，并接入整个流程中。解码器都会输出关键帧信息，以便模块可以判别关键帧。这种方案的好处是在对编码器内部结构没有改造能力的前提下能够适用于典型的转码流程。

可见，通过在视频编转码中集成图像分析模块优化整体系统，节约计算资源，提高整体流程的效率。摒弃了内容与商品关联的硬识别方法，采用核心要素分析和识别方法，可动态关联商品信息，可实现商品库的动态更新和商品推荐的动态关联。基于融合媒体动态协作的模型分析和挖掘出用户成功进行商品转化的偏好以及时机，以便带来更佳的商品推荐体验。

图5表示利用本实施例方案的在线交互视频平台的逻辑结构，其中，内容元数据提取&打标签，视频编码和分析处理，视觉&文字信息识别，视频内容注入是内容生产和准备阶段的过程。融合媒体知识图谱准备就绪之后，就可以开始给用户提供在线服务：用户通过客户端发起播放视频的请求，视频流媒体服务器向客户端提供视频流；在播放过程中，主视频和关键帧信息发送到后端的内容推荐引擎，再由内容推荐引擎向融合媒体知识图谱请求内容协作和内容推荐的数据。

实施例二

本实施例提供一种以视频为中心的融媒体内容推荐装置，包括：

聚合单元，用于整合多格式多媒体的内容数据库，聚合内容元数据信息构建内容元数据库；

图谱单元，用于将所述内容元数据库中的每个所述内容元数据信息进行标签，基于所述内容元数据信息及所述标签形成融合媒体知识图谱；

检索单元，用于实时捕获视频播放时当前关键帧中的实体元素和风格要素，从所述融合媒体知识图谱搜索出用户关注的目标元素信息；

推荐单元，用于根据所述目标元素信息从商品库中筛选出目标商品信息，并向用户推荐。

与现有技术相比，本发明实施例提供的以视频为中心的融媒体内容推荐装置的有益效果与上述实施例一提供的以视频为中心的融媒体内容推荐方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述以视频为中心的融媒体内容推荐方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的以视频为中心的融媒体内容推荐方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：rom/ram、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑叔亮
技术所有人：北京四达时代软件技术股份有限公司
我是此专利的发明人

上一篇：一种环氧-有机硅树脂及其制备方法和应用与流程
上一篇：一种服装折边热压成型装置及成型方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。