一种视频数据的推荐方法、装置和服务器与流程

文档序号：15385712发布日期：2018-09-08 00:32阅读：236来源：国知局

本申请涉及数据处理技术领域，特别是涉及一种视频数据的推荐方法，一种视频数据的推荐装置和一种服务器。

背景技术：

基于视频数据的导购及营销、社区化运营越来越成为电子商务网站运营的着力点，该种类营销方式具有很强的亲和力，便于用户更进一步地了解目标商品的特性特点，并且有很好的交互性和亲切点，所以，相对传统运营方法，能够很好地提升用户浏览点击转化率和购买转化率。

然而，在运营实践中，海量导购视频数据的高效管理和有效组织、如何抽取用户核心兴趣点进而提升用户点击欲望，却成为运营的痛点所在。现有的方法是运营手动去浩如烟海的导购/场景视频内容中截取一些可能会感兴趣的点，然后通过人工合成的方法来给出短视频(video)，进而展现给终端消费用户。在此过程中，浪费了大量宝贵的运营资源，并且，合成的短视频无法做到千人千面，即所有的终端用户看到的都是同样的短视频(没有考虑终端用户的年龄，消费层次，个人兴趣点及偏好信息等)。

也即是说，现有技术均无法解决自动化地生成相应的视频导购小视频，更多地需要大量运营人员来进行合成，人工极为耗费，而且，对海量视频数据的利用率不高，往往只局限于自己熟悉的一些视频护具中，但是在电商海量数据的要求下，这些视频人工合成也不能兼顾个性化的效果，更不能兼顾商品推广和提高gmv(grossmerchandisevolume，成交总额)的要求。

技术实现要素：

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频数据的推荐方法，一种视频数据的推荐装置和一种服务器。

为了解决上述问题，本申请公开了一种视频数据的推荐方法，包括：

获取待处理数据，所述待处理数据包括文本数据和视频数据；

依据所述文本数据生成语义映射关系图；

依据所述视频数据生成候选视频片段数据；

依据所述语义映射关系图和所述候选视频片段数据得到目标视频数据；

向用户推荐所述目标视频数据。

优选地，所述获取待处理数据的步骤包括：

获取原始数据，所述原始数据包括语音数据；

将所述语音数据转换为文本数据。

优选地，所述依据所述文本数据生成语义映射关系图的步骤包括：

从所述文本数据中提取语义实体；

从所述文本数据中提取所述语义实体之间的关联关系；

将所述语义实体和所述语义实体之间的关联关系保存为语义映射关系图。

优选地，所述从所述文本数据中提取出语义实体的步骤包括：

对所述文本数据中的预设特征文本进行过滤处理；

从过滤处理后的文本数据作中提取出语义实体。

优选地，所述依据所述视频数据生成候选视频片段数据的步骤包括：

将所述视频数据划分为视频帧；所述视频帧具有台词文本数据；

从所述台词文本数据中提取出语义标签；

将所述语义标签添加到对应的视频帧；

将语义标签相同的视频帧作为候选视频帧集合；

基于所述候选视频帧集合生成候选视频片段数据。

优选地，所述从所述台词文本数据中提取出语义标签的步骤包括：

按照预置文档主题生成模型lda从所述台词文本数据中提取出候选语义标签；

计算所述候选语义标签的词频逆向文件频率值；

将排序在前m位的候选语义标签作为语义标签，所述m为正整数。

优选地，所述视频帧还具有视图文本数据，所述将所述语义标签相同的视频帧作为候选视频帧集合的步骤，还包括：

采用所述视图文本数据将所述语义标签归类为新的语义标签；

将所述新的语义标签作为语义标签添加到对应的视频帧；

将新的语义标签相同的视频帧作为候选视频帧集合。

优选地，所述依据所述语义映射关系图和所述候选视频片段数据得到目标视频数据的步骤包括：

确定当前的推广意图数据；所述推广意图数据具有意图关键词；

从所述语义映射关系图中查找到与所述意图关键词对应的语义实体；

采用所述语义实体确定对应的语义标签；

基于所述语义标签从候选视频片段数据中筛选出对应的目标候选视频片段数据；

将所述目标候选视频片段数据合成为目标视频数据。

优选地，所述将所述目标候选视频片段数据合成为目标视频数据的步骤，还包括：

按照预设模型对于目标候选视频片段数据进行排序；

基于排序后的目标候选视频片段数据合成目标视频数据。

优选地，在所述将所述目标候选视频片段数据合成为目标视频数据的步骤之后，还包括：

针对所述目标视频数据进行平滑去噪处理，所述平滑去噪处理包括添加预设暖场视频帧和/或舍弃指定视频帧。

本申请实施例还公开了一种视频数据的识别方法，包括：

获取待处理的视频数据，所述待处理数据包括文本数据和视频数据；

将所述待处理的视频数据发送至服务器，所述服务器用于分别对所述待处理的视频数据进行识别，以获得识别结果，所述识别结果包括目标视频数据；

接收所述服务器返回的所述目标视频数据；

展现所述目标视频数据。

优选地，所述接收所述服务器返回的所述目标视频数据的步骤包括：

发送推广请求至服务器；

接收服务器针对所述推广请求从候选视频片段数据筛选的目标视频数据。

本申请实施例还公开了一种视频数据的处理方法，包括：

接收到交互界面提交的处理请求；

依据所述处理请求获取候选视频片段数据；

将所述候选视频片段数据发送至所述交互界面；

接收所述交互界面提交的推广请求；

依据所述推广请求从所述候选视频片段数据获取目标视频数据；

将所述目标视频数据发送至所述交互界面。

优选地，所述依据所述处理请求获取候选视频片段数据的步骤包括：

获取待处理数据，所述待处理数据包括文本数据和视频数据；

依据所述文本数据生成语义映射关系图；

依据所述视频数据生成候选视频片段数据。

优选地，所述依据所述推广请求从所述候选视频片段数据获取目标视频数据的步骤包括：

从所述推广请求中提取出意图关键词；

从所述语义映射关系图中查找到与所述意图关键词对应的语义实体；

采用所述语义实体确定对应的语义标签；

基于所述语义标签从候选视频片段数据中筛选出对应的目标候选视频片段数据；

将所述目标候选视频片段数据合成为目标视频数据。

本申请实施例还公开了一种视频数据的推荐装置，包括：

待处理数据获取模块，用于获取待处理数据，所述待处理数据包括文本数据和视频数据；

语义映射关系图生成模块，用于依据所述文本数据生成语义映射关系图；

候选视频片段数据生成模块，用于依据所述视频数据生成候选视频片段数据；

目标视频数据获得模块，用于依据所述语义映射关系图和所述候选视频片段数据得到目标视频数据；

目标视频数据推荐模块，用于向用户推荐所述目标视频数据。

本申请实施例还公开了一种视频数据的识别装置，包括：

获取模块，用于获取待处理的视频数据，所述待处理数据包括文本数据和视频数据；

识别模块，用于将所述待处理的视频数据发送至服务器，所述服务器用于分别对所述待处理的视频数据进行识别，以获得识别结果，所述识别结果包括目标视频数据；

接收模块，用于接收所述服务器返回的所述目标视频数据；

展现模块，用于展现所述目标视频数据。

本申请实施例还公开了一种服务器，包括：

处理请求接收模块，用于接收到交互界面提交的处理请求；

候选视频获取模块，用于依据所述处理请求获取候选视频片段数据；

候选视频发送模块，用于将所述候选视频片段数据发送至所述交互界面；

推广请求接收模块，用于接收所述交互界面提交的推广请求；

目标视频获取模块，用于依据所述推广请求从所述候选视频片段数据获取目标视频数据；

目标视频发送模块，用于将所述目标视频数据发送至所述交互界面。

本申请实施例包括以下优点：

本申请实施例，获取包括文本数据和视频数据的待处理数据，依据文本数据生成语义映射关系图，以及依据视频数据生成候选视频片段数据，最后根据语义映射关系图和候选视频片段数据得到目标视频数据来推荐给用户，本申请实施例可以根据语义映射关系图从海量的视频数据中筛选出个性化的目标视频数据，且全程可以无需人工干预，能够极大提升用户的视频内容浏览体验，提升购买转化率。

附图说明

图1是本申请的一种视频数据的推荐方法实施例的步骤流程图；

图2是本申请的一种视频数据的推荐方法的结构示意图；

图3是本申请的一种视频数据的识别方法的结构示意图；

图4是本申请的一种视频数据的推荐方法实施例的步骤流程图；

图5是本申请的一种视频数据的推荐装置实施例的结构框图；

图6是本申请的一种视频数据的识别装置的结构框图；

图7是本申请的一种服务器实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种视频数据的推荐方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取待处理数据，所述待处理数据包括文本数据和视频数据；

在本申请实施例中，待处理数据可以包括有文本数据和视频数据，其中，文本数据可以包括导购文案文本或者其他脚本，视频数据可以包括海量的导购视频数据。

在本申请的一种优选实施例中，所述步骤101可以包括如下子步骤：

子步骤s11，获取原始数据，所述原始数据可以包括语音数据；

子步骤s12，将所述语音数据转换为文本数据。

在实际中，原始数据中可以包括语音数据。当原始数据中存在语音数据时，可以先将语音数据转成文本数据，以便于后续的处理。

步骤102，依据所述文本数据生成语义映射关系图；

在本申请实施例中，可以根据已有的导购文案文本或者推广意图等文本来生成语义映射关系图，语义映射关系图可以记录语义实体之间的关联关系。

在本申请的一种优选实施例中，所述步骤102可以包括如下子步骤：

子步骤s21，从所述文本数据中提取语义实体；

子步骤s22，从所述文本数据中提取所述语义实体之间的关联关系；

子步骤s23，将所述语义实体和所述语义实体之间的关联关系保存为语义映射关系图。

在本申请实施例中，可以抽取文本数据中的语义实体(也可以称为语言实体)，并分析语义实体之间的关联关系，将关联关系抽取，作为语义映射关系图的边。

关于从文本数据中抽取语义实体，以及语义实体之间关联关系可以有多种实现方法。从方法论上讲，主要分为两类，基于规则的方法、基于统计模型的方法。

基于规则的方法，是从大量的文本数据中归纳总结一些关键词(例如表达、属于、是、依赖于等等)，对待抽取文本数据，按照既定的一些关键词抽取。

基于统计模型的方法，是从大量的标注文本中训练机器学习模型，然后对待抽取样本进行抽取语义实体及语义实体之间的关联关系。在实施本申请实施例时，可以采用基于统计模型的方法来抽取语义实体，以及语言实体之间的关联关系。

当然，本申请实施例也可以选用除基于规则的方法、基于统计模型的方法等其他实现方式来抽取语义实体，本申请实施例对此不需要加以限制。

在本申请的一种具体示例中，谓词可以作为语义实体之间关联关系的一种，但是由于谓词所表达的关联关系比较灵活和多变，因此可以根据语义实体所处的上下文环境对谓词进行准确识别并标注谓词词义，即进行谓词消除歧义的处理，提高本申请的处理准确度。

当完成对于语义实体和语义实体之间关联关系的抽取后，本申请实施例可以将涉及到的语义实体视作点，并将语义实体的关联关系视为边，来构建语义映射关系图。如果是多关系查询，那么语义映射关系图将会包含多个点和多条边。当然，也可以采用除图表之外的其他方式来记录语义实体以及语义实体之间的关联关系，本申请均不作限制。

在本申请的一种优选实施例中，所述子步骤s21可以包括如下子步骤：

子步骤s211，对所述文本数据中的预设特征文本进行过滤处理；

子步骤s212，从过滤处理后的文本数据作中提取出语义实体。

对于文本数据，包括由语音数据转换所得的语音数据，可以在抽取语义实体之前，事先做一些必要的清洗，去掉预设特征文本。具体来说，可以对文本数据中语气词，停用词，助词等等预设特征文本进行过滤处理，从而得到比较规范化的文本数据，随后再进行后续的提取语义实体的处理。

步骤103，依据所述视频数据生成候选视频片段数据；

在本申请实施例中，可以根据海量的视频导购数据的视频帧来生成多个候选视频片段数据，其中，该候选视频片段数据具有语义标签。在本申请的一种优选实施例中，所述步骤103可以包括如下子步骤：

子步骤s31，将所述视频数据划分为视频帧；所述视频帧可以具有台词文本数据；

子步骤s32，从所述台词文本数据中提取出语义标签；

子步骤s33，将所述语义标签添加到对应的视频帧；

子步骤s34，将语义标签相同的视频帧作为候选视频帧集合；

子步骤s35，基于所述候选视频帧集合生成候选视频片段数据。

本申请实施例中，可以将视频数据划分成视频帧，然后对于视频帧进行语义分析与建模，包括分析视频帧的台词文本数据，视频帧的视图文本数据抽取，视频帧分割与物体抽取等等。

其中，台词文本数据指的是视频数据中与视频帧对应的配音台词文本数据。视图文本数据，是对视频帧进行图片分析之后，抽取出来的图片含义，根据图片含义产生的文本数据。

对于视频帧的台词文本数据，可以根据台词文本数据的场景及停顿，在台词文本数据单元内进行视频帧的聚类，视频帧物体的抽取，将视频帧最小聚类结果，打上语义标签。语义标签是一组视频帧聚类的场景总结表述，例如，可以包括开车，划船，跑步，吃大餐，甚至也可以包括做饭，拖地板，洗衣服等场景。

一般而言，首先根据台词文本数据的语义描述内容及语义停顿词来切分台词并划分场景，比如，“我今天开车去森林公园玩了，在森林公园玩了划船，然后绕着湖面跑步，最后在某某饭店吃了顿大餐。”在这个描述中，可以将台词文本数据对应的视频帧的聚类结果划分为四个语义标签，分别为：开车、划船、跑步、吃大餐。然后，根据语义标签对应的视频帧，进行视频帧的聚类，即语义标签相同的视频帧可以作为一类候选视频帧集合。在上述场景中，当把视频帧标记为四个语义标签对应的场景后，对每个语义标签所涵盖的一系列视频帧，进行视频帧物体的抽取分割。

比如，在划船场景中，抽取一系列视频帧的物体特征数据，比如可以抽取船的形状，是否带蓬，是否带桨，背景是湖面还是河道，这些数据有助于更好地理解图片的含义，以验证聚类结果的准确性和完整性。

在本申请的一种优选实施例中，所述子步骤s32可以包括如下子步骤：

子步骤s321，按照预置文档主题生成模型lda从所述台词文本数据中提取出候选语义标签；

子步骤s322，计算所述候选语义标签的词频逆向文件频率值；

子步骤s323，将排序在前m位的候选语义标签作为语义标签，所述m为正整数。

对视频帧的台词文本数据进行lda(latentdirichletallocation，文档主题生成模型)分析，抽取语义实体。台词文本数据构成了大量的原始文本语料，然后进行lda建模分词，输出候选的语义标签集合，然后，计算这些候选的语义标签的tf-idf(termfrequency–inversedocumentfrequency，词频-逆向文件频率)值，按照tf-idf值大小进行排列，输出值最大的一些精选的语义标签。比如，可以输出排序在前m位的候选语义标签作为最终的语义标签。

在本申请的一种优选实施例中，所述视频帧可以具有视图文本数据，所述子步骤s34还可以包括如下子步骤：

步骤s341，采用所述视图文本数据将所述语义标签归类为新的语义标签；

步骤s342，将所述新的语义标签作为语义标签添加到对应的视频帧；

步骤s343，将新的语义标签相同的视频帧作为候选视频帧集合。

在本申请的一种优选应用中，可以根据视频帧的视图文本数据和图像物体识别，对已有语义标签的视频帧进行重新层次聚类，按照语义最大化原则将视频帧的语义标签重新归并。

具体地，通过视频帧的视图文本数据和图像物体识别，识别出视频帧中的物体及其形态特征，背景物体内容及其形态特征，例如在划船和跑步场景中，其实都是在森林公园中发生的，并且根据划船跑步的视频帧的内容分析得知，划船和跑步是由一系列连贯的视频帧组成的，所以，按照语义最大化原则进行重新层次聚类，划船和跑步的语义标签重新归并生成了游玩森林公园这个新的语义标签。游玩森林公园这个新的语义标签涵盖了在森林公园连贯的两个活动场景，划船和跑步，并且，这两个场景是连贯并且一气呵成的。

在具体实现中，有些相邻的视频帧可能分别属于不同语义标签，然而，如果基于语义标签将视频帧合成为候选视频片段数据，那么可能候选视频片段数据不够平滑，因此在本申请实施例中，按照连续帧的最小单元切分片段，构建hmm(hiddenmarkovmodel，隐马尔科夫模型)，去寻找最优的片段回路，然后用最优的片段回路去对划分好的视频帧聚类结果进行平滑及去噪处理。

最优的片段回路指的是视频帧与视频帧之间的最合理断开点，比如，某一视频帧属于a语义标签，而它的下一帧则属于b语义标签。这点需要根据视频帧抽取的物体内容特征、该帧的前一帧所抽取的物体内容特征、语义标签特征来构建hmm模型，然后输出该视频帧分别属于a标签和b标签的概率，最终取最大化概率来判定该帧属于a语义标签还是b语义标签。

最后，根据最优的片段回路的hmm模型结果，输出两个语义标签的一些边界帧的语义标签归属。通过寻找最优的片段回路，使得对边界视频帧重新做了一些精细化的平滑及去噪处理。

步骤104，依据所述语义映射关系图和所述候选视频片段数据得到目标视频数据；

在本申请的一种优选实施例中，所述步骤104可以包括如下子步骤：

子步骤s41，确定当前的推广意图数据；所述推广意图数据具有意图关键词；

子步骤s42，从所述语义映射关系图中查找到与所述意图关键词对应的语义实体；

子步骤s43，采用所述语义实体确定对应的语义标签；

子步骤s44，基于所述语义标签从候选视频片段数据中筛选出对应的目标候选视频片段数据；

子步骤s45，将所述目标候选视频片段数据合成为目标视频数据。

本申请实施例可以基于前面的步骤所得到的语义映射关系图和候选视频片段数据技术框架下，来合成目标视频数据。

具体地，通过分析文本形式的文案或者推广意图，从海量导购视频中抽取合适的视频片段。首先，基于当前的推广意图数据分析出意图关键词，然后在基于意图关键词从语义映射关系图中查找到对应的语义实体，然后再基于该语义实体查找到对应的语义标签，最后基于该语义标签查找到目标候选视频片段数据，来合成所需的目标视频数据。

在本申请的一种优选实施例中，所述子步骤s45还可以包括如下子步骤：

子步骤s451，按照预设模型对于目标候选视频片段数据进行排序；

子步骤s452，基于排序后的目标候选视频片段数据合成目标视频数据。

为了更好地贴合用户需求，本申请实施例还将基于预设模型对于目标候选视频片段数据先进行排序，使得贴合用户需求的视频片段能够更加靠前地展示给用户。

首先，根据视频帧的语义信息来构建出一系列的语义标签，比如，我开车去某某游泳馆游泳，然后去旁边的商业街买手机，可以分解为开车、游泳、逛商业街、买手机等四个语义标签。

然后，根据语义标签查询到视频库中的具有语义标签打标的候选视频片段数据。然后，对候选视频片段，按照预设的电商圈店圈品模型、用户个性化模型进行排序，尽量选视频帧中涵盖了爆款商品的，尽量根据用户个性化信息，来选择视频。

最终，将一系列语义标签筛选出来的视频小片段进行合成，构成了合成的小视频，即本申请的目标视频数据。

在本申请的一种优选实施例中，在所述将所述目标候选视频片段数据合成为目标视频数据的步骤之后，还可以包括如下子步骤：

针对所述目标视频数据进行平滑去噪处理，所述平滑去噪处理包括添加预设暖场视频帧和/或舍弃指定视频帧。

将合成的视频按照专家规则进行平滑去噪处理，得到最终的视频投放小视频，按照某类人群的特定profile进行个性化投放。

合成的视频是由若干视频片段拼接而成的。拼接的过程中，可能存在视频衔接的问题，所以，需要依据一些专家规则做对应平滑过滤。具体可以包括：

1、视频场景切换不要太快，比如，可以在场景切换过程中，加入一些暖场视频。

2、视频色调及风格变换中，要有一定的过渡。在此过程中，可以舍弃视频衔接处较为突兀的视频帧。

当然，上述对于视频的处理规则仅仅是作为示例，在实施本申请实施例时，可以采用其他方式或规则对于视频帧进行处理，使得视频衔接更加柔和，本申请实施例对此不加以限制。

步骤105，向用户推荐所述目标视频数据。

本申请实施例当取得目标视频数据后，就可以将该视频数据投放给用户。其中，向用户推荐目标视频数据可以是在用户界面播放所述目标视频数据，也可以是将所述目标视频数据推送给用户，本申请实施例对推荐目标视频数据的具体方式不作限定。

为了使本领域技术人员更好理解本申请实施例，以下采用具体的示例对于本申请实施例进行说明。参照图2所示的本申请的一种视频数据的推荐方法的结构示意图，其具体可以分为如下几个部分：

一、文本数据及语音数据预处理

语音/文本去噪预处理(输入)：将语音数据转成文本数据，其中，文本数据需要做一些必要的清洗，例如去掉语气词，常用词，助词等等。

二、实体映射

抽出语言中的实体及其关系(输入)：抽取文本中的语言实体，分析实体之间的关系，将关系抽取，组成语义关系映射图的边。

三、谓词消歧

谓词识别与同义标注(输入)：是根据语义实体所处的上下文环境对谓词进行准确识别并标注谓词词义。

四、构建语义关系映射图

将语义实体与谓词及其关系构建语义图(输入)：将涉及到的实体视作点，将实体的关系视为边，构建语义关系映射图。如果是多关系查询，语义关系映射图会包含多个点和多条边。

五、图像理解技术及连续帧分析

分析视频数据所代表的含义，对连续帧进行建模分析(输入)：将图像进行序列分析，对分析的图像进行帧建模处理，包括以下几步：

(1)将视频数据划分成最小的视频帧(a、b、c、d等等)，然后对于视频帧进行语义分析与建模，包括分析视频帧的台词文本，视频帧的视图文本抽取，视频帧分割与物体抽取。

对于视频帧的台词文本数据，根据台词文本数据的场景及停顿，在台词文本单元内进行视频帧的聚类，视频帧物体的分割，将视频帧最小聚类结果，打上语义标签。

(2)根据视频帧的视图文本数据和图像物体识别，对已有语义标签的视频帧进行重新层次聚类，按照语义最大化原则将视频帧的语义标签重新归并。

(3)最后，按照连续帧的最小单元切分片段，构建hmm(隐马尔科夫)模型，去寻找最优的片段回路，然后用片段回路去对划分好的视频帧聚类结果进行平滑及去噪处理。

六、台词文本数据及视图文本数据抽取与语义理解

对视频帧的台词及视图文本抽取进行语义图建模(输入)：对视频帧的台词进行语义实体建模，进行lda分析，抽取语义实体关键词，另外，对视图中的文本也进行分割抽取，包括以下几步：

(1)对图像的台词文本数据进行语义分析，然后按照已有的语料进行lda建模，然后对图像台词进行lda抽取，按照语义关键词进行tf-idf计算，提取出视频帧的语义标签。

(2)分析视频帧的语义含义，进行视频帧归并.

七、视频帧与实体的idmapping技术

将语义标签与视频实体帧进行去噪，过滤处理(输入)：视频帧聚类的结果，与视频帧的语义标签进一步地处理，去噪，按照规则进行校验，使得视频帧与语义标签的对应比较平滑。

八、视频合成与优化组合处理

运用电商圈店圈品模型，用户个性化模型，用户分层聚类模型等模型来合成视频数据(输入)，主要有以下几步：

(1)电商圈店圈品模型用来筛选视频帧，比如需要一个女性服饰的镜头，按照女性服饰的圈品模型，筛选出爆款sku或者，按照用户个性化模型，来筛出用户的潜在兴趣点品类，主要是为千人千面服务

(2)用户个性化模型，主要用来对视频帧进行排序筛选，比如女性用户的潜在兴趣需要一些浪漫的镜头，而男性需要比较阳刚的镜头，这些都可以根据用户profile来个性化合成

(3)用户分层聚类模型，用来对用户进行层次聚类，更高地将用户划分出较大的类别簇，方便对某个类别用户做一些特定处理。

九、人群定投push系统

将合成的视频按照专家规则进行平滑去噪处理，得到最终的视频投放小视频，按照某类人群的特定配置数据进行个性化投放。

综上概括，本申请实现的具体执行顺序可以是：

输入：已有文本和语音(包括文案，脚本之类)

步骤1：文本和语音的预处理，实体映射/谓词消岐/构建语义映射图；

步骤2：海量导购视频分析与处理，进行图像理解与连续帧分析建模；

步骤3：台词文本数据及视图文本数据抽取与语义理解，lda建模抽取关键语义词作为打语义标签；

步骤4：语义标签与视频帧进行关联处理，然后按照层次聚类进行再处理；

步骤5：视频帧与语义实体的idmapping技术；

步骤6：按照电商圈店圈品模型，用户个性化兴趣模型，用户分层聚类模型等模型来合成小视频，并按照规则进行去噪和平滑处理。

输出：基于千人千面的人群个性化视频，在个性化投放及push推送系统中进行个性化投放。

(1)基于上述可知，本申请实现了一种全新的视频内容自动化，个性化生成及push投放系统，能够实现如下情况：根据当前的文案和推广意图，通过分析文本形式的文案或者推广意图，从海量导购视频中抽取合适的视频片段，然后将语义标签与海量帧片段进行打标进行关联，在此过程中，运用个性化推荐和图像视频分析技术、爆款选品技术，千人千面地自动合成对应不同层次，不同品味的面向终端用户的视频导购视频，进而提升用户服务体验，提高用户转化率，拉动gmv的提升。该系统能够极大地提高运营效率，赋能直播运营，以及满足用户“个性化内容”心智，并在此基础上，实现商业价值的最大化。

(2)基于(1)，设计了一个语义分析及映射图模型，将涉及到的语言实体视作点，将实体的关系视为边，构建语义图。如果是多关系查询，语义关系映射图会包含多个点和多条边。最终在语义关系映射图的指导下，合成小视频。

(3)基于(1)，设计了一个图像理解和连续帧分析模型，将图像进行序列分析，对分析的图像进行帧建模处理，最终将连续视频帧划分为语义层面上独立的个体视频帧。

(4)基于(1)，设计了一个视频帧的台词文本数据及视图文本数据抽取然后转化为语义图的步骤。

(5)基于(1)，设计了视频合成及优化处理模型，运用电商圈店圈品模型，用户个性化模型，用户分层聚类模型等模型来合成视频语义帧，最后平滑去噪，输入到投放系统中按人群类别进行输出。

参照图3，示出了本申请的一种视频数据的识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，获取待处理的视频数据，所述待处理数据包括文本数据和视频数据；

步骤202，将所述待处理的视频数据发送至服务器，所述服务器用于分别对所述待处理的视频数据进行识别，以获得识别结果，所述识别结果包括目标视频数据；

在本申请实施例中，通过客户端的交互界面，让用户输入待处理数据，具体地，在交互界面可以包括一个或多个视频输入框，该输入框可以按渠道(例如国内渠道和国外渠道)或者按照视频数据的类型(例如已拍好的广告视频或者公益视频等等)，待用户完成输入后，可以通过点击交互界面上的提交按钮，将输入的视频数据传输至服务器。

步骤203，接收所述服务器返回的所述目标视频数据；

服务器接收到客户端传输的视频数据后，会对该视频数据进行识别，得到识别结果，其中，识别过程可以得到候选视频片段数据，进一步地，还可以根据候选视频片段数据得到目标视频数据。

在本申请的一种优选实施例中，所述步骤203可以包括如下子步骤：

子步骤s51，发送推广请求至服务器；

子步骤s52，接收服务器针对所述推广请求从候选视频片段数据筛选的目标视频数据。

在实际中，根据用户群体或者推广时间等因素，需要策划不同的不同的推广文案，本申请实施例中，可以基于推广文案生成推广请求，并发送至服务器，使得服务器能够从候选视频片段数据中筛选出符合推广文案的目标视频数据。

步骤204，展现所述目标视频数据。

服务器得到目标视频数据后可以将反馈给客户端中，客户端可以将目标视频数据展现在交互界面。进一步地，用户交互界面观看到目标视频数据后，可以点击目标视频数据，然后进行播放。

由于本实施例与上述视频数据的推荐方法实施例类似，可以相互参阅，本申请实施例对此不再赘述。

参照图4，示出了本申请的一种视频数据的推荐方法实施例的步骤流程图，具体可以包括如下步骤：

步骤301，接收到交互界面提交的处理请求；

步骤302，依据所述处理请求获取候选视频片段数据；

步骤303，将所述候选视频片段数据发送至所述交互界面；

在本申请实施例中，服务器接收到客户端的交互界面提交的处理请求后，将依据该处理请求对于待处理的视频数据进行处理得到候选视频片段数据，此时的候选视频片段数据是数据量较大的多个视频数据，此时可以先将该候选视频片段数据反馈至客户端的交互界面，用户从交互界面接收到服务器反馈的候选视频片段数据。

在本申请的一种优选实施例中，所述步骤302可以包括如下子步骤：

子步骤s61，获取待处理数据，所述待处理数据包括文本数据和视频数据；

子步骤s62，依据所述文本数据生成语义映射关系图；

子步骤s63，依据所述视频数据生成候选视频片段数据。

具体地，对于交互界面提交的待处理数据，分别根据待处理数据的文本数据生成语义映射关系图，以及，根据待处理数据的视频数据生成候选视频片段数据。其中，语义映射关系图中包括从文本数据抽取的语义实体，以及语义实体之间的关联关系。

视频数据具有台词文本数据，本申请实施例对于视频数据进行划分得到视频帧，并从台词文本数据提取出语义标签，添加到对应的视频帧中。最后会对于语义标签相同的视频帧进行合并得到候选视频片段数据。

从所述台词文本数据中提取出语义标签

步骤304，接收所述交互界面提交的推广请求；

步骤305，依据所述推广请求从所述候选视频片段数据获取目标视频数据；

在本申请的一种优选实施例中，所述步骤305可以包括如下子步骤：

子步骤s71，从所述推广请求中提取出意图关键词；

子步骤s72，从所述语义映射关系图中查找到与所述意图关键词对应的语义实体；

子步骤s73，采用所述语义实体确定对应的语义标签；

子步骤s74，基于所述语义标签从候选视频片段数据中筛选出对应的目标候选视频片段数据；

子步骤s75，将所述目标候选视频片段数据合成为目标视频数据。

优选地，本申请实施例还可以根据实际需求进一步从候选视频片段数据中筛选出更加符合需求的视频数据，具体地，可以根据当前的推广意图，在客户端的交互界面输入关键词，然后生成推广请求发送至服务器，服务器将根据推广请求中的意图关键词，从语义映射关系图中查找到与意图关键词对应的语义实体，并基于语义实体确定对应的语义标签，最后采用语义标签从候选视频片段数据中筛选出目标视频数据。

步骤306，将所述目标视频数据发送至所述交互界面。

当从候选视频片段数据中筛选出目标视频数据后，将目标视频数据发送至客户端的交互界面进行展示。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图5，示出了本申请的一种视频数据的推荐装置实施例的结构框图，具体可以包括如下模块：

待处理数据获取模块401，用于获取待处理数据，所述待处理数据包括文本数据和视频数据；

语义映射关系图生成模块402，用于依据所述文本数据生成语义映射关系图；

候选视频片段数据生成模块403，用于依据所述视频数据生成候选视频片段数据；

目标视频数据获得模块404，用于依据所述语义映射关系图和所述候选视频片段数据得到目标视频数据；

目标视频数据推荐模块405，用于向用户推荐所述目标视频数据。

在本申请实施例中，所述待处理数据获取模块401可以包括：

原始数据获取子模块，用于获取原始数据，所述原始数据包括语音数据；

语音数据转换子模块，用于将所述语音数据转换为文本数据。

在本申请实施例中，所述语义映射关系图生成模块402可以包括：

语义实体提取子模块，用于从所述文本数据中提取语义实体；

关联关系确定子模块，用于从所述文本数据中提取所述语义实体之间的关联词；

数据保存子模块，用于将所述语义实体和所述语义实体之间的关联关系保存为语义映射关系图。

在本申请实施例中，所述语义实体提取子模块可以包括：

过滤处理单元，用于对所述文本数据中的预设特征文本进行过滤处理；

语义实体提取单元，用于从过滤处理后的文本数据作中提取出语义实体。

在本申请实施例中，所述候选视频片段数据生成模块403可以包括：

视频帧划分子模块，用于将所述视频数据划分为视频帧；所述视频帧具有台词文本数据；

语义标签提取子模块，用于从所述台词文本数据中提取出语义标签；

语义标签添加子模块，用于将所述语义标签添加到对应的视频帧；

候选视频帧集合生成子模块，用于将语义标签相同的视频帧作为候选视频帧集合；

候选视频片段数据生成子模块，用于基于所述候选视频帧集合生成候选视频片段数据。

在本申请实施例中，所述语义标签提取子模块包括：

候选语义标签提取单元，用于按照预置文档主题生成模型lda从所述台词文本数据中提取出候选语义标签；

词频逆向文件频率值计算单元，用于计算所述候选语义标签的词频逆向文件频率值；

语义标签确定单元，用于将排序在前m位的候选语义标签作为语义标签，所述m为正整数。

在本申请实施例中，所述视频帧还具有视图文本数据，还包括：

新的语义标签归类子模块，用于采用所述视图文本数据将所述语义标签归类为新的语义标签；

语义标签添加子模块，用于将所述新的语义标签作为语义标签添加到对应的视频帧；

候选视频帧集合生成子模块，用于将新的语义标签相同的视频帧作为候选视频帧集合。

在本申请实施例中，所述目标视频数据获得模块包括：

推广意图数据确定子模块，用于确定当前的推广意图数据；所述推广意图数据具有意图关键词；

语义实体查找子模块，用于从所述语义映射关系图中查找到与所述意图关键词对应的语义实体；

语义标签确定子模块，用于采用所述语义实体确定对应的语义标签；

目标候选视频片段数据筛选子模块，用于基于所述语义标签从候选视频片段数据中筛选出对应的目标候选视频片段数据；

目标视频数据合成子模块，用于将所述目标候选视频片段数据合成为目标视频数据。

在本申请实施例中，所述目标视频数据合成子模块可以包括：

视频片段数据排序单元，用于按照预设模型对于目标候选视频片段数据进行排序；

目标视频数据合成单元，用于基于排序后的目标候选视频片段数据合成目标视频数据。

在本申请实施例中，所述目标视频数据合成子模块可以包括：

平滑去噪处理单元，用于针对所述目标视频数据进行平滑去噪处理，所述平滑去噪处理包括添加预设暖场视频帧和/或舍弃指定视频帧。

参照图6，示出了本申请的一种视频数据的识别装置实施例的结构框图，具体可以包括如下模块：

获取模块501，用于获取待处理的视频数据，所述待处理数据包括文本数据和视频数据；

识别模块502，用于将所述待处理的视频数据发送至服务器，所述服务器用于分别对所述待处理的视频数据进行识别，以获得识别结果，所述识别结果包括目标视频数据；

接收模块503，用于接收所述服务器返回的所述目标视频数据；

展现模块504，用于展现所述目标视频数据。

参照图7，示出了本申请的一种服务器结构框图，具体可以包括如下模块：

处理请求接收模块601，用于接收到交互界面提交的处理请求；

候选视频获取模块602，用于依据所述处理请求获取候选视频片段数据；

候选视频发送模块603，用于将所述候选视频片段数据发送至所述交互界面；

推广请求接收模块604，用于接收所述交互界面提交的推广请求；

目标视频获取模块605，用于依据所述推广请求从所述候选视频片段数据获取目标视频数据；

目标视频发送模块606，用于将所述目标视频数据发送至所述交互界面。

对于装置、服务器实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种视频数据的推荐方法和一种视频数据的推荐装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张亚楠;叶舟;王瑜;杨洋;苏飞
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种电连接器壳体、电连接器以及推拉式配电柜的制作方法
上一篇：一种多孔同轴定位胎具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。