互联网影视多源数据融合方法和装置与流程

文档序号：15932267发布日期：2018-11-14 01:49阅读：314来源：国知局

本申请涉及数据融合技术领域，特别是涉及一种互联网影视多源数据融合方法和装置。

背景技术

随着社会和经济的快速发展，人们的生活水平得到极大提升。在人们日常生活和国民经济中，影视娱乐行业的比重越来越大，从业人员也越来越多。特别是，随着移动互联网的飞速发展，涌现出大量互联网影视平台，例如，爱奇艺、优酷、腾讯视频、豆瓣、猫眼、时光网等。这些互联网影视平台吸引大量用户，并且积累了由用户贡献的海量数据，包括影视作品和演员的各种描述信息。由于影视数据的多源性，每个影视平台的数据格式不同、数据也不完整；并且，各个影视平台的数据互有冗余、又互相补充。现有技术中并没有将多个数据源的信息充分融合，以构建一个完整的影视行业的知识库。

技术实现要素：

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种互联网影视多源数据融合方法，包括：

数据收集步骤：获得来自两个以上互联网影视平台的与影视相关的数据，对所述数据进行预处理后，得到标准化的实体；

属性相似度计算步骤：计算不同互联网影视平台的所述实体之间的属性相似度，其中，所述属性包括基本属性和多媒体属性；

实体相似度计算步骤：基于信息熵计算所述属性的权重，基于所述属性和所述权重计算不同影视平台的实体的相似度；和

实体融合步骤：基于所述实体的相似度将所述实体进行分组，将位于一组中的两个以上的所述实体合并。

本方法综合考虑了实体的各种属性，通过属性相似度计算计算多源实体的相似度，并作为融合多源实体的重要参考依据，考虑的因素更加全面，结果更加接近真实情况，更加合理。

可选地，所述数据收集步骤包括：

数据获取步骤：获得来自两个以上互联网影视平台的与影视相关的数据；和数据预处理步骤，其中，所述数据预处理步骤包括：

数据清洗步骤：对所述数据进行清洗；和

数据标准化处理步骤：将所述两个以上互联网影视平台的实体数据的属性名称或属性值替换为标准化的属性名称或属性值，从而得到所述标准化的实体。

可选地，所述属性相似度包括以下属性中的一种或它们的组合：关键词属性、集合属性、简短字符串属性、长文本属性和图片内容属性。

可选地，所述实体相似度计算步骤包括：

基于信息熵计算所述属性的权重，基于所述属性和所述权重计算所述两个以上互联网影视平台的不同实体的相似度，如果两个实体之间的最大相似度大于设定阈值，则判定该两个实体为相同实体。

可选地，所述实体融合步骤包括：

基于所述实体的相似度将所述实体进行分组，根据每个组中的实体的属性将位于一组中的两个以上的所述实体合并，其中，在所述属性包括以下属性中的一个或多个：单值属性、集合属性和累加属性。

根据本申请的另一个方面，还提供了一种互联网影视多源数据融合装置，包括：

数据收集模块，其配置成用于获得来自两个以上互联网影视平台的与影视相关的数据，对所述数据进行预处理后，得到标准化的实体；

属性相似度计算模块，其配置成用于计算不同互联网影视平台的所述实体之间的属性相似度，其中，所述属性包括基本属性和多媒体属性；

实体相似度计算模块，其配置成基于信息熵计算所述属性的权重，基于所述属性和所述权重计算不同影视平台的实体的相似度；和

实体融合模块，其配置成基于所述实体的相似度将所述实体进行分组，将位于一组中的两个以上的所述实体合并。

本装置综合考虑了实体的各种属性，通过属性相似度计算计算多源实体的相似度，并作为融合多源实体的重要参考依据，考虑的因素更加全面，结果更加接近真实情况，更加合理。

可选地，所述数据收集模块包括：

数据获取模块，其配置成用于获得来自两个以上互联网影视平台的与影视相关的数据；和数据预处理模块，

其中，所述数据预处理模块包括：

数据清洗模块，其配置成用于对所述数据进行清洗；和

数据标准化处理模块，其配置成用于将所述两个以上互联网影视平台的实体数据的属性名称或属性值替换为标准化的属性名称或属性值，从而得到所述标准化的实体。

可选地，所述实体相似度计算模块配置成基于信息熵计算所述属性的权重，基于所述属性和所述权重计算所述两个以上互联网影视平台的不同实体的相似度，如果两个实体之间的最大相似度大于设定阈值，则判定该两个实体为相同实体。

根据本申请的另一个方面，还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的另一个方面，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请的一种互联网影视多源数据融合方法的一个实施例的示意性流程图；

图2是序列到序列神经网络模型的示意性流程图；

图3是根据本申请的一种互联网影视多源数据融合装置的一个实施例的示意性框图；

图4是本申请的计算机设备的一个实施例的框图；

图5是本申请的计算机可读存储介质的一个实施例的框图。

具体实施方式

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

本申请的实施方案提供了一种互联网影视多源数据融合方法。图1是根据本申请的一种互联网影视多源数据融合方法的一个实施例的示意性流程图。该方法包括：

s100数据收集步骤：获得来自两个以上互联网影视平台的与影视相关的数据，对所述数据进行预处理后，得到标准化的实体；

s200属性相似度计算步骤：计算不同互联网影视平台的所述实体之间的属性相似度，其中，所述属性包括基本属性和多媒体属性；

s300实体相似度计算步骤：基于信息熵计算所述属性的权重，基于所述属性和所述权重计算不同影视平台的实体的相似度；和

s400实体融合步骤：基于所述实体的相似度将所述实体进行分组，将位于一组中的两个以上的所述实体合并。

可选地，所述s100数据收集步骤包括：

数据获取步骤：获得来自两个以上互联网影视平台的与影视相关的数据；和数据预处理步骤。其中，所述数据预处理步骤包括：数据清洗步骤：对所述数据进行清洗；和数据标准化处理步骤：将所述两个以上互联网影视平台的实体数据的属性名称或属性值替换为标准化的属性名称或属性值，从而得到所述标准化的实体。

其中，数据获取步骤通过数据采集技术，收集互联网影视平台的影视作品和演员等数据。互联网影视平台包括但不限于：爱奇艺、优酷、腾讯视频、豆瓣、猫眼、时光网、百度百科、淘票票、新片场、蛋挞数据等。由于这些互联网影视平台每天都会上线新的影视作品、添加新的演员信息、或者更新之前影视作品和演员的信息，因此采用该步骤，在各个平台定时获取数据，能够获取到大量与影视相关的数据。可选地，该步骤可以采用增量采集的方式采集最新数据。采用该步骤，能够不断更新采集到的影视数据库。

在数据清洗步骤中，由于互联网影视平台上的实体数据通常由用户编写，该数据中含有很多噪音，因此需要进行数据清洗。例如，将数据编码统一为utf8国际标准编码；汉字简繁转换为中文简体；无效字符清除，例如，html等格式转义字符，表情符号等特殊字符，“未知”和“不详”等不确定属性值。

在数据标准化处理步骤中，互联网影视平台的实体数据的属性名称不一致，存在“同名多义”、“多名同义”等现象。例如，不同的平台分别采用的“title”和“name”，实际意义都表示作品或者演员的名称。为此，该步骤定义标准化的实体属性名称，并把各影视平台属性名称替换为标准化的实体属性名称，以确保“一名一义”。进一步地，将实体数据的属性值进行标准化处理，例如，性别属性值，某个平台用“男”和“女”标注，而另外的平台用“male”和“female”标注，将性别属性值统一为英文字符作为关键词进行标注，以满足国际标准化的要求。对于日期属性值的标准化处理，例如，可以采用将影视作品上映日期和演员出生日期统一为年月日格式yyyy-mm-dd，如果某个部分未知，则用“x”表示。

在s200属性相似度计算步骤中，可选地，所述属性相似度包括以下属性中的一种或它们的组合：关键词属性、集合属性、简短字符串属性、长文本属性和图片内容属性。

1对于关键词属性：如果关键词的属性完全相同，则将相似度记为1，否则记为0。例如，关键词可以为演员的姓名或性别。

2集合属性：通过比较两个集合相同元素个数，来计算相似度。例如，影视作品的导演和演员等集合属性。具体地，给定两个集合a和b，相似度sim(a,b)的三种计算方式如下：

其中，∩表示集合交集，∪表示集合并集，||表示集合的元素个数。

3简短字符串属性：计算两个字符串的编辑距离，确定相似度。例如，作品名称、上映日期、演员出生日期等。具体地，给定两个字符串s1和s2，基于编辑距离editdistance(s1,s2)，相似度sim(s1,s2)定义为：

其中，length表示字符串的长度。

4长文本属性：例如，长文本包括：影视作品和演员的简介描述信息，长文本中包含复杂的自然语言结构，因此，对于长文本属性，不能通过简单对比，计算相似度。因此，现有影视数据融合技术都不考虑这些长文本属性。本发明基于深度学习技术，深入理解长文本的语义，进而计算相似度。具体地，长文本属性的相似度计算过程包括三个步骤：

(4.1)学习单词的语义：本发明基于词向量化模型(wordembedding)，学习每个词的向量表示，以表示词的隐含语义。常用的词向量化模型包括连续词袋模型(continuousbag-of-words,cbow)模型和skip-gram模型。这两种模型都是基于词的共发关系，即同时出现的关系，学习词的语义。不同点在于cbow根据词的上下文估计该词出现的概率，而skip-gram根据给定词计算上下文出现的概率。基于词语的向量表示，可以方便计算词语之间的关系，如词语相似度或者词语距离，也是学习长文本(例如段落、文章)语义的基础。

对于词向量化模型(wordembedding)，除了基于神经网络的cbow和skip-gram，还有其他方案，可以完成同样的目的，包括主成分分析(principalcomponentanalysis,pca)、矩阵分解、隐语义分析(latentsemanticanalysis,lsa)等。

(4.2)学习长文本的语义：本申请采用序列到序列(seq2seq)神经网络模型学习文本语义。

图2是序列到序列神经网络模型的示意性流程图。seq2seq神经网络模型适合于把输入序列x转换为输出序列y的任务，广泛应用于自然语言处理，例如，机器翻译和文本摘要。seq2seq神经网络模型主要两个阶段：编码(encoder)学习输入序列x的语义，获得一个最终状态；解码(decoder)利用编码的最终状态，预测输出序列y。encoder和decoder分别是一个循环神经网络(recurrentneuralnetwork,rnn)。

在本申请中，seq2seq神经网络模型的输入和输出是相同文本的词语序列，注意这里每个词语已经经过语义学习，转化为向量wt。rnn的核心单元(cell)接受两个输入，即上一个状态ht-1和当前输入的词向量wt，然后经过内部线性变换和激活函数，输出当前状态ht。在编码阶段，经过长文本语义和结构学习，获得最终状态hn，即为输入文本的向量化表示，因为该向量hn可以在解码阶段预测输入文本。值得注意的是：只有在seq2seq模型训练阶段，才需要解码学习模型参数；训练完成获得seq2seq模型后，在真实应用中，只需要编码，即给定长文本序列x，计算文本的语义向量表示hn。

本申请的rnn的核心单元可以是普通神经网络单元、长短期记忆单元(longshort-termmemory,lstm)或者门控循环单元(gatedrecurrentunit,gru)等。lstm和gru的优点是：在学习rnn模型过程中，不但能学习文本结构的长短期依赖，而且避免梯度爆炸或者梯度消失等问题。常用的激活函数包括tanh、sigmoid、relu、maxout等。

神经网络模型也可以采用seq2seq神经网络模型的各种变体实现，包括基于注意力的模型(attention-basedmodels)，以及编码和解码阶段的循环神经网络模型，可以利用任何循环神经网络模型的变体，例如双向的循环神经网络、多层的循环神经网络、以及对循环神经网络进行正则化等。

(4.3)计算长文本相似度：给定两个文本的语义向量h1和h2，本申请利用余弦函数计算两个向量的相似度sim(h1,h2)，即：

其中，||||表示范数。

5图片内容属性：对于图片内容属性，例如，影视作品海报、演员剧照、头像等，本申请基于感知哈希算法(perceptualhashalgorithm,phash)计算图片的相似度，具体步骤如下：

(5.1)缩小图片尺寸：为提高计算效率，通过下采样(down-sampling)，把图片缩小为32*32像素。

(5.2)简化色彩：将图片转化成灰度图像，以进一步简化计算量。

(5.3)计算dct：计算图片的离散余弦变换(dct)，得到32*32的dct系数矩阵。其中，dct是种图像压缩算法，用于将图像从像素域变换到频率域。

(5.4)缩小dct：保留32*32左上角的8*8的矩阵，该部分呈现了图片中的最低频率。

(5.5)计算平均值：计算8*8dct的均值。

(5.6)二值化dct：根据8*8的dct矩阵，设置0或1的64位的hash值，大于等于dct均值的设为“1”，小于dct均值的设为“0”。虽然二值化结果并不能表示真实性的低频率，但是能粗略地表示相对于平均值频率的相对比例。只要图片的整体结构保持不变，hash结果值就不变，这样就能够避免伽马校正或颜色直方图被调整带来的影响。

(5.7)构建hash值向量：把二值化8*8的dct矩阵，排列成一个64位的整数向量，形成该图片的指纹。排列次序并不重要，只要保证所有图片都采用同样次序就可以。

(5.8)计算图片相似度：给定两种图片的phash向量为v1和v2，基于汉明距离hammingdistance(v1,v2)，相似度sim(v1,v2)定义为：

其中，length表示向量的长度。

在图像内容相似度计算中，感知哈希算法(perceptualhashalgorithm,phash)可以由其他算法替代，例如，均值哈希算法(averagehashalgorithm,ahash)、梯度哈希算法(differencehashalgorithm,dhash)、和小波哈希算法(wavelethashalgorithm,whash)。处理后的图片尺寸未必是8*8，可以有其他取值，例如，4*4、16*16等。

可选地，所述s300实体相似度计算步骤包括：

为计算多源实体的相似度，本申请基于信息熵计算属性权重，因为属性信息熵是属性信息量大小的科学度量，即可以表示该属性是否可以标识/区分相应的实体。给定实体的属性x，首先统计属性x的概率质量函数，即x各种取值的概率。假定属性x的值是离散的，连续属性可以离散化。可以假设属性x取第i个值的概率为pi，属性x的信息熵h(x)定义为：

其中，n表示属性x的取值个数。

基于属性的信息熵，属性xj的权重wj定义为：

其中，m为参与影视实体融合的属性总数。

进一步，给定两个实体e1和e2，根据图片内容属性的计算结果，两个实体在属性xj的相似度记为sj，则实体相似度sim(e1,e2)定义为：

基于实体相似度计算方法，可以计算每个实体的最相似的实体，如果最大相似度大于给定阈值，判定为两个实体相同，否则为不同实体。相似度阈值可以根据实际情况设置，以达到最好效果，在本实施例中，相似度阈值设置为0.8。

除了基于信息熵，还可以利用信息论的其他技术替代，例如，基于信息增益计算属性权重。

可选地，所述s400实体融合步骤包括：

根据步骤s300的计算结果把多源实体分组，如果一个分组只有一个实体，把该实体加入融合结果即可。如果一个分组有多个实体的，需要融合多个实体，即实体合并。如果多个实体在某个属性有多个取值，采用如下规则进行取舍：

(4.1)如果是单值属性：例如影视作品名称和演员姓名，先按多数原则取值，如果还不能确定，再按数据源优先顺序取值。

(4.2)如果是集合属性：例如影视作品的导演和演员，以及演员的别名，对所有属性值取并集。

(4.3)如果是累积属性：例如影视作品的点赞数和演员的粉丝数，把所有属性值累加。

本申请的方法综合考虑了实体的各种属性：为融合多源影视数据的作品和演员，本发明不仅利用实体的基本属性，例如，作品名称和别名、出品年份、上映日期，制片国家/地区、类型、导演、演员、编剧，演员的人名和别名、出生日期、职业等，还利用实体的多媒体属性，例如，影视作品和演员的简介描述信息、作品海报、演员剧照等图片内容。

本申请基于深度学习和图像处理技术，比较实体的多媒体属性：对于影视作品和演员的长文本和图片内容，本发明利用深度学习和图像处理技术，计算多源实体的相似度，并作为融合多源实体的重要参考依据。一个方面可以弥补基础属性的不足，另一方面可以增强本发明的应用范围，以适应复杂应用的长文本和多媒体数据。

本申请基于信息熵计算属性权重：本发明通过计算属性的信息熵来定义属性权重，即属性权重与属性信息熵成正比，因为属性信息熵是属性信息量大小的科学度量，即可以表示该属性是否可以标识/区分相应的实体。信息熵已经广泛应用于数据信息处理和数据挖掘。例如，在决策树分类算法中，根据属性信息熵(或者信息增益)，选取属性生成决策树分支。

本申请的实施方案还提供了一种互联网影视多源数据融合装置。图3是根据本申请的一种互联网影视多源数据融合装置的一个实施例的示意性框图。该装置包括：

数据收集模块100，其配置成用于获得来自两个以上互联网影视平台的与影视相关的数据，对所述数据进行预处理后，得到标准化的实体；

属性相似度计算模块200，其配置成用于计算不同互联网影视平台的所述实体之间的属性相似度，其中，所述属性包括基本属性和多媒体属性；

实体相似度计算模块300，其配置成基于信息熵计算所述属性的权重，基于所述属性和所述权重计算不同影视平台的实体的相似度；和

实体融合模块400，其配置成基于所述实体的相似度将所述实体进行分组，将位于一组中的两个以上的所述实体合并。

可选地，所述数据收集模块100包括：

数据获取模块，其配置成用于获得来自两个以上互联网影视平台的与影视相关的数据；和数据预处理模块，

其中，所述数据预处理模块包括：

数据清洗模块，其配置成用于对所述数据进行清洗；和

可选地，所述属性相似度包括以下属性中的一种或它们的组合：关键词属性、集合属性、简短字符串属性、长文本属性和图片内容属性。

可选地，实体融合模块400配置成基于所述实体的相似度将所述实体进行分组，根据每个组中的实体的属性将位于一组中的两个以上的所述实体合并，其中，在所述属性包括以下属性中的一个或多个：单值属性、集合属性和累加属性。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本申请的方法步骤。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行上述方法中的任意一个。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetictape)，软盘(英文：floppydisk)，光盘(英文：opticaldisc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张家栋;胡俊杰;宁伟
技术所有人：深圳市小蛙数据科技有限公司
我是此专利的发明人

上一篇：一种新型吸管的制作方法
上一篇：催化呋喃二甲醇醚化制备呋喃二甲醇二醚的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。