重复多媒体文件识别方法、装置、电子设备及存储介质与流程

文档序号:25814086发布日期:2021-07-09 13:50阅读:77来源:国知局
重复多媒体文件识别方法、装置、电子设备及存储介质与流程

1.本发明涉及多媒体技术领域,特别是涉及一种重复多媒体文件识别方法、装置、电子设备及存储介质。


背景技术:

2.在多媒体文件的生产分发过程中,如何从大量的多媒体文件中准确的识别出重复的多媒体文件是节约硬件资源、提供用户体验的重要手段。
3.以多媒体文件为视频文件为例,目前综合根据不同视频文件在视频标题、视频描述信息和视频时长等维度所对应的特征数据,计算每两个视频文件间的相似度,从而根据该相似度确定每两个视频文件是否为重复视频对,实现重复视频的文件识别。
4.上述相对度计算具体可以表示为:通过将每一视频文件在不同维度上的特征数据映射到同一向量空间模型中,计算得到每两个视频文件在不同维度上的特征数据在该向量空间模型中的距离,并利用该距离表示这两个视频文件间的相似度。在相似度计算过程中,由于不同维度上的特征数据所对应的权重的不同,因此,直接将同一向量空间模型中计算得到的每两个视频文件在不同维度上特征数据间的距离表示为这两个视频文件间的相似度,这将影响计算得到的相似度的准确性,从而影响重复视频文件识别的准确性,也就是影响重复多媒体文件识别的准确性。


技术实现要素:

5.本发明实施例的目的在于提供一种重复多媒体文件识别方法、装置、电子设备及存储介质,以提高多媒体文件相似度计算的准确性,从而提高重复多媒体文件识别的准确性。具体技术方案如下:
6.在本发明实施的第一方面,首先提供了一种重复多媒体文件识别方法,所述方法包括:
7.获取第一多媒体文件的第一标题和第二多媒体文件的第二标题;
8.获取所述第一标题中的第一待剔除数据;和/或,
9.获取所述第二标题中的第二待剔除数据;
10.所述第一待剔除数据为所述第一标题中与所述第一多媒体文件对应第一用户标识信息关联的文本内容,所述第二待剔除数据为所述第二标题中与所述第二多媒体文件对应第二用户标识信息关联的文本内容;
11.计算第三标题与第四标题间的相似度,作为所述第一多媒体文件与所述第二多媒体文件间的第一相似度;所述第三标题为不包括所述第一待剔除数据的第一标题,所述第四标题为不包括所述第二待剔除数据的第二标题;
12.根据所述第一相似度以及预设相似度阈值,确定所述第一多媒体文件与所述第二多媒体文件是否为重复多媒体文件对。
13.可选的,所述获取所述第一标题中的第一待剔除数据的步骤,包括:
14.获取所述第一多媒体文件对应的第一用户标识信息;
15.获取所述第一用户标识信息对应的所有多媒体文件,作为第一多媒体文件集;
16.从所述第一多媒体文件集包括的各多媒体文件的标题中获取与所述第一用户标识信息关联的文本内容,作为第一目标文本内容;
17.将所述第一标题中包括的第一目标文本内容作为所述第一标题中的第一待剔除数据。
18.可选的,所述获取所述第二标题中的第二待剔除数据的步骤,包括:
19.获取所述第二多媒体文件对应的第二用户标识信息;
20.获取所述第二用户标识信息对应的所有多媒体文件,作为第二多媒体文件集;
21.从所述第二多媒体文件集包括的各多媒体文件的标题中获取与所述第二用户标识信息关联的文本内容,作为第二目标文本内容;
22.将所述第二标题中包括的第二目标文本内容作为所述第二标题中的第二待剔除数据。
23.可选的,所述计算第三标题与第四标题间的相似度,作为所述第一多媒体文件与所述第二多媒体文件间的第一相似度的步骤,包括:
24.获取第三标题中的第一特征数据;
25.获取第四标题中的第二特征数据;
26.计算所述第一特征数据与所述第二特征数据间的相似度,作为所述第一多媒体文件与所述第二多媒体文件间的第一相似度。
27.可选的,所述第一特征数据包括序列词、日期关键词或标题关键词中的一个或多个;所述第二特征数据包括序列词、日期关键词或标题关键词中的一个或多个。
28.可选的,所述计算所述第一特征数据与所述第二特征数据间的相似度,作为所述第一多媒体文件与所述第二多媒体文件间的第一相似度的步骤,包括:
29.若所述第一特征数据和所述第二特征数据均包括所述序列词,则计算所述第三标题中序列词与所述第四标题中序列词间的第二相似度;和/或,
30.若所述第一特征数据和所述第二特征数据均包括所述日期关键词,则计算所述第三标题中日期关键词与所述第四标题中日期关键词间的第三相似度;和/或,
31.若所述第一特征数据和所述第二特征数据均包括所述标题关键词,则计算所述第三标题中标题关键词与所述第四标题中标题关键词间的第四相似度;
32.基于所述第二相似度和/或所述第三相似度和/或所述第四相似度,计算所述第一多媒体文件与所述第二多媒体文件间的第一相似度。
33.可选的,所述根据所述第一相似度以及预设相似度阈值,确定所述第一多媒体文件与所述第二多媒体文件是否为重复多媒体文件对的步骤,包括:
34.若所述第一相似度大于预设相似度阈值,则确定所述第一多媒体文件与所述第二多媒体文件是重复多媒体文件对;
35.若所述第一相似度不大于所述预设相似度阈值,则确定所述第一多媒体文件与所述第二多媒体文件不是重复文件对。
36.在本发明实施的第二方面,还提供了一种重复多媒体文件识别装置,所述装置包括:
37.第一获取模块,用于获取第一多媒体文件的第一标题和第二多媒体文件的第二标题;
38.第二获取模块,用于获取所述第一标题中的第一待剔除数据;和/或,获取所述第二标题中的第二待剔除数据;所述第一待剔除数据为所述第一标题中与所述第一多媒体文件对应第一用户标识信息关联的文本内容,所述第二待剔除数据为所述第二标题中与所述第二多媒体文件对应第二用户标识信息关联的文本内容;
39.计算模块,用于计算第三标题与第四标题间的相似度,作为所述第一多媒体文件与所述第二多媒体文件间的第一相似度;所述第三标题为不包括所述第一待剔除数据的第一标题,所述第四标题为不包括所述第二待剔除数据的第二标题;
40.确定模块,用于根据所述第一相似度以及预设相似度阈值,确定所述第一多媒体文件与所述第二多媒体文件是否为重复多媒体文件对。
41.可选的,所述第二获取模块,具体用于获取所述第一多媒体文件对应的第一用户标识信息;
42.获取所述第一用户标识信息对应的所有多媒体文件,作为第一多媒体文件集;
43.从所述第一多媒体文件集包括的各多媒体文件的标题中获取与所述第一用户标识信息关联的文本内容,作为第一目标文本内容;
44.将所述第一标题中包括的第一目标文本内容作为所述第一标题中的第一待剔除数据。
45.可选的,所述第二获取模块,具体用于获取所述第二多媒体文件对应的第二用户标识信息;
46.获取所述第二用户标识信息对应的所有多媒体文件,作为第二多媒体文件集;
47.从所述第二多媒体文件集包括的各多媒体文件的标题中获取与所述第二用户标识信息关联的文本内容,作为第二目标文本内容;
48.将所述第二标题中包括的第二目标文本内容作为所述第二标题中的第二待剔除数据。
49.可选的,所述计算模块,包括:
50.第一获取子模块,用于获取第三标题中的第一特征数据;
51.第二获取子模块,用于获取第四标题中的第二特征数据;
52.计算子模块,用于计算所述第一特征数据与所述第二特征数据间的相似度,作为所述第一多媒体文件与所述第二多媒体文件间的第一相似度。
53.可选的,所述第一特征数据包括序列词、日期关键词或标题关键词中的一个或多个;所述第二特征数据包括序列词、日期关键词或标题关键词中的一个或多个。
54.可选的,所述计算子模块,具体用于若所述第一特征数据和所述第二特征数据均包括所述序列词,则计算所述第三标题中序列词与所述第四标题中序列词间的第二相似度;和/或,
55.若所述第一特征数据和所述第二特征数据均包括所述日期关键词,则计算所述第三标题中日期关键词与所述第四标题中日期关键词间的第三相似度;和/或,
56.若所述第一特征数据和所述第二特征数据均包括所述标题关键词,则计算所述第三标题中标题关键词与所述第四标题中标题关键词间的第四相似度;
57.基于所述第二相似度和/或所述第三相似度和/或所述第四相似度,计算所述第一多媒体文件与所述第二多媒体文件间的第一相似度。
58.可选的,所述确定模块,具体用于若所述第一相似度大于预设相似度阈值,则确定所述第一多媒体文件与所述第二多媒体文件是重复多媒体文件对;
59.若所述第一相似度不大于所述预设相似度阈值,则确定所述第一多媒体文件与所述第二多媒体文件不是重复文件对。
60.在本发明实施的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
61.存储器,用于存放计算机程序;
62.处理器,用于执行存储器上所存放的程序时,实现上述任一所述的重复多媒体文件识别方法步骤。
63.在本发明实施的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的重复多媒体文件识别方法步骤。
64.在本发明实施的第五方面,还提供了一种包含指令的计算机程序,当其在计算机上运行时,使得计算机执行上述任一所述的重复多媒体文件识别方法。
65.本发明实施例提供的重复多媒体文件识别方法、装置、电子设备及存储介质,可以分别剔除两个多媒体文件的标题中的待剔除数据,也就是剔除多媒体文件标题中与用户标识信息相关联的文本内容,从而根据剔除待剔除数据后的两个多媒体文件标题间的相似度,确定这两个多媒体文件是否为重复对媒体文件。多媒体文件的标题中待剔除数据的剔除,可以有效降低标题中不同用户标识信息对相似度计算的影响,提高计算得到的相似度的准确性,从而提高了重复多媒体文件识别的准确性。另外,由于重复多媒体文件的标题相似程度较高,因此,相比于相关技术将不同维度上特征数据映射到同一向量空间模型的重复多媒体文件识别的方法,本发明实施例中仅根据标题中的特征数据计算得到的相似度的准确性更高,基于该相似度所确定的重复多媒体文件的识别结果更加准确,提高了重复多媒体文件识别的准确性。
附图说明
66.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
67.图1为本发明实施例提供的重复多媒体文件识别方法的第一种流程示意图;
68.图2为本发明实施例提供的第一待剔除数据获取方法的一种流程示意图;
69.图3为本发明实施例提供的第二待剔除数据获取方法的一种流程示意图;
70.图4为本发明实施例提供的相似度计算方法的第一种流程示意图;
71.图5为本发明实施例提供的相似度计算方法的第二种流程示意图;
72.图6为本发明实施例提供的重复多媒体文件识别方法的第二种流程示意图;
73.图7为本发明实施例提供的重复多媒体文件识别方法的第三种流程示意图;
74.图8为本发明实施例提供的二分类模型训练方法的一种流程示意图;
75.图9为本发明实施例提供的重复多媒体文件识别装置的一种结构示意图;
76.图10为本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
77.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
78.为了解决相关技术相似度计算准确性较差,从而影响重复多媒体文件识别的准确性的问题,本发明实施例提供了一种重复多媒体文件识别方法。该方法可以应用于任一电子设备,该电子设备可以为进行多媒体文件生产分发的服务器。其中,多媒体文件生产可以包括多媒体文件转码、入库等操作,多媒体文件分发可以包括多媒体文件搜索、推荐等操作。如图1所示,图1为本发明实施例提供的重复多媒体文件识别方法的第一种流程示意图。该方法具体包括以下步骤。
79.步骤s101,获取第一多媒体文件的第一标题和第二多媒体文件的第二标题。
80.步骤s102,获取第一标题中的第一待剔除数据;和/或,获取第二标题中的第二待剔除数据。
81.在本发明实施例中,上述第一待剔除数据为第一标题中与第一多媒体文件对应第一用户标识信息关联的文本内容,上述第二待剔除数据为第二标题中与第二多媒体文件对应第二用户标识信息关联的文本内容。
82.步骤s103,计算第三标题与第四标题间的相似度,作为第一多媒体文件与第二多媒体文件间的第一相似度;第三标题为不包括第一待剔除数据的第一标题,第四标题为不包括第二待剔除数据的第二标题。
83.步骤s104,根据第一相似度以及预设相似度阈值,确定第一多媒体文件与第二多媒体文件是否为重复多媒体文件对。
84.通过本发明实施例提供的方法,可以分别剔除两个多媒体文件的标题中的待剔除数据,也就是剔除多媒体文件标题中与用户标识信息相关联的文本内容,从而根据剔除待剔除数据后的两个多媒体文件标题间的相似度,确定这两个多媒体文件是否为重复对媒体文件。多媒体文件的标题中待剔除数据的剔除,可以有效降低标题中不同用户标识信息对相似度计算的影响,提高计算得到的相似度的准确性,从而提高了重复多媒体文件识别的准确性。另外,由于重复多媒体文件的标题相似程度较高,因此,相比于相关技术将不同维度上特征数据映射到同一向量空间模型的重复多媒体文件识别的方法,本发明实施例中仅根据标题中的特征数据计算得到的相似度的准确性更高,基于该相似度所确定的重复多媒体文件的识别结果更加准确,提高了重复多媒体文件识别的准确性。
85.下面通过具体的实施例,对本发明实施例进行说明。为便于描述,下面以电子设备为执行主体进行说明,并不起任何限定作用。
86.针对上述步骤s101,即获取第一多媒体文件的第一标题和第二多媒体文件的第二标题。
87.在本步骤中,电子设备可以获取第一多媒体文件和第二多媒体文件。在获取到的第一多媒体文件和第二多媒体文件后,电子设备可以获取第一多媒体文件的标题,得到第一标题;获取第二多媒体文件的标题,得到第二标题。
88.上述第一多媒体文件和第二多媒体文件包括但不限于视频文件、音频文件、电子书文件。另外,上述第一多媒体文件和第二多媒体文件的数量可以为一个或多个。在此,对
上述第一多媒体文件和第二多媒体文件的文件类别和文件数量不作具体限定。为便于描述,下文仅以第一多媒体文件和第二多媒体文件为视频文件进行说明,并不起任何限定作用。
89.一个可选的实施例中,在获取上述第一多媒体文件和第二多媒体文件时,电子设备可以从用户上传的多媒体文件和预设多媒体文件库中获取第一多媒体文件和第二多媒体文件。例如,电子设备可以从用户上传的多媒体文件中获取任意两个多媒体文件,作为第一多媒体文件和第二多媒体文件。再例如,电子设备可以分别从用户上传的多媒体文件和预设多媒体文件库中分别获取一个多媒体文件,作为上述第一多媒体文件和第二多媒体文件。
90.另一个可选的实施例中,在获取上述第一多媒体文件和第二多媒体文件时,电子设备可以对上述用户上传的多媒体文件和/或预设多媒体文件库中的任意两个多媒体文件进行初步筛选,从而选择出疑似重复的多媒体文件对。电子设备可以将筛选出的疑似重复的多媒体文件中的两个多媒体文件,作为上述第一多媒体文件和第二多媒体文件。关于疑似重复的多媒体文件筛选方法可参见下文描述,在此不作具体说明。
91.在本发明实施例中,对上述第一多媒体文件和第二多媒体文件的获取方式不作具体限定。为便于描述,下面以第一多媒体文件为用户上传的多媒体文件,第二多媒体文件为预设多媒体文件库中多媒体文件为例进行说明,并不起任何限定作用。
92.针对上述步骤s102,即获取第一标题中的第一待剔除数据;和/或,获取第二标题中的第二待剔除数据。
93.在本步骤中,当上述第一标题中包括与第一多媒体文件对应第一用户标识信息关联的文本内容时,电子设备可以从第一标题中获取与第一多媒体文件对应第一用户标识信息关联的文本内容,作为第一待剔除数据。当上述第二标题中包括与第二多媒体文件对应第二用户标识信息关联的文本内容时,电子设备可以从第二标题中获取与第二多媒体文件对应第二用户标识信息关联的文本内容,作为第二待剔除数据。
94.在本发明实施例中,上述第一多媒体文件对应第一用户标识信息可以为上传该第一多媒体文件的用户标识信息或者剪辑该第一多媒体文件的用户标识信息。上述第二多媒体文件对应第二用户标识信息可以为上传该第二多媒体文件的用户标识信息或者剪辑该第二多媒体文件的用户标识信息。
95.上述用户标识信息包括但不限用户的姓名、昵称或者服务器分配给用户的标识。在此,对上述用户标识信息不作具体限定。
96.为便于理解,以上述第一多媒体文件和第二多媒体文件为用户上传的多媒体文件为例,当用户在上传某一多媒体文件,如视频文件a时,该多媒体文件的标题中将携带有该用户的用户标识信息,如该用户的身份(identity,id)账号。电子设备可以从该视频文件a的标题中获取id账号作为待剔除数据。
97.一个可选的实施例中,在上述多媒体文件的标题中,用户标识信息可以满足特定的格式。
98.例如,该用户标识信息可以在标题的特定位置处,如标题所有文本内容的最前端。以第一多媒体文件为例,电子设备可以从上述第一多媒体文件的第一标题的特定位置处,读取第一标题中的用户标识信息,得到第一待剔除数据。上述第二待剔除数据的获取参照
第一待剔除数据的获取,在此不作具体说明。
99.再例如,用户标识信息为标题中预设字符内包括的文本内容,其中,预设字符包括但不限于【】、〖〗、『』、「」和[]。仍以第一多媒体文件为例,电子设备可以将第一多媒体文件的第一标题中预设字符内的文本内容,确定为第一待剔除数据。上述第二待剔除数据的获取参照第一待剔除数据的获取,在此不作具体说明。
[0100]
为便于理解,以某一视频文件的视频标题为为例,该视频文件的视频标题为:【姓名a】根据脸型选墨镜。
[0101]
电子设备可以提取【】内的姓名a,作为该视频文件的待剔除数据,也就是该视频文件的视频标题中与用户标签信息关联的文本内容为姓名a。
[0102]
另一个可选的实施例中,如图2所示,图2为本发明实施例提供的第一待剔除数据获取方法的一种流程示意图。具体的,将上述步骤s102中的获取第一标题中的第一待剔除数据细化为以下步骤,即步骤s201

步骤s204。
[0103]
步骤s201,获取第一多媒体文件对应的第一用户标识信息。
[0104]
在本步骤中,无论第一多媒体文件的第一标题中是否包含有上述第一用户标识信息,电子设备均可以获取该第一多媒体文件对应的第一用户标识信息。
[0105]
一个可选的实施例中,当上述第一多媒体文件的第一标题中包括有上述第一用户标识信息时,电子设备可以从上述特定位置处,或预设字符中获取得到该第一多媒体文件的第一用户标识信息。
[0106]
另一个可选的实施例中,当上述第一多媒体文件的第一标题中未包括有上述第一用户标识信息时,电子设备确定该第一多媒体文件所对应的用户,从而确定该用于的用户标识信息,如上述服务器分配给该用户的标识,得到该第一多媒体文件对应的第一用户标识信息。
[0107]
步骤s202,获取第一用户标识信息对应的所有多媒体文件,作为第一多媒体文件集。
[0108]
在本步骤中,针对用户上传的每一多媒体文件,电子设备可以将该用户的用户标识信息与该用户上传的多媒体文件关联,例如,建立用户标识信息与多媒体文件的对应关系等。电子设备可以根据上述步骤s201所获取到的第一用户标识信息,获取该第一用户标识信息所对应的所有多媒体文件,得到第一多媒体文件集。
[0109]
步骤s203,从第一多媒体文件集包括的各多媒体文件的标题中获取与第一用户标识信息关联的文本内容,作为第一目标文本内容。
[0110]
在本步骤中,针对上述第一多媒体文件集中包括的每一多媒体文件,电子设备可以从该多媒体文件的标题中,如上述特定位置处或杉树预设字符中,获取与用户标识信息关联的文本内容,作为第一目标文本内容。
[0111]
步骤s204,将第一标题中包括的第一目标文本内容作为第一标题中的第一待剔除数据。
[0112]
在本步骤中,电子设备可以将第一多媒体文件的第一标题中的文本内容,与上述步骤s203所获取到的每一第一目标文本内容进行匹配。将第一标题中包括的第一目标文本内容,确定为该第一多媒体文件的标题中的第一待剔除数据。
[0113]
在本发明实施例中,由于上述第一用户标签信息是用户可调的,例如,当上述第一
用户标识信息为用户的昵称时,用户可以随时对该昵称进行调,因此,为了保证电子设备所获取到的第一待剔除数据的准确性以及完整性。电子设备通过对上述第一标题中文本内容,与上述第一多媒体文件集中的每一多媒体文件的第一目标文本内容的匹配,可以准确完整的确定出第一标题中的第一待剔除数据,保证了获取到的第一待剔除数据的准确性和完整性。
[0114]
一个可选的实施例中,如图3所示,图3为本发明实施例提供的第二待剔除数据获取方法的一种流程示意图。具体的,将上述步骤s102中的获取第二标题中的第二待剔除数据细化为以下步骤,即步骤s301

步骤s304。
[0115]
步骤s301,获取第二多媒体文件对应的第二用户标识信息。
[0116]
步骤s302,获取第二用户标识信息对应的所有多媒体文件,作为第二多媒体文件集。
[0117]
步骤s303,从第二多媒体文件集包括的各多媒体文件的标题中获取与第二用户标识信息关联的文本内容,作为第二目标文本内容。
[0118]
步骤s304,将第二标题中包括的第二目标文本内容作为第二标题中的第二待剔除数据。
[0119]
上述步骤s301

步骤s304所示的第二待剔除数据的获取,可参照上述步骤s201

步骤s204所示的第一待剔除数据的获取,在此不作具体说明。
[0120]
在本发明实施例中,由于上述第二用户标签信息也是用户可调的,因此,为了保证电子设备所获取到的第二待剔除数据的准确性以及完整性。电子设备通过对上述第二标题中文本内容,与上述第二多媒体文件集中的每一多媒体文件的第二目标文本内容的匹配,可以准确完整的确定出第二标题中的第二待剔除数据,保证了获取到的第二待剔除数据的准确性和完整性。
[0121]
针对上述步骤s103,即计算第三标题与第四标题间的相似度,作为第一多媒体文件与第二多媒体文件间的第一相似度;第三标题为不包括第一待剔除数据的第一标题,第四标题为不包括第二待剔除数据的第二标题。
[0122]
在本发明实施例中,电子设备可以剔除第一标题中的第一待剔除数据,得到第三标题。电子设备可以剔除第二标题中的第二待剔除数据,得到第四标题。
[0123]
一个可选的实施例中,在得到上述第三标题和第四标题后,电子设备可以直接计算第三标题和第四标题间的相似度,作为第一多媒体文件与第二多媒体文件间的第一相似度。
[0124]
为便于理解,以视频a和视频b为例进行说明。其中,视频a的视频标题为:【用户a】根据脸型选墨镜|实用好看的墨镜选购技巧,视频b的视频标题为:怎么根据脸型选择适合的墨镜。虽然这两个视频的视频标题存在较大的差异,但是这两个视频为同一视频,即视频a与视频b为重复视频对。
[0125]
在未剔除视频a的视频标题中的待剔除数据,即用户a的情况下,计算得到的视频a和视频b间的相似度为0.68,而在剔除视频a的视频标题中的用户a的情况下,计算得到的视频a和视频b间的相似度为0.80,即视频a与视频b的第一相似度为0.80。因此,在剔除视频a的视频标题中的用户a的情况下计算得到的相似度,明显大于在未剔除视频a的视频标题中的用户a的情况下计算得到的相似度,与实际情况更为符合。
markov model,hmm)分词算法和条件随机场(conditional random fields,crf)分词算法。在此,对上述预设分词算法不作具体限定。
[0140]
为便于理解,以某一视频文件的视频标题为例对上述标题关键词的提取进行说明,该视频文件的视频标题为:木偶手拼装积木定格动画。
[0141]
电子设备利用上述预设分词算法可以对上述视频标题,即木偶手拼装积木定格动画进行分词处理,得到多个分词以及每一分词对应的权重,具体如表1所示。
[0142]
表1
[0143]
分词木偶手拼装积木定格动画权重0.64040550.010.380566360.714113950.364936860.2512742
[0144]
根据表1所示的各分词所对应权重,电子设备可以确定分词“积木”所对应的权重最大,即0.71411395,因此,电子设备可以将上述视频标题中的“积木”一词确定为该视频文件的标题关键词。
[0145]
上述分词处理得到的每一分词的权重可以采用多种方法计算得到,例如,文档频率、反文档频率(即tf*idf)、卡方检验、互信息和信息增益等方法。在此,对上述每一分词的权重的计算不作具体说明。
[0146]
一个可选的实施例中,根据每一多媒体文件的标题的长度的不同,上述提取到的标题关键词的数量也可以有所不同。仍以上述视频标题为例,电子设备还可以按照权重从大到小的顺序,选取权重最大的前两个分词作为该视频文件的标题关键词,即上述视频标题中的“积木”和“木偶”两个分词。在本发明实施例中,对上述第一特征数据和第二特征数据中包括的标题关键词的数量不作具体限定。
[0147]
在本发明实施例中,由于上述第一多媒体文件和第二多媒体文件的标题可以有多种表现形式,因此,提取上述第三标题和第四标题中的标题关键词时,还可以采用其他方式提取。
[0148]
例如,某一视频文件为两位歌手对两首不同的歌曲进行改编后的演唱视频。该演唱视频的视频标题可以为“歌手a+歌手b”首次合作,记为标题1,或者视频标题也可以为《歌曲a+歌曲b》太好听了,记为标题2。电子设备在提取上述标题关键词时,可以提取
“”
和《》内的文本内容所包括的关键词,即提取标题1中的歌手a和歌手b作为标题关键词,或者提取标题2中的歌曲a和歌曲b作为标题关键词。
[0149]
在本发明实施例中,上述第一特征数据和第二特征数据除了包括上述序列词、日期关键词和标题关键词以外,还可以包括其他特征数据。以多媒体文件为视频文件为例,上述第一特征数据和第二特征数据还可以包括视频频道或视频标签等。在此,对上述第一特征数据和第二特征数据不作具体限定。
[0150]
一个可选的实施例中,若上述第一特征数据和第二特征数据包括上述视频频道,则电子设备可以利用自然语言处理(natural language processing,nlp)算法,从上述第三标题中提取视频频道,得到第一特征数据中的视频频道。电子设备还可以利用nlp算法,从上述第四标题中提取视频频道,得到第二特征数据中的视频频道。
[0151]
另一个可选的实施例中,若上述第一特征数据和第二特征数据中包括上述视频标签,则电子设备可以分别从上述第三标题和第四标题中提取视频标签。关于视频标签的提取可参照上述视频频道的提取方式。
[0152]
为便于理解,以视频a和视频b的视频标题为例,对上述视频频道和视频标签的提取进行说明。其中,视频a的视频标题为:《xx公路滑翔到店,2020最新款,真心霸气!》,xx表示汽车品牌。视频b的视频标题为:《老亮剑对比—李云龙击败坂田联队》。
[0153]
电子设备可以利用nlp算法,对视频a的视频标题进行特征提取,得到视频a的视频频道和视频标签。也就是视频a的视频频道为汽车,视频标签包括:xx、汽车、新车、摩托车和美系等。
[0154]
电子设备也可以利用nlp算法,对视频b的视频标题进行特征提取,得到视频b的视频频道和视频标签。也就是视频b的视频频道为片花,视频标签包括:李幼斌、亮剑、李云龙、影视、电视剧、剧情和片段等。
[0155]
在本发明实施例中,上述在对视频标签进行提取时,针对提取到的每一视频标签,电子设备还可以确定该视频标签的权重。以上述视频b为例,李幼斌、亮剑、李云龙、影视、电视剧、剧情和片段对应的权重依次可以为:0.82、0.5、0.48、0.6、0.42、0.42和0.19。关于每一视频标签的权重的确定在此不作具体说明。
[0156]
一个可选的实施例中,上述第一特征数据和第二特征数据是从第一多媒体文件和第二多媒体文件对应的剔除待剔除数据后的标题中提取得到的,为了进一步提高计算得到的第一多媒体文件与第二多媒体文件间第一相似度的准确性,电子设备还可以从第一多媒体文件和第二多媒体文件对应的文件描述信息中提取其他特征数据。以第一多媒体文件和第二多媒体文件为视频文件为例,从文件描述信息中提取到的其他特征数据包括但不限于演员姓名、导演姓名、视频内容关键词。关于从文件描述信息中其他特征数据的提取可参照上述第一特征数据和第二特征数据的提取,在此不作具体说明。
[0157]
步骤s403,计算第一特征数据与第二特征数据间的相似度,作为第一多媒体文件与第二多媒体文件间的第一相似度。
[0158]
在本步骤中,电子设备可以根据上述步骤s401提取到的第一特征数据,和上述步骤s402提取到的第二特征数据,计算第一特征数据和第二特征数据在相同维度上的特征数据间的相似度,从而根据每一维度上特征数据间的相似度,计算得到第一特征数据和第二特征数据间的相似度,作为第一多媒体文件与第二多媒体文件间的相似度。
[0159]
为便于理解,以视频c和视频d为例进行说明。
[0160]
当视频c和视频d为某一综艺视频的不同时期的两个视频时,也就是视频c和视频d所对应的视频标题包括的序列词或日期关键词不同,但视频c和视频d所对应的视频标题包括的其他特征数据相同时,如标题关键词等相同,此时,根据视频c和视频d对应的视频标题所计算得到的相似度,将明显大于根据序列词或日期关键词所计算得到的相似度,从而出现误判。
[0161]
在本发明实施例中,通过对上述第三标题中第一特征数据的提取,以及第四标题中第二特征数据的提取,电子设备可以根据第一特征数据和第二特征数据中每一维度对应的特征数据,计算得到第一多媒体文件和第二多媒体文件间的第一相似度,将有效提高计算得到的第一相似度的准确性,从而提高基于该第一相似度确定出的重复多媒体文件识别结果的准确性。
[0162]
一个可选的实施例中,如图5所示,图5为本发明实施例提供的相似度计算方法的第二种流程示意图。具体将上述步骤s403,计算第一特征数据与第二特征数据间的相似度,
作为第一多媒体文件与第二多媒体文件间的第一相似度细化为以下步骤,即步骤s501

步骤s504。
[0163]
步骤s501,若第一特征数据和第二特征数据均包括序列词,则计算第三标题中序列词与第四标题中序列词间的第二相似度。
[0164]
一个可选的实施例中,当上述第一特征数据和第二特征数据中均包括上述序列词时,电子设备可以判断第三标题中的序列词与第四标题中的序列词是否相同。若第三标题中的序列词与第四标题中的序列词相同,则电子设备可以将第一预设数值确定为第三标题中序列词与第四标题中序列词间的第二相似度。若第三标题中的序列词与第四标题中的序列词不相同,则电子设备可以将第二预设数值确定为第三标题中序列词与第四标题中序列词间的第二相似度。
[0165]
上述第一预设数值所表示的相似度大于上述第二预设数值所表示的相似度。
[0166]
为便于理解,以上述第一预设数值为1,第二预设数值为0为例进行说明。
[0167]
一个示例中,第三标题为:节目a第三期主题a,第四标题为:节目a第三期主题b。由于第三标题和第四标题中的序列词均为第三期,因此,电子设备可以将第三标题中序列词与第四标题中序列词间的第二相似度确定为1。
[0168]
另一个示例中,第三标题为:节目a第三期主题a,第四标题为:节目a第四期主题a。由于第三标题中的序列词为第三期,第四标题中的序列词为第四期,因此,电子设备可以将第三标题中序列词与第四标题中序列词间的第二相似度确定为0。
[0169]
在本发明实施例中,对上述第一预设数值和上述第二预设数值不作具体限定。
[0170]
另一个可选的实施例中,电子设备可以对上述第三标题中的序列词和第四标题中的序列词进行二值化处理,得到第三标题中序列词与第四标题中序列词间的第二相似度。
[0171]
例如,当第一特征数据中的序列词和第二特征数据中的序列词不相同时,二值化处理得到的特征数据可以为0,即第三标题中序列词与第四标题中序列词间的第二相似度为0。当第一特征数据中的序列词与第二特征数据中的序列词相同时,二值化处理得到的特征数据可以为1,即第三标题中序列词与第四标题中序列词间的第二相似度为1。
[0172]
在本发明实施例中,对上述第二相似度的计算方式不作具体限定。
[0173]
步骤s502,若第一特征数据和第二特征数据均包括日期关键词,则计算第三标题中日期关键词与第四标题中日期关键词间的第三相似度。
[0174]
一个可选的实施例中,当上述第一特征数据和第二特征数据中均包括上述日期关键词时,电子设备可以判断第三标题中的日期关键词与第四标题中的日期关键词是够相同。若第三标题中的日期关键词与第四标题中的日期关键词相同,则电子设备可以将上述第一预设数值确定为第三标题中日期关键词与第四标题中日期关键词间的第三相似度。若第三标题中的日期关键词与第四标题中的日期关键词不相同,则电子设备可以将上述第二预设数值确定为第三标题中日期关键词与第四标题中日期关键词间的第三相似度。
[0175]
另一个可选的实施例中,电子设备可以对上述第三标题中的日期关键词和第四标题中的日期关键词进行二值化处理,得到第三标题中序列词和第四标题中序列词的第三相似度。
[0176]
上述第三相似度的确定方式可参照上述第二相似度的确定方式,在此,对上述第三相似度的确定不作具体说明。
[0177]
步骤s503,若第一特征数据和第二特征数据均包括标题关键词,则计算第三标题中标题关键词与第四标题中标题关键词间的第四相似度。
[0178]
一个可选的实施例中,当上述第一特征数据和第二特征数据均包括上述标题关键词时,电子设备可以按照预设相似度算法,计算第三标题中标题关键词与第四标题中标题关键词间的相似度,得到第四相似度。其中,预设相似度算法包括但不限于欧式距离算法、曼哈顿距离算法。
[0179]
为便于理解,以预设相似度算法为上述欧式距离算法为例。电子设备可以分别计算表示第三标题中标题关键词的第一向量与表示第四标题中标题关键词的第二向量间的欧式距离,从而将该欧式距离的倒数或负数,确定为第三标题中标题关键词与第四标题中标题关键词间的第四相似度。在此对欧式距离的计算过程,不作具体说明。
[0180]
在本发明实施例中,为便于后期根据上述第一特征数据和第二特征数据,计算得到第一多媒体文件和第二多媒体文件间的第一相似度,电子设备可以对上述第一特征数据和第二特征数据进行二值化处理或归一化处理,从而根据处理后的特征数据计算得到上述第一相似度。
[0181]
另一个可选的实施例中,电子设备可以对第三标题中的标题关键词和第四标题中的标题关键词进行二值化处理,得到第三标题中标题关键词和第四标题中标题关键词的第四相似度。
[0182]
在本本发明实施例中,对上述第四相似度的计算不作具体限定。
[0183]
一个可选的实施例中,在计算上述第二相似度、第三相似度和第四相似度时,若上述第一多媒体文件中包括多个多媒体文件,或者第二多媒体文件中包括多个多媒体文件,则针对每一第一多媒体文件或每一第二多媒体文件,在计算得到上述第二相似度、第三相似度和第四相似度后,可以对计算得到的第二相似度、第三相似度或第四相似度进行归一化处理。也就是将每一相似度的取值范围调整到0至1之间,得到归一化后的相似度。
[0184]
为便于理解,以第一多媒体文件为多个多媒体文件为例,对上述第二相似度的归一化处理进行说明。
[0185]
通过上述步骤s501,电子设备可以计算得到每一第一多媒体文件的序列词与第二多媒体文件的序列词间的第二相似度。此时,电子设备可以根据每一第二相似度和所有第二相似度的和值,对每一第二相似度进行归一化处理。在此对归一化处理的方式不作具体说明。
[0186]
在本发明实施例中,在计算上述第二相似度、第三相似度和第四相似度的过程中,除了进行上述二值化处理和归一化处理以外,电子设备还可以进行特征标准化、缩放等处理。以视频文件的视频时长为例,电子设备可以对第一多媒体文件的视频时长和第二多媒体文件的视频时长进行差操作,从而根据视频时长的差值,确定第一多媒体文件和第二多媒体在视频时长维度的相似度。
[0187]
步骤s504,基于第二相似度和/或第三相似度和/或第四相似度,计算第一多媒体文件与第二多媒体文件间的第一相似度。
[0188]
在本步骤中,电子设备可以根据上述步骤s501

步骤s503计算得到的相似度,即上述第二相似度、第三相似度以及第四相似度,计算第一多媒体文件与第二多媒体文件间的相似度,即上述第一相似度。
[0189]
一个可选的实施例中,电子设备可以将上述第二相似度、第三相似度以及第四相似度的和值,确定为第一多媒体文件和第二多媒体文件间的第一相似度。
[0190]
另一个可选的实施例中,电子设备可以将上述第二相似度、第三相似度以及第四相似度的加权和,确定为第一多媒体文件和第二多媒体文件间的第一相似度。
[0191]
为便于理解,以第三标题中仅包括标题关键词,第四标题中包括标题关键词和序列词为例对上述第一相似度的计算进行说明。
[0192]
一个可选的实施例中,由于第三标题中并没有包括上述序列词和日期关键词,电子设备可以直接将上述第二预设数值确定为上述第二相似度和第三相似度,并按照上述步骤s503计算得到第四相似度,从而根据上述步骤s504计算得到第一多媒体文件与第二多媒体文件间的第一相似度。
[0193]
另一个可选的实施例中,由于第三标题和第四标题中均包括标题关键词,因此,电子设备可以仅执行上述步骤s503,计算得到第三标题中标题关键词和第四标题中标题关键词间的第四相似度,从而根据该第四相似度,确定第一多媒体文件与第二多媒体文件间的第一相似度。例如,电子设备直接将该第四相似度确定为第一多媒体文件与第二多媒体文件间的第一相似度。
[0194]
在本发明实施例中,上述步骤s504是以第三标题和第四标题均包括序列词、日期关键词以及标题关键词为例进行的说明。但是由于第一标题和第二标题的多样性,使得上述第三标题和第四标题中包括的特征数据可能有所不同。因此,在计算上述第一多媒体文件与第二多媒体文件间的第一相似度时,可以根据第三标题和第四标题中包括的每一维度上的特征数据所对应的相似度进行计算。例如,电子设备还可以综合上述视频文件在视频频道和视频标签维度上的相似度,计算得到第一多媒体文件和第二多媒体文件间的第一相似度。在此,对上述第一相似度的计算方式不作具体限定。
[0195]
另一个可选的实施例中,上述第一多媒体文件与第二多媒体文件间的第一相似度是通过上述第二相似度、第三相似度和第四相似度计算得到的。除此以外,电子设备还可以利用预先训练好的二分类模型确定第一多媒体文件与第二多媒体文件间的第一相似度。关于二分类模型的描述可参见下文描述,在此不作赘述。
[0196]
针对上述步骤s104,根据第一相似度以及预设相似度阈值,确定第一多媒体文件与第二多媒体文件是否为重复多媒体文件对。
[0197]
在本步骤中,电子设备可以将上述计算得到的第一相似度与预设相似度阈值(为便于区分,记为第一预设相似度阈值)进行比较,从而根据比较结果,确定第一多媒体文件与第二多媒体文件是否为重复多媒体文件对。
[0198]
一个可选的实施例中,若第一相似度大于预设相似度阈值,则确定第一多媒体文件与第二多媒体文件是重复多媒体文件对。
[0199]
另一个可选的实施例中,若第一相似度不大于预设相似度阈值,则确定第一多媒体文件与第二多媒体文件不是重复多媒体文件对。
[0200]
一个可选的实施例中,若上述第一多媒体文件和第二多媒体文件间的第一相似度是通过上述预先训练好的二分类模型确定的,则电子设备还可以基于计算得到的第一相似度,利用该二分类模型确定第一多媒体文件和第二多媒体文件是否为重复多媒体文件对。
[0201]
一个可选实施例中,在确定上述第一多媒体文件和第二多媒体文件是否为重复多
媒体文件对后,电子设备可以对第一多媒体文件和第二多媒体文件进行生产处理或分发处理。
[0202]
例如,当上述第一多媒体文件为用户上传至电子设备的视频文件,第二视频为预设多媒体文件库中存储的视频文件时,至少存在以下两种情况:
[0203]
情况一,若第一多媒体文件和第二多媒体文件为不重复多媒体文件对,即用户上传的第一多媒体文件与预设多媒体文件库中的第二多媒体文件未重复,此时,电子设备可以对第一多媒体文件进行转码处理,并对转码后的第一多媒体文件进行入库、推荐等操作;电子设备可以对第二多媒体文件进行搜索、推荐等操作。
[0204]
情况二,若第一多媒体文件和第二多媒体文件为重复多媒体文件对,即用户上传的第一多媒体文件与预设多媒体文件库中的第二多媒体文件重复,此时,电子设备可以丢弃第一多媒体文件;电子设备可以对第二多媒体文件进行搜索、推荐等操作。
[0205]
当上述第一多媒体文件和第二多媒体文件均为用户上传至电子设备的多媒体文件时,至少存在以下两种情况:
[0206]
情况三,若第一多媒体文件和第二多媒体文件为不重复多媒体文件对,则电子设备可以分别对第一多媒体文件和第二多媒体文件进行转码、入库、推荐等操作。
[0207]
情况四,若第一多媒体文件和第二多媒体文件为重复多媒体文件对,则电子设备可以根据第一多媒体文件的文件时长或文件大小和第二多媒体文件的文件时长或文件大小,丢弃文件时长较短或者文件大小较小的多媒体文件,并对文件时长较长或文件大小较大的多媒体文件进行转码、入库、推荐等操作。
[0208]
当上述第一多媒体文件和第二多媒体文件均为预设多媒体文件库中存储的视频时,至少包括以下两种情况:
[0209]
情况五,若第一多媒体文件和第二多媒体文件为不重复多媒体文件对,则电子设备可以分别对第一多媒体文件和第二多媒体文件进行搜索、推荐等操作。
[0210]
情况六,若第一多媒体文件和第二多媒体文件为重复多媒体文件对,则电子设备可以根据第一多媒体文件的文件时长和第二多媒体文件的文件时长或文件大小,丢弃文件时长较短或文件大小较小的多媒体文件,并对文件时长较长或文件大小较大的多媒体文件进行搜素、推荐等操作。
[0211]
在本发明实施例中,在确定第一多媒体文件与第二多媒体文件是否为重复多媒体文件对后,根据用户需求的不同,可以对第一多媒体文件和第二多媒体文件进行相应的处理,在此,对第一多媒体文件和第二多媒体文件的处理方式不作具体限定。
[0212]
通过上述实施例,电子设备根据重复多媒体文件对的识别结果,对上述第一多媒体文件和第二多媒体文件进行生产分发,这将有效减少重复的多媒体文件在生产分发过程所造成的资源浪费,提高用户体验。
[0213]
一个可选的实施例中,根据图1所示的方法,本发明实施例还提供了一种重复多媒体文件识别方法。如图6所示,图6为本发明实施例提供的重复多媒体文件识别方法的第二种流程示意图。该方法包括以下步骤。
[0214]
步骤s601,获取第一多媒体文件的第三特征数据,并获取第二多媒体文件的第四特征数据。
[0215]
在本发明实施例中,根据上述多媒体文件的种类的不同,上述获取到的第三特征
数据和第四特征数据也有所不同。例如,当上述多媒体文件为视频文件时,上述第三特征数据和第四特征数据可以包括视频文件的视频标题、视频描述信息、视频时长、视频类别、上传该视频的用户垂类(即类别)、视频为横版识别还是竖版视频等特征数据。其中,用户垂类可以通过用户历史上传的视频内容分析得到,在此不作具体说明。再例如,当上述多媒体文件为电子书文件时,上述第三特征数据和第四特征数据可以包括电子书文件的标题、内容描述信息、文件大小和文件类别等。在此,对上述第三特征数据和第四特征数据不作具体限定。
[0216]
步骤s602,根据第三特征数据和第四特征数据,计算第一多媒体文件和第二多媒体文件间的第五相似度。
[0217]
为便于理解,以第三特征数据和第四特征数据仅包括上述视频标题为例对上述第五相似度的计算为例进行说明,电子设备可以分别对上述第一多媒体文件的视频标题和第二多媒体文件的视频标题进行分词处理后,得到多个分词以及每一分词对应的权重。电子设备可以根据第一多媒体文件和第二多媒体文件对应分词处理得到的多个分词和每一分词对应的权重,对分词结果进行向量化,并计算余弦夹角,从而得到第一多媒体文件和第二多媒体文件间的第五相似度。
[0218]
在本发明实施例中,上述第五相似度可以通过上述训练好的二分类模型计算得到。在此,对上述第五相似度的计算不作具体限定。
[0219]
一个可选的实施例中,电子设备在执行上述步骤s602后,可以将计算得到的第五相似度与预设相似度阈值(为便于区分,记为第二预设相似度阈值)进行比较。若第五相似度大于第二预设相似度阈值,则电子设备可以初步判断上述第一多媒体文件与第二多媒体文件为疑似重复的多媒体文件对。此时,电子设备可以执行步骤s603,即获取第一多媒体文件的第一标题和第二多媒体文件的第二标题。
[0220]
一个可选的实施例中,若上述第五相似度不大于上述第二预设相似度阈值,则电子设备可以直接确定上述第一多媒体文件与第二多媒体文件不是疑似重复的多媒体文件对。
[0221]
上述步骤s601

步骤s602是对第一多媒体文件和第二多媒体文件进行初步的疑似重复的多媒体文件筛选过程。通过上述步骤s601和步骤s602,电子设备可以从第一多媒体文件和第二多媒体文件初步筛选出疑似重复的多媒体文件,提高重复多媒体文件对的识别效率。
[0222]
为便于理解,以上述第二多媒体文件为预设多媒体文件库中的所有多媒体文件时,电子设备若针对每一第二多媒体文件,均采用图1所示的方法识别第一多媒体文件与第二多媒体文件是否为重复多媒体文件对,则需耗费较长的时间才能完成识别过程。然而,基于上述第五相似度,可以初步对预设多媒体文件库中的多媒体文件进行筛选,从而利用图1所示的方法,进一步确定疑似重复的第一多媒体文件和第二多媒体文件是否为重复多媒体文件对,这将有效减少所需确定的多媒体文件对的数量,提高重复多媒体文件对的识别效率。
[0223]
另一个可选的实施例中,为了进一步提高重复多媒体文件对的识别准确性,若上述第五相似度不大于上述第二预设相似度阈值,则电子设备可以初步判断上述第一多媒体文件与第二多媒体文件可能不是疑似重复的多媒体文件对,此时,电子设备可以执行步骤
s603,即获取第一多媒体文件的第一标题和第二多媒体文件的第二标题。
[0224]
步骤s603,获取第一多媒体文件的第一标题和第二多媒体文件的第二标题。
[0225]
步骤s604,获取第一标题中的第一待剔除数据;和/或,获取第二标题中的第二待剔除数据。
[0226]
步骤s605,计算第三标题与第四标题间的相似度,作为第一多媒体文件与第二多媒体文件间的第一相似度;第三标题为不包括第一待剔除数据的第一标题,第四标题为不包括第二待剔除数据的第二标题。
[0227]
步骤s606,根据第一相似度以及预设相似度阈值,确定第一多媒体文件与第二多媒体文件是否为重复多媒体文件对。
[0228]
上述步骤s603

步骤s606与上述步骤s101

步骤s104相同。
[0229]
基于同一种发明构思,根据上述本发明实施例提供的重复多媒体文件识别的方法,本发明实施例还提供了一种重复多媒体文件识别方法。如图7所示,图7为本发明实施例提供的重复多媒体文件识别方法的第三种流程示意图。该方法包括以下步骤。
[0230]
步骤s701,获取第一多媒体文件的第一标题和第二多媒体文件的第二标题。
[0231]
步骤s702,获取第一标题中的第一待剔除数据;和/或,获取第二标题中的第二待剔除数据。
[0232]
上述步骤s701

步骤s702与上述步骤s101

步骤s102相同。
[0233]
步骤s703,获取第三标题中的第一特征数据,以及获取第四标题中的第二特征数据,第三标题为不包括第一待剔除数据的第一标题,第四标题为不包括第二待剔除数据的第二标题。
[0234]
关于上述第一特征数据和第二特征数据的提取可参照上述步骤s401和步骤s402的描述,在此不作赘述。
[0235]
步骤s704,将第一特征数据和第二特征数据输入预先训练好的二分类模型,确定第一多媒体文件与第二多媒体文件间的第一相似度,并基于第一相似度,确定第一多媒体文件与第二多媒体文件是否为重复多媒体文件对。
[0236]
在本步骤中,电子设备可以将上述第一特征数据和第二特征数据作为输入数据,输入至预先训练好的二分类模型中,由该二分类模型基于第一特征数据和第二特征数据,计算得到第三标题和第四标题间的相似度,也就是计算第一多媒体文件与第二多媒体文件间的第一相似度,并基于该第一相似度,输出指示第一多媒体文件和第二多媒体文件是否重复多媒体文件对的输出结果。
[0237]
上述二分类模型是利用预设训练集对预设二分类模型进行训练得到的。该预设训练集中包括多个重复多媒体文件对,多个不重复多媒体文件对,以及指示每一多媒体文件是够为重复多媒体文件对的标识信息。关于上述二分类模型的训练步骤,具体可参见下文描述,在此不作赘述。
[0238]
一个可选的实施例中,上述二分类模型包括但不限于梯度提升决策树(gradient boosting decision tree)gbdt模型、极限梯度提升(extreme gradient boosting,xgboost)模型和随机森林模型。以gbdt模型为例,gbdt算法是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的预测结果累加起来得到gbdt模型的输出结果。
[0239]
在图7所示的实施例中,上述步骤s702和步骤s703也可以是电子设备利用上述预
设训练好的二分类模型进行处理的,也就是电子设备可以利用上述训练好的二分类模型进行上述第一待剔除数据、第二待剔除数据、第一特征数据和第二特征数据的获取。
[0240]
在本发明实施例中,上述二分类模型在对不同维度的特征数据进行处理时,对不同维度的特征数据的区分性较高,因此,利用上述预先训练好的二分类模型可以更好的区分上述第一特征数据和第二特征数据中包括的每一维度对应的特征数据,从而克服了相关技术中将向量空间模型中计算得到距离表示为多媒体文件间相似度的准确性较低的问题,提高了重复多媒体文件识别的准确性。例如,上述gbdt算法在多维特征数据的区分处理以及不同维度特征数据的组合处理上具有天然的优势,尤其是对线性不可分数据,即无法用一个线性函数完全将两类样本数据区分的数据,如本发明实施例中的多媒体文件,gbdt算法往往可以取得较好的区分效果。
[0241]
基于同一种发明构思,根据上述本发明实施例提供的重复多媒体文件识别方法,本发明实施例还提供了一种二分类模型训练方法。如图8所示,图8为本发明实施例提供的二分类模型训练方法的一种流程示意图。具体包括以下步骤。
[0242]
步骤s801,获取预设训练集。
[0243]
在本发明实施例中,上述预设训练集中可以包括多个重复多媒体文件对,多个不重复多媒体文件对,以及指示每一多媒体文件是够为重复多媒体文件对的标识信息。其中,每一多媒体文件对所包括的两个样本多媒体文件可以从上述预设多媒体文件库中获取得到的。在此,对预设训练集包括的多媒体文件对的数量,以及样本多媒体文件的数量不作具体限定。
[0244]
一个可选的实施例中,为了提高上述预设训练集中每一多媒体文件对的标识信息的准确性,从而提高训练得到的二分类模型的准确性,可以通过机器标注和人工标注相结合的方式确定每一多媒体文件对的标识信息。
[0245]
针对每一多媒体文件对,可以利用电子设备识别该多媒体文件对包括的两个多媒体文件是否为重复多媒体文件对。例如,针对每一多媒体文件对,该电子设备可以计算该多媒体文件对包括的两个多媒体文件对应的安全散列算法1(secure hash algorithm 1,sha1)值或信息摘要算法(message

digest algorithm,md5)值。针对预设训练集中sha1值或md5值相同的两个多媒体文件所对应的多媒体文件对,电子设备可以确定该多媒体文件对为重复多媒体文件对。针对预设训练集中sha1值或md5值不相同的两个多媒体文件所对应的多媒体文件对,可以采用人工识别的方式,确定该多媒体文件对是否为重复多媒体文件对,从而得到预设训练集中每一多媒体文件对的标识信息。
[0246]
一个可选的实施例中,为了提高训练得到的二分类模型的准确性,上述预设训练集中包括的重复多媒体文件对和不重复多媒体文件对间的比例,与实际场景中重复多媒体文件出现的概率匹配。例如,假设实际场景中多媒体文件重复的概率为10%,则预设训练集中多媒体文件对与不重复多媒体文件对间的比例为1:9,即10%:(1

10%)。
[0247]
一个可选的实施例中,为了提高训练得到的二分类模型的准确性,在获取上述预设训练集之前,电子设备可以对预设多媒体文件库中的多媒体文件进行数据请求。例如,选取多媒体文件标题包括字符数大于预设字符数阈值的多媒体文件,从而基于选取的多媒体文件得到上述预设训练集。
[0248]
步骤s802,针对预设训练集中的每一样本多媒体文件,获取该样本多媒体文件的
第五标题中的第三待剔除数据。
[0249]
上述每一样本多媒体文件的第三待剔除数据的获取方式可参照上述第一多媒体文件中第一待剔除数据或第二多媒体文件中第二待剔除数据的获取方式,在此不作具体说明。
[0250]
步骤s803,针对预设训练集中的每一样本多媒体文件,获取该样本多媒体文件对应第六标题中的第五特征数据;每一样本多媒体文件对应第六标题为不包括该样本多媒体文件中第三待剔除数据的第五标题。
[0251]
在本步骤中,当上述样本多媒体文件的第五标题中包括与用户标识信息关联的文本内容,即上述第三待剔除数据时,电子设备剔除该第五标题中的第三待剔除数据,得到第六标题,并获取该第六标题中的特征数据,即第五特征数据。
[0252]
上述第六标题中第五特征数据的获取方式可参照上述第三标题中第一特征数据或第四标题中第二特征数据的获取方式,在此不作具体说明。
[0253]
步骤s804,针对预设训练集中的每一多媒体文件对,将该多媒体文件对中两个样本多媒体文件的第五特征数据输入至预设二分类模型,确定该多媒体文件对中两个样本多媒体文件间的第六相似度,并基于该第六相似度,得到指示该多媒体文件对是否为重复多媒体文件对的预测结果。
[0254]
在本发明实施例中,上述在基于上述预设训练集中的每一多媒体文件对所对应的第五特征数据对预设二分类模型进行训练时,每一维度特征数据对上述预测结果的影响是不同的。
[0255]
当上述第五特征数据包括上述序列词、日期关键词或标题关键词中的任意一个时,电子设备根据该第五特征数据,从而结合其他特征数据确定上述预测结果。
[0256]
步骤s805,根据每一多媒体文件对的标识信息,以及每一多媒体文件对的预测结果,计算预设二分类模型的损失值。
[0257]
上述预设二分类模型的损失值可以根据多种损失值函数计算得到,例如,平方误差损失函数、均方误差损失函数等。在此,对上述损失值的计算不作具体说明。
[0258]
步骤s806,当损失值大于预设损失值阈值时,调整预设二分类模型的参数,并返回执行上述步骤s804。
[0259]
也就是当损失值大于预设损失值阈值时,返回执行上述针对预设训练集中的每一多媒体文件对,将该多媒体文件对应的两个第五特征数据输入至预设二分类模型,确定该多媒体文件对中两个样本多媒体文件间的第六相似度,并基于该第六相似度,得到指示该多媒体文件对是否为重复多媒体文件对的预测结果的步骤。在此,对上述预设二分类模型的参数调整方式不作具体限定。
[0260]
步骤s807,当损失值不大于预设损失值阈值时,将当前时刻的预设二分类模型确定为训练好的二分类模型。
[0261]
通过图8所示的方法,由于上述二分类模型可以准确的区分多个维度的特征数据,并对不同维度的特征进行组合,这将使得训练得到的二分类模型可以准确的识别出重复多媒体文件,提高了重复多媒体文件识别的准确性。
[0262]
基于同一种发明构思,根据上述本发明实施例提供的重复多媒体文件识别方法,本发明实施例还提供了一种重复多媒体文件识别装置。如图9所示,图9为本发明实施例提
供的重复多媒体文件识别装置的一种结构示意图。该装置包括以下模块。
[0263]
第一获取模块901,用于获取第一多媒体文件的第一标题和第二多媒体文件的第二标题;
[0264]
第二获取模块902,用于获取第一标题中的第一待剔除数据;和/或,获取第二标题中的第二待剔除数据;第一待剔除数据为第一标题中与第一多媒体文件对应第一用户标识信息关联的文本内容,第二待剔除数据为第二标题中与第二多媒体文件对应第二用户标识信息关联的文本内容;
[0265]
计算模块903,用于计算第三标题与第四标题间的相似度,作为第一多媒体文件与第二多媒体文件间的第一相似度;第三标题为不包括第一待剔除数据的第一标题,第四标题为不包括第二待剔除数据的第二标题;
[0266]
确定模块904,用于根据第一相似度以及预设相似度阈值,确定第一多媒体文件与第二多媒体文件是否为重复多媒体文件对。
[0267]
可选的,上述第二获取模块902,具体可以用于获取第一多媒体文件对应的第一用户标识信息;
[0268]
获取第一用户标识信息对应的所有多媒体文件,作为第一多媒体文件集;
[0269]
从第一多媒体文件集包括的各多媒体文件的标题中获取与第一用户标识信息关联的文本内容,作为第一目标文本内容;
[0270]
将第一标题中包括的第一目标文本内容作为第一标题中的第一待剔除数据。
[0271]
可选的,上述第二获取模块902,具体可以用于获取第二多媒体文件对应的第二用户标识信息;
[0272]
获取第二用户标识信息对应的所有多媒体文件,作为第二多媒体文件集;
[0273]
从第二多媒体文件集包括的各多媒体文件的标题中获取与第二用户标识信息关联的文本内容,作为第二目标文本内容;
[0274]
将第二标题中包括的第二目标文本内容作为第二标题中的第二待剔除数据。
[0275]
可选的,上述计算模块903,可以包括:
[0276]
第一获取子模块,用于获取第三标题中的第一特征数据;
[0277]
第二获取子模块,用于获取第四标题中的第二特征数据;
[0278]
计算子模块,用于计算第一特征数据与第二特征数据间的相似度,作为第一多媒体文件与第二多媒体文件间的第一相似度。
[0279]
可选的,上述第一特征数据包括序列词、日期关键词或标题关键词中的一个或多个;第二特征数据包括序列词、日期关键词或标题关键词中的一个或多个。
[0280]
可选的,上述计算子模块,具体可以用于若第一特征数据和第二特征数据均包括序列词,则计算第三标题中序列词与第四标题中序列词间的第二相似度;和/或,
[0281]
若第一特征数据和第二特征数据均包括日期关键词,则计算第三标题中日期关键词与第四标题中日期关键词间的第三相似度;和/或,
[0282]
若第一特征数据和第二特征数据均包括标题关键词,则计算第三标题中标题关键词与第四标题中标题关键词间的第四相似度;
[0283]
基于第二相似度和/或第三相似度和/或第四相似度,计算第一多媒体文件与第二多媒体文件间的第一相似度。
[0284]
可选的,上述确定模块904,具体可以用于若第一相似度大于预设相似度阈值,则确定第一多媒体文件与第二多媒体文件是重复多媒体文件对;
[0285]
若第一相似度不大于预设相似度阈值,则确定第一多媒体文件与第二多媒体文件不是重复文件对。
[0286]
通过本发明实施例提供的装置,可以分别剔除两个多媒体文件的标题中的待剔除数据,也就是剔除多媒体文件标题中与用户标识信息相关联的文本内容,从而根据剔除待剔除数据后的两个多媒体文件标题间的相似度,确定这两个多媒体文件是否为重复对媒体文件。多媒体文件的标题中待剔除数据的剔除,可以有效降低标题中不同用户标识信息对相似度计算的影响,提高计算得到的相似度的准确性,从而提高了重复多媒体文件识别的准确性。另外,由于重复多媒体文件的标题相似程度较高,因此,相比于相关技术将不同维度上特征数据映射到同一向量空间模型的重复多媒体文件识别的方法,本发明实施例中仅根据标题中的特征数据计算得到的相似度的准确性更高,基于该相似度所确定的重复多媒体文件的识别结果更加准确,提高了重复多媒体文件识别的准确性。
[0287]
基于同一种发明构思,根据上述本发明实施例提供的重复多媒体文件识别方法,本发明实施例还提供了一种电子设备,如图10所示,包括处理器1001、通信接口1002、存储器603和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信;
[0288]
存储器1003,用于存放计算机程序;
[0289]
处理器1001,用于执行存储器1003上所存放的程序时,实现如下步骤:
[0290]
获取第一多媒体文件的第一标题和第二多媒体文件的第二标题;
[0291]
获取第一标题中的第一待剔除数据;和/或,
[0292]
获取第二标题中的第二待剔除数据;
[0293]
第一待剔除数据为第一标题中与第一多媒体文件对应第一用户标识信息关联的文本内容,第二待剔除数据为第二标题中与第二多媒体文件对应第二用户标识信息关联的文本内容;
[0294]
计算第三标题与第四标题间的相似度,作为第一多媒体文件与第二多媒体文件间的第一相似度;第三标题为不包括第一待剔除数据的第一标题,第四标题为不包括第二待剔除数据的第二标题;
[0295]
根据第一相似度以及预设相似度阈值,确定第一多媒体文件与第二多媒体文件是否为重复多媒体文件对。
[0296]
通过本发明实施例提供的电子设备,可以分别剔除两个多媒体文件的标题中的待剔除数据,也就是剔除多媒体文件标题中与用户标识信息相关联的文本内容,从而根据剔除待剔除数据后的两个多媒体文件标题间的相似度,确定这两个多媒体文件是否为重复对媒体文件。多媒体文件的标题中待剔除数据的剔除,可以有效降低标题中不同用户标识信息对相似度计算的影响,提高计算得到的相似度的准确性,从而提高了重复多媒体文件识别的准确性。另外,由于重复多媒体文件的标题相似程度较高,因此,相比于相关技术将不同维度上特征数据映射到同一向量空间模型的重复多媒体文件识别的方法,本发明实施例中仅根据标题中的特征数据计算得到的相似度的准确性更高,基于该相似度所确定的重复多媒体文件的识别结果更加准确,提高了重复多媒体文件识别的准确性。
[0297]
上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0298]
通信接口用于上述终端与其他设备之间的通信。
[0299]
存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non

volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0300]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu);还可以是专用处理器,包括网络处理器(network processor,简称np)等、数字信号处理器(digital signal processor,简称dsp)等。
[0301]
基于同一种发明构思,根据上述本发明实施例提供的重复多媒体文件识别方法,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的重复多媒体文件识别方法。
[0302]
基于同一种发明构思,根据上述本发明实施例提供的重复多媒体文件识别方法,本发明实施例还提供了一种包含指令的计算机程序,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的重复多媒体文件识别方法。
[0303]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序的形式实现。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0304]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0305]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质及计算机程序实施例而言,由于其基本相似于方法实施例,
所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0306]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1