音乐的场景识别方法、装置、服务器及存储介质与流程

文档序号:26939491发布日期:2021-10-12 14:47阅读:189来源:国知局
音乐的场景识别方法、装置、服务器及存储介质与流程

1.本公开涉及视频处理领域,尤其涉及一种音乐的场景识别方法、装置、服务器及存储 介质。


背景技术:

2.音乐播放器为了给用户精准的推荐音乐,会基于音乐场景为音乐打上场景标签,这些 标签一般为音乐的使用场景,比如旅行、运动、聚会、美食等。
3.传统技术中一般通过机器模型提取音乐音频特征、歌词特征、歌手等特征来进行对音 乐的场景进行识别。
4.但是仅仅基于音乐的音频特征、歌词特征以及歌手等特征对音乐进行音乐场景分类 具有准确度低的问题。


技术实现要素:

5.本公开提供一种音乐的场景识别方法、装置及系统,以至少解决上述技术问题。本公 开的技术方案如下:
6.根据本公开实施例的第一方面,一种背景音乐的场景识别方法,包括:
7.获取包含有背景音乐的当前视频,其中,所述当前视频中包括多帧图像;
8.根据所述当前视频中的至少一帧图像获取所述当前视频与多个预定场景的匹配度;
9.获取所述当前视频的互动信息和所述背景音乐的音乐特征;
10.根据所述当前视频与多个预定场景的匹配度、所述互动信息以及所述音乐特征,确定 所述当前视频中的背景音乐所属于的预定场景。
11.在其中一个实施例中,根据所述当前视频与多个预定场景的匹配度、所述互动信息以 及所述音乐特征,确定所述当前视频中的背景音乐所属于的预定场景包括:
12.根据所述当前视频的互动信息和所述背景音乐的音乐特征,确定出所述背景音乐的场 景参考数据;
13.基于所述背景音乐的场景参考数据,确定所述背景音乐所属于的预定场景。
14.在其中一个实施例中,基于所述背景音乐的场景参考数据,确定所述背景音乐所属于 的预定场景,包括:
15.基于多个维度的互动信息确定所述当前视频的互动参考值,并基于所述音乐特征确定 所述背景音乐的音乐特征值;
16.获取所述互动参考值与互动预定值中的最小值,并将所述互动参考值与互动预定值中 的最小值与各个所述预定场景的匹配度进行乘法运算得到互动参考数据;
17.获取所述音乐特征值与特征预定值中的最小值,得到音乐特征参考数据,其中,所述 互动预定值小于所述特征预定值;
18.将两个所述互动参考数据与音乐特征参考数据之和作为所述背景音乐的场景参
考数 据。
19.在其中一个实施例中,基于所述多个维度的互动信息确定所述当前视频的互动参考值 包括:
20.获取各维度的互动信息的权重,其中,所述多个维度的互动信息包括:视频点赞数、 视频关注数、视频点击数,所述视频点赞数对应的权重大于所述视频关注数对应的权重, 所述视频关注数对应的权重大于所述视频点赞书对应的权重;
21.基于各维度的互动信息的权重,获取各个维度的互动信息的加权和,得到所述当前视 频的互动参考值。
22.在其中一个实施例中,所述音乐特征包括音乐的点击率,其中,基于所述多个维度的 音乐特征确定所述背景音乐的音乐特征值包括:
23.将所述点击率与预定权重的乘积,作为所述背景音乐的音乐特征值。
24.在其中一个实施例中,基于所述背景音乐的场景参考数据,确定所述背景音乐所属于 的预定场景,包括:
25.计算各个所述预定场景的场景参考数据的和,得到总体场景评价;
26.计算各个所述预定场景的场景参考数据与所述总体场景评价的比值,得到所述背景音 乐属于预定场景的概率,将概率最大的预定场景确定为所述背景音乐所属于的预定场景。
27.在其中一个实施例中,所述至少一帧图像包括封面图像,其中,所述封面图像中包含 有当前视频的内容指引信息。
28.本公开的第二方面,提供一种背景音乐的场景识别装置,包括:
29.获取模块,被配置为获取包含有背景音乐的当前视频,其中,所述当前视频中包括多 帧图像;
30.匹配模块,被配置为根据所述当前视频中的至少一帧图像获取所述当前视频与多个预 定场景的匹配度;
31.特征提取模块,被配置为获取所述当前视频的互动信息和所述背景音乐的音乐特征;
32.场景确定模块,被配置为根据所述当前视频与多个预定场景的匹配度、所述互动信息 以及所述音乐特征,确定所述当前视频中的背景音乐所属于的预定场景。
33.在其中一个实施例中,场景确定模块,被配置为根据所述当前视频的互动信息和所述 背景音乐的音乐特征,确定出所述背景音乐的场景参考数据;基于所述背景音乐的场景参 考数据,确定所述背景音乐所属于的预定场景。
34.在其中一个实施例中,场景确定模块,被配置为基于多个维度的互动信息确定所述当 前视频的互动参考值,并基于所述音乐特征确定所述背景音乐的音乐特征值;获取所述互 动参考值与互动预定值中的最小值,并将所述互动参考值与互动预定值中的最小值与各个 所述预定场景的匹配度进行乘法运算得到互动参考数据;获取所述音乐特征值与特征预定 值中的最小值,得到音乐特征参考数据,其中,所述互动预定值小于所述特征预定值;将 两个所述互动参考数据与音乐特征参考数据之和作为所述背景音乐的场景参考数据。
35.在其中一个实施例中,场景确定模块,被配置为获取各维度的互动信息的权重,其
中, 所述多个维度的互动信息包括:视频点赞数、视频关注数、视频点击数,所述视频点赞数 对应的权重大于所述视频关注数对应的权重,所述视频关注数对应的权重大于所述视频点 赞书对应的权重;基于各维度的互动信息的权重,获取各个维度的互动信息的加权和,得 到所述当前视频的互动参考值。
36.在其中一个实施例中,场景确定模块,被配置为将所述点击率与预定权重的乘积,作 为所述背景音乐的音乐特征值。
37.在其中一个实施例中,场景确定模块,被配置为计算各个所述预定场景的场景参考数 据的和,得到总体场景评价;计算各个所述预定场景的场景参考数据与所述总体场景评价 的比值,得到所述背景音乐属于预定场景的概率,将概率最大的预定场景确定为所述背景 音乐所属于的预定场景。
38.在其中一个实施例中,所述至少一帧图像包括封面图像,其中,所述封面图像中包含 有当前视频的内容指引信息
39.根据本公开实施例的第三方面,提供一种服务器,包括:处理器;用于存储所述处理 器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如本公开实施 例中的音乐场景识别方法的各个步骤。
40.根据本公开实施例的第四方面,提供存储介质,当所述存储介质中的指令由服务器的 处理器执行时,使得服务器能够执行如本公开实施例中的音乐场景识别方法的各个步骤。
41.本公开的实施例提供的技术方案至少带来以下有益效果:
42.本公开提出的音乐的场景识别方法、装置、服务器及存储介质,首先利用当前视频中 的至少一帧图像获取所述当前视频与多个预定场景的匹配度,之后获取所述当前视频的互 动信息和所述背景音乐的音乐特征;根据所述当前视频与多个预定场景的匹配度、所述互 动信息以及所述音乐特征,确定所述当前视频中的背景音乐所属于的预定场景。由于制作 视频的用户使用的背景音乐一般都和视频强相关,而视频的图像信息为用户表达其想法的 重要信息,由此可得出视频中背景音乐和视频的图像信息也强相关。因此,本示例中的音 乐场景识别方法利用视频中的图像特征来辅助视频的背景音乐进行场景识别,方法得到的 分类结果准确可靠。
43.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限 制本公开。
附图说明
44.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例, 并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
45.图1是根据一示例性实施例示出的一种音乐的场景识别方法的流程图。
46.图2是根据一示例性实施例示出的步骤s12的细化步骤的流程图。
47.图3是根据一示例性实施例示出的步骤s13的细化步骤的流程图。
48.图4是根据一示例性实施例示出的一种音乐的场景识别装置的框图。
49.图5是根据一示例性实施例示出的一种装置的框图。
具体实施方式
50.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实 施例中的技术方案进行清楚、完整地描述。
51.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二
”ꢀ
等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的 数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或 描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相 一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方 面相一致的装置和方法的例子。
52.本公开提供的音乐的场景识别方法,可以应用于如图1所示的应用环境中。其中,终 端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人 计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等电子设备,服务器104 可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
53.服务器104上被部署服务平台,用户可通过终端102上对应的应用观看服务平台上的 作品,用户也可以通过终端102上对应的应用向服务平台上传作品。该作品可以为视频、 短视频,图集,电子相册等等。用户在上传作品时可以为作品配上背景音乐。用户可以 通过终端102的操作界面进行相应的配乐操作为上传的作品配上背景音乐。用户通过终端 102的操作界面作品配乐的操作流程一般为:通过终端104的背景音乐选择界面输入背景 音乐的选择操作,终端基于用户选择操作将用户选择的背景音乐作为用户的作品的背景音 乐。可选地,在用户输入选择操作后,用户还可以通过预播放配上背景音乐的作品了解选 择的背景音乐是否合适,若用户认为选择的背景音乐合适,则可通过终端104的操作界面 输入确定操作,终端即将用户选择的背景音乐作为用户的作品的背景音乐;若,若用户认 为选择的背景音乐不合适,则可通过终端104的操作界面输入取消操作,终端102返回背 景音乐选择界面,以使用户可以重新选择背景音乐。
54.图2是根据一示例性实施例示出的一种音乐的场景识别方法的流程图,该音乐的场景 识别方法用于服务器中,包括以下步骤。
55.在步骤s11中,获取包含有背景音乐的当前视频。其中,所述当前视频中包括多帧 图像。
56.在步骤s12中,根据所述当前视频中的至少一帧图像获取所述当前视频与多个预定 场景的匹配度。
57.在步骤s13中,获取所述当前视频的互动信息和所述背景音乐的音乐特征。
58.在步骤s14中,根据所述当前视频与多个预定场景的匹配度、所述互动信息以及所 述音乐特征,确定所述当前视频中的背景音乐所属于的预定场景。
59.在步骤s12中的预定场景一般根据人们常用的场景分类设置的,例如,这些场景分 类可以包含美食,旅行,聚会等等分类。应当请的是,这些场景分类可以根据实际需求进 行增删。可选地,可以利用神经网络模型对当前视频中的至少一帧图像进行处理,得到所 述当前视频与多个预定场景的匹配度。可选地,在执行步骤s12之前,预先训练构建的 原始场景分类模型,该场景训练模型的训练样本可以包括多个标注了选择出的至少一帧图 像以及预定场景匹配度的视频。利用这些训练样本训练原始场景分类模型,直至原始场景 分类
点赞数的权重可以为1/100000;视频关注数的权重可以为1/5000;视频点击数的权重可 以为1/100。
68.具体地,可以根据如下公式获取背景音乐的场景参考数据wi:
69.wi=si*(min(1.0,like_count/100000+follow_count/5000+comment_count/100)+ min(10.0,1000*tag_click_count/(tag_show_count+100)));
70.其中,like_count表示当前视频的点赞数,follow_count是当前视频产生的关注数, comment_count是当前视频评论数,tag_click_count是当前视频所用音乐的标签点击数, tag_show_count是当前视频所用音乐的标签曝光数。
71.本示例给出了一种如何具体综合所述当前视频与多个预定场景的匹配度、所述互动信 息以及所述音乐特征,确定所述当前视频中的背景音乐所属于的预定场景的方法,该方法 可以综合各种维度的互动数据以及背景音乐的音乐特征进行运算,涉及的运算简单,数据 处理的方式合理,因此,其得到的结果被用于确定音乐的音乐场景时,得到的结果准确。
72.图4是根据一示例性实施例示出的一种音乐的场景识别装置的框图。参照图4,该背 景音乐的场景识别装置,包括:
73.获取模块410,被配置为获取包含有背景音乐的当前视频,其中,所述当前视频中包 括多帧图像;
74.匹配模块420,被配置为根据所述当前视频中的至少一帧图像获取所述当前视频与多 个预定场景的匹配度;
75.特征提取模块430,被配置为获取所述当前视频的互动信息和所述背景音乐的音乐特 征;
76.场景确定模块440,被配置为根据所述当前视频与多个预定场景的匹配度、所述互动 信息以及所述音乐特征,确定所述当前视频中的背景音乐所属于的预定场景。
77.在其中一个实施例中,场景确定模块440,被配置为根据所述当前视频的互动信息和 所述背景音乐的音乐特征,确定出所述背景音乐的场景参考数据;基于所述背景音乐的场 景参考数据,确定所述背景音乐所属于的预定场景。
78.在其中一个实施例中,场景确定模块440,被配置为基于多个维度的互动信息确定所 述当前视频的互动参考值,并基于所述音乐特征确定所述背景音乐的音乐特征值;获取所 述互动参考值与互动预定值中的最小值,并将所述互动参考值与互动预定值中的最小值与 各个所述预定场景的匹配度进行乘法运算得到互动参考数据;获取所述音乐特征值与特征 预定值中的最小值,得到音乐特征参考数据,其中,所述互动预定值小于所述特征预定值; 将两个所述互动参考数据与音乐特征参考数据之和作为所述背景音乐的场景参考数据。
79.在其中一个实施例中,场景确定模块440,被配置为获取各维度的互动信息的权重, 其中,所述多个维度的互动信息包括:视频点赞数、视频关注数、视频点击数,所述视频 点赞数对应的权重大于所述视频关注数对应的权重,所述视频关注数对应的权重大于所述 视频点赞书对应的权重;基于各维度的互动信息的权重,获取各个维度的互动信息的加权 和,得到所述当前视频的互动参考值。
80.在其中一个实施例中,场景确定模块440,被配置为将所述点击率与预定权重的乘
积, 作为所述背景音乐的音乐特征值。
81.在其中一个实施例中,场景确定模块440,被配置为计算各个所述预定场景的场景参 考数据的和,得到总体场景评价;计算各个所述预定场景的场景参考数据与所述总体场景 评价的比值,得到所述背景音乐属于预定场景的概率,将概率最大的预定场景确定为所述 背景音乐所属于的预定场景。
82.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实 施例中进行了详细描述,此处将不做详细阐述说明。
83.在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器,上 述指令可由设备的处理器执行以完成上述方法。可选地,存储介质可以是非临时性计算机 可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器 (ram)、cd-rom、磁带、软盘和光数据存储设备等。
84.在其中一个实施例中,该存储介质,当所述存储介质中的请求由服务器的处理器执行 时,使得服务器能够执行:获取包含有背景音乐的当前视频,其中,所述当前视频中包括 多帧图像;根据所述当前视频中的至少一帧图像获取所述当前视频与多个预定场景的匹配 度;获取所述当前视频的互动信息和所述背景音乐的音乐特征;根据所述当前视频与多个 预定场景的匹配度、所述互动信息以及所述音乐特征,确定所述当前视频中的背景音乐所 属于的预定场景。
85.在其中一个实施例中,当所述存储介质中的请求由服务器的处理器执行时,使得服务 器能够执行:根据所述当前视频的互动信息和所述背景音乐的音乐特征,确定出所述背景 音乐的场景参考数据;基于所述背景音乐的场景参考数据,确定所述背景音乐所属于的预 定场景。
86.在其中一个实施例中,当所述存储介质中的请求由服务器的处理器执行时,使得服务 器能够执行:基于多个维度的互动信息确定所述当前视频的互动参考值,并基于所述音乐 特征确定所述背景音乐的音乐特征值;获取所述互动参考值与互动预定值中的最小值,并 将所述互动参考值与互动预定值中的最小值与各个所述预定场景的匹配度进行乘法运算 得到互动参考数据;获取所述音乐特征值与特征预定值中的最小值,得到音乐特征参考数 据,其中,所述互动预定值小于所述特征预定值;将两个所述互动参考数据与音乐特征参 考数据之和作为所述背景音乐的场景参考数据。
87.在其中一个实施例中,当所述存储介质中的请求由服务器的处理器执行时,使得服务 器能够执行:获取各维度的互动信息的权重,其中,所述多个维度的互动信息包括:视频 点赞数、视频关注数、视频点击数,所述视频点赞数对应的权重大于所述视频关注数对应 的权重,所述视频关注数对应的权重大于所述视频点赞书对应的权重;基于各维度的互动 信息的权重,获取各个维度的互动信息的加权和,得到所述当前视频的互动参考值。
88.在其中一个实施例中,当所述存储介质中的请求由服务器的处理器执行时,使得服务 器能够执行:将所述点击率与预定权重的乘积,作为所述背景音乐的音乐特征值。
89.在其中一个实施例中,当所述存储介质中的请求由服务器的处理器执行时,使得服务 器能够执行:计算各个所述预定场景的场景参考数据的和,得到总体场景评价;计算各个 所述预定场景的场景参考数据与所述总体场景评价的比值,得到所述背景音乐属于预定场 景的概率,将概率最大的预定场景确定为所述背景音乐所属于的预定场景。
90.图5是根据一示例性实施例示出的一种音乐的场景识别装置500的框图。例如,装置 500可以被提供为一服务器。参照图5,装置500包括处理组件522,其进一步包括一个 或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执 行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一 个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述示例中音 乐的场景识别方法的步骤。
91.在其中一个实施例中,该服务器,包括:处理器;用于存储所述处理器可执行请求的 存储器;其中,所述处理器被配置为执行所述请求,以实现如下步骤:获取包含有背景音 乐的当前视频,其中,所述当前视频中包括多帧图像;根据所述当前视频中的至少一帧图 像获取所述当前视频与多个预定场景的匹配度;获取所述当前视频的互动信息和所述背景 音乐的音乐特征;根据所述当前视频与多个预定场景的匹配度、所述互动信息以及所述音 乐特征,确定所述当前视频中的背景音乐所属于的预定场景。
92.在其中一个实施例中,所述处理器被配置为执行所述请求,以实现如下步骤:根据所 述当前视频的互动信息和所述背景音乐的音乐特征,确定出所述背景音乐的场景参考数 据;基于所述背景音乐的场景参考数据,确定所述背景音乐所属于的预定场景。
93.在其中一个实施例中,所述处理器被配置为执行所述请求,以实现如下步骤:基于多 个维度的互动信息确定所述当前视频的互动参考值,并基于所述音乐特征确定所述背景音 乐的音乐特征值;获取所述互动参考值与互动预定值中的最小值,并将所述互动参考值与 互动预定值中的最小值与各个所述预定场景的匹配度进行乘法运算得到互动参考数据;获 取所述音乐特征值与特征预定值中的最小值,得到音乐特征参考数据,其中,所述互动预 定值小于所述特征预定值;将两个所述互动参考数据与音乐特征参考数据之和作为所述背 景音乐的场景参考数据。
94.在其中一个实施例中,所述处理器被配置为执行所述请求,以实现如下步骤:获取各 维度的互动信息的权重,其中,所述多个维度的互动信息包括:视频点赞数、视频关注数、 视频点击数,所述视频点赞数对应的权重大于所述视频关注数对应的权重,所述视频关注 数对应的权重大于所述视频点赞书对应的权重;基于各维度的互动信息的权重,获取各个 维度的互动信息的加权和,得到所述当前视频的互动参考值。
95.在其中一个实施例中,所述处理器被配置为执行所述请求,以实现如下步骤:将所述 点击率与预定权重的乘积,作为所述背景音乐的音乐特征值。
96.在其中一个实施例中,所述处理器被配置为执行所述请求,以实现如下步骤:计算各 个所述预定场景的场景参考数据的和,得到总体场景评价;计算各个所述预定场景的场景 参考数据与所述总体场景评价的比值,得到所述背景音乐属于预定场景的概率,将概率最 大的预定场景确定为所述背景音乐所属于的预定场景。
97.装置500还可以包括一个电源组件526被配置为执行装置400的电源管理,一个有线 或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(i/o)接口558。 装置500可以操作基于存储在存储器532的操作系统,例如windows servertm,mac osxtm,unixtm,linuxtm,freebsdtm或类似。
98.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实 施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或
者 适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或 惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权 利要求指出。
99.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可 以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1