一种歌曲的标注方法及系统与流程

文档序号:14911282发布日期:2018-07-10 23:29阅读:700来源:国知局
本发明涉及音频数据处理
技术领域
,尤其涉及一种歌曲的标注方法及系统。
背景技术
:将歌曲按照心情,主题,人群,场景,歌手,乐器,语种,曲风等进行分类。这样,用户可通过一次操作,选择多首适合当前时间和地点享受的音乐,由此也得到越来越多用户的喜爱。但是,一般需要人工对歌曲进行分类,添加标签。存在分类精度不高或人工添加费时费力的问题。技术实现要素:本发明实施例提供了一种歌曲的标注方法及系统。实现了基于根据种子歌曲来计算候选歌曲的相似度,根据该相似度筛选出候选歌曲设置标签,可以更加准确、便捷。一方面,本发明实施例提供了一种歌曲的标注方法。包括:确定目标标签对应的多个种子歌曲;确定用户红心列表,所述用户红心列表包括多个用户与多首歌曲的对应关系,所述多首歌曲包括种子歌曲以及候选歌曲;利用深度学习模型,对所述红心列表信息训练,得到所述多首歌曲中每首的向量集合;根据所述多首歌曲中每首的向量集合,计算所述多个种子歌曲的每个与所述多个候选歌曲的每个的相似度;根据所述相似度,分别计算所述多个候选歌曲的评分;根据所述多个候选歌曲的评分,选择所述多个候选歌曲中的一个或多个,对选定的候选歌曲标注所述目标标签。可选地,所述深度学习模型包括文本深度表示模型Word2Vec。可选地,所述根据所述相似度,计算所述多个候选歌曲的评分包括:计算所述多个候选歌曲的每个与所述多个种子歌曲的相似度分别乘以权重的和。可选地,根据所述多个候选歌曲的评分,选择所述多个候选歌曲中的一个或多个,对选定的候选歌曲标注所述目标标签包括:根据所述多个候选歌曲的评分,对所述多个候选歌曲进行排序,根据所述排序选择设定个数的候选歌曲,对选定的候选歌曲标注所述目标标签。可选地,所述计算所述多个种子歌曲的每个与所述多个候选歌曲的每个的相似度包括:计算所述多个种子歌曲的每个与所述多个候选歌曲的每个的余弦相似度。另一方面,本发明实施例提供了一种歌曲的标注系统。包括:第一确定单元,用于确定目标标签对应的多个种子歌曲;第二确定单元,用于确定用户红心列表,所述用户红心列表包括多个用户与多首歌曲的对应关系,所述多首歌曲包括种子歌曲以及候选歌曲;深度学习单元,用于利用深度学习模型,对所述红心列表信息训练,得到所述多首歌曲中每首的向量集合;相似度计算单元,用于根据所述多首歌曲中每首的向量集合,计算所述多个种子歌曲的每个与所述多个候选歌曲的每个的相似度;评分计算单元,用于根据所述相似度,分别计算所述多个候选歌曲的评分;标注单元,用于根据所述多个候选歌曲的评分,选择所述多个候选歌曲中的一个或多个,对选定的候选歌曲标注所述目标标签。可选地,所述深度学习模型包括文本深度表示模型Word2Vec。可选地,所述评分计算单元还用于,计算所述多个候选歌曲的每个与所述多个种子歌曲的相似度分别乘以权重的和。可选地,所述标注单元还用于,根据所述多个候选歌曲的评分,对所述多个候选歌曲进行排序,根据所述排序选择设定个数的候选歌曲,对选定的候选歌曲标注所述目标标签。可选地,所述相似度计算单元还用于,计算所述多个种子歌曲的每个与所述多个候选歌曲的每个的余弦相似度。通过本发明实施例,根据种子歌曲来计算候选歌曲的相似度,得到评分,按评分将候选歌曲排序,排名靠前的可认为是与种子歌曲相似的歌曲,标记为与种子歌曲相同的标签,能够更精确的对歌曲进行标注,且效率更高,用户体验更高。附图说明图1为本发明实施例提供的一种歌曲的标注方法的流程图;图2为本发明实施例提供的一种歌曲的标注系统结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明的实施例通过利用种子歌曲来计算候选歌曲的相似度,得到评分,按评分将候选歌曲排序,排名靠前的可认为是与种子歌曲相似的歌曲,标记为与种子歌曲相同的标签,能够更精确的对歌曲进行标注,且效率更高。为便于对本发明实施例的理解,下面将结合附图以具体实施例作进一步的解释说明,实施例并不构成对本发明实施例的限定。图1为本发明实施例提供的一种歌曲的标注方法的流程图。如图1所示,该方法具体包括:S110,确定目标标签对应的多个种子歌曲。其中,种子歌曲指目标标签对应的初始歌曲,种子歌曲的集合可由人工生成,比如舒缓风格标签的集合最初可由100首同样风格的不同歌曲组成。S120,确定用户红心列表,所述用户红心列表包括多个用户与多首歌曲的对应关系,所述多首歌曲包括种子歌曲以及候选歌曲。将用户理解为一篇文档,用户的红心列表歌曲集合理解为词项,统计出用户红心列表如表1所示。表1用户1歌曲1歌曲2歌曲n用户2歌曲a歌曲b歌曲c…xxx用户n歌曲x歌曲y歌曲z其中,红心列表的歌曲信息可以包括播放记录。操作记录等等。S130,利用深度学习模型,对所述红心列表信息训练,得到所述多首歌曲中每首的向量集合。其中,深度学习模型可采用文本深度表示模型Word2Vec。Word2vec将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算。具体地,得到用户红心列表后,使用深度学习模型(word2vec)训练红心列表歌曲向量如表2。每首歌曲的向量集合如表2,每一行的value序列(value1,value2,…valuen)为该歌曲的向量值。表2歌曲1歌曲2歌曲n歌曲Avaluevaluevalue歌曲Bvaluevaluevalue歌曲CvaluevaluevalueS140,根据所述多首歌曲中每首的向量集合,计算所述多个种子歌曲的每个与所述多个候选歌曲的每个的相似度。其中,可计算种子歌曲与候选歌曲的余弦相似度。具体地,采用余弦相似度,通过计算上述歌曲向量矩阵行与行之间的相似性,得出候选歌曲与种子歌曲的相似度矩阵。余弦相似性:通过计算两个向量之间的夹角余弦来度量其相似性。可以把它们想象成空间中的两条线段,都是从原点([0,0,...])出发,指向不同的方向。两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。利用余弦相似度的公式来计算候选歌曲的向量集合和种子歌曲的向量集合之间的相似度。余弦相似度的值越大说明歌曲风格越相似。向量A=(A1,A2,...An),B=(B1,B2,...Bn)。推广到多维,公式如下:套用式(1)结合表2中得到的各歌曲的向量集合得出任意两首歌的余弦相似度,将每首候选歌曲与种子歌曲计算相似度便得到如下表3表3候选歌曲1候选歌曲2候选歌曲n种子歌曲1scorescorescore种子歌曲2scorescorescore种子歌曲nscorescorescoreS150,根据所述相似度,分别计算所述多个候选歌曲的评分。按照S140介绍的方法来遍历整个候选曲库,计算每个候选歌曲与每个种子歌曲的相似度,得到每个种子歌曲的相似列表,如表4所示。表4种子歌曲1相似歌曲1相似歌曲2…相似歌曲n种子歌曲n相似歌曲x相似歌曲y…相似歌曲z合并n个种子歌曲的相似集合,相同的相似歌曲score求和,得到候选歌曲的评分。其中,在计算候选歌曲的评分时,还可以乘以种子歌曲权重。例如,确定目标标签对应的多个种子歌曲时,可同时确定该多个种子歌曲相应的权重。该权重可提现种子歌曲与目标标签的匹配度。S160,根据所述多个候选歌曲的评分,选择所述多个候选歌曲中的一个或多个,对选定的候选歌曲标注所述目标标签。对所述多个候选歌曲依据评分进行排序,根据该排序选择设定个数的候选歌曲,对选定的候选歌曲标注目标标签。例如,并按评分由大到小排列得到最终相似集合。歌曲x1,歌曲x2…歌曲xn。选择前m个歌曲,把该前m个歌曲标注目标标签。图2为本发明实施例提供的一种歌曲的标注系统结构示意图。如图2所示,该系统包括:第一确定单元201,用于确定目标标签对应的多个种子歌曲;第二确定单元202,用于确定用户红心列表,所述用户红心列表包括多个用户与多首歌曲的对应关系,所述多首歌曲包括种子歌曲以及候选歌曲;深度学习单元203,用于利用深度学习模型,对所述红心列表信息训练,得到所述多首歌曲中每首的向量集合;相似度计算单元204,用于根据所述多首歌曲中每首的向量集合,计算所述多个种子歌曲的每个与所述多个候选歌曲的每个的相似度;评分计算单元205,用于根据所述相似度,分别计算所述多个候选歌曲的评分;标注单元206,用于根据所述多个候选歌曲的评分,选择所述多个候选歌曲中的一个或多个,对选定的候选歌曲标注所述目标标签。可选地,所述深度学习模型包括文本深度表示模型Word2Vec。可选地,所述评分计算单元205还用于,计算所述多个候选歌曲的每个与所述多个种子歌曲的相似度分别乘以权重的和。可选地,所述标注单元206还用于,根据所述多个候选歌曲的评分,对所述多个候选歌曲进行排序,根据所述排序选择设定个数的候选歌曲,对选定的候选歌曲标注所述目标标签。可选地,所述相似度计算单元204还用于,计算所述多个种子歌曲的每个与所述多个候选歌曲的每个的余弦相似度。专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或
技术领域
内所公知的任意其它形式的存储介质中。以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的范围之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1