音频文件聚类方法和装置与流程

文档序号:13619732阅读:327来源:国知局

本发明涉及数据处理技术领域,尤其涉及一种音频文件聚类方法和装置



背景技术:

一般一首卡拉ok包括三个文件:一份原唱音频文件、一份伴奏音频文件和一份歌词文件,这三个都是必须的。

目前,对于卡拉ok的聚类方式一般是采用人工聚类的方式,即,由聚类人员观察或者查找,通过将歌名、歌手等进行匹配,以实现音频的聚类。

这种方式实现起来效率较低,且容易出错,不适合大批量的处理。

针对上述问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供一种音频文件聚类方法和装置,以实现简单高效的音频聚类,

一方面,本发明实施例提供了一种音频文件聚类方法,包括:

获取多个歌曲文件,其中,每个歌曲文件中包括:原唱音频和歌词文件、或、伴唱音频和歌词文件;

根据每个歌曲文件中歌词文件的相似程度,将所述多个歌曲文件划分为多个集合;

将多个集合中各个集合中的歌曲文件划分为原唱集和伴唱集。

在一个实施方式中,根据每个歌曲文件中歌词文件的相似程度,将所述多个歌曲文件划分为多个集合,包括:

确定出各个歌曲文件中歌词文件的特征值;

将特征值之间的海明距离低于预设阈值的歌曲文件,作为对应同一歌词的歌曲文件;

将对应于同一歌词文件的歌曲文件划分为一个集合。

在一个实施方式中,所述预设阈值为3。

在一个实施方式中,将多个集合中各个集合中的歌曲文件划分为原唱集和伴唱集,包括:

按照以下方式对各个集合中的歌曲文件进行划分:

获取当前集合中各个歌曲文件中音频文件的音频指纹;

根据音频指纹,将所述当前集合划分为原唱集和伴唱集。

在一个实施方式中,在将多个集合中各个集合中的歌曲文件划分为原唱集和伴唱集之后,所述方法还包括:

按照以下方式对各个集合中的原唱集和伴唱集进行如下处理:

从当前集合中的原唱集中查找出与当前集合的伴唱集中当前伴唱音频之间的差异最小的原唱音频,作为当前伴唱音频的原唱音频,以完成一首卡拉ok聚类。

另一方面,本发明实施例提供了一种音频文件聚类装置,包括:

获取模块,用于获取多个歌曲文件,其中,每个歌曲文件中包括:原唱音频和歌词文件、或、伴唱音频和歌词文件;

第一划分模块,用于根据每个歌曲文件中歌词文件的相似程度,将所述多个歌曲文件划分为多个集合;

第二划分模块,用于将多个集合中各个集合中的歌曲文件划分为原唱集和伴唱集。

在一个实施方式中,所述第一划分模块包括:

确定单元,用于确定出各个歌曲文件中歌词文件的特征值;

生成单元,用于将特征值之间的海明距离低于预设阈值的歌曲文件,作为对应同一歌词的歌曲文件;

划分单元,用于将对应于同一歌词文件的歌曲文件划分为一个集合。

在一个实施方式中,所述预设阈值为3。

在一个实施方式中,所述第二划分模块具体用于按照以下方式对各个集合中的歌曲文件进行划分:

获取当前集合中各个歌曲文件中音频文件的音频指纹;

根据音频指纹,将所述当前集合划分为原唱集和伴唱集。

在一个实施方式中,上述装置还包括:聚类模块,用于在将多个集合中各个集合中的歌曲文件划分为原唱集和伴唱集之后,按照以下方式对各个集合中的原唱集和伴唱集进行如下处理:

从当前集合中的原唱集中查找出与当前集合的伴唱集中当前伴唱音频之间的差异最小的原唱音频,作为当前伴唱音频的原唱音频,以完成一首卡拉ok聚类。

上述技术方案具有如下有益效果:通过对海量的包括有原唱音频和歌词文件、或、伴唱音频和歌词文件的歌曲文件进行聚类分析,先将多个歌曲文件依据歌词的相似性划分为多个对应同一歌词的集群,然后再将每个集合中的歌曲文件划分为伴唱和原唱,从而完成对歌词的简单聚类分析,解决了现有的需要人工一首首进行标注划分所存在的操作量过大、效率较低的技术问题,达到了简单高效进行音频文件聚类分析的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的音频文件聚类方法的方法流程图;

图2是根据本发明实施例的音频文件聚类方法的另一方法流程图;

图3是根据本发明实施例的音频文件聚类装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。

如图1所示,在本例中提供了一种音频文件聚类方法,如图1所示,可以包括如下步骤:

步骤101:获取多个歌曲文件,其中,每个歌曲文件中包括:原唱音频和歌词文件,或,伴唱音频和歌词文件;

步骤102:根据每个歌曲文件中歌词文件的相似程度,将所述多个歌曲文件划分为多个集合;

步骤103:将多个集合中各个集合中的歌曲文件划分为原唱集和伴唱集。

在上述步骤102中,可以是通过simash算法进行歌词文件匹配,具体的,simash算法是一种处理海量文本去重的算法,该方法是在长文本中摘取关键字(包括:具体分词和权重),然后,通过计算得出代表此长文本特征值的64位二进制串,通过该词串可以完成歌词长文本的匹配。例如,根据每个歌曲文件中歌词文件的相似程度,将所述多个歌曲文件划分为多个集合,可以包括:

s1:确定出各个歌曲文件中歌词文件的特征值;

s2:将特征值之间的海明距离低于预设阈值的歌曲文件,作为对应同一歌词的歌曲文件,其中,预设阈值可以取值为3。

s3:将对应于同一歌词文件的歌曲文件划分为一个集合。

进一步的,可以采用音频指纹识别算法,将每个集合中的文件再细分为:原唱文件和伴唱文件。其中,音频指纹算法可以是通过切割一个音频文件,将指定的音频片段(本质上是周期波)做傅里叶变换,得到表征该音频片段的特征值(即傅里叶变化得到正弦函数集合的振幅和周期)的队列。例如,将多个集合中各个集合中的歌曲文件划分为原唱集和伴唱集,可以包括:

按照以下方式对各个集合中的歌曲文件进行划分:

获取当前集合中各个歌曲文件中音频文件的音频指纹;

根据音频指纹,将所述当前集合划分为原唱集和伴唱集。

在上述步骤103之后,即,在将多个集合中各个集合中的歌曲文件划分为原唱集和伴唱集之后,还可以按照以下方式对各个集合中的原唱集和伴唱集进行如下处理:从当前集合中的原唱集中查找出与当前集合的伴唱集中当前伴唱音频之间的差异最小的原唱音频,作为当前伴唱音频的原唱音频,以完成一首卡拉ok聚类。

下面结合一个具体实施例对上述音频聚类方法进行说明,然而值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。

在本例中提供了一种卡拉ok文件的聚类算法,用于从海量的mp3中快速准确地完成卡拉ok文件的聚合,以提高工作效率,降低错误率。

具体地,可以如图2所示,包括:

s1:首先将海量的mp3歌词文件分别做simhash算法,以筛选出每个歌词文本的关键字。然后根据各个关键字所占的权重计算出该歌词文本的simhash特征值(例如,可以是64位的二进制串),然后,可以迭代这些特征值,按照特征值的海明距离小于预设阈值(例如:3)的标准,确定这两个文本是一致的,从而将这些mp3完成初步的分类,得到n个簇,其中,每个簇包含了歌词基本一致的n个mp3,不仅有原唱mp3也有mp3。通过该步骤s1可以完成初步的分类,即基于同一歌词文件的分类。

其中,simash算法是一种处理海量文本去重的算法,该方法是在长文本中摘取关键字(包括:具体分词和权重),然后,通过计算得出代表此长文本特征值的64位二进制串,通过该词串可以完成歌词长文本的匹配。

s2:按照原唱和伴奏两个类别,将上述完成初步聚类的簇中的每个mp3的音频文件做音频指纹算法。

首先,可以将完整的音频按照0.2秒的间隔切割成一个音频片段队列,然后,对该音频片段队列的每一个音频片段做傅里叶变换(音频的本质是周期波),得到可以表征该音频片段声波的正弦函数队列,记录此队列中正弦函数的振幅和周期,以此来作为该音频片段的指纹(即,指纹特征值数组),从而得到表征该音频文件的音频指纹。

通过上述方式,对于每个簇而言,可以得到两个队列:原唱音频指纹队列和伴奏音频指纹队列。

其中,音频指纹算法可以是通过切割一个音频文件,将指定的音频片段(本质上是周期波)做傅里叶变换,得到表征该音频片段的特征值(即傅里叶变化得到正弦函数集合的振幅和周期)的队列。

s3:对于上述多个簇而言,上述两个队列中有任何一个队列为空,则表明无法完成该歌曲的卡拉ok聚类(因此,要不就是缺少原唱音频要不就是缺少伴唱音频),因此,可以将该簇丢掉。

对于两个队列都不为孔的簇,可以迭代这两个队列,根据音频指纹的差异在伴奏音频指纹队列中找到同每个原唱音频文件差异最小的伴唱音频文件,从而完成一首卡拉ok的聚类。

基于同一发明构思,本发明实施例中还提供了一种音频文件聚类装置,如下面的实施例所述。由于音频文件聚类装置解决问题的原理与音频文件聚类方法相似,因此音频文件聚类装置的实施可以参见音频文件聚类方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图3是本发明实施例的音频文件聚类装置的一种结构框图,如图3所示,可以包括:获取模块301、第一划分模块302和第二划分模块303,下面对该结构进行说明。

获取模块301,用于获取多个歌曲文件,其中,每个歌曲文件中包括:原唱音频和歌词文件、或、伴唱音频和歌词文件;

第一划分模块302,用于根据每个歌曲文件中歌词文件的相似程度,将所述多个歌曲文件划分为多个集合;

第二划分模块303,用于将多个集合中各个集合中的歌曲文件划分为原唱集和伴唱集。

在一个实施方式中,第一划分模块302可以包括:确定单元,用于确定出各个歌曲文件中歌词文件的特征值;生成单元,用于将特征值之间的海明距离低于预设阈值的歌曲文件,作为对应同一歌词的歌曲文件;划分单元,用于将对应于同一歌词文件的歌曲文件划分为一个集合。

在一个实施方式中,预设阈值可以为3。

在一个实施方式中,第二划分模块303具体可以用于按照以下方式对各个集合中的歌曲文件进行划分:

获取当前集合中各个歌曲文件中音频文件的音频指纹;

根据音频指纹,将所述当前集合划分为原唱集和伴唱集。

在一个实施方式中,上述装置还可以包括:聚类模块,用于在将多个集合中各个集合中的歌曲文件划分为原唱集和伴唱集之后,按照以下方式对各个集合中的原唱集和伴唱集进行如下处理:从当前集合中的原唱集中查找出与当前集合的伴唱集中当前伴唱音频之间的差异最小的原唱音频,作为当前伴唱音频的原唱音频,以完成一首卡拉ok聚类。

在上例中,通过对海量的包括有原唱音频和歌词文件、或、伴唱音频和歌词文件的歌曲文件进行聚类分析,先将多个歌曲文件依据歌词的相似性划分为多个对应同一歌词的集群,然后再将每个集合中的歌曲文件划分为伴唱和原唱,从而完成对歌词的简单聚类分析,解决了现有的需要人工一首首进行标注划分所存在的操作量过大、效率较低的技术问题,达到了简单高效进行音频文件聚类分析的技术效果。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(asic),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中,asic可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(dsl)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、dvd、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1