文件分类处理方法、装置及终端、服务器、存储介质与流程

文档序号:14990740发布日期:2018-07-20 22:10阅读:139来源:国知局

本发明涉及计算机应用技术领域,尤其涉及一种文件分类处理方法、装置及终端、服务器、存储介质。



背景技术:

随着人们生活水平的日益提高,人们的兴趣爱好也越来越广泛。而音乐作为人们最受欢迎的兴趣爱好之一,与人们生活紧紧地绑在了一起。音乐作为智能音箱上不可或缺的一部分,其内容质量受到了越来越多的关注。如果能够较为准确地对音箱端的音乐歌曲进行分类,那么将不仅能够极大程度地改善用户的听歌体验,而且可以使音箱变得更加智能化。

现有方法在预测音乐歌曲的类型时,主要有2种方式,第一种是采用人工分类的方法,具体方法由人工听取歌曲的音频,然后根据给定的规则对歌曲进行分类。第二种方法是基于机器学习的方法,通过提取歌曲的音频及音频特征,然后使用机器学习方法来训练分类器以便于预测歌曲的类型。

基于人工分类的方法虽然可行,但是该方法需要耗费大量的人力物力。相比人工分类的方法,基于机器学习算法的效率大大提高了,而且结果相对比较客观,但是现有的机器学习方法的分类预测准确率还有待提高。



技术实现要素:

本发明实施例提供一种文件分类处理方法、装置及终端、服务器,可较为准确地对音频文件进行分类处理。

一方面,本发明实施例提供了一种文件分类处理方法,所述文件包括音频文件,所述方法包括:

从所述音频文件中提取音频特征数据,所述音频特征数据是由用于表示所述音频文件中包括的音频特征的n个数值构成的n维数据;

对所述音频特征数据进行预处理,得到分类特征数据,所述预处理包括对所述音频特征数据中每一维数值进行归一化处理,将每一维数值转换为在0到1数值范围内的目标值;

调用分类器对所述分类特征数据进行分类计算,确定所述音频文件所属的类别。

另一方面,本发明实施例提供了一种文件分类处理装置,所述文件包括音频文件,所述装置包括:

提取模块,用于从所述音频文件中提取音频特征数据,所述音频特征数据是由用于表示所述音频文件中包括的音频特征的n个数值构成的n维数据;

处理模块,用于对所述音频特征数据进行预处理,得到分类特征数据,所述预处理包括对所述音频特征数据中每一维数值进行归一化处理,将每一维数值转换为在0到1数值范围内的目标值;

分类模块,用于调用分类器对所述分类特征数据进行分类计算,确定所述音频文件所属的类别。

再一方面,本发明实施例还提供了一种服务器,包括:处理器以及存储装置;所述存储装置存储有程序指令,所述处理器调用所述存储装置中存储的程序指令,用于执行如上述的文件分类处理方法。

相应地,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有程序指令,所述程序指令被执行时,用于实现上述的文件分类处理方法。

本发明实施例通过提取音频文件中的包括音频特征的n个数值构成的n维数据,然后对音频特征数据中每一维数值进行归一化处理后再基于分类器进行分类计算,这样可以有效地避免因为某些特征数据值较大导致的分类偏移,能够较为有效地确定音频文件所属的类别,提高对音频文件分类的准确性,使得在一些应用场景下,例如音乐推荐等应用场景,能够准确地给用户推荐音乐。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文件分类处理方法的过程示意图;

图2是本发明实施例提供的一种文件分类处理方法的流程示意图;

图3是本发明实施例的分类器的网络结构示意图;

图4是本发明实施例提供的另一种文件分类处理方法的流程示意图;

图5是本发明实施例的应用场景的系统结构示意图;

图6是本发明实施例的一种用户界面的示意图;

图7是本发明实施例的另一种用户界面的示意图;

图8是本发明实施例的一种文件分类处理装置的结构示意图;

图9为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

在本发明实施例中,能够从音频文件中提取特征,并得到音频文件中这些特征的特征数据,然后再对这些特征数据的具体值进行归一化处理,基于预设的分类器对归一化处理后的特征数据进行分类,能够最终较为准确地确定出音频文件的类别。

所述文件包括音频文件,一方面,所述文件就是一个音频文件,例如为一个mp3文件等,另一方面,所述文件中不仅包括音频文件,还可以包括视频数据等其他数据,可以从该文件中分离出音频文件,从而得到需要分类的音频文件,例如,从电影文件中得到该电影的一个或者多个音频文件,得到音频文件,进而对各个音频文件进行分类,最终可以根据对各个音频文件的分类结果,还可以对电影进行分类。在本发明实施例中,通过一个预先训练好的分类器来对音频文件的归一化处理后的音频特征数据进行分类处理,实现对音频文件的准确分类。

在一个实施例中,可供使用的音频特征包括多种,需要获取得到该音频文件的多种音频特征所对应的音频特征数据。在一个实施例中,根据指定的儿歌类别和乐器类别对各个音频特征进行分析实验后发现:梅尔频率倒谱系数(mel-frequencycepstralcoefficients,mfcc)特征数据作为模仿人的听觉对音频文件处理产生的数据,能够较好地分类出儿歌的类别,而常q变换谐波转换离散(constantqtransform,cqt)特征数据作为表示音频的音符和旋律信息的数据,能够较好地区分出各种乐器,得到各个关于乐器的类别。因此,在对指定的儿歌和乐器等类别进行分类时,选取的音频特征可以包括mfcc特征和cqt特征。而音频特征数据则可以为一个n维的关于这两个音频特征的数据,例如,某个音频文件的音频特征数据是一个234维的关于mfcc和cqt特征数据,其中前100维为mfcc的特征数据,后134维为cqt特征数据。该234维的音频特征数据的表现形式例如可以是(0.1、0.11、0.15、……、1.1)。

在一个实施例中,为了提高分类器对音频文件的分类准确性,可以通过深度神经网络(deepneuralnetworks,dnn)算法来生成初始分类器,并基于人工标注的音频文件来对初始分类器进行训练,得到训练优化后的分类器来对后续未知类别的音频文件进行分类。在一个实施例中,可以预先选取一万首已经被确定为儿歌类别的音频训练文件和一万首已经被确定为各类乐器类别的音频训练文件,其中,分别将已经确定为儿歌类别中的每一首音频训练文件作为目标音频训练文件,提取并生成关于目标音频训练文件的音频特征训练数据,音频特征训练数据涵盖了目标音频训练文件的mfcc特征数据和cqt特征数据,并对目标音频训练文件的音频特征训练数据进行归一化处理后输入到初始分类器中,通过初始分类器根据归一化处理后的数据对目标音频训练文件进行分类,如果基于最终的概率值确定该目标音频训练文件的类别也为儿歌,则表明初始分类器对该目标音频训练文件的分类是成功的,针对一万首(或者其中的n首,n为正整数,例如为1000首)已经确定为儿歌类别的音频训练文件进行分类后,如果成功率达到90%,则认为所述初始分类器能够较好地对儿歌进行分类识别,否则,则需要对初始分类器中的神经网络参数进行优化,并通过优化后的初始分类器再次对一万首儿歌的音频文件进行分类。同理对上述的各类乐器的音频训练文件分别作为目标音频训练文件对初始分类器进行训练以及优化,如果最终对儿歌的分类成功率和对各类乐器的分类成功率均满足预设的成功率阈值,则对初始分类器的训练优化完成,可以部署分类器以对后续的未知类别的音频文件进行儿歌或者各类乐器的分类识别。

在一个实施例中,请参见图1,是本发明实施例提供的一种文件分类处理的过程示意图。分类器可以为一个基于上述的dnn算法生成的dnn分类器。在本发明实施例中,该dnn分类器主要按照指定的类别对音频文件进行分类识别,这些指定的类别包括儿歌类别,关于儿歌的类别还可以进一步划分为不同年龄段的儿歌;所述指定的类别还可以是指音频文件的演奏乐器的类别,例如为萨克斯、小提琴、钢琴等乐器类别。部署的dnn分类器是通过上述方式预先训练优化好的分类器。

在s101中接收需要确定类别的音频文件。在s102中从该接收的音频文件中提取音频特征数据,在一个实施例中,提取的音频特征数据主要包括:mfcc特征数据和cqt特征数据。在其他实施例中,为了保证分类类型的多样性,也可以提取其他音频特征数据。

在提取音频文件的音频特征生成音频特征数据的过程中,可以对指定时间范围内的音频文件进行特征提取,例如可以提取音频文件中,播放时间位于中间时间的时段,因为一般情况下,中间时间段为一首音乐的高潮部分,更方便判断音乐的年代属性(即是否为儿歌)。在一个实施例中,在提取音频文件的音频特征时,还可以每间隔预设时长对一定时长的音频训练数据进行特征提取,例如,某首音乐的总时长为200s,可以选择的提取方式为:分3段提取音乐的开始时间段、中间时间段和结尾时间段各20s,以便掌握整首歌在不同时间段的旋律,从而更为准确的判断整首歌使用到了那些乐器来演奏。

在提取并生成音频特征数据后,在s103中对音频特征数据进行归一化处理,将每一维音频特征数据的数值转换为在0到1数值范围内的目标值。

在s104中调用dnn分类器对归一化处理后的音频特征数据进行分类计算,可得到该音频文件属于儿歌类别的概率和属于乐器类别的概率。在s105中确定所述音频文件所属的类别,即根据概率来确定音频文件的类别。例如针对目标音频文件,所述分类器的分类结果是属于儿歌类别的概率为60%,而属于“钢琴”的只有10%,由于属于儿歌类别的概率最大,则确定目标音频文件属于儿歌的类别。

在确定了分类结果后,可以为该音频文件设置一个其所属类别的类别标签,该类别标签可以设置在音频文件的属性信息的某个字段中,将该字段确定为类别字段。存储设置了类别标签的音频文件以便于后续基于类别进行查找,例如,根据分类识别结果确定该音频文件为儿歌时可以为该音频文件设置儿歌的类别标签并存储到音频数据库中。后续如果存在关于儿歌的查询请求时,则可以基于类别标签在该音频数据库中找到该音频文件,并返回给发起查询请求的用户。

请参见图2,是本发明实施例提供的一种文件分类处理方法的流程示意图。本发明实施例的所述方法可以由一个用于进行音频文件处理的服务器来执行,该服务器中部署有分类器,例如可以是dnn分类器,服务器基于该分类器对大量的音频文件进行分类,以便于后续可以针对这些分类后的音频文件进行分类查询检索服务。该分类处理方法可以包括以下步骤。

s201、从音频文件中提取音频特征数据。所述音频特征数据是由用于表示音频文件中包括的音频特征的n个数值构成的n维数据。在一个实施例中,音频是多媒体中的一种重要的媒体,是声音信号的形式,作为一种信息的载体,音频可分为语音、音乐和其它声音三种类型。不同的类型将具有不同的内在特征。本发明实施例中的音频文件主要为音乐类型的文件。

在一个实施例中,从音频文件中提取的音频特征数据包括音频文件的mfcc特征数据和cqt特征数据。提取mfcc特征数据的过程可以为:对数字化的音频文件,可以通过快速离散傅里叶变换得到对应的频谱,将得到的频谱通过梅尔mel滤波器组得到梅尔mel频谱,在梅尔mel频谱上面进行倒谱分析,进而获得梅尔mel频谱倒谱系数mfcc特征数据。

本发明实施例中的音频文件是由不同音高(又称基本频率)的音符组成,提取cqt特征数据的过程可以为:找到音频文件的基本频率、最大频率和频率分辨率,根据这三个系数得到常数q,进而再基于cqt特征值计算公式,即可得到cqt特征数据。

在一个实施例中,mfcc特征数据和cqt特征数据的n个数值构成了n维数据,该n维数据即为音频特征数据,音频特征数据的形式可以是(0.1、0.11、0.15、……、1.1)。在获取到mfcc特征数据和cqt特征数据之后,直接对获取到的特征数据进行合并,得到n维的音频特征数据。在n维的音频特征数据中,mfcc特征数据和cqt特征数据的数量可以不同;在一个示意性的例子中,提取到的mfcc特征数据的具体数值为(0.4,0.5,0.6,0.8)4个数值,提取到的cqt特征数据的具体数值为(3,2,1.5)3个数值,直接将两组特征数据的数值进行合并得到(0.4,0.5,0.6,0.8,3,2,1.5)7个数值,构成7维的音频特征数据。

s202、对音频特征数据进行预处理,得到分类特征数据。本发明实施例中,对音频特征数据的预处理包括对音频特征数据中每一维数值进行归一化处理,将每一维数值转换为在0到1数值范围内的目标值。

在s201中mfcc特征数据和cqt特征数据的提取方式不同或者音频文件本身的音频特征差异,mfcc特征数据和cqt特征数据的数值的大小可能会出现较大的差异,本发明实施例在获取到mfcc特征数据和cqt特征数据之后,对mfcc特征数据和cqt特征数据进行归一化处理。其具体的归一化方法为,对于n维音频特征数据,计算该音频特征数据的第n维数值与音频特征数据中的最小值的差值a,然后计算音频特征数据中最大值与最小值之间的差值b,则归一化处理后的结果为a与b的比值,记做c=a/b。

在一个实施例中,以上述的(0.4,0.5,0.6,0.8,3,2,1.5)7个数值构成7维的音频特征数据为例,其中的最大值为3,最小值为0.4,以其中的部分数值为例,对第一维数据进行归一化计算后为:(0.4-0.4)/(3-0.4)=0;对第5维数据进行归一化计算后为:(3-0.4)/(3-0.4)=1,第7维数据进行归一化计算后为:(1.5-0.4)/(3-0.4),=0.42。则归一化处理后的7维音频特征数据(0,0.04,0.08,0.15,1,0.62,0.42)。

s203、调用分类器对所述分类特征数据进行分类计算,确定所述音频文件所属的类别。通过上述提及的dnn分类器,可以对上述的n维音频特征数据进行归一化处理后的音频特征数据进行分类计算,确定所述音频文件所属的类别。

在一个实施例中,基于dnn算法的分类器的网络结构如图3所示,该网络可以是一个4层神经网络分类器,包括输入层311,第一隐含层312、第二隐含层313、第三隐含层314和分类计算层(softmax层)315。

在一个实施例中,隐含层之间还可以设置中间层,该中间层的作用在于按照比例将上一隐含层的输出值中部分值进行传输处理,并将传输处理后的输出值输出至下一隐含层。可以在第一隐含层和第二隐含层之间配置第一中间层(例如可以为一个dropout层,即第一dropout层),用于按照比例将第一隐含层的输出值中部分值进行传输处理,并将传输处理后的输出值输出至第二隐含层,所述传输处理包括:将第一隐含层的输出值中的部分值进行归零处理。相似的,第二隐含层和第三隐含层之间配置有第二dropout层。所述的部分值是第一隐含层312的输出值中按照预设比例随机确定的输出值,例如,预设比例为20%,则将第一隐含层的输出值中20%的值作为所说的部分值,以进行后续的归零处理。

在一个实施例中,从音频文件中提取音频特征数据为234维,将输入层311中的神经元(每一个圆圈表示一个神经元)数目确定为234,第一隐含层312中的神经元数目为150,第二隐含层313中的神经元数目为90,第三隐含层313中的神经元数目为70。

调用分类器对分类特征数据进行分类计算的具体过程为:输入层311输入234维的音频特征数据,对应234个神经元,每一维数据输入到一个神经元中。分类器基于该234维分类特征数据和输入层311到第一隐含层312之间的网络参数(每一条连线对应一个网络参数),分类计算得到150维的分类特征数据,在第一隐含层312中每一个神经元对应150维的分类特征数据中的一维分类特征数据。

分类器根据第一dropout层对第一隐含层312的150维分类特征数据进行传输处理,随机将其中的20%(或者其他比例,例如30%)的数据,也就是30维数据(在30%时为45维数据)归零。再根据归零处理后的150维分类特征数据和第一隐含层312到第二隐含层313之间的网络参数,进行分类计算得到90维分类特征数据,90维分类特征数据对应第二隐含层313的90个神经元。

分类器再根据第二dropout层对第二隐含层313的90维分类特征数据进行了传输处理,将90为分类特征数据中20%(或者其他比例,例如30%)的数据,也就是18维数据(在30%时为27维数据)归零。再根据归零处理后的90维分类特征数据和第二隐含层313与第三隐含层314之间的网络参数,进行分类计算得到70维分类特征数据,对应第三隐含层314的70个神经元。

分类器再根据第三隐含层314的70维分类特征数据和第三隐含层314与softmax层315之间的网络参数,计算得到音频文件属于第一类别的概率和属于第二类别的概率,或者更多类别的概率。

在第一dropout层和第二dropout层对分类特征数据进行归零处理时,分类特征数据中被归零处理的比例或者数量可预先设置。每一个dropout层的可以根据需要设置相同或者不同的用于指示归零处理的比例或者数量,本发明实施例不做限定。设置dropout层的作用主要在于防止分类器出现过拟合的情况,可以有效地避免分类器对音频训练数据能够很好的进行分类,但在部署后对实际的需要分类的音频文件的分类效果较差的情况。softmax层的输出结果可以是属于上述提到的儿歌类别或各种乐器类别的概率。

本发明实施例中,从音频文件中提取并得到涵盖mfcc特征数据和cqt特征数据的音频特征数据,并对提取到的音频特征数据进行归一化处理,将归一化处理后的分类特征数据输入dnn分类器中,并且,在dnn分类器中的dropout层对分类特征数据进行随机丢弃,可以防止dnn分类器出现过拟合的情况。调用dnn分类器对分类特征数据进行分类计算,确定音频文件所属的类别,能够提高对音频文件分类的准确性,使得在一些应用场景下,例如音乐推荐等应用场景,能够准确地给用户推荐音乐。

请参见图4,是本发明实施例提供的另一种文件分类处理方法的流程示意图。所述方法可以由一个能够对音频文件进行处理的服务器来执行,该服务器可以基于部署的分类器来对未知类型的音频文件进行分类,具体可以分为儿歌类别或者各种乐器的乐器类别,当然还可以分为其他的音频类别。进一步的,该服务器还可以提供音频文件的分类查询检索功能。本发明实施例的所述文件分类处理方法可以包括以下步骤。

s401、按照筛选规则从所述音频文件中确定出音频时间段。本发明实施例中,筛选规则可以为从音频文件指定的首部区域、中部区域、尾部区域中的任意一个或者多个区域中确定出音频时间段。在一个简单的实施例中,可以直接指定首部区域、中部区域或尾部区域的时间范围,例如,在特征提取工具中设置[10s,20s]、[40s,60s]、[80s,100s]三个时间范围,基于这三个时间范围来确定音频文件中首部区域、中部区域以及尾部区域的音频文件。在其他实施例中,也可以根据音频文件的播放时长自动确定,例如,首部时间为起始时间加预设时长可确定(例如20秒的预设时长)为首部区域,整个播放时长除以2取整后,前后各加上预设时长可确定中部区域,倒数预设时长(例如倒数20秒)可确定尾部区域。上述首部区域、中部区域或尾部区域的时间范围仅为举例。

对于不同时长的音频文件,其对应的筛选规则可以不同,在一个实施例中,如果音频文件的播放时长s小于预设的时长阈值,则筛选确定的音频时间段为[s/2-10,s/2+10],均以秒为单位,s/2后需要取整数,可以采用四舍五入的方式取整数,例如,音频文件的时长为100秒,其确定出的音频时间段为中部区域的20秒,即[40s,60s];音频文件的时长为200秒,其确定出的音频时间段为首部区域的20秒、中部区域的20秒和尾部区域的20秒。对于音频时长与筛选规则的具体对应关系,可由研发用户设定,本发明实施例不做限定。

s402、从确定出的音频时间段中提取音频特征数据。本发明实施例中,提取音频特征包括mfcc特征数据和cqt特征数据,最终生成的音频特征数据涵盖了mfcc特征数据和cqt特征数据。通过针对不同时长的音频文件设置不同的筛选规则,可以使得提取的音频特征数据更有代表性。经过统计发现,对于1个短时长(如100秒)的音频文件,其中间部分可以体现出整个音频文件的基调,且中间部分为音乐的高潮,提取的音频特征数据就更有价值。对于1个时间较长的音频文件(如大于100秒的音频文件),其在不同时间段的基调可能不同,因此贯穿整个音频文件从头部、中部以及尾部各确定出部分音频来提取音频特征数据,更能完整的体现音频文件的基调。

s403、对音频特征数据进行预处理,得到分类特征数据。本发明实施例中,对音频特征数据的预处理包括对音频特征数据中每一维数值进行归一化处理,将每一维数值转换为在0到1数值范围内的目标值。归一化处理之后可以使得mfcc特征数据和cqt特征数据处于一个量级,经过实际分类处理可以发现,进行归一化处理后,可在一定程度上提高对音频文件分类的准确性。

s404:调用分类器对所述分类特征数据进行分类计算,确定所述音频文件所属的类别。在本发明实施例中,音频文件的类别包括:用于表示儿歌类型的第一类别和用于表示乐器类型的第二类别。

所述分类器可以是在s401之前的任意时段部署的,在s401之前,还可以包括对分类器进行训练优化,在一个实施例中,所述分类器配置有输入层、第一隐含层、第二隐含层,并且在所述第一隐含层和第二隐含层之间还配置有中间层,所述中间层用于按照比例将所述第一隐含层的输出值中部分值进行传输处理,并将传输处理后的输出值输出至第二隐含层,所述传输处理包括:将第一隐含层的输出值中的部分值进行归零处理。在一个实施例中,所述分类器还可以配置:第三隐含层,在所述第二隐含层和第三隐含层之间配置有的中间层,所述第三隐含层接收经过该中间层对第二隐含层的输出值进行传输处理后的值,并将接收到的值进行分类处理后输出给分类计算层;所述分类计算层用于根据第三隐含层输出的值进行分类计算,得到音频文件属于第一类别的概率和属于第二类别的概率。在其他实施例中,还可以根据需要配置更多的隐含层。

所述分类器经过分类计算后,最终输出的分类结果可以是所述音频文件属于第一类别或者各个第二类别的概率,在一个实施例中,第一类别为儿歌,第二类别为钢琴、小提琴、萨克斯等,若dnn分类器最终的输出结果为儿歌概率70%,小提琴概率为10%,其他乐器20%,则dnn分类器最终确定音频文件的分类结果为儿歌。若dnn分类器最终的输出结果为儿歌概率20%、萨克斯概率为70%,其他乐器10%,则dnn分类器最终确定音频文件的分类结果为萨克斯。

s405:为音频文件设置类别标签,该类别标签是根据所述确定的音频文件所属的类别来生成并设置的,该类别标签作为音频文件的属性信息之一。

s406:将设置了类别标签的音频文件存储到音频文件库中。该音频文件库为预先配置的数据库,音频文件库中保存了大量的被配置了类别标签的音频文件,基于该音频文件库,所述服务器或者其他服务器能够为用户提供音频文件的分类查询功能。

再请参见图5,为本发明实施例的应用场景的系统结构示意图,在本发明实施例的应用场景中,包括用户a及其所使用智能终端501、用户b及其所使用的智能终端502,两个用户的智能终端连接到网络侧的服务器503上,该网络侧的服务器可以包括多个服务器,也可以为单一服务器,为了描述方便,本发明实施例均描述为服务器。

在一个实施例中,任意一个用户可以通过智能终端与服务器进行通信,向服务器发送查询信息,用来查询所需的音频文件,如图6所示,可在智能终端中显示用户界面,来实现与用户之间的交互。在一个实施例中,用户可以通过语音或者文字输入等形式,在该用户界面上发起音频文件的搜索查询,以从音频文件库中找到设置了相应类别的标签的音频文件,例如输入儿歌两个字,则可以从音频文件库中查找儿歌的类别所对应的标签的音频文件。如果有多个被设置了儿歌的类别所对应的标签的音频文件,则可以通过随机选择的方式确定一个音频文件、或者按照存储的先后时间顺序确定出一个最新的音频文件,将确定的音频文件作为查询反馈数据发送给用户。

在一个实施例中,如图7所示,该用户界面可以是一个与虚拟机器人聊天的会话界面,虚拟机器人基于该会话界面上用户发出的聊天消息,自动为用户查询并推荐设置了相应类别的情感标签的音频文件。针对查询结果,最终确定音频文件的方式可采用上述提及的随机选择的方式或者按照先后顺序的方式。当然,还可以加入其他的用于确定出音频文件的确定策略,例如基于用户的历史搜索数据、或者行为数据、或者用户属性来从多个查询到的音频文件中确定一个合适用户的音频文件,例如,基于用户年龄来确定一个或者多个音频文件。

在一个实施例中,两个智能终端之间可以通过服务器进行即时通讯交流,所述服务器可以为一个即时通信应用服务器,该即时通信应用服务器可以建立到存储有音频文件库且提供音频文件分类查询的服务器的连接。所述音频文件库中包括多个设置了情感标签的音频文件。用户a与用户b聊天的过程中,可以根据用户a发出的一条或者多条聊天消息,确定用户a的想查找的歌曲类型,然后基于该类型,到音频文件库中查询设置了相应歌曲类型标签的音频文件,得到查询结果后,在用户a的聊天界面上展示查询到的一个或者多个音频文件。针对用户b可以进行相同的处理。

本发明实施例能够从音频文件中提取音频特征数据,并对音频特征数据进行归一化处理,将归一化处理后的音频特征数据输入至分类器中来确定音频文件对应的类型,在分类器中,本发明实施例在每一个隐含层之后添加了一个用于将隐含层中的特征数据进行归零处理的中间层,可以有效防止分类器出现过拟合的情况。调用分类器对分类特征数据进行分类计算,确定音频文件所属的分类类别,能够提高对音频文件分类的准确性,使得在一些应用场景下,例如音乐推荐等应用场景,能够准确地给用户推荐音乐。经过实验发现,使用本方案对超过10万首歌曲进行了儿歌,乐器(钢琴、吉他、小提琴、古筝等)的预测,准确率达到了87%左右,极大地提高了对于儿歌,乐器类音乐的分类准确率。

请参见图8,是本发明实施例提供的一种文件分类处理装置的结构示意图;所述装置可以设置在一些服务器中,例如可以设置在能够对音频文件进行分类的服务器中。在本发明实施例中,该终端80可包括:提取模块801、处理模块802和计算模块803。提取模块801,用于从所述音频文件中提取音频特征数据,所述音频特征数据是由用于表示所述音频文件中包括的音频特征的n个数值构成的n维数据;处理模块802,用于对所述音频特征数据进行预处理,得到分类特征数据,所述预处理包括对所述音频特征数据中每一维数值进行归一化处理,将每一维数值转换为在0到1数值范围内的目标值;计算模块803,用于调用分类器对所述分类特征数据进行分类计算,确定所述音频文件所属的类别。

在一个实施例中,音频文件的类别包括:用于表示儿歌类型的第一类别和用于表示乐器类型的第二类别,选择的音频特征数据中包括:选定的梅尔频率倒谱系数特征数据和常q变换谐波转换离散特征数据。

在一个实施例中,本发明实施例所述提取模块801,用于按照筛选规则从所述音频文件中确定出音频时间段;从确定出的音频时间段中提取音频特征数据;其中,所述筛选规则包括从所述音频文件指定的首部区域、中部区域、尾部区域中的任意一个或者多个区域中确定出音频时间段。

在一个实施例中,本发明实施例所述的装置还可以包括:优化模块805,用于对分类器进行训练优化,其中,所述分类器配置有输入层、第一隐含层、第二隐含层,并且在所述第一隐含层和第二隐含层之间还配置有中间层,所述中间层用于按照比例将所述第一隐含层的输出值中部分值进行传输处理,并将传输处理后的输出值输出至第二隐含层,所述传输处理包括:将第一隐含层的输出值中的部分值进行归零处理。

在一个实施例中,所述分类器还可以包括:第三隐含层,所述第三隐含层接收位于第二隐含层和第三隐含层之间配置的中间层经过传输处理后的输出值,并将接收到的输出值进行分类处理后输出给分类计算层;所述分类计算层用于根据第三隐含层输出的值进行分类计算,得到音频文件属于第一类别的概率和属于第二类别的概率。

在一个实施例中,本发明实施例所述的装置还可以包括:接收模块806,用于从会话界面上接收聊天消息,并确定所述聊天消息的类别;查找模块807,用于从所述音频文件库中查找目标音频文件,其中,所述目标音频文件的类别与所述聊天消息的类别相同;显示模块808,用于在所述会话界面上显示所述目标音频文件的标识信息。

在一个实施例中,本发明实施例所述的装置,还可以包括:播放模块809,用于如果接收到对所述标识信息的选中事件,则查找所述目标音频文件,并调用音频播放器播放该目标音频文件。

本发明实施例的所述装置中各个功能所对应的具体功能实现可参考前述各个实施例中相关内容的描述,在此不赘述。

本发明实施例可以对所述音频特征数据进行预处理,得到分类特征数据,调用分类器对所述分类特征数据进行分类计算,确定所述音频文件所属的类别;能够提高文件分类处理装置对音频文件分类的准确性,使得在一些应用场景下,例如音乐推荐等应用场景,能够准确地给用户推荐音乐。

请参见图9,为本发明实施例提供的一种服务器的结构示意图。如图9所示,该服务器包括供电电源、各类壳体等结构,所述服务器还可以包括:至少一个处理器901,输入接口903,输出接口904,存储装置905。

在一个实施例中,输入接口903可以是一些网络接口或者用户接口,通过输入接口903可以从网络上下载音频训练文件或者待分类的音频文件,或者接收用户输入的音频训练文件或者待分类的音频文件。所述输出接口904也可以为一些网络接口或者显示屏等显示接口,能够将分类结果或者分类后的音频文件输出或者显示给用户。

所述存储装置905可以包括易失性存储器(volatilememory),如随机存取存储器(random-accessmemory,ram);存储装置905也可以包括非易失性存储器(non-volatilememory),如快闪存储器(flashmemory),固态硬盘(solid-statedrive,ssd)等;存储装置905还可以包括上述种类的存储器的组合。

所述处理器901可以是中央处理器(centralprocessingunit,cpu)。在一个实施例中,所述处理器901还可以包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegratedcircuit,asic),可编程逻辑器件(programmablelogicdevice,pld)等。上述pld可以是现场可编程逻辑门阵列(field-programmablegatearray,fpga),通用阵列逻辑(genericarraylogic,gal)等。

在一个实施例中,所述存储装置905还用于存储程序指令。所述处理器901可以调用所述程序指令,实现上述提及的各种方法和步骤。

所述处理器901,调用所述存储装置905中存储的程序指令,用于从所述音频文件中提取音频特征数据,所述音频特征数据是由用于表示所述音频文件中包括的音频特征的n个数值构成的n维数据;对所述音频特征数据进行预处理,得到分类特征数据,所述预处理包括对所述音频特征数据中每一维数值进行归一化处理,将每一维数值转换为在0到1数值范围内的目标值;调用分类器对所述分类特征数据进行分类计算,确定所述音频文件所属的类别。

在一个实施例中,所述处理器901,在用于从所述音频文件中提取音频特征数据时,用于按照筛选规则从所述音频文件中确定出音频时间段;从确定出的音频时间段中提取音频特征数据;其中,所述筛选规则包括从所述音频文件指定的首部区域、中部区域、尾部区域中的任意一个或者多个区域中确定出音频时间段。

在一个实施例中,所述处理器901,还用于对分类器进行训练优化,其中,所述分类器配置有输入层、第一隐含层、第二隐含层,并且在所述第一隐含层和第二隐含层之间还配置有中间层,所述中间层用于按照比例将所述第一隐含层的输出值中部分值进行传输处理,并将传输处理后的输出值输出至第二隐含层,所述传输处理包括:将第一隐含层的输出值中的部分值进行归零处理。

在一个实施例中,所述分类器还包括:第三隐含层,所述第三隐含层接收位于第二隐含层和第三隐含层之间配置的中间层经过传输处理后的输出值,并将接收到的输出值进行分类处理后输出给分类计算层;所述分类计算层用于根据第三隐含层输出的值进行分类计算,得到音频文件属于第一类别的概率和属于第二类别的概率。

在一个实施例中,音频文件的类别包括:用于表示儿歌类型的第一类别和用于表示乐器类型的第二类别,选择的音频特征数据中包括:选定的梅尔频率倒谱系数特征数据和常q变换谐波转换离散特征数据。

在一个实施例中,所述处理器901,还用于在确定了所述音频文件的类别后,按照该类别将所述音频文件存储到音频文件库中,并且,所述处理器901还用于从会话界面上接收聊天消息,并确定所述聊天消息的类别;从所述音频文件库中查找目标音频文件,其中,所述目标音频文件的类别与所述聊天消息的类别相同;在所述会话界面上显示所述目标音频文件的标识信息。

在一个实施例中,所述处理器901,还用于如果接收到对所述标识信息的选中事件,则查找所述目标音频文件,并调用音频播放器播放该目标音频文件。

本发明实施例的所述处理器901的具体功能实现可参考前述各个实施例中相关内容的描述,在此不赘述。

本发明实施例可以对所述音频特征数据进行预处理,得到分类特征数据,调用分类器对所述分类特征数据进行分类计算,确定所述音频文件所属的类别;能够提高文件分类处理装置对音频文件分类的准确性,使得在一些应用场景下,例如音乐推荐等应用场景,能够准确地给用户推荐音乐。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1