一种音频识别方法及装置制造方法

文档序号：2825928阅读：312来源：国知局

一种音频识别方法及装置制造方法
【专利摘要】本发明实施例提供一种音频识别方法及装置，其中的方法可包括：接收音频识别请求时，采集待识别的第一音频文件，并计算所述第一音频文件的第一特征信息；从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息，并获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据；将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。本发明可自动采集和分析待识别的音频文件，提升音频识别的准确性，提升音频识别的智能性。
【专利说明】一种音频识别方法及装置【技术领域】
[0001]本发明涉及互联网【技术领域】，尤其涉及一种音频识别方法及装置。
【背景技术】
[0002]随着互联网的发展，互联网已成为人们生活必不可少的信息获取工具，利用互联网设备实现未知音频的识别，成为一种新的应用趋势。传统的音频识别方法主要包括以下步骤，首先，用户人工输入未知音频文件的基本信息，例如:输入未知音频文件包含的歌词、输入未知音频文件的名称、输入未知音频文件的演唱者等等基本信息；其次，基于输入的基本信息，通过互联网设备(例如:互联网中的终端或服务器)查找该未知音频文件完整信息。上述可知，传统的音频识别方法需要人工输入基本信息，然而，大部分情况下，用户可能并不知道未知音频文件的基本信息，或者用户获得的未知音频文件的基本信息有误，从而无法实现有效的信息输入，例如:用户可能听到周围环境中的一小段音乐，但并不清楚该音乐的其他信息，无法进行有效输入；或者，用户可以哼唱某段歌曲的一小段旋律，但并不清楚该歌曲的其他信息，无法进行有效输入。上述情况下，采用传统的音频识别方法则无法对未知音频文件进行识别，降低了互联网设备的智能性。

【发明内容】

[0003]本发明实施例提供一种音频识别方法及装置，可自动采集和分析待识别的音频文件，提升音频识别的准确性，提升音频识别的智能性。
[0004]本发明第一方面提供一种音频识别方法，可包括:
[0005]接收音频识别请求时，采集待识别的第一音频文件，并计算所述第一音频文件的第一特征信息；
[0006]从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息，并获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据；
[0007]将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
[0008]本发明第二方面提供一种音频识别装置，可包括:
[0009]采集模块，用于在接收音频识别请求时，采集待识别的第一音频文件；
[0010]计算模块，用于计算所述第一音频文件的第一特征信息；
[0011]识别模块，用于从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息；
[0012]获取模块，用于获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据；
[0013]结果输出模块，用于将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
[0014]实施本发明实施例，具有如下有益效果:
[0015]本发明实施例中，在接收音频识别请求时，自动采集待识别的第一音频文件，无需用户人工输入待识别的第一音频文件的基本信息，从而提升了音频识别的智能性。另外，计算所述第一音频文件的第一特征信息，基于第一特征信息从预置数据库查找相匹配的第二音频文件的属性数据，并将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出；本发明实施例基于特征信息进行音频识别，当音频文件确定时，该音频文件的特征信息也是确定的，基于确定的特征信息进行音频识别，提升了音频识别的准确性，同时提升了音频识别的智能性。
【专利附图】

【附图说明】
[0016]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0017]图1为本发明实施例提供的一种音频识别方法的流程图；
[0018]图2为图1所示的步骤S102的实施例的流程图；
[0019]图3为图2所示的步骤S1201的实施例的流程图；
[0020]图4为图1所示的步骤S103的实施例的流程图；
[0021]图5为本发明实施例提供的一种音频识别装置的结构示意图；
[0022]图6为图5所示的计算模块的实施例的结构示意图；
[0023]图7为图6所示的时频分析单元的实施例的结构示意图；
[0024]图8为图5所示的识别模块的实施例的结构示意图。
【具体实施方式】
[0025]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0026]本发明实施例中，音频文件的特征信息可以为音频文件的指纹，即第一音频文件的第一特征信息可以为第一音频文件的指纹；第二音频文件的第二特征信息可以为第二音频文件的指纹。
[0027]音频文件的指纹指可以代表音频文件的重要声学特征，且基于该音频文件内容的紧致数字签名；音频文件的指纹要求感知(或内容)相似性，具备区分性、鲁棒性、粒度等基本特征。其中，区分性指不同音频文件的指纹应具有较大的差异，而同一音频文件的原始记录的指纹和失真记录的指纹之间应该具有较小的差异；鲁棒性指音频文件在经历各种音频格式变换、信道噪声干扰等处理后，仍然能够被识别出来；粒度指即使针对短音频文件(即音频文件的长度较短，如5s-10s)，也能够顺利识别。另外，音频文件的指纹在各种应用场景中，还具备更多的特征，例如:终端应用场景中，音频文件的指纹要求具备易计算性，在计算资源受限的终端中能够实现快速实时的指纹计算；再如:在无线网络应用场景中，音频文件的指纹要求具备数据紧致性，即要求数据量较小，以适应无线网络传输。
[0028]下面将结合附图1-附图4，对本发明实施例提供的音频识别方法进行详细介绍。[0029]请参见图1，为本发明实施例提供的一种音频识别方法的流程图；该方法可包括以下步骤SlOl-步骤S105。
[0030]SlOI，接收音频识别请求时,采集待识别的第一音频文件。
[0031]其中，第一音频文件可以包括:电影中的音频片段、电视剧中的音频片段、电视节目中的音频片段、音乐电台播放的音频数据或人发出的音频数据(例如:哼唱的音乐、歌曲片段)等。用户若想要知道未知音频文件的信息，例如:音频文件的歌曲名称、演唱者、专辑名称、歌词等信息，可发起音频查询请求。本步骤中，当接收到用户发送的音频识别请求时，采集待识别的第一音频文件；本步骤的采集过程可以包含以下两种实施方式:
[0032]在第一种实施方式中，在接收到用户发送的音频查询请求时，本步骤可启动录音功能，实时录制用户所请求识别的第一音频文件。
[0033]在第二种实施方式中，在接收到用户发送的音频查询请求时，本步骤可接收用户上传的请求识别的第一音频文件。
[0034]上述两种实施方式中，优选地，第一音频文件为8KHz采样频率、16bit量化的PCM(Pulse-code modulation,脉冲编码调制)格式的数字音频文件。
[0035]S102，计算所述第一音频文件的第一特征信息。
[0036]其中，第一音频文件的第一特征信息可以为第一音频文件的指纹，第一音频文件的指纹指代表第一音频文件的重要声学特征、且基于第一音频文件的内容的紧致数字签名。本步骤中，对采集到的数字的第一音频文件进行计算，获得第一音频文件的第一特征信肩、O
[0037]S103，从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息。
[0038]所述预置数据库中存储至少一个音频文件的标识、所述至少一个音频文件的特征信息、以及所述至少一个音频文件的属性数据。本发明实施例中，所述预置数据库中存储的音频文件可以包括:电影中的音频片段、电视剧中的音频片段、电视节目中的音频片段、歌曲、音乐等。其中，音频文件的标识可以用TrackID表示，例如:音频文件I的标识可表示为TrackID-1,音频文件2的标识可表示为TrackID_2 ;—个TrackID用于唯一标识一个音频文件。其中，音频文件的特征信息可以为音频文件的指纹，例如:音频文件I的特征信息可为音频文件I的指纹，音频文件2的特征信息可以为音频文件2的指纹。其中，音频文件的属性数据可包括但不限于以下数据中的至少一种:音频文件名称、音频文件所属的专辑信息、音频文件的链接地址、音频文件的歌词。本步骤中，第二特征信息与第一特征信息相匹配可以指第二特征信息与第一特征信息完全相同；或者，第二特征信息与第一特征信息的相似度达到预设相似度值，例如:预设相似度值为90%，若第二特征信息与第一特征信息的相似度达到90%或90%以上，则第二特征信息与第一特征信息相匹配。
[0039]S104，获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据。
[0040]上述步骤S103从预置数据库中查找到至少一个与第一特征信息相匹配的第二特征信息，其中，所述至少一个第二特征信息中的每个特征信息均对应一个第二音频文件。通过上述步骤S103可识别到与第一音频文件相匹配的至少一个第二音频文件，由此可表明，该第一音频文件可能是识别到的至少一个第二音频文件中的其中一个音频文件，或者该第一音频文件可能是识别到的至少一个第二音频文件的音频片段；本步骤则获取识别到的与第一音频文件相匹配的至少一个第二音频文件的属性数据。
[0041]S105，将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
[0042]本步骤可将步骤S104获得的至少一个第二音频文件中的所有音频文件的属性数据作为第一音频文件的识别结果进行输出，也可从步骤S104获得的至少一个音频文件中选择部分音频文件，将选择的音频文件的属性数据作为所述第一音频文件的识别结果进行输出。用户根据所述识别结果，可获知所请求查询的第一音频文件的属性数据，例如:用户可获知第一音频文件的歌曲名称、演唱者、专辑名称、歌词等属性数据。
[0043]本发明实施例中，在接收音频识别请求时，自动采集待识别的第一音频文件，无需用户人工输入待识别的第一音频文件的基本信息，从而提升了音频识别的智能性。另外，计算所述第一音频文件的第一特征信息，基于第一特征信息从预置数据库查找相匹配的第二音频文件的属性数据，并将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出；本发明实施例基于特征信息进行音频识别，当音频文件确定时，该音频文件的特征信息也是确定的，基于确定的特征信息进行音频识别，提升了音频识别的准确性，同时提升了音频识别的智能性。
[0044]下面将对图1所示的音频识别方法的各步骤进行详细介绍。
[0045]请参见图2，为图1所示的步骤S102的实施例的流程图；该步骤S102可包括以下步骤sl201-步骤sl204。
[0046]S1201，对所述第一音频文件进行时频分析，生成第一预设数量的相位通道。
[0047]其中，第一预设数量的值可根据实际情况进行设定，具体设定过程可考虑第一音频文件的影响因素，例如:第一预设数量的值可根据第一音频文件的信噪比因素进行设定，等等。本发明实施例中，第一预设数量可采用M进行表示，其中M为正整数。本步骤对采集到的数字的第一音频文件的时域信号进行基于STFT (Short-Time Fourier Transform,短时傅立叶变换)变换的时频分析，可以获得第一音频文件的二维时频图；将第一音频文件的二维时频图拆分成M个时频子图，则相应生成第一音频文件的M个相位通道，一个相位通道对应一个时频子图，例如:M个相位通道中和M个时频子图中，相位通道I对应时频子图1，相位通道2对应时频子图2，以此类推，相位通道M对应时频子图M。
[0048]S1202，提取所述第一预设数量的相位通道中的每个相位通道的至少一个峰值特征点，所述每个相位通道的至少一个峰值特征点构成所述每个相位通道的峰值特征点序列。
[0049]如前述，M个相位通道中，一个相位通道对应一个时频子图。本步骤中，对每个相位通道的峰值特征点的提取过程可以包括:1)在每个相位通道对应的时频子图中，分析每个特征点的能量值；2)根据每个特征点的能量值，选取一定矩形邻域内能量值极大的特征点作为峰值特征点。根据上述I)和2)，可提取每个相位通道的至少一个峰值特征点。其中，矩形邻域的尺寸参数可根据实际需要进行设定，设定过程需要考虑以下因素，包括时频子图中的特征点的数量，以及时频子图中的特征点的分布情况，等等。M个相位通道中，每个相位通道可提取至少一个峰值特征点，对该至少一个峰值特征点进行排序可构成每个相位通道的峰值特征点序列，具体地，可先按照时间从先至后的顺序，对该至少一个峰值特征点进行排序，针对相同时间点出现的峰值特征点，再按照频率从高至低的顺序对该至少一个峰值特征点进行排序。本步骤可提取M个峰值特征点序列，例如:M个相位通道中，相位通道I对应峰值特征点序列1，相位通道2对应峰值特征点序列2，以此类推，相位通道M对应峰值特征点序列M。
[0050]S1203,对所述每个相位通道的峰值特征点序列中的每个峰值特征点进行配对处理，形成所述每个相位通道的峰值特征点对序列。
[0051]本实施例定义Sn(tk，fk)表示任一个相位通道的峰值特征点序列中的任一个峰值特征点，其中η表示相位通道的序号或时频子图的序号，且O < η ≤ M ;k表示该峰值特征点在峰值特征点序列η中的序号，k为正整数；tk表示时频子图η中出现该峰值特征点的时间；fk表示该峰值特征点的频率。
[0052]本步骤对每个相位通道的峰值特征点序列中的每个峰值特征点进行配对处理的过程可以包括:(I)在每个相位通道对应的时频子图中，以每个相位通道的峰值特征点序列中的每个峰值特征点作为锚点，选取一个矩形目标区域；针对任一个时频子图中的任一个峰值特征点Sn(tk，fk)，所述矩形目标区域满足以下条件:
[0053]tstart ≤ tk ≤ tend 且 fstart ≤ fk≤ fend
[0054]其中，tstart表示以峰值特征点Sn(tk，fk)作为锚点选取的矩形目标区域的起始时间，tmd表示以峰值特征点Sn(tk，fk)作为锚点选取的矩形目标区域的结束时间；fstart表示以峰值特征点sn(tk，fk)作为锚点选取的矩形目标区域的最小频率，fmd表示以峰值特征点Sn(tk, fk)作为锚点选取的矩形目标区域的最大频率。
[0055](2)在矩形目标区域内选取除锚点之外的一个峰值特征点与锚点配对，锚点及与该锚点配对的峰值特征点构成峰值特征点对。与锚点配对的峰值特征点的选取原则可以包括:选取出现时间与锚点的出现时间的时间差最小的峰值特征点；或者，选取除锚点之外的能量值最大的峰值特征点。
[0056]通过上述(I)和(2)，针对任一个峰值特征点Sn(tk，fk)均可获得一个配对的峰值特征点Sn(tb，fb)。其中η表示相位通道的序号或时频子图的序号，且O < η < M ;b表示该配对的峰值特征点在峰值特征点序列η中的序号，b为正整数；tb表示时频子图η中出现该配对的峰值特征点的时间；fb表示该配对的峰值特征点的频率。本实施例定义四元组(tk，fk，Δ fk, Δ tk)n来表示任一个相位通道的峰值特征点对序列中的任一对峰值特征点对，其中，η表示相位通道的序号或时频子图的序号；Atk表示峰值特征点对中的两个峰值特征点之间的时间差，Atk = tb-tk ； Δ fk表示峰值特征点对中的两个峰值特征点之间的频率差，Afk =
[0057]本步骤可对M个峰值特征点序列中的每个峰值特征点进行配对，则可形成M个峰值特征点对序列，例如:M个相位通道中，相位通道I对应峰值特征点对序列I，相位通道2对应峰值特征点序列对2，以此类推，相位通道M对应峰值特征点对序列M。
[0058]S1204，对所述每个相位通道的峰值特征点对序列进行哈希计算，获得所述每个相位通道对应的指纹序列，所述第一预设数量的相位通道对应的指纹序列的集合构成所述第一音频文件的第一特征信息。
[0059]如前述，四元组(tk，fk，Δ fk, Δ tk)n来表示任一个相位通道的峰值特征点对序列中的任一对峰值特征点对。该四元组中的参数可作如下理解:(fk，Λ fk，Atk)代表峰值特征点对的特征部分，tk代表出现(fk，Afk, Atk)的时间。本步骤可对(fk，Afk, Atk)进行哈希计算，将(fk，Δ fk, Atk)采用固定比特位数的哈希编码进行表示,具体如下:hashcodek =H(fk, Δ fk, Δ tk) o经过本步骤的计算,任一个相位通道的峰值特征点对序列中的任一对峰值特征点对可表示为(tk，hashcodek)n,n表示相位通道的序号或时频子图的序号,tk代表出现hashcodek的时间；该(tk, hashcodek)n为一个指纹项,可表示一对峰值特征点对。
[0060]经过本步骤，M个峰值特征点对序列中，每个峰值特征点对序列中的每一对峰值特征点对均可采用一个指纹项进行表示，则每个峰值特征点对序列均对应一个指纹序列，M个峰值特征点对序列对应M个指纹序列，例如:峰值特征点对序列I对应指纹序列1，峰值特征点序列对2对应指纹序列2，以此类推，峰值特征点对序列M对应指纹序列M。M个指纹序列的集合构成所述第一音频文件的第一特征信息，即第一音频文件的第一特征信息可表示为M个指纹序列的集合。
[0061]请参见图3，为图2所示的步骤S1201的实施例的流程图；该步骤sl201可包括以下步骤sl211-步骤sl215。
[0062]S1211，对所述第一音频文件进行时域分帧处理，形成多个音频帧信号。
[0063]本步骤可以窗函数作为分帧的参数，对采集到的第一音频文件进行时域分帧处理，形成多个音频帧信号。其中，窗函数可以为海明窗函数、汉宁窗函数、高斯窗函数等常见的窗函数。
[0064]S1212，对每一个音频帧信号进行STFT变换，获得所述每一个音频帧信号的频率
-1'TfeP曰。 [0065]S1213，提取所述每一个音频帧信号的频率谱对应的幅度谱。
[0066]S1214，根据所述每一个音频帧信号的时间、频率谱和幅度谱，绘制所述第一音频文件的时频图。本步骤中，可以按照每一个音频帧信号的时间顺序，依次绘制每一个音频帧信号的频率谱和幅度谱，形成第一音频文件的二维时频图。
[0067]S1215，按照时间取模的方式，对所述第一音频文件的时频图进行拆分，生成第一预设数量的时频子图，所述第一预设数量的时频子图中的一个时频子图对应所述第一音频文件的一个相位通道。
[0068]其中，第一预设数量可采用M进行表示，其中M为正整数。本步骤对第一音频文件的时频图按照时间t对M取模的方式进行拆分，生成M个时频子图，具体的拆分过程为:在二维时频图中分别选取t = O、M、2M…xM每个时间对应的特征点，将选取的特征点组成时频子图1 ;在二维时频图中分别选取t = 1、1+M、1+2M…1+xM每个时间对应的特征点，将选取的特征点组成时频子图2 ;以此类推，在二维时频图中分别选取t = M-U (M-l)+il...(M-l)+xM每个时间对应的特征点，将选取的特征点组成时频子图Μ。其中，X为正整数，且O < (M-1)+xM ( tmax，其中tmax为二维时频图中的最大时间点。本发明实施例中，一个时频子图对应第一音频文件的一个相位通道，M个时频子图对应M个相位通道，例如:时频子图1对应相位通道1，时频子图2对应相位通道2，以此类推，时频子图M对应相位通道M。
[0069]请参见图4，为图1所示的步骤S103的实施例的流程图；该步骤S103可包括以下步骤 sl301-sl305。
[0070]S1301，将所述第一特征信息与所述预置数据库中的每个特征信息进行比对。
[0071]所述预置数据库中存储至少一个音频文件的标识、所述至少一个音频文件的特征信息、以及所述至少一个音频文件的属性数据。其中，音频文件的属性数据可包括以下数据中的至少一种:音频文件名称、音频文件所属的专辑信息、音频文件的链接地址、音频文件的歌词。其中，音频文件的标识可以用TrackID表示，例如:音频文件I的标识可表示为TrackID-1,音频文件2的标识可表示为TrackID_2 ;—个TrackID用于唯一标识一个音频文件。其中，音频文件的特征信息可以为音频文件的指纹，例如:音频文件I的特征信息可为音频文件I的指纹，音频文件2的特征信息可以为音频文件2的指纹；参照图3所示实施例中指纹的表述方式，所述预置数据库中存储的音频文件的特征信息为指纹序列的集合。则任一个TrackID-d所标识的音频文件的一个指纹项可表示为(TimeOffesti, hashcode)p，其中，P为指纹序列的集合中的指纹序列的序号为指纹序列中指纹项的序号；TimeOffesti为该指纹项出现Iiashcodei的时间偏移值。为了提升对预置数据库的查询效率，本发明实施例中，可以哈希表的结构来反向存储所述预置数据库的内容，该哈希表结构可如下表一所示:
[0072]表一:哈希表结构
【权利要求】
1.一种音频识别方法，其特征在于，包括: 接收音频识别请求时，采集待识别的第一音频文件，并计算所述第一音频文件的第一特征信息；从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息，并获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据；将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
2.如权利要求1所述的方法，其特征在于，所述计算所述第一音频文件的第一特征信息，包括: 对所述第一音频文件进行时频分析，生成第一预设数量的相位通道；提取所述第一预设数量的相位通道中的每个相位通道的至少一个峰值特征点，所述每个相位通道的至少一个峰值特征点构成所述每个相位通道的峰值特征点序列；对所述每个相位通道的峰值特征点序列中的每个峰值特征点进行配对处理，形成所述每个相位通道的峰值特征点对序列；对所述每个相位通道的峰值特征点对序列进行哈希计算，获得所述每个相位通道对应的指纹序列，所述第一预设数量的相位通道对应的指纹序列的集合构成所述第一音频文件的第一特征信息。
3.如权利要求2所述的方法，其特征在于，所述对所述第一音频文件进行时频分析，生成第一预设数量的相位通道，包括: 对所述第一音频文件进行时域分帧处理，形成多个音频帧信号；对每一个音频帧信号进行短时傅立叶变换STFT变换，获得所述每一个音频帧信号的频率谱，并提取所述每一个音频帧信号的频率谱对应的幅度谱；根据所述每一个音频帧信号的时间、频率谱和幅度谱，绘制所述第一音频文件的时频图；按照时间取模的方式，对所述第一音频文件的时频图进行拆分，生成第一预设数量的时频子图，所述第一预设数量的时频子图中的一个时频子图对应所述第一音频文件的一个相位通道。
4.如权利要求1-3任一项所述的方法，其特征在于，所述预置数据库中存储至少一个音频文件的标识、所述至少一个音频文件的特征信息、以及所述至少一个音频文件的属性数据；所述属性数据包括以下数据中的至少一种:音频文件名称、音频文件所属的专辑信息、音频文件的链接地址、音频文件的歌词。
5.如权利要求4所述的方法，其特征在于，所述从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息，包括: 将所述第一特征信息与所述预置数据库中的每个特征信息进行比对，根据比对结果对所述预置数据库中的每个特征信息所对应的音频文件的标识进行加权处理；按照权重由高至低的顺序，从所述预置数据库中选择第二预设数量的音频文件的特征信息组成候选列表；计算所述候选列表中的每个音频文件的特征信息与所述第一特征信息的时间相关性；从所述候选列表中选取与所述第一特征信息相匹配的至少一个第二特征信息，其中，所述第二特征信息与所述第一特征信息的时间相关性大于预设阈值。
6.一种音频识别装置，其特征在于，包括: 采集模块，用于在接收音频识别请求时，采集待识别的第一音频文件；计算模块，用于计算所述第一音频文件的第一特征信息；识别模块，用于从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息；获取模块，用于获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据；结果输出模块，用于将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
7.如权利要求6所述的装置，其特征在于，所述计算模块包括: 时频分析单元，用于对所述第一音频文件进行时频分析，生成第一预设数量的相位通道；特征提取单元，用于提取所述第一预设数量的相位通道中的每个相位通道的至少一个峰值特征点，所述每个相位通道的至少一个峰值特征点构成所述每个相位通道的峰值特征点序列；配对处理单元，用于对所述每个相位通道的峰值特征点序列中的每个峰值特征点进行配对处理，形成所述每个相位通道的峰值特征点对序列；计算单元，用于对所述每个相位通道的峰值特征点对序列进行哈希计算，获得所述每个相位通道对应的指纹序列，所述第一预设数量的相位通道对应的指纹序列的集合构成所述第一音频文件的第一特征信息。
8.如权利要求7所述的装置，其特征在于，所述时频分析模块包括: 分帧处理子单元，用于对所述第一音频文件进行时域分帧处理，形成多个音频帧信号; 变换子单元，用于对每一个音频帧信号进行短时傅立叶变换STFT变换，获得所述每一个音频帧信号的频率谱；幅度提取子单元，用于提取所述每一个音频帧信号的频率谱对应的幅度谱；绘制子单元，用于根据所述每一个音频帧信号的时间、频率谱和幅度谱，绘制所述第一音频文件的时频图；拆分子单元，用于按照时间取模的方式，对所述第一音频文件的时频图进行拆分，生成第一预设数量的时频子图，所述第一预设数量的时频子图中的一个时频子图对应所述第一音频文件的一个相位通道。
9.如权利要求6-8任一项所述的装置，其特征在于，所述预置数据库中存储至少一个音频文件的标识、所述至少一个音频文件的特征信息、以及所述至少一个音频文件的属性数据；所述属性数据包括以下数据中的至少一种:音频文件名称、音频文件所属的专辑信息、音频文件的链接地址、音频文件的歌词。
10.如权利要求9所述的装置，其特征在于，所述识别模块包括:特征比对单元，用于将所述第一特征信息与所述预置数据库中的每个特征信息进行比对；加权处理单元，用于根据比对结果对所述预置数据库中的每个特征信息所对应的音频文件的标识进行加权处理；候选列表生成单元，用于按照权重由高至低的顺序，从所述预置数据库中选择第二预设数量的音频文件的特征信息组成候选列表；相关性计算单元，用于计算所述候选列表中的每个音频文件的特征信息与所述第一特征信息的时间相关性；匹配单元，用于从所述候选列表中选取与所述第一特征信息相匹配的至少一个第二特征信息，其中，所述第二特征信息与所述第一特征信息的时间相关性大于预设阈值。
【文档编号】G10L15/30GK103971689SQ201310042408
【公开日】2014年8月6日申请日期:2013年2月4日优先权日:2013年2月4日
【发明者】刘海龙, 谢达东, 侯杰, 肖斌, 刘骁, 陈波申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘海龙;谢达东;侯杰;肖斌;刘骁;陈波
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种在移动终端中利用文字实现实时通话的方法和装置制造方法
上一篇：信息查询方法、客户端及服务器的制造方法