辨识音频片段的方法及其装置与流程

文档序号:13806234阅读:324来源:国知局
辨识音频片段的方法及其装置与流程

本发明涉及音乐识别技术领域,尤其涉及一种辨识音频片段的方法及其装置。



背景技术:

在现有技术有不同的方法辨认音频片段,这种功能其中一个应用是当一个人在收声机、电视播放的一段音乐,听者对音乐好奇而想进一步知道关于这段音乐的名称及其它数据,现有技术包括在智能移动装置上运算的程序,以麦克风接收到音乐片段,以收集到的音乐进行分析,进一步将分析所得与自身的数据库比较而寻索到所述音乐片段的名称及其它数据。现有技术包括在ios及andriod上运算的音乐神搜(shazam),其数据库是储存在云端服务器,而服务器储存了大部份的流行歌曲,使用者可以到商场、酒巴等启用智能移动装置上的程序,例如音乐神搜,以麦克风收取现场音乐,程序将音乐分析及转到服务器进行寻索,得出音乐片段发一首歌曲后在智能移动装置显示,程序可以进一步提议使用者可以在某一网站购买这首歌曲。

在现有技术还有一个专利技术,为中国专利,其申请号为cn03808938.6,发明名称为:“坚固而且不变的音频图样匹配”,其提供一种用以快速并准确决定两个音频试样是否匹配、以及是否免于如为播放速度变动的各种变换的发明技术。两音频试样的间的关系的特征是首先匹配得自各别试样的某些指纹物件。对每个音频试样(210)产生一组(230)指纹物件(231、232),它们中的每一个发生在一特别位置(242)上。各位置(242)的决定依各音频试样(210)的内容而定,而且各指纹物件(232)在或接近各别特殊位置(242)处具备一或更多局部特性(222)。接着为每对匹配指纹物件决定相对值。然后产生一相对值的直方图。如发现一统计上的明显峰值,则两音频试样具备实质上匹配的特征。

上述专利的发明目的是准确决定两个音频是否匹配,其手段是由各自音频建立指纹。而音频指纹是指有特殊位置附近具备有一个或多个特性。基于这个发明的原理,现有技术包括对已知的音乐、歌曲等进行收采样办而进行摄取指纹,将这些音频指纹储存在一个数据库,当一个设置有麦克风的装置摄取新的音频时,立即利用所接收的音频进行摄取指纹,并以指纹到数据库中已储存指纹进行比较,找出新的音频最可以与数据库中的指纹相匹配的,就可以推理新的音频就是数据库中相联的音频,从而可以推论新的音频的数据,包括曲名、演唱者的名称等。

此外,分析音频片段,首先制成频谱图,所述频谱图如图1,横轴为时间(t),垂直轴为声音频率(f),而在某一(t,f)点的颜色代表在时间t频率f的音讯强度,而各种颜色以右边的颜色度作说明。这图较接近红色的为音量较大,也即在0.05秒到0.25秒时音量较大,而主要在2、3、5khz左右。当这种图在单色的印刷品显示时,以较深色为音量较大。频谱图可有另一个表达方式,如图2,是以三维图显示,其中第一平面轴为时间,第二平面轴为声音频率,第三垂直轴为音讯强度(db),三维立体图可以在单色的印刷品显示出来。

但是,该专利申请的技术方案中使用音谱峰值选取指纹部份,从而选取要采集数据点(参考该申请文件说明书3页指纹对象的说明),在选取指纹对象后采集其位置、变动成份和不变动成份。在分析一份音频时,所要分析比较的指纹点较多,因此其分析过程的所耗费的时间长,效率低。

综上可知,现有的辨识音频片段的技术在实际使用上,显然存在不便与缺陷,所以有必要加以改进。



技术实现要素:

针对上述的缺陷,本发明的目的在于提供一种辨识音频片段的方法及其装置,以使音频片段的辨识操作更为简便,效率更高。

为了实现上述目的,本发明提供一种辨识音频片段的方法,所述方法包括如下步骤:

a、采集欲辨识的音频片段中达到预设时序序列长度的至少一条第一山脊线;

b、在将采集到的所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;

所述第一山脊线和第二山脊线均是由时间时序和音频频率组成的时间-音频坐标中,每个时序序列对应的多个音频频率中到达预设的音量阈值的点连线构成。

根据所述的方法,在所述时间-音频坐标中,所述时间为横坐标,所述音频频率为纵坐标;所述步骤a包括:

a1、采集所述欲辨识的音频片段中在预设音频频率范围及预设的时间段内的达预设的音量阈值的点,并根据预设的山脊点设置规制,在所述达预设的音量阈值的点中选择满足所述预设的山脊点设置规制的点作为山脊点;

a2在所述时间-音频坐标中将除纵向方向上之外的相邻的所述山脊点连接成第三山脊线;

a3、在所述第三山脊线包括多条时,选择其中达到预设时序序列长度的所述第一山脊线。

根据所述的方法,所述步骤b包括:

b1、在将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比一致后,确认所述欲辨识的音频片段是所述第二山脊线所代表的音频信息;

b2、在将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比不一致时,辨识所述音频片段失败。

4、根据权利要求3所述的方法,其特征在于,所述第二山脊线的音频信息包括所述第二山脊线所属的音乐曲目的名称、段落、作者和/或表演者。

根据所述的方法,所述步骤a1包括:

a11、采集欲辨识的音频片段中于所述预设的时间段内的每个时序序列所对应的所有所述预设音频频率范围内每个音频频率下的第一音量值,并选择其中达到所述预设的音量阈值的第二音量值;

a12、在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置相邻,选择多个所述第二音量值中最大的音量值;并将所述最大的音量值在所述时间-音频坐标中所对应的位置点设置为山脊点;和/或

a13、在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置均不相邻,将多个所述第二音量值在所述时间-音频坐标中所对应的位置点均设置为山脊点;和/或

a14、在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置包括几组相邻的所述第二音量值时,选择每组所述相邻的第二音量值中最大的音量值在所述时间-音频坐标中所对应的位置点设置为山脊点。

根据所述的方法,在所述第三山脊线包括多条时,多条所述第三山脊线交叉或者并行。

根据所述的方法,所述预设时序序列长度为9;

所述预设的音量阈值为大于等于70分贝;

所述预设音频频率范围小于等于20000hz;

所述第二山脊线的长度等于或者大于所述第一山脊线;

所述比对一致为在相同的时序序列和音频频率下所述第一山脊线全长与第二山脊线线条的前部、中段、后部或者全部轨迹吻合。

根据所述的方法所述辨识音频片段的方法通过一移动通信终端或者固定通信终端实现。

根据所述的方法,所述移动通信终端或者固定通信终端均包括:

麦克风,所述麦克风采集所述至少一条第一山脊线;

储存体,所述储存体存储所述至少一条第二山脊线;

处理器,所述处理器将所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;

网络联机模块,所述网络联机模块在互联网或者是服务器上查找所述预存的至少一条第二山脊线。

为了实现本发明的另一发明目的,本发明还提供了一种辨识音频片段的装置,所述装置包括如下步骤:

采集模块,用于采集欲辨识的音频片段中达到预设时序序列长度的至少一条第一山脊线;

辨识模块,用于在将采集到的所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;

所述第一山脊线和第二山脊线均是由时间时序和音频频率组成的时间-音频坐标中,每个时序序列对应的多个音频频率中到达预设的音量阈值的点连线构成。

根据所述的装置,在所述时间-音频坐标中,所述时间为横坐标,所述音频频率为纵坐标;所述采集模块包括:

采集子模块,用于采集所述欲辨识的音频片段中在预设音频频率范围及预设的时间段内的达预设的音量阈值的点,并根据预设的山脊点设置规制,在所述达预设的音量阈值的点中选择满足所述预设的山脊点设置规制的点作为山脊点;

连接子模块,用于将在所述时间-音频坐标中将除纵向方向上之外的相邻的所述山脊点连接成第三山脊线;

选择子模块,用于在所述第三山脊线包括多条时,选择其中达到预设时序序列长度的所述第一山脊线。

根据所述的装置,所述辨识模块包括:

第一比对子模块,用于在将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比一致后,确认所述欲辨识的音频片段是所述第二山脊线所代表的音频信息;

第二比对子模块,用于在将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比不一致时,辨识所述音频片段失败。

根据所述的装置,所述第二山脊线的音频信息包括所述第二山脊线所属的音乐曲目的名称、段落、作者和/或表演者。

根据所述的装置,所述采集子模块包括:

采集单元,用于采集欲辨识的音频片段中于所述预设的时间段内的每个时序序列所对应的所有所述预设音频频率范围内每个音频频率下的第一音量值,并选择其中达到所述预设的音量阈值的第二音量值;

第一设置单元,用于在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置相邻,选择多个所述第二音量值中最大的音量值;并将所述最大的音量值在所述时间-音频坐标中所对应的位置点设置为山脊点;和/或

第二设置单元,用于在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置均不相邻,将多个所述第二音量值在所述时间-音频坐标中所对应的位置点均设置为山脊点;和/或

第三设置单元,用于在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置包括几组相邻的所述第二音量值时,选择每组所述相邻的第二音量值中最大的音量值在所述时间-音频坐标中所对应的位置点设置为山脊点。

根据所述的装置,在所述第三山脊线包括多条时,多条所述第三山脊线交叉或者并行。

根据所述的装置,所述预设时序序列长度为大于等于9;

所述预设的音量阈值为大于等于70分贝;

所述预设音频频率范围小于等于20000hz;

所述第二山脊线的长度等于或者大于所述第一山脊线;

所述比对一致为在相同的时序序列和音频频率下所述第一山脊线全长与第二山脊线线条的前部、中段、后部或者全部轨迹吻合。

根据所述的装置,所述装置为移动通信终端或者固定通信终端。

根据所述的方法,所述移动终端或者固定终端均包括:

麦克风,用于采集所述至少一条第一山脊线;

储存体,用于存储所述至少一条第二山脊线;

处理器,用于将所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;

网络联机模块,用于在互联网或者是服务器上查找所述预存的至少一条第二山脊线。

本发明通过采集欲辨识的音频片段中达到预设时序序列长度的至少一条第一山脊线;在将采集到的所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;其中,所述第一山脊线和第二山脊线均是由时间时序和音频频率组成的时间-音频坐标中,每个时序序列对应的多个音频频率中到达预设的音量阈值的点连线构成。由此,在分析一份音频时,所要分析比较的指纹点少分析过程的所耗费的时间短,效率高。最终使得音频片段的辨识操作更为简便,效率更高。

附图说明

图1是现有技术中提供的音频频谱图;

图2是现有技术中提供的音频频谱图;

图3是本发明实施例提供的辨识音频片段的装置的组成结构图;

图4是本发明实施例提供的辨识音频片段的装置的组成结构图;

图5是本发明实施例提供的二维频谱图;

图6是本发明实施例提供的二维频谱图;

图7是本发明实施例提供的辨识音频片段的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参见图3,在本发明的第一实施例中,提供了一种辨识音频片段的装置100,该装置100包括如下步骤:

采集模块10,用于采集欲辨识的音频片段中达到预设时序序列长度的至少一条第一山脊线;

辨识模块20,用于在将采集到的所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;

在该实施例中,通过采集模块10采集欲辨识的音频片段中达到预设时序序列长度的至少一条第一山脊线;辨识模块20在将采集到的所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;所述第二山脊线的长度等于或者大于所述第一山脊线;所述比对一致为在相同的时序序列和音频频率下所述第一山脊线全长与第二山脊线线条的前部、中段、后部或者全部轨迹吻合。即该轨迹吻合可以是部分吻合,如前部吻合或者后部吻合,或者完全吻合,即对比的两者的时序序列长度相同,都是9个时序序列,也可以第二山脊线的时序序列长于第一山脊线,为15个时序序列,即第二山脊线可等于或长于第一山脊线。但是若第一山脊线的9个时序序列与第二山脊线的前几个时序序列的线条轨迹相吻合,也可以认为两者是吻合的。当然,全部轨迹吻合,判断出的音频信息会相对比较准确。只是第一山脊线采集的时序序列略短。其中,所述第一山脊线和第二山脊线均是由时间时序和音频频率组成的时间-音频坐标中,每个时序序列对应的多个音频频率中到达预设的音量阈值的点连线构成。而该至少一条第二山脊线可以存储在储存体中。在该储存体内还可以设置音频库,该音频库可以包括多条第二山脊线以及相关曲目的信息。

在本发明的一个实施例中,通过如图5所示的编码矩阵而得出的指纹(第一山脊线)。图6显示为其中一个实施方案的编码矩阵(也可以称为二维频谱图),其中预设组合的音频率共有16个音频率,在图5和图6中,每个音频率有一单元号代表,而音频率的音量为所量度的音量值。无论是频谱图或编码矩阵,为了方便以下的说明,本发明实施例中的装置无须储存或建立完整的频谱图。

参见图4,在本发明的第二实施例中,在所述时间-音频坐标中,所述时间为横坐标,所述音频频率为纵坐标;采集模块10包括:

采集子模块11,用于采集所述欲辨识的音频片段中在预设音频频率范围及预设的时间段内的达预设的音量阈值的点,并根据预设的山脊点设置规制,在所述达预设的音量阈值的点中选择满足所述预设的山脊点设置规制的点作为山脊点;

连接子模块12,用于将在所述时间-音频坐标中将除纵向方向上之外的相邻的所述山脊点连接成第三山脊线;

选择子模块13,用于在所述第三山脊线包括多条时,选择其中达到预设时序序列长度的所述第一山脊线。

在该实施例中,通过采集子模块11采集所述欲辨识的音频片段中在预设音频频率范围及预设的时间段内的达预设的音量阈值的点,并根据预设的山脊点设置规制,在所述达预设的音量阈值的点中选择满足所述预设的山脊点设置规制的点作为山脊点;连接子模块12将在所述时间-音频坐标中将除纵向方向上之外的相邻的所述山脊点连接成第三山脊线;由于第三山脊线可能包括多条,而为了达到准确对比,辨识出音频片段属于哪个曲面,需要山脊线具有足够的长度。因此,在该实施例中选择子模块13选择其中达到预设时序序列长度的所述第一山脊线,预设时序序列长度可以大于等于9。优选的,预设时序序列长度为9当然,还可以是其他的数目,例如,预设时序序列长度为大于等于10或者8等。以满足不同精度及辨识速度的要求。

参见图4,在本发明的第三实施例中,所述辨识模块20包括:

第一比对子模块21,用于在将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比一致后,确认所述欲辨识的音频片段是所述第二山脊线所代表的音频信息;

第二比对子模块22,用于在将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比不一致时,辨识所述音频片段失败。

在该实施例中,第一比对子模块21将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比一致后,确认所述欲辨识的音频片段是所述第二山脊线所代表的音频信息;因此,根据所述第二山脊线所代表的音频信息辨识出所述音频片段的音频信息。具体的,所述第二山脊线的音频信息包括所述第二山脊线所属的音乐曲目的名称、段落、作者和/或表演者。由此可知道欲辨识的音乐片段所属的音乐曲目的名称、段落、作者和/或表演者等信息。另一方面,若第二比对子模块22在将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比不一致时,则辨识所述音频片段失败。用户则无法获得该音乐片段所属的音乐曲目的名称、段落、作者和/或表演者等方面的信息。

参见图4,在本发明的第四实施例中,采集子模块11包括:

采集单元111,用于采集欲辨识的音频片段中于所述预设的时间段内的每个时序序列所对应的所有所述预设音频频率范围内每个音频频率下的第一音量值,并选择其中达到所述预设的音量阈值的第二音量值;

第一设置单元112,用于在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置相邻,选择多个所述第二音量值中最大的音量值;并将所述最大的音量值在所述时间-音频坐标中所对应的位置点设置为山脊点;和/或

第二设置单元113,用于在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置均不相邻,将多个所述第二音量值在所述时间-音频坐标中所对应的位置点均设置为山脊点;和/或

第三设置单元114,用于在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置包括几组相邻的所述第二音量值时,选择每组所述相邻的第二音量值中最大的音量值在所述时间-音频坐标中所对应的位置点设置为山脊点。

在该实施例中,首先需要由采集单元111采集欲辨识的音频片段中于所述预设的时间段内的每个时序序列所对应的所有所述预设音频频率范围内达到所述预设的音量阈值的第二音量值;即采集单元111在采集到所有的多个所述第一音量值后,需要选择达到预设音量阈值的第二音量值。根据辨识的精度要求,可以将该预设音量阈值设置为70分贝,或者是其他的如50分贝等。而由于70分贝的音量比较大,一方面比较容易采集,另一方面还可以提高辨识音频片段的准确性。在获得达到预设音量阈值的第二音量值后。有三种情况获得山脊点,

第一种情况是:在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置相邻,即某时序上预设音频频率范围上的所述第二音量值对应的点均是相邻的,如图5中时间时序0在音频频率单元号4、5、6上的第二音量值分别为75、73、72,均超过了70分贝。而且,三者连接在一起,在所述时间-音频坐标的纵向上没有其他第二音量值,则选择三者中音量值最大的所对应的位置点作为山脊点。即音量值75在所述时间-音频坐标的纵向上所处位置点选为山脊点。第二种情况是:在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置均不相邻,第二设置单元113则将多个所述第二音量值在所述时间-音频坐标中所对应的位置点均设置为山脊点。即如图5中时序8对应的音频频率单元号5、10、12,其第二音量值分别为76、78、81,均大于70分贝。因此可以将这几个位置点为设置为山脊点。第三种情况是在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置包括几组相邻的所述第二音量值时,选择每组所述相邻的第二音量值中最大的音量值在所述时间-音频坐标中所对应的位置点设置为山脊点。即如图5中时序2对应的音频频率单元号4、5、6、11、12、13,分为两组相邻的所述第二音量值。第一组对应的音频频率4、5、6,其第二音量值分别为74、76、75。第二组对应的音频频率单元号11、12、13,其第二音量值分别为76、78、79,均大于70分贝。第一组选择最大值76所在位置点作为山脊点,第二组选择最大值79所在位置点作为山脊点。由此,在同一的时序序列下可以将这几个位置点为设置为山脊点。

此外,在本发明的一个实施方式中,在所述第三山脊线包括多条时,多条所述第三山脊线交叉或者并行。如图5中标示的山脊线1,和山脊线后。所述预设的音量阈值为大于等于70分贝;所述预设音频频率范围小于等于20000hz。

在本发明的第五实施例中,辨识音频片段的装置100还包括

显示模块30,用于显示辨识出的所述音频片段的音频信息;和/或

用于显示辨识所述音频片段的播放装置100发送互动信息或者奖励信息。而所述互动信息包括通过所述播放装置100参与互动活动的信息;所述奖励信息包括通过所述播放装置100领取奖品或者奖券的信息。

在该实施例中,辨识音频片段的装置100的一个应用环境:在一个音乐会或表演场面,大会有一预设音乐或其它音频片段,当所述音频片段播出时,在场内的智能移动装置能够接收并确认到这段音频片段时,显示模块30显示辨识出的所述音频片段的音频信息;和/或显示辨识所述音频片段的播放装置100发送互动信息或者奖励信息。由此,可以启动一个对话、送赠一种礼品或其它电子赠券等。在另一个应用环境,有一个剧院或电影院,当播放一预设歌曲或音频片段时,在场的智能移动装置能够接收并确认到这段音频片段时,可以进行进一步的互动。

在本发明的一个实施例中,所述辨识音频片段的装置100为移动通信终端或者固定通信终端,例如移动电话或者是固定电话。若是移动电话,则便于用户携带,在不同的场合,如音乐会或者是商场的庆典活动进行音频片段的辨识,以参加相关的活动。该辨识音频片段的装置100具有连接互联网络的功能。可以通过互联网更新存储的第一山脊线或者是第二山脊线的信息,以及相关曲目的信息。

具体的,所述移动终端或者固定终端均包括:

麦克风,用于采集所述至少一条第一山脊线;

储存体,用于存储所述至少一条第二山脊线;

处理器,用于将所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;

网络联机模块40,所述网络联机模块在互联网或者是服务器上查找所述预存的至少一条第二山脊线。

因此,辨识音频片段的装置100不仅包括处理器及(储存体)内存、网络联机模块40,还包括键盘、显示屏等。优选的,采集模块10包括麦克风;辨识模块20包括储存体和处理器。由麦克风接收现场的音频,到处理器对音频片段进行分析,即预设时段内,对一组特定的音频率的音量进行测试并得出数据,并以每一时间内的不同音频率中选取音量最高的音频率,而以这组音频率形成音频片段的指纹。在储存体没有存储至少一条第二山脊线时,还可以通过网络联机模块40连接网络后,在互联网或者是预设的服务器上查找所述预存的至少一条第二山脊线。由此,可以扩大辨识的成功率。

在上述多个实施例中,辨识音频片段的装置100可以是软件单元,硬件单元或软硬件结合单元。辨识音频片段的装置100可以设置为移动终端可以是手机、pda(personaldigitalassistant,个人数字助理)、掌上电脑等。

参见图7,在本发明的第六实施例中,提供了一种辨识音频片段的方法,所述方法包括如下步骤:

步骤s701中,采集欲辨识的音频片段中达到预设时序序列长度的至少一条第一山脊线;该步骤由采集模块10实现;

步骤s702中,在将采集到的所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;该步骤由辨识模块20实现。

所述第一山脊线和第二山脊线均是由时间时序和音频频率组成的时间-音频坐标中,每个时序序列对应的多个音频频率中到达预设的音量阈值的点连线构成。

在该实施例中,采集欲辨识的音频片段中达到预设时序序列长度的至少一条第一山脊线;在将采集到的所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;在此,只需要对比山脊线的轨迹即可以辨识音频片段。从而能够快捷的对音频片段摄取音频指纹(第一山脊线),并利用所摄取的音频指纹与预设音频片段的指纹进行比较。而不需要寻找到音频中特殊的位置进行比较。因此,该实施例提供的方法与现有技术相比,其中一个不同之处是没有需要寻找指纹中的特殊位置。

在本发明的一个实施例方式中,当开始进行采集音频指纹(即第一山脊线)时,从装置的麦克风接收音频,在预设时段内,对预设组合的音频率的音量进行测试。在下一预设时段,重复对预设组合的音频率的音量进行测试。直至采集指纹终结。在其中一个实施方案,预设时段为0.5秒。而预设组合的音频率包括64个音频率:396.5,418.0,439.5,460.9,482.4,503.9,525.4,546.9,568.4,589.8,611.3,632.8,654.3,675.8,697.3,718.8,740.2,761.7,783.2,804.7,826.2,847.7,869.1,890.6,912.1,933.6,955.1,976.6,998.0,1019.5,1041.0,1062.5,1084.4,1105.5,1127.0,1148.4,1169.9,1191.4,1212.9,1234.4,1255.9,1277.3,1298.8,1320.3,1341.8,1363.3,1384.8,1406.3,1428.1,1458.6,1498.5,1548.3,1609.1,1681.9,1768.3,1869.8,1988.6,2127.2,2288.7,2476.6,2695.6,2950.9,3249.1,3598.1(hz)。即每一个0.5秒的时段对上述64个音频率的强度进行量度分析,以分贝(db)为单位并记录下来,在下一个0.5秒的时段对上述64个音频率的强度进行量度分析记录。因而提供数据给与并制成图1或图2的频谱图。在另一个实施方案,预设组合的音频率包括47个音频率。在其中另一个实施方案,预设组合的音频率包括数个音频率,其中频率包括较高频率并包括较接近人耳能接收音频的上限,即20,000hz。在第一实施方案中的64个音频率是跟据梅尔频率(mel-frequency)所组成,本发明也可应用在其它音频率的组合。在公析及对比歌曲几章或歌曲,所选用的预设组合的音频率可应用梅尔频率或其它用作分析人声、歌声的频率组合。为了方便以下采集音频片段的指纹,以下的预设组合的音频率包括16个音频率。如图5所示,以二维矩阵代表频谱图。

在本发明的第七实施例中,在所述时间-音频坐标中,所述时间为横坐标,所述音频频率为纵坐标;所述步骤s701包括:

a1、采集所述欲辨识的音频片段中在预设音频频率范围及预设的时间段内的达预设的音量阈值的点,并根据预设的山脊点设置规制,在所述达预设的音量阈值的点中选择满足所述预设的山脊点设置规制的点作为山脊点;该步骤由采集子模块11实现;

a2在所述时间-音频坐标中将除纵向方向上之外的相邻的所述山脊点连接成第三山脊线;该步骤由连接子模块12实现;

a3、在所述第三山脊线包括多条时,选择其中达到预设时序序列长度的所述第一山脊线。该步骤由选择子模块13实现。

具体的,所述步骤a1包括:

a11、采集欲辨识的音频片段中于所述预设的时间段内的每个时序序列所对应的所有所述预设音频频率范围内每个音频频率下的第一音量值,并选择其中达到所述预设的音量阈值的第二音量值;该步骤由采集单元111实现;

a12、在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置相邻,选择多个所述第二音量值中最大的音量值;并将所述最大的音量值在所述时间-音频坐标中所对应的位置点设置为山脊点;该步骤由第一设置单元112实现;和/或

a13、在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置均不相邻,将多个所述第二音量值在所述时间-音频坐标中所对应的位置点均设置为山脊点;该步骤由第二设置单元113实现;和/或

a14、在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置包括几组相邻的所述第二音量值时,选择每组所述相邻的第二音量值中最大的音量值在所述时间-音频坐标中所对应的位置点设置为山脊点。该步骤由第三设置单元114实现。

在该实施例中,具体给出了如何采集到第一山脊线的方法。采集子模块11采集所述欲辨识的音频片段中在预设音频频率范围及预设的时间段内的达预设的音量阈值的点,并根据预设的山脊点设置规制,在所述达预设的音量阈值的点中选择满足所述预设的山脊点设置规制的点作为山脊点;连接子模块12将在所述时间-音频坐标中将除纵向方向上之外的相邻的所述山脊点连接成第三山脊线;由于第三山脊线可能包括多条,如图6中有1、2、3、4、5条,其中标号5的第三山脊线其实质上是由标号1的部分第三山脊线及标号2全部第三山脊线构成。标号1的第三山脊线在时序序列6音频频率单元11处汇集,两者连接成标号5的第三山脊线。而为了达到准确对比,辨识出音频片段属于哪个曲面,需要山脊线具有足够的长度。因此,在该实施例中预设时序序列长度为大于等于9,如可以是9、10、13等。优选的,预设时序序列长度为9。则只有标号4和标号5的第一山脊线达到了长度要求,其余的标号为1、2、3第一山脊线不符合时序序列的长度要求,舍弃不进行对比。当然,预设时序序列长度还可以为大于等于12或者7等,根据不同的需要进行设置,以满足不同精度及辨识速度的要求。此外,在所述第三山脊线包括多条时,多条所述第三山脊线交叉或者并行。如图6所示,标号1的第三山脊线与标号3的第三山脊线在时序序列7音频频率单元号10处交叉,而标号2的第三山脊线与标号4的第三山脊线相隔比较远,两者并行。

对于第一山脊线的获取,首先需要由采集单元111采集欲辨识的音频片段中于所述预设的时间段内的每个时序序列所对应的所有所述预设音频频率范围内达到所述预设的音量阈值的第二音量值;采集单元111要采集达到预设音量阈值的第二音量值。根据辨识的精度要求,可以将该预设音量阈值设置为70分贝,如图6所示,所以在方框内标识了大于70分贝的多个第二音量值。在获得达到预设音量阈值的第二音量值后,需要获得山脊点并绘制山脊线。有三种情况获得山脊点:第一种情况是:在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置相邻,即某时序上预设音频频率范围上的所述第二音量值对应的点均是相邻的,如图6中时间时序0在音频频率单元号4、5、6上的第二音量值分别为75、73、72,均超过了70分贝。而且三者连接在一起,在所述时间-音频坐标的纵向上没有其他第二音量值,则选择音量值75所对应的位置点作为山脊点。即音量值75在所述时间-音频坐标的纵向上所处位置点选为山脊点。第二种情况是:在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置均不相邻,即在同一个时序序列下,这些获得大于70分贝的第二音量值在图6中的分布是不连接,不相邻的,则将这些位置点均设置为山脊点。如图6中时序4对应的音频频率单元号5、9、13,其第二音量值分别为76、77、84,均大于70分贝。因此可以将这几个位置点为设置为山脊点。第三种情况是:在每个所述时序序列所对应的所述第二音量值包括多个时,并且多个所述第二音量值在所述时间-音频坐标的纵向上所处位置包括几组相邻的所述第二音量值时,选择每组所述相邻的第二音量值中最大的音量值在所述时间-音频坐标中所对应的位置点设置为山脊点。即如图6中时序序列3对应的音频频率单元号3、4、5、8、12、13、14,分为三组相邻的所述第二音量值。第一组对应的音频频率单元号3、4、5其第二音量值分别为79、81、80。第二组对应的音频频率单元号8,其第二音量值分别为76,大于70分贝。第三组对应的音频频率单元号12、13、14,其第二音量值分别为76、78、80,都大于70分贝。第一组选择最大值79所在位置点作为山脊点,第二组选择最大值76所在位置点作为山脊点。第三组选择最大值80所在位置点作为山脊点.由此,在同一个的时序序列下可以将这几个位置点为设置为山脊点。

在本发明的第八实施例中,所述步骤s702包括:

b1、在将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比一致后,确认所述欲辨识的音频片段是所述第二山脊线所代表的音频信息;该步骤由第一比对子模块21实现;

b2、在将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比不一致时,辨识所述音频片段失败。该步骤由第二比对子模块22实现。

在该实施例中,第一比对子模块21、第二比对子模块22将采集到的所述第一山脊线与预存的至少一条第二山脊线进行比对,在对比一致后,第一比对子模块21确认所述欲辨识的音频片段是所述第二山脊线所代表的音频信息,根据所述第二山脊线的所代表的音频信息辨识出所述音频片段的音频信息。而对于对比,从预设的音频片段所采集的指纹(第二山脊线)可以较最低时序长度为长,例如所述储存的预设音频片段的指纹可以是10个、15个音频率单元,而用作对比的现场音频指纹(第一山脊线)是以最低长度作准,即对比是以现场音频指纹是否在储存指纹中其中一段是否匹配。可以只是仅对比音频或者是根据对比音频后在设置的音频库中查找对应的音乐及其相关的作者等信息。即所述第二山脊线的音频信息包括所述第二山脊线所属的音乐曲目的名称、段落、作者和/或表演者。由此可知道欲辨识的音乐片段所属的音乐曲目的名称、段落、作者和/或表演者等信息。

在本发明的第九实施例中,在所述步骤s702之后还包括:

显示辨识出的所述音频片段的音频信息;和/或

显示辨识所述音频片段的播放装置发送互动信息或者奖励信息。该步骤由显示模块30实现。所述互动信息包括通过所述播放装置参与互动活动的信息;所述奖励信息包括通过所述播放装置领取奖品或者奖券的信息。

在该实施例中,可以在辨识成功后将所述音频片段的音频信息和/或辨识所述音频片段的播放装置发送互动信息或者奖励信息进行显示,相应的也会启动后续的互动及奖励信息,使辨识音频片段更具有趣味性,可以应用在各商家,如音乐会、电影院等场所,吸引观众的到来。

在本发明的一个实施例中,所述辨识音频片段的方法通过一移动通信终端或者固定通信终端实现。特别是移动通信终端便于携带,由此可以给用户带来良好的在任意时刻和任意时间进行音频片段辨识,如用户走在大街上,听到一端音乐很好听,因此想知道该音乐的歌唱者、歌词等,则可以通过移动通信终端实现相关音频片段的识别。而且移动通信终端或者固定通信终端均具有网络通信模块(网络联机模块),因此可以通过网络连接的方式更新其储存体中存储的相关信息,以及在如其储存体没有音频片段的信息时,通过连接服务器的方式,或者网络搜索的方式进行进一步的信息的获取或者确认。此外,所述移动通信终端或者固定通信终端均包括:

麦克风,所述麦克风采集所述至少一条第一山脊线;

储存体,所述储存体存储所述至少一条第二山脊线;

处理器,所述处理器将所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;

网络联机模块40,用于在互联网或者是服务器上查找所述预存的至少一条第二山脊线。

此外,辨识音频片段的装置100不仅包括处理器及(储存体)内存、网络联机模块40,还包括键盘、显示屏等,通过键盘可以进行相关指令的输入,而显示屏可以显示如音频片段的各种信息。优选的,采集模块10包括麦克风;辨识模块20包括储存体和处理器。麦克风接收现场的音频,处理器则对音频片段进行分析,即预设时段内,对一组特定的音频率的音量进行测试并得出数据,并以每一时间内的不同音频率中选取音量最高的音频率,而以这组音频率形成音频片段的指纹。若在储存体没有存储所述至少一条第二山脊线;还可以通过网络联机模块40在互联网或者是服务器上查找是否存在至少一条第二山脊线与所述第一山脊线相匹配。

在本发明的一个实施例中,提供了辨识音频片段的方法,该方法通过编码矩阵而得出的指纹(第一山脊线),在该实施例中所述指纹即为第一山脊线,而在获得第一山脊线时,需要在多个第三山脊线中选满足时序长度要求的第一山脊的。在下面的实施例中,为了描述简便,简称将第一山脊线和第三山脊线统称为山脊线。如图6所示,为其中一个实施方案的编码矩阵(二维频谱图),其中预设组合的音频率共有16个音频率,每个音频率有一单元号代表,而音频率的音量为所量度的音量值。无论是频谱图或编码矩阵,是为了方便以下的说明,本发明的装置无须储存或建立完整的频谱图。

首先,预设时间段及音频频率范围(音频频率组合),如图6所示为16个时序序列,对应的预设时段=t,时间列为t0,t1,t2,t3,….ti-1,ti,ti+1,….,在其中一个实施方案,t=0.5秒;

预设组合的音频率组合为=f={f1,f2,f3,f4,…..fn},在其中一个实施方案,n=64;

而某一时间列ti的音频率fj的音量为v(ti,fj)=vij;

预设最低有效音量(最大音量值)为=v,在其中一个实施方案,v=70db;而70db大约为一条繁忙的高速公路的噪音水平。

在图6所显示的编码矩阵(二维频谱图)以音量方式表达不同时间不同音频率的分布,而以邻近是最大音量形成山脊线,山脊线以一连串的(ti时序点,fi音频率单元)所组成。作为音频片段的指纹,由于时序上未能同步,所需找寻的是同一山脊线形状,指纹是以[ti,(fj,fj+1,fj+2,…)]所表示,即由时序ti开始,山脊线的形状为fj,fj+1,fj+2,…,而其中ti为指纹的时间单元,(fj,fj+1,fj+2,…)为指纹的音频率集单元。要比较两个指纹,只比较两个指纹的音频率集单元,不同的指纹的时间单元只是表示所述指纹在被测试的音频片段中的位置。

采集指纹(采集第一山脊线):

1.步骤a01:初始步:时序列指数为0(i=0)

2.步骤a02:选取ti内对预设组合的音频率内对每一音频率单元测试音量,并对每一音频率单元的音量大于预设最低音量(v)为有效音量数据进行记录,例如有3个测试音量数据大于v,而相对的音频率为v0j1,v0j2,v0j3等音量大于v;即

vij1>=v

vij2>=v

vij2>=v

3.步骤a03:测试步骤a02所选取的音频率单元是不相连,即以j1,j2,j3由细到大排列,如果

j2=j1+1,选取较大的(vij1,vij2)而放弃较细音量的音频率;

j3=j2+1,j2=j1+1,即j1,j2及j3相连,选取较大的(vij1,vij2,vij3)而放弃较细音量的两个音频率;相连的定义为两个音频率单元号相差为1,而这种关系为对称及可传递的(symmetricandtransitiverelationship),即如果j1相连j2,j2也相连j1;j1相连j2及j2相连j3,j1也相连j3。

如些类推:4点相连选最高音量、5点相连选最高音量等。得出时间序列指数i内的相对有效音量数据的音频率而同时段内非相连音频率单元集:ti{fa,fb,fc,……}。

4.步骤a04:前进到下一个时序列指数i=i+1。

5.步骤a05:执行步骤a02及步骤a03而得出时间序列新的指数i内的相对有效高音量非相连音频率单元集:ti{fa,fb,fc,……}

6.步骤a06:比较ti-1{fa,fb,fc,……}及ti{fa,fb,fc,……}(即对比这一时段与上一时段的非相连音频率单元集):

对所有存在ti{fa,fb,fc,……}集内的的fx:

a.如果tifx与ti-1{fa,fb,fc,……}其中一点相连,即fx也在ti-1{fa,fb,fc,……}集内,又等于在ti-1和ti的时段,fx都是在山脊线;

b.如果tifx与ti-1{fa,fb,fc,……}其中一点相邻,即fx-1或fx+1在ti-1{fa,fb,fc,……}集内,又等于在ti-1fx-1连接tifx或ti-1fx+1连接tifx在山脊线;

c.如果tifx与ti-1{fa,fb,fc,……}其中两点相邻,即fx-1及fx+1在ti-1{fa,fb,fc,……}集内,又等于在ti-1fx-1连接tifx及ti-1fx+1连接tifx成山脊线;上述(a)或(b)能够连及的两点,即ti-1fa及tifb连成山脊线。

上述(c)代表两条山脊线合二为一。

7.步骤a07:比较ti-1{fa,fb,fc,……}及ti{fa,fb,fc,……}(即对比这一时段与上一时段的非相连音频率单元集):

对所有存在ti-1{fa,fb,fc,……}集内的的fx:

a.如果ti-1fx与ti{fa,fb,fc,……}其中一点相连,即fx也在ti{fa,fb,fc,……}集内,又等于在ti-1和ti,fx都是山脊线;(是重复了步骤a06的(a))

b.如果ti-1fx与ti{fa,fb,fc,……}其中一点相邻,即fx-1或fx+1在ti{fa,fb,fc,……}集内,又等于在ti-1fx连接tifx-1或tifx+1连接成山脊线;(是重复了步骤a06的(b))

c.如果ti-1fx与ti{fa,fb,fc,……}其中两点相邻,即fx-1及fx+1在ti{fa,fb,fc,……}集内,又等于在ti-1fx连接tifx-1及ti-1fx连接tifx+1成山脊线;上述(a)及(b)是重复步骤a06的两点,只是为了方便说明。上述(c)代表一条山脊线一分为二。

8.步骤a08:对所有存在ti-1{fa,fb,fc,……}集内的的fx,如果未能在步骤a07中连接到时段ti的音频率单元,代表山脊线在时段ti中断线,如果在ti-1之前所组成的山脊线较预定标准时序列长度为低,则所组成的山脊线放弃,否则组成所述音频片段的指纹,并作记录。

9.步骤a09:在步骤a06的合二为一仍当作两条山脊线处理。在步骤a07的一分为二,则将山脊线变成两条,各自记录。

10.步骤a10:仍有音频可作分析或未有终止采集山脊线指示则重回步骤a04。

11.步骤a11:在已还在采集的山脊线,所有时间序列长于标准时序列长度则储存起来,与步骤a08中记录得到的山脊线共集成预设音频片段的可用的山脊线。

12.步骤a12:将可用的山脊线只选取最初收集到的时序列,其长度为标准时序列长度,即所有长于标准时序列长度的指纹,会被减短。

为了进行记录预设音频片段,本发明利用上述步骤a01-a11采集一个时间序列,或称音频指纹,由于可以在同一时间内有可能有多于一个音频率的音量高于最低有效音量,对预设音频片段的指纹采集可以得出多于一条指纹。所述一条或多于一条的音频指纹用作以下的步骤中对比。

在采集到指纹后,需要对比现场摄取音频是否与预设音频片段一致。为了进行有效的对比,对预设音频片段的采集指纹方法与采集现场音频的指纹,所使用的预设数值一致,即有采集预设音频片段与采集现场音乐所使用的预设时间段、预设组合的音频率等一致。

1.步骤b01:启动摄取现场音频的智能移动装置的麦克风,而音讯源为智能移动装置的麦克风;执行步骤a01。

2.步骤b02:执行步骤a02,步骤a03。

3.步骤b03:连续摄取现场音频,到下一预设时间段,执行步骤a04,步骤a05,步骤a06,步骤a07,步骤a08,步骤a09。

4.步骤b04:对所有已达到标准时间序列长度的第一山脊线,转换为指纹,进行对预设音频片段的指纹集进行比较,即对比指纹中的形状单元,如果寻索找到相同,终止山脊线采集并得出匹配结果。如果在摄取现场音频所采集的指纹有多于一个可用指纹,以每一指纹与预设音频片段的指纹集进行比较,如果寻索找到相同,终止指纹采集并得出匹配结果。

5.步骤b05:在步骤b04以摄取现场音频所采集的指纹寻索而未能找到匹配的指纹,将指纹的首个时序列的音频率单元清除。

6.步骤b06:如果程序未被终止,回到步骤b03到下一个预设时段。如果程序被终止,即未能找到匹配的指纹。

参见图6,作为分析及储存上述预设音频片段采集指纹:

1.音源为预设音频片段,为了方便说明,矩阵内的数量为测量得到的音量,而部份没有数据代表所测量的音量低于最低有效音量(在本实施方案,最低有效音量为70db)。

2.执行步骤a01,步骤a02,步骤a03,得出t0的音频率集有1个音频:音频率单元4。

3.执行步骤a04,步骤a05得出t1的音频率集有2个音频:音频率单元5及11。

4.执行步骤a06,步骤a07,步骤a08,步骤a09:得出t0f4及t1f5符合步骤a06中(b)点,形成一山脊线。而t1f11未能t0中找到联机,是新的开始。

5.现有t1的山脊线为(t0f4,t1f5)及(t1f11)。

6.执行步骤a10重回步骤a04,步骤a05得出t2的音频率集有2个音频:音频率单元5及13。

7.执行步骤a06,步骤a07,步骤a08,步骤a09:得出t1f5及t2f5符合步骤a06中(a)点,形成一山脊线。而t1f11未能连接下一点,所以山脊点于t1f11断了,而由于山脊线只有1长度,是山脊线放弃。

8.现有t2的山脊线为(t0f4,t1f5,t2f5)及(t2f13)。

9.执行步骤a10重回步骤a04,步骤a05得出t3的音频率集有3个音频:音频率单元4,8及14。

10.执行步骤a06,步骤a07,步骤a08,步骤a09:得出t2f13及t3f14符合步骤a06中(b)点,形成一山脊线;t2f5及t3f4符合步骤a06中(b)点,形成一山脊线。而t3f8未能t2中找到联机,是新的开始。

11.现有t3的山脊线为(t0f4,t1f5,t2f5,t3f4),(t3f8)及(t2f13,t3f14)。

12.如些类推。

13.现有t6的山脊线为(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5),(t3f8,t4f9,t5f9,t6f9)及(t2f13,t3f14,t4f13,t5f12,t6f11)。

14.到t7:

a.山脊线(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5)延长到(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6);

b.山脊线(t3f8,t4f9,t5f9,t6f9)延长到(t3f8,t4f9,t5f9,t6f9,t7f10);

c.由于t6f11连接t7f10连t7f12,跟据步骤a07(c)山脊线一分为二:(t2f13,t3f14,t4f13,t5f12,t6f11,t7f10)及(t2f13,t3f14,t4f13,t5f12,t7f12)。

现有t7的山脊线为(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6),(t3f8,t4f9,t5f9,t6f9,t7f10),(t2f13,t3f14,t4f13,t5f12,t6f11,t7f10)及(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12)。

15.现有t8的山脊线为(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6,t8f5),(t3f8,t4f9,t5f9,t6f9,t7f10,t8f10),(t2f13,t3f14,t4f13,t5f12,t6f11,t7f10,t8f10)及(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12)。

16.到t9:

a.山脊线(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6,t8f5)延长到(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6,t8f5,t9f4);

b.山脊线(t3f8,t4f9,t5f9,t6f9,t7f10,t8f10)太短:放弃;

c.山脊线(t2f13,t3f14,t4f13,t5f12,t6f11,t7f10,t8f10)太短:放弃;

d.山脊线(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12)延长到(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12,t9f12);

现有t9的山脊线为(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6,t8f5,t9f4)及(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12,t9f12)。

17.到t10:

a.山脊线为(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6,t8f5,t9f4)终结,但比标准时序列长度为多,所述山脊线储存为山脊线;

b.山脊线(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12,t9f12)延长到(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12,t9f12,t10f11);

现有t10的山脊线为(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12,t9f12,t10f11)。

18.如些类推。

19.现有t13的山脊线为(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12,t9f12,t10f11,t11f12,t12f13),所述山脊线终止并储存为山脊线。

20.在这种例子中预设音频片段可成功采集的山脊线为:

a.(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6,t8f5,t9f4)及

b.(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12,t9f12,t10f11,t11f12,t12f13)。

21.执行步骤a12在这种例子中预设音频片段可成功采集的山脊线为(本实施方案标准时序列长度为9):

a.(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6,t8f5)及

b.(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12,t9f12,t10f11)。

22.上述(21)得到的山脊线转换为指纹:

a.[t0,(f4,f5,f5,f4,f4,f5,f5,f6,f5)],即从时序0开始,其形状为(f4,f5,f5,f4,f4,f5,f5,f6,f5)及

b.[t2,(f13,f14,f13,f12,f11,f12,f12,f12,f11),即从时序2开始,其形状为(f13,f14,f13,f12,f11,f12,f12,f12,f11)。

如图6所示,作为现场收音采集指纹:

1.执行步骤b01-b03:在t0到t8与上述分析预设音频片段一样,在t8得出山脊线为:

a.a=(t0f4,t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6,t8f5);

b.b=(t3f8,t4f9,t5f9,t6f9,t7f10,t8f10);

c.c=(t2f13,t3f14,t4f13,t5f12,t6f11,t7f10,t8f10);及

d.d=(t2f13,t3f14,t4f13,t5f12,t6f11,t7f12,t8f12)。

2.执行步骤b04:由于(1)之中的山脊线已达标准时序列长度,即刻山脊线a成为采集到的有效现场音频指纹,对早前已采集及储存的指纹进行寻索对比。如果结果为匹配则采集完毕并得到匹配的结果。

3.执行步骤b05:如果在(2)之中未能得到效的现场音频指纹,将已达到标准时序列长度,将山脊线第一时序的音频率清除,即山脊线a改为(t1f5,t2f5,t3f4,t4f4,t5f5,t6f5,t7f6,t8f5);

4.执行步骤b06:重复到步骤b03。

综上所述,本发明通过采集欲辨识的音频片段中达到预设时序序列长度的至少一条第一山脊线;在将采集到的所述第一山脊线与预存的至少一条第二山脊线比对一致后,辨识出所述音频片段;其中,所述第一山脊线和第二山脊线均是由时间时序和音频频率组成的时间-音频坐标中,每个时序序列对应的多个音频频率中到达预设的音量阈值的点连线构成。由此,在分析一份音频时,所要分析比较的指纹点少分析过程的所耗费的时间短,效率高。最终使得音频片段的辨识操作更为简便,效率更高。

当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1