一种基于特征的音乐版权识别方法与流程

文档序号：14268065阅读：1309来源：国知局

本发明属于音频识别技术领域，具体涉及一种基于特征的音乐版权识别方法。

背景技术：

随着互联网技术的快速发展，许多原创的数字音频资源都利用网络传播，利用互联网的便利性，人们可以很轻松的下载音频资源，在未经过授权的情况下利用音乐制作音视频文件流传网络。传播过程中就严重涉及到版权问题，随着互联网版权意识的提升，越来越多的人们开始致力于保护原创作品，维护版权。因此，利用软件为对音视频提供识别服务就很有必要。

目前应用多是听歌识曲，根据用户喜欢的音频片段，查找该歌曲。由于视频背景音或节目类音频存在开始和持续时间不确定的因素，因而很少运用该技术对视频背景或节目类音频版权的识别。

phillips研究人员提出了一种有效的基于频谱多子带特征提取的prh音频指纹提取算法，但公众能够获得的音频研究文档却不多，该算法存在检索时间随机性、计算量大、对音高敏感的问题。

echoprint对上万的歌曲识别慢，对噪音较多的文件识别率低。

技术实现要素：

本发明针对现有的音频识别方法中存在识别率低或识别不准确的问题，提供一种基于特征的音乐版权识别方法，有效提高音频文件的识别率，以及准确性，同时解决视频背景或节目类音频音乐出现的时间点和持续时间不确定的问题，识别速度快，为音频版权识别以及鉴别提供有效帮助。

为了实现上述目的，本发明采用的技术方案为：

一种基于特征的音乐版权识别方法，包括获取待识别音频文件，对所述音频文件分片处理，提取音频片段的音频指纹，遍历指纹库的音频指纹，将提取的音频片段的音频指纹与指纹库的音频指纹进行匹配，获得匹配结果；

对所述匹配结果进行优化处理，包括统计出现相同时间差最多的指纹个数是否大于第一预设阈值，如果是，计算出现相同时间差最多的音频指纹持续时间；

判断所述音频指纹持续时间是否大于第二预设阈值，如果是，分析音频指纹对应的时间点的个数；

判断所述时间点的个数是否大于第三预设阈值，如果是，获得每个音频片段的识别结果；

将每个音频片段的识别结果进行合并处理，合并后的连续音频片段的识别结果再按照上述优化处理的方法计算置信度，输出不低于置信度的识别结果，最后根据歌曲标识信息查询歌曲详细信息。

优选地，将提取的音频片段的音频指纹与指纹库的音频指纹进行匹配，匹配的方法包括：

识别服务器从任务队列中获取待识别的音频片段的音频指纹，然后利用这些音频指纹从指纹库中找到包含这些音频指纹的歌曲和对应歌曲的时间点，将待识别的音频指纹对应的时间点减去从指纹库得到歌曲的时间点得到一个时间差，最后统计出现相同时间差和歌曲标识最多的歌曲。

优选地，所述提取音频片段的音频指纹采用的是shazam算法提取。

优选地，所述的音频指纹持续时间的计算方法包括时间差最多的那一部分指纹获取对应的最大时间点和最小时间点计算出持续时间段,然后乘以shazam算法指纹提取过程中的每一帧代表的时间，最后计算出实际持续时间。

优选地，所述的合并处理包括首先利用该段索引值乘以每段时间长度计算出每一段的开始时间，然后根据相邻段如果识别到的音频相同且时间差等于分片长度的、或第一段的结果与第二段结果不同但与第三段相同且时间差等于第二段片段长度进行合并。

优选地，所述根据歌曲标识信息查询歌曲详细信息包括利用歌曲指纹对应的时间点计算出歌曲在待识别音频文件的开始时间，并输出包含开始时间、持续时间、歌名的歌曲详细信息。

由于采用了上述技术方案，本发明的有益效果是：

通过在分片或分段式识别方法的基础上，通过分别对指纹个数、指纹持续时间以及时间点的个数依次进行置信度计算以及判断，从而有效提高音频识别的准确性以及识别率；

利用对音视频切片，识别后合并的方式解决视频或包含多段音乐的音频出现音乐时间点和持续时长不确定的问题，为现有的视频背景音乐以及综艺节目类音频音乐识别困难，版权侵犯鉴别困难提供了有效的解决办法。

附图说明

图1为本发明的合并处理示例一示意图。

图2为本发明的合并处理示例二示意图。

具体实施方式

本发明的基于特征的音乐版权识别方法，指纹提取和检索基于shazam算法。因为用于音视频版权检测，所以待识别的文件不可能存在大量噪音，所以不需要使用cqt来增强算法的抗噪能力，避免了多余计算量节省识别时间。

shazam算法包括：

1)对音频分帧加窗：本发明采用的帧大小为1024，50％重叠，汉宁窗，窗大小等于帧大小。

2)对每一帧数据进行fft，得到频谱图。利用采样率(sr)、窗大小(sz)、重叠率(ol)可以计算出一帧所代表的时间段(ft)：

ft＝sz*ol/sr

带入相关数值就可以计算一帧所代表的时间，因此本发明采用的是46ms一帧。

3)合并每一帧频谱图得到时频图，这个过程也叫stft。

4)利用可变滑动窗(低频小而高频大)找到窗内能量最大点。

5)利用这些能量点的频率和时间点构成指纹。

通过上述shazam算法即可提取到音频指纹。

为解决视频背景或节目类音频音乐出现的时间点和持续时间不确定的问题，包括音频入库形成指纹库、以及音频匹配或识别的过程。

其中，指纹库的建立包括对已知音频文件hash处理，得到音频标识，将音频标识和该音频基础数据加入基础数据库，提取音频指纹，将音频标识和音频指纹加入指纹数据库，指纹库的建立或音频入库的过程。

而音频匹配或识别的过程包括首先对待识别音频进行分段或分片处理，具体地，对音视频按照时间进行切片处理，切片的大小将影响视频识别结果的开始时间点和持续时间的精度。切片越小精度越高，同时因为切片小最终片段越多将导致识别的计算量大最终耗时越长，经过反复实验以及计算，最终采用10秒，然后对将每段提取指纹和该切片的索引信息加入任务队列。

识别服务器从任务队列中获取待识别的音视频片段的指纹，然后利用这些指纹从数据库中找到包含这些指纹的歌曲和对应歌曲的时间点，将待识别的指纹对应的时间点减去从数据库得到歌曲的时间点得到一个时间差，最后统计出现相同时间差和歌曲标识最多的那个即为最相似的歌曲，亦可得到音乐标识信息。

为了进一步提高识别率以及识别准确度，本发明还继续统计时间差最多的指纹个数，利用该数值除以片段产生的全部指纹数得到一个比例值，如果该值大于一个预先设定的阀值则进入下一步否则不匹配，该预先设定的阈值为第一预设阈值，本发明该值设置为8‰。

更进一步地，在上述匹配成功后，在获得的时间差最多的那一部分指纹中，获取对应的最大时间点(max_time_point)和最小时间点(min_time_point)，计算出持续时间段,然后根据步骤2中的每一帧代表的时间(ft)可以计算出实际持续时间(timespan)：

timespan＝(max_time_point–min_time_point)*ft；

根据持续时间可以预先设置一个时间段的阀值过滤掉低于该时间段的结果，同时因为每帧时间ft受采样率、窗大小等算法固定的值的影响，因此只需要对指纹的时间点之差设置一个阀值即可，该阈值为第二预设阈值，本发明该阀值为40对应的阀值时间为1.85秒，也就是说识别片段必须持续1.85秒以上。

通过对持续时间的判断，能够有效排除持续时间短的识别结果，能够进一步地提高音频识别的准确度，可信程度也进一步提高。

由于shazam算法指纹数量大导致可能在某一小片段与指纹库中歌曲相似而被识别，为避免同一个时间点匹配到的指纹数过多，对指纹产生的时间点个数设定一个阀值过滤掉时间点少的结果，并利用该时间点个数为基础生成新的置信度。具体地，在通过持续时间判断后的识别结果进一步分析指纹对应时间点的个数，并设置一个阀值过滤掉时间点个数低于该阀值的结果，该阀值为第三预设阀值，由于后续存在合并处理的步骤所以该阀值可以设置为一个较小的值，本发明该阀值为3。通过反复实验以及计算研究发现时间点个数8约有50％正确率，个数10有80％正确率，正确率随时间点增加而增加，因此可以利用该时间点个数计算一个置信度。

通过对指纹产生的时间点个数进行筛选，能够有效避免同一个时间点匹配过多的指纹个数，极大的减少了匹配或识别的运算量，提高了识别率。

通过以上步骤，能够得到每段或每片音频指纹的识别结果，保存每段的识别结果，待全部片段识别完成后提取出全部的结果进行合并操作，首先利用该段索引值乘以每段时间长度可以计算出每一段的开始时间，然后根据相邻段进行合并，如图1和图2所示示例。如果识别到的音频相同且时间差等于分片长度的或第一段的结果与第二段结果不同但与第三段相同且时间差等于第二段片段长度进行合并。图1中，假设分片长度为10秒，合并前有3段识别为音频a的结果，且开始时间分别为10秒、20秒和30秒，持续时间都是10秒，因为它们的开始时间之差等于片段长度，可以合并，合并后的开始时间为10秒，持续时间为30秒。图2中，假设分片长度为10秒，合并前有3段分片中第1段和第3段识别为a的结果，且开始时间分别为10秒和30秒，持续时间都是10秒，其中第2段没有结果或其它识别结果，但是由于第3段的开始时间与第1段的开始时间之差等于第2段长度，所以可以进行合并，合并后，开始时间为10秒，持续时间为30秒。

通过上述合并操作，能够解决视频或包含多段音乐的音频出现音乐时间点和持续时长不确定的问题，例如在一个综艺节目中使用的背景音乐，涉及到一段音乐、中间出现断点、中间缺失或者部分再编辑而导致现有的音频识别困难的问题，通过本发明的合并处理的方式，能够将待识别音频文件分片识别，获得一系列连续的识别结果或单段结果，最后再合并处理，然后重新对连续的结果计算置信度。设置一个置信度阀值，输出不低于该阀值置信度的结果。最后得出可信度更高的识别结果，同时利用歌曲标识从基础数据库中获取歌曲信息，输出包含开始时间、持续时间、歌名的歌曲详细信息，为音乐版权识别提供更准确的数据，提供更加详细的信息，便于数据的整理以及分析，为侵权鉴别提供帮助。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹学渊;王东明;何林
技术所有人：成都嗨翻屋文化传播有限公司
我是此专利的发明人

上一篇：一种货物运输机的制作方法
上一篇：活性材料复合颗粒、包括其的电极复合物及其制造方法与流程