一种音频流媒体的跟踪方法及系统的制作方法

文档序号:6381982阅读:213来源:国知局
专利名称:一种音频流媒体的跟踪方法及系统的制作方法
一种音频流媒体的跟踪方法及系统技术领域
本发明涉及音频处理技术领域,特别涉及一种音频流媒体的跟踪方法及系统。背景技术
目前,用户在收听流媒体时(例如电台歌曲),由于播放一首完整的流媒体需要持续一段时间(例如3到4分钟),如何在播放过程中持续跟踪流媒体以实时显示准确的流媒体信息尤为重要。现有技术中,可以采用音频指纹(fingerprint)技术对流媒体进行跟踪。 音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致的数字签名。音频指纹技术通常包括两个部分即一个计算听觉重要特征的指纹提取算法和一个在指纹数据库中进行有效搜索的指纹比对算法。当要识别一段未知音频时,首先按照指纹提取算法计算其音频特征,然后和指纹数据库中存储的大量音频指纹按照指纹比对算法进行比对,识别出对应的音频。一个有效的音频指纹技术能够在数据库中正确识别出可能经受各种信号处理的、失真的未知音频的原始版本。
音频指纹系统的目标是通过接收音频信号并利用预先构建的音频指纹数据库搜索对应的音频来识别预定的音频。根据应用领域,音频指纹系统已经用于广播监视器、CF 识别、和文件过滤。为了在所述应用领域中有效地使用音频指纹系统,甚至在各种失真情况下,也需要高识别率和快的搜索速度。具体地,为了在P2P或UCC领域中过滤文件,需要迅速且准确地搜索由其每一个具有自己的版权的几十万个音频文件形成的音频指纹数据。对于在基于大容量音频指纹数据库进行操作的广播监视和文件过滤领域中的实时处理,识别速度是最重要因素之一。
现有技术中采用音频指纹(fingerprint)技术对流媒体进行跟踪包括首先对音频片段的音频信号进行分帧后,基于起始点检测算法确定关键帧,提取关键帧的音频指纹, 将关键帧的音频指纹和流媒体信息对应存储到哈希表中,用户输入音频片段进行音频指纹检索,基于该音频片段的音频信号得到音频指纹,再根据该音频指纹从所述哈希表中匹配对应的流媒体信息,得到包含所述音频片段的流媒体信息,实现流媒体的识别,并需要在流媒体播放过程中持续不断的进行上述音频指纹匹配直到流媒体播放结束;上述流媒体跟踪方式在已经识别出流媒体之后,仍然持续进行音频指纹匹配这种费时费力的计算,对计算资源和内存资源都是一种巨大的消耗,通常检索的反应时间会比较长(比如I秒);同时,持续进行这种匹配计算,如果前后 两次匹配的结果稍有差别(由于存在重复流媒体但流媒体名称和歌手名小有差异的情况),还会增加流媒体识别的复杂度(比如结果排序)。
故,有必要提出一种新的技术方案,以解决上述流媒体跟踪方式在已经识别出流媒体之后仍然持续进行音频指纹匹配浪费计算资源和内存资源且增加流媒体识别复杂度的技术问题。
发明内容
本发明的一个目的在于提供一种流媒体跟踪方法及系统,旨在解决现有技术中的流媒体跟踪方式在已经识别出流媒体之后仍然持续进行音频指纹匹配浪费计算资源和内 存资源且增加流媒体识别复杂度的技术问题。
为达到上述目的,本发明提供了一种音频流媒体的跟踪方法,包括
对播放的音频流按照时间间隔进行切分,通过音频指纹得到当前音频流片段的匹 配流媒体信息;
判断下一个音频流片段与匹配流媒体信息的匹配度是否大于预设阀值,如果下一 个音频流片段与匹配流媒体信息的匹配度小于预设阀值,重新匹配下一个音频流片段的流 媒体信息;如果下一个音频流片段与匹配流媒体信息的匹配度大于预设阀值,执行下一步 骤;
设置下一个音频流片段的匹配流媒体信息为所述当前音频流片段的匹配流媒体信息。
在上述音频流媒体的跟踪方法中,所述音频指纹为代表音频流媒体重要声学特征 的基于内容的数字签名。
在上述音频流媒体的跟踪方法中,所述通过音频指纹得到当前音频流片段的匹配 流媒体信息步骤包括
对当前音频流片段的音频信号进行分帧处理,得到分帧频谱通过起始点检测算法检测各分帧频谱图中的关键帧,保留关键帧的分帧频谱得到所述关键帧的音频指纹,根据关键帧的音频指纹对应的流媒体信息计算得到 包含当前音频流片段的流媒体信息并返回匹配结果。
在上述音频流媒体的跟踪方法中,在所述通过起始点检测算法检测各分帧频谱图 中的关键帧,保留关键帧的分帧频谱图步骤后还包括
对关键帧进行短时的DCT变换,保留主要的DCT系数;
采用二进制表示保留的DCT系数,并采用最小哈希算法将采用二进制表示的DCT 系数转换为音频指纹。
在上述音频流媒体的跟踪方法中,在所述得到所述关键帧的音频指纹,根据关键 帧的音频指纹对应的流媒体信息计算得到包含当前音频流片段的流媒体信息并返回匹配 结果步骤中还包括
将音频指纹分为一定数量的音频子指纹和哈希子表,将音频子指纹存储到哈希子 表中,并通过计算各个音频子指纹的出现次数找到相近匹配音频子指纹,放弃音频子指纹 出现次数小于匹配阀值的音频子指纹;
将当前音频流片段的指纹与保留的音频子指纹进行比较,通过保留的音频子指纹 与音频流片段的指纹的哈明距离计算出匹配误差,得到精确匹配音频子指纹。
在上述音频流媒体的跟踪方法中,在所述得到精确匹配音频子指纹步骤后还包 括用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的流 媒体信息,得到包含当前音频流片段的匹配流媒体信息并返回匹配结果。
在上述音频流媒体的跟踪方法中,在所述通过音频指纹得到当前音频流片段的匹 配流媒体步骤后还包括根据匹配结果进行界面展示信息的切换,在所述界面中展示流媒 体信息及状态。
在上述音频流媒体的跟踪方法中,在所述判断下一个音频流片段与上述匹配流媒体信息的匹配度是否大于预设阀值步骤前还包括计算下一个音频流片段的指纹与匹配流媒体信息的指纹的哈明距离,得到下一个音频流片段与匹配流媒体信息的匹配度。
本发明还提供了一种音频流媒体的跟踪系统,包括
音频处理模块用于对播放的音频流按照时间间隔进行切片处理;
信息匹配模块用于通过音频指纹得到当前音频流片段的匹配流媒体信息;
匹配度判断模块用于判断下一个音频流片段与匹配流媒体信息的匹配度是否大于预设阀值,如果匹配度小于预设阀值,则重新匹配下一个音频流片段的流媒体信息;如果匹配度大于预设阀值,返回下一个音频流片段的匹配流媒体信息为当前音频流片段的匹配流媒体信息;
结果返回模块用于设置下一个音频流片段的匹配流媒体信息为当前音频流片段的匹配流媒体信息。
在上述音频流媒体的跟踪系统中,所述信息匹配模块还包括
频谱图提取单元用于对当前音频流片段的音频信号进行分帧处理,得到分帧频谱关键帧检测单元用于通过起始点检测算法检测各分帧频谱图是否为关键帧,将关键帧的分帧频谱图保留,抛弃非关键帧的分帧频谱图。
在上述音频流媒体的跟踪系统中,所述信息匹配模块还包括
DCT变换单元用于对关键帧进行短时的DCT变换,保留主要的DCT系数,并采用 ~■进制表不保留的DCT系数;
指纹转换单元用于采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹;
指纹匹配单元用于用将音频指纹分为一定数量的音频子指纹和哈希子表,并通过计算各个音频子指纹的出现次数找到相近匹配音频子指纹,并放弃音频子指纹出现次数小于匹配阀值的音频子指纹。
在上述音频流媒体的跟踪系统中,所述信息匹配模块还包括
指纹确定单元用于将当前音频流片段的指纹与保留的音频子指纹进行比较,通过保留的音频子指纹与音频流片段的指纹的哈明距离,计算出匹配误差,得到精确匹配音频子指纹;
信息匹配单元用于用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的流媒体信息,得到包含当前音频流片段的匹配流媒体信息并输出匹配结果。
在上述音频流媒体的跟踪系统中,所述系统还包括信息展示模块用于根据匹配结果进行界面展示信息的切换,在所述界面中展示流媒体信息及状态。
在上述音频流媒体的跟踪系统中,所述匹配度判断模块判断下一个音频流片段与匹配流媒体信息的匹配度是否大于预设阀值的判断方式为计算下一个音频流片段的指纹与匹配流媒体信息的指纹的哈明距离,得到下一个音频流片段与匹配流媒体信息的匹配度。
在上述音频流媒体的跟踪方法中,所述音频指纹为代表音频流媒体重要声学特征的基于内容的数字签名。
在上述音频流媒体的跟踪方法中,所述通过音频指纹得到当前音频流片段的匹配 流媒体步骤包括
对当前音频流片段的音频信号进行分帧处理,得到分帧频谱通过起始点检测算法检测各分帧频谱图中的关键帧,保留关键帧的分帧频谱得到所述关键帧的音频指纹,根据关键帧的音频指纹对应的流媒体信息计算得到 包含当前音频流片段的流媒体信息并返回匹配结果。
在上述音频流媒体的跟踪方法中,在所述通过起始点检测算法检测各分帧频谱图 中的关键帧,保留关键帧的分帧频谱图步骤后还包括
对关键帧进行短时的DCT变换,保留主要的DCT系数;
采用二进制表示保留的DCT系数,并采用最小哈希算法将采用二进制表示的DCT 系数转换为音频指纹。
在上述音频流媒体的跟踪方法中,在所述得到所述关键帧的音频指纹,根据关键 帧的音频指纹对应的流媒体信息计算得到包含当前音频流片段的流媒体信息并返回匹配 结果步骤中还包括
将音频指纹分为一定数量的音频子指纹和哈希子表,将音频子指纹存储到哈希子 表中,并通过计算各个音频子指纹的出现次数找到相近匹配音频子指纹,放弃音频子指纹 出现次数小于匹配阀值的音频子指纹;
将当前音频流片段的指纹与保留的音频子指纹进行比较,通过保留的音频子指纹 与音频流片段的指纹的哈明距离计算出匹配误差,得到精确匹配音频子指纹。
在上述音频流媒体的跟踪方法中,在所述得到精确匹配音频子指纹步骤后还包 括用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的流 媒体信息,得到包含当前音频流片段的流媒体信息并返回匹配结果。
在上述音频流媒体的跟踪方法中,在所述通过音频指纹得到当前音频流片段的匹 配流媒体步骤后还包括根据匹配结果进行界面展示信息的切换,在所述界面中展示流媒 体信息及状态。
在上述音频流媒体的跟踪方法中,在所述判断下一个音频流片段与上述匹配流媒 体的匹配度是否大于预设阀值步骤前还包括计算下一个音频流片段的指纹与匹配流媒体 的指纹的哈明距离,得到下一个音频流片段与匹配流媒体的匹配度。
本发明还提供一种音频流媒体的跟踪系统,包括
音频处理模块用于对电台的音频流按照时间间隔进行切片处理;
信息匹配模块用于通过音频指纹得到当前音频流片段的匹配流媒体内容;
匹配度判断模块用于判断下一个音频流片段与匹配流媒体内容的匹配度是否大 于预设阀值,如果匹配度小于预设阀值,则重新匹配下一个音频流片段的流媒体内容;如果 匹配度大于预设阀值,返回下一个音频流片段的匹配流媒体内容为当前音频流片段的匹配 流媒体内容;
结果返回模块用于设置下一个音频流片段的匹配流媒体内容为当前音频流片段 的匹配流媒体内容。
在上述音频流媒体的跟踪系统中,所述信息匹配模块还包括
频谱图提取单元用于对当前音频流片段的音频信号进行分帧处理,得到分帧频谱关键帧检测单元用于通过起始点检测算法检测各分帧频谱图是否为关键帧,将关键帧的分帧频谱图保留,抛弃非关键帧的分帧频谱图。
在上述音频流媒体的跟踪系统中,所述信息匹配模块还包括
DCT变换单元用于对关键帧进行短时的DCT变换,保留主要的DCT系数,并采用 ~■进制表不保留的DCT系数;
指纹转换单元用于采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹;
指纹匹配单元用于用将音频指纹分为一定数量的音频子指纹和哈希子表,并通过计算各个音频子指纹的出现次数找到相近匹配音频子指纹,并放弃音频子指纹出现次数小于匹配阀值的音频子指纹。
在上述音频流媒体的跟踪系统中,所述信息匹配模块还包括
指纹确定单元用于将当前音频流片段的指纹与保留的音频子指纹进行比较,通过保留的音频子指纹与音频流片段的指纹的哈明距离,计算出匹配误差,得到精确匹配音频子指纹;
信息匹配单元用于用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的流媒体信息,得到包含当前音频流片段的流媒体信息并输出匹配结果O
在上述音频流媒体的跟踪系统中,所述系统还包括信息展示模块用于根据匹配结果进行界面展示信息的切换,在所述界面中展示流媒体信息及状态。
在上述音频流媒体的跟踪系统中,所述匹配度判断模块判断下一个音频流片段与匹配流媒体的匹配度是否大于预设阀值的判断方式为计算下一个音频流片段的指纹与匹配流媒体的指纹的哈明距离,得到下一个音频流片段与匹配流媒体的匹配度。
本发明音频流媒体的跟踪方法及系统在识别出流媒体后,判断当前流媒体是否是前一首匹配流媒体,如果是,直接就可以返回结果;反之,再重新进行流媒体匹配,由于只需要匹配当前流媒体与前一首流媒体的指纹,内存占用少,提高计算速度,不仅仅能大大降低流媒体匹配的计算复杂度,而且能实现稳定的流媒体匹配结果,有效避免展示给用户的匹配结果出现不稳定的情况,提高匹配准确度;并能有效减少在播放流媒体过程中外部音频对流媒体匹配准确性的影响,提升用户体验。
为让本发明的上述内容能更明显易懂,下文特举优选实施例,并配合所附图式,作详细说明如下

图1为本发明第一实施例的音频流媒体的跟踪方法的流程图2为本发明第二实施例的音频流媒体的跟踪方法的流程图3为本发明音频流片段流媒体信息匹配方式的流程图4为本发明音频流片段流媒体信息匹配方式的工作原理图5为本发明未匹配出流媒体的状态示意图
图6为本发明展示匹配流媒体信息的状态示意图7为本发明第一实施例的音频流媒体的跟踪系统的结构示意图8为本发明第二实施例的音频流媒体的跟踪系统的结构示意图。
具体实施方式
以下各实施例的说明是参考附加的图式,用以例示本发明可用以实施的特定实施例。
请参考图1,为本发明第一实施例的音频流媒体的跟踪方法的流程图。本发明第一实施例的音频流媒体的跟踪方法包括下列步骤
步骤SlOO :对电台播放的音频流按照时间间隔进行切分,通过音频指纹得到当前音频流片段的匹配流媒体;
在步骤SlOO中,音频流切片的间隔时间可根据实际应用进行设置,在本发明实施例中,音频流切片的间隔时间为10秒;音频流片段的流媒体信息匹配方式包括对当前音频流片段的音频信号进行分帧处理,得到分帧频谱图;通过起始点检测算法检测各分帧频谱图是否为关键帧,将关键帧的分帧频谱图保留,抛弃非关键帧的分帧频谱图;得到所述关键帧的音频指纹,根据关键帧的音频指纹对应的流媒体信息计算得到包含当前音频流片段的流媒体信息并返回匹配结果。
步骤SllO :判断下一个音频流片段与前一首匹配流媒体的匹配度是否大于预设阀值,如果下一个音频流片段与前一首匹配流媒体的匹配度小于预设阀值,则结束展示前一首匹配流媒体信息,并重新执行步骤SlOO匹配下一个音频流片段的流媒体信息;如果下一个音频流片段与前一首匹配流媒体的匹配度大于预设阀值,执行步骤S120 ;
在步骤SllO中,当匹配到一首流媒体后,在随后的流媒体跟踪时,只需要判断当前流媒体是否是之前匹配的那首流媒体,如果是,直接就可以返回结果;反之,再重新进行流媒体匹配,由于只需要匹配当前流媒体与前一首流媒体的指纹,内存占用少,提高计算速度,不仅仅能大大降低流媒体匹配的计算复杂度,而且能实现稳定的流媒体匹配结果,有效避免展示给用户的匹配结果出现不稳定的情况,例如对同一首流媒体进行 匹配时,前后匹配结果的频繁变化,提高匹配准确度;并能有效减少在播放流媒体过程中外部音频对流媒体匹配准确性的影响,例如播放流媒体时主持人偶尔的谈话或简短的广告等;判断下一个音频流片段与前一首匹配流媒体的匹配度是否大于预设阀值的判断方式为计算下一个音频流片段的指纹与前一首匹配流媒体的指纹的哈明距离,得到下一个音频流片段与前一首匹配流媒体的匹配度。
步骤S120 :设置下一个音频流片段的匹配流媒体为所述当前音频流片段的匹配流媒体。
请参考图2,为本发明第二实施例的音频流媒体的跟踪方法的流程图。本发明第二实施例的音频流媒体的跟踪方法包括下列步骤
步骤S200 :对电台的音频流按一定时间间隔进行切片处理;
在步骤S200中,音频流切片的间隔时间可根据实际应用进行设置,在本发明实施例中,音频流切片的间隔时间为10秒。
步骤S210 :通过音频指纹对当前音频流片段进行流媒体信息匹配;
在步骤S210中,请参阅图3,为本发明音频流片段流媒体信息匹配方式的流程图;本发明音频流片段流媒体信息匹配方式包括以下步骤
步骤S211 :对当前音频流片段的音频信号,平均以d/N毫秒时间随机提取其11.6*w毫秒窗长的频谱图,得到分帧频谱步骤S212 :通过起始点检测算法检测各分帧频谱图是否为关键帧,将关键帧的分帧频谱图保留,抛弃非关键帧的分帧频谱在步骤S212中,所述通过起始点检测算法检测各分帧频谱图是否对应关键帧具体为对所述分巾贞处理后得到的各分巾贞进行FFT(Fast Fourier Transformation快速傅氏变换)+LPC变换(linear predictive coding线性预测编码)确定所述各分巾贞中的关键帧。
步骤S213 :对关键巾贞进行短时的DCT (Discrete Cosine Transform,离散余弦变换)变换,保留主要的DCT系数;
步骤S214 :采用二进制表示保留的DCT系数;
步骤S2151:采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹;
在步骤S215中,最小哈希算法的随机排列方式在音频指纹存储和查询时相同。
步骤S216:用LSH (Locality Sensitive Hashing,位置敏感哈希算法)方法将音频指纹分为b (bin)块音频子指纹和I个哈希子表,将b块音频子指纹存储到哈希子表中, 并通过计算各个音频子指纹的出现次数找到相近匹配音频子指纹;
在步骤S216中,如图4所示的“ABCDEFGHIJKLMNOPQRSTUVWXY”表示提取得到的一个音频指纹,“ABCDE”、“EFGHI”、……、“UVWXY”分别表示由分割一个音频指纹后得到的音频子指纹;
步骤S217 :放弃音频子指纹出现次数小于匹配阀值的音频子指纹;
在步骤S217中,如图4所示,在哈希子表中,音频子指纹在音频文件信息7、12、50、 92,102,302中的出现 次数分别为1、1、1、3、2、1,假设当前预设的匹配阈值为2,则音频文件信息92、102所对应的音频子指纹为相近匹配音频子指纹。
步骤S218 :将当前音频流片段的指纹与保留的音频子指纹进行比较,通过保留的音频子指纹与音频流片段的指纹的哈明距离(Hamming distance),计算出匹配误差,得到精确匹配音频子指纹;
步骤S219 :用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的流媒体信息,得到包含当前音频流片段的匹配流媒体信息并返回匹配结果O
步骤S220 :根据匹配结果进行界面展示信息的切换,在所述界面中展示流媒体信息及状态;
在步骤S220中,具体流媒体展示效果请参阅图5和图6,图5为本发明未匹配出流媒体的状态示意图;图6为本发明展示匹配流媒体信息的状态示意图,通过利用播放界面局部区域的改变,让用户快速辨别当前有无匹配结果,提升使用体验。
步骤S230 :计算下一个音频流片段的指纹与前一首匹配流媒体信息的指纹的哈明距离,得到下一个音频流片段与前一首匹配流媒体信息的匹配度,并判断匹配度是否大于预设阀值,如果匹配度大于预设阀值,执行步骤S240;如果匹配度小于预设阀值,则结束前一首匹配流媒体信息的展示,并重新执行步骤S210 ;
在步骤S230中,当匹配到一首流媒体后,在随后的流媒体跟踪时,只需要判断当 前流媒体是否是之前匹配的那首流媒体,如果是,直接就可以返回结果;反之,再重新进行 流媒体匹配,由于只需要匹配当前流媒体与前一首流媒体的指纹,内存占用少,提高计算速 度,不仅仅能大大降低流媒体匹配的计算复杂度,而且能实现稳定的流媒体匹配结果,有效 避免展示给用户的匹配结果出现不稳定的情况,例如对同一首流媒体进行匹配时,前后匹 配结果的频繁变化,提高匹配准确度;并能有效减少在播放流媒体过程中外部音频对流媒 体匹配准确性的影响,例如播放流媒体时主持人偶尔的谈话或简短的广告等。
步骤S240 :设置下一个音频流片段的匹配流媒体信息为前一首匹配流媒体信息。
请参考图7,为本发明第一实施例的音频流媒体的跟踪系统的结构示意图。本发明 第一实施例的音频流媒体的跟踪系统包括
音频处理模块用于对电台的音频流按照时间间隔进行切片处理;其中,音频流 切片的间隔时间可根据实际应用进行设置,在本发明实施例中,音频流切片的间隔时间为 10秒。
信息匹配模块用于通过音频指纹对当前音频流片段进行流媒体信息匹配;其 中,音频流片段流媒体信息匹配方式包括对当前音频流片段的音频信号进行分帧处理,得 到分帧频谱图;通过起始点检测算法检测各分帧频谱图是否为关键帧,将关键帧的分帧频 谱图保留,抛弃非关键帧的分帧频谱图;得到所述关键帧的音频指纹,根据关键帧的音频指 纹对应的流媒体信息计算得到包含当前音频流片段的流媒体信息并返回匹配结果。
匹配度判断模块用于判断下一个音频流片段与前一首匹配流媒体信息的匹配度 是否大于预设阀值,如果匹配度小于预设阀值,则结束展示前一首匹配流媒体信息,并通过 信息匹配模块重新匹配流媒体信息;如果匹配度大于预设阀值,通过结果返回模块返回下 一个音频流片段的匹配流媒体为前一首流媒体;其中,当匹配到一首流媒体后,在随后的 流媒体跟踪时,只需要判断当前流媒体是否是之前匹配的那首流媒体,如果是,直接就可以 返回结果;反之,再重新进行流媒体匹配,由于只需要匹配当前流媒体与前一首流媒体的指 纹,内存占用少,提高计算速度,不仅仅能大大降低流媒体匹配的计算复杂度,而且能实现 稳定的流媒体匹配结果,有效避免展示给用户的匹配结果出现不稳定的情况,例如对同一 首流媒体进行匹配时,前后匹配结果的频繁变化,提高匹配准确度;并能有效减少在播放流 媒体过程中外部音频对流媒体匹配准确性的影响,例如播放流媒体时主持人偶尔的谈话 或简短的广告等;判断下一个音频流片段与前一首匹配流媒体的匹配度是否大于预设阀值 的判断方式为计算下一个音频流片段的指纹与前一首匹配流媒体的指纹的哈明距离,得 到下一个音频流片段与前一首匹配流媒体的匹配度。
结果返回模块用于设置下一个音频流片段的匹配流媒体为前一首匹配流媒体。
请参考图8,为本发明第二实施例的音频流媒体的跟踪系统的结构示意图。本发明 第二实施例的音频流媒体的跟踪系统包括音频处理模块、信息匹配模块、信息展示模块、匹 配度判断模块和结果返回模块,其中,
音频处理模块用于对电台的音频流按一定时间间隔进行切片处理;其中,音频 流切片的间隔时间可根据实际应用进行设置,在本发明实施例中,音频流切片的间隔时间 为10秒;
信息匹配模块用于通过音频指纹对当前音频流片段进行流媒体信息匹配;具体地,信息匹配模块还包括
频谱图提取单元用于对当前音频流片段的音频信号,平均以d/N毫秒时间随机提取其11. 6*w毫秒窗长的频谱图,得到分帧频谱关键帧检测单元用于通过起始点检测算法检测各分帧频谱图是否为关键帧,将关键帧的分帧频谱图保留,抛弃非关键帧的分帧频谱图;其中,所述通过起始点检测算法检测各分帧频谱图是否对应关键帧具体为对所述分帧处理后得到的各分帧进行FFT (Fast Fourier Transformation 快速傅氏变换)+LPC 变换(linear predictive coding 线性预测编码)确定所述各分帧中的关键帧。
DCT变换单元用于对关键巾贞进行短时的DCT(Discrete Cosine Transform,离散余弦变换)变换,保留主要的DCT系数,并采用二进制表示保留的DCT系数;
指纹转换单元用于采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹;其中,最小哈希算法的随机排列方式在音频指纹存储和查询时相同。
指纹匹配单元用于用LSH(Locality Sensitive Hashing,位置敏感哈希算法)方法将音频指纹分为b(bin)块音频子指纹和I个哈希子表,将b块音频子指纹存储到哈希子表中,通过计算各个音频子指纹的出现次数找到相近匹配音频子指纹,并放弃音频子指纹出现次数小于匹配阀值的音频子指纹;其中,如图4所示的“ABCDEFGHIJKLMNOPQRSTUVWXY” 表示提取得到的一个音频指纹,“AB⑶E”、“EFGHI”、 ……、“UVWXY”分别表示由分割一个音频指纹后得到的音频子指纹;如图4所示,在哈希子表中,音频子指纹在音频文件信息7、 12、50、92、102、302中的出现次数分别为1、1、1、3、2、1,假设当前预设的匹配阈值为2,则音频文件信息92、102所对应的音频子指纹为相近匹配音频子指纹。
指纹确定单元用于将当前音频流片段的指纹与保留的音频子指纹进行比较,通过保留的音频子指纹与音频流片段的指纹的哈明距离(Hamming distance),计算出匹配误差,得到精确匹配音频子指纹;
信息匹配单元用于用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的流媒体信息,得到包含当前音频流片段的匹配流媒体信息并输出匹配结果。
信息展示模块用于根据匹配结果进行界面展示信息的切换,在所述界面中展示流媒体信息及状态;具体流媒体展示效果请参阅图5和图6,图5为本发明未匹配出流媒体的状态示意图;图6为本发明展示匹配流媒体信息的状态示意图,通过利用播放界面局部区域的改变,让用户快速辨别当前有无匹配结果,提升使用体验。
匹配度判断模块用于计算下一个音频流片段的指纹与前一首匹配流媒体的指纹的哈明距离,得到下一个音频流片段与前一首匹配流媒体的匹配度,并判断匹配度是否大于预设阀值,如果匹配度大于预设阀值,通过结果返回模块设置下一个音频流片段的匹配流媒体为前一首匹配流媒体;如果匹配度小于预设阀值,则结束前一首流媒体的展示,并通过信息匹配模块重新进行流媒体匹配;其中,当匹配到一首流媒体后,在随后的流媒体跟踪时,只需要判断当前流媒体是否是之前匹配的那首流媒体,如果是,直接就可以返回结果; 反之,再重新进行流媒体匹配,由于只需要匹配当前流媒体与前一首流媒体的指纹,内存占用少,提高计算速度,不仅仅能大大降低流媒体匹配的计算复杂度,而且能实现稳定的流媒体匹配结果,有效避免展示给用户的匹配结果出现不稳定的情况,例如对同一首流媒体进行匹配时,前后匹配结果的频繁变化,提高检索准确度;并能有效减少在播放流媒体过程中 外部音频对流媒体匹配准确性的影响,例如播放流媒体时主持人偶尔的谈话或简短的广生坐 口寸O
结果返回模块用于设置下一个音频流片段的流媒体匹配结果为前一首匹配流媒 体。
本发明音频流媒体的跟踪方法及系统在识别出流媒体后,判断当前流媒体是否是 前一首匹配流媒体,如果是,直接就可以返回结果;反之,再重新进行流媒体匹配,由于只需 要匹配当前流媒体与前一首流媒体的指纹,内存占用少,提高计算速度,不仅仅能大大降低 流媒体匹配的计算复杂度,而且能实现稳定的流媒体匹配结果,有效避免展示给用户的匹 配结果出现不稳定的情况,提高匹配准确度;并能有效减少在播放流媒体过程中外部音频 对流媒体匹配准确性的影响,提升用户体验。
综上所述,虽然本发明已以优选实施例揭露如上,但上述优选实施例并非用以限 制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润 饰,因此本发明的保护范围以权利要求界定的范围为准。
权利要求
1.一种音频流媒体的跟踪方法,包括 对播放的音频流按照时间间隔进行切分,通过音频指纹得到当前音频流片段的匹配流媒体信息; 判断下一个音频流片段与匹配流媒体信息的匹配度是否大于预设阀值,如果下一个音频流片段与匹配流媒体信息的匹配度小于预设阀值,重新匹配下一个音频流片段的流媒体信息;如果下一个音频流片段与匹配流媒体信息的匹配度大于预设阀值,执行下一步骤; 设置下一个音频流片段的匹配流媒体信息为所述当前音频流片段的匹配流媒体信息。
2.根据权利要求1所述的音频流媒体的跟踪方法,其特征在于,所述音频指纹为代表音频流媒体重要声学特征的基于内容的数字签名。
3.根据权利要求1或2所述的音频流媒体的跟踪方法,其特征在于,所述通过音频指纹得到当前音频流片段的匹配流媒体信息步骤包括 对当前音频流片段的音频信号进行分帧处理,得到分帧频谱图; 通过起始点检测算法检测各分帧频谱图中的关键帧,保留关键帧的分帧频谱图; 得到所述关键帧的音频指纹,根据关键帧的音频指纹对应的流媒体信息计算得到包含当前音频流片段的流媒体信息并返回匹配结果。
4.根据权利要求3所述的音频流媒体的跟踪方法,其特征在于,在所述通过起始点检测算法检测各分帧频谱图中的关键帧,保留关键帧的分帧频谱图步骤后还包括 对关键帧进行短时的DCT变换,保留主要的DCT系数; 采用二进制表示保留的DCT系数,并采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹。
5.根据权利要求3所述的音频流媒体的跟踪方法,其特征在于,在所述得到所述关键帧的音频指纹,根据关键帧的音频指纹对应的流媒体信息计算得到包含当前音频流片段的流媒体信息并返回匹配结果步骤中还包括 将音频指纹分为一定数量的音频子指纹和哈希子表,将音频子指纹存储到哈希子表中,并通过计算各个音频子指纹的出现次数找到相近匹配音频子指纹,放弃音频子指纹出现次数小于匹配阀值的音频子指纹; 将当前音频流片段的指纹与保留的音频子指纹进行比较,通过保留的音频子指纹与音频流片段的指纹的哈明距离计算出匹配误差,得到精确匹配音频子指纹。
6.根据权利要求5所述的音频流媒体的跟踪方法,其特征在于,在所述得到精确匹配音频子指纹步骤后还包括用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的流媒体信息,得到包含当前音频流片段的匹配流媒体信息并返回匹配结果。
7.根据权利要求1或2所述的音频流媒体的跟踪方法,其特征在于,在所述通过音频指纹得到当前音频流片段的匹配流媒体信息步骤后还包括根据匹配结果进行界面展示信息的切换,在所述界面中展示流媒体信息及状态。
8.根据权利要求1或2所述的音频流媒体的跟踪方法,其特征在于,在所述判断下一个音频流片段与上述匹配流媒体信息的匹配度是否大于预设阀值步骤前还包括计算下一个音频流片段的指纹与匹配流媒体信息的指纹的哈明距离,得到下一个音频流片段与匹配流媒体信息的匹配度。
9.一种音频流媒体的跟踪系统,其特征在于,包括 音频处理模块用于对播放的音频流按照时间间隔进行切片处理; 信息匹配模块用于通过音频指纹得到当前音频流片段的匹配流媒体信息; 匹配度判断模块用于判断下一个音频流片段与匹配流媒体信息的匹配度是否大于预设阀值,如果匹配度小于预设阀值,则重新匹配下一个音频流片段的流媒体信息;如果匹配度大于预设阀值,返回下一个音频流片段的匹配流媒体信息为当前音频流片段的匹配流媒体信息; 结果返回模块用于设置下一个音频流片段的匹配流媒体信息为当前音频流片段的匹配流媒体信息。
10.根据权利要求9所述的音频流媒体的跟踪系统,其特征在于,所述信息匹配模块还包括 频谱图提取单元用于对当前音频流片段的音频信号进行分帧处理,得到分帧频谱图; 关键帧检测单元用于通过起始点检测算法检测各分帧频谱图是否为关键帧,将关键帧的分帧频谱图保留,抛弃非关键帧的分帧频谱图。
11.根据权利要求9或10所述的音频流媒体的跟踪系统,其特征在于,所述信息匹配模块还包括 DCT变换单元用于对关键帧进行短时的DCT变换,保留主要的DCT系数,并采用二进制表不保留的DCT系数; 指纹转换单元用于采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹; 指纹匹配单元用于用将音频指纹分为一定数量的音频子指纹和哈希子表,并通过计算各个音频子指纹的出现次数找到相近匹配音频子指纹,并放弃音频子指纹出现次数小于匹配阀值的音频子指纹。
12.根据权利要求9或10所述的音频流媒体的跟踪系统,其特征在于,所述信息匹配模块还包括 指纹确定单元用于将当前音频流片段的指纹与保留的音频子指纹进行比较,通过保留的音频子指纹与音频流片段的指纹的哈明距离,计算出匹配误差,得到精确匹配音频子指纹; 信息匹配单元用于用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的流媒体信息,得到包含当前音频流片段的匹配流媒体信息并输出匹配结果。
13.根据权利要求9所述的音频流媒体的跟踪系统,其特征在于,所述系统还包括信息展示模块用于根据匹配结果进行界面展示信息的切换,在所述界面中展示流媒体信息及状态。
14.根据权利要求9所述的音频流媒体的跟踪系统,其特征在于,所述匹配度判断模块判断下一个音频流片段与匹配流媒体信息的匹配度是否大于预设阀值的判断方式为计算下一个音频流片段的指纹与匹配流媒体信息的指纹的哈明距离,得到下一个音频流片段与匹配流媒体信息的匹配度。
全文摘要
本发明公开了一种音频流媒体的跟踪方法及系统,所述音频流媒体的跟踪方法包括对电台播放的音频流按照时间间隔进行切分,通过音频指纹得到当前音频流片段的匹配流媒体信息;判断下一个音频流片段与匹配流媒体信息的匹配度是否大于预设阀值,如果下一个音频流片段与匹配流媒体信息的匹配度小于预设阀值,重新匹配下一个音频流片段的流媒体信息;如果下一个音频流片段与匹配流媒体信息的匹配度大于预设阀值,执行下一步骤;设置下一个音频流片段的匹配流媒体信息为所述当前音频流片段的匹配流媒体信息。本发明音频流媒体的跟踪方法及系统在识别出流媒体后,判断当前流媒体是否是前一匹配流媒体,如果是,直接就可以返回结果;反之,再重新进行流媒体匹配,内存占用少,提高计算速度,降低流媒体匹配的计算复杂度。
文档编号G06F17/30GK103021440SQ201210477360
公开日2013年4月3日 申请日期2012年11月22日 优先权日2012年11月22日
发明者易立夫, 张云, 李深远, 陈剑锋, 马斌 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1