音频检索索引生成方法及装置与流程

文档序号:16248665发布日期:2018-12-11 23:48阅读:200来源:国知局
音频检索索引生成方法及装置与流程

本申请涉及数据处理技术领域,具体而言,涉及一种音频检索索引生成方法及装置。

背景技术

在一些音频检索场景中,;这种情况下,需要基于音频的自身的一些特征进行检索,现有的特征提取方法主要是提取音频中一段时长的底层特征进行比对检索,这些底层特征容易受到提取时长的影响,并且底层特征数据量极大,无法做到高效迅速地检索。如何提供一种能反应音频本身特性又能进行高效检索的音频索引成为本领域亟待解决的问题。



技术实现要素:

为了克服现有技术中的上述不足,本申请的目的在于提供一种音频检索索引生成方法,所述方法包括:

提取待处理音频的音频特征,所述音频特征包括与时序相关的浮点数序列;

根据预先划分的数值区间,将所述浮点数序列中的浮点数转换为该浮点数所在数值区间的区间标记,得到与该音频特征对应的区间标记序列;

根据预设窗口长度及预设步长采用滑动窗口处理对所述区间标记序列进行数据提取,得到与所述音频特征对应的多个区间标记组,每个所述区间标记组包括时序上连续的多个区间标记;

针对每个所述区间标记组,对该区间标记组中的多个区间标记进行哈希处理,得到与该区间标记组对应的n位哈希值;

将所述多个区间标记组的哈希值中对应的位相加,获得由n个位的相加结果组成的特征数组;

根据所述特征数组中数组成员的值是否大于0将所述特征数组的n个数组成员转换为n位二进制的音频索引值。

可选地,在上述方法中,所述将所述多个区间标记组的哈希值中对应的位相加,获得由n个位的相加结果组成的特征数组的步骤,包括:

针对每个哈希值,将值为0的位替换为-1;

将多个替换处理后的哈希值对应的位相加,获得由n个位的相加结果组成的第一特征数组。

可选地,在上述方法中,所述提取待处理音频的音频特征的步骤,包括:

提取所述待处理音频的多个音频特征;

所述将所述多个区间标记组的哈希值中对应的位相加,获得由n个位的相加结果组成的特征数组的步骤,包括:

将每个音频特征对应的多个区间标记组的哈希值的对应位相加,获得由n个位的相加结果组成的特征数组。

可选地,在上述方法中,所述音频特征包括梅尔频率倒谱系数或色度特征。

可选地,在上述方法中,所述根据预先划分的数值区间,将所述浮点数序列中的浮点数转换为该浮点数所在数值区间的区间标记的步骤之前,所述方法还包括:

根据预设的置信区间从所述浮点数序列中剔除所述置信区间之外的浮点数。

可选地,在上述方法中,所述方法还包括:

根据所述待处理音频的音频索引值在预设音频库中进行检索,其中,所述预设音频库中包括多个已知音频及各已知音频对应的音频索引值;

根据与所述待处理音频的音频索引值之间的汉明距离对检索得到的音频进行排序,得到检索结果。

本申请的另一目的在于提供一种音频检索索引生成装置,所述装置包括:

特征提取模块,用于提取待处理音频的音频特征,所述音频特征包括与时序相关的浮点数序列;

离散化模块,用于根据预先划分的数值区间,将所述浮点数序列中的浮点数转换为该浮点数所在数值区间的区间标记,得到与该音频特征对应的区间标记序列;

滑窗处理模块,用于根据预设窗口长度及预设步长采用滑动窗口处理对所述区间标记序列进行数据提取,得到与所述音频特征对应的多个区间标记组,每个所述区间标记组包括时序上连续的多个区间标记;

哈希处理模块,用于针对每个所述区间标记组,对该区间标记组中的多个区间标记进行哈希处理,得到与该区间标记组对应的n位哈希值;

位相加模块,用于将所述多个区间标记组的哈希值中对应的位相加,获得由n个位的相加结果组成的特征数组;

索引生成模块,用于根据所述特征数组中数组成员的值是否大于0将所述特征数组的n个数组成员转换为n位二进制的音频索引值。

可选地,在上述装置中,所述位相加模块具体用于针对每个哈希值,将值为0的位替换为-1;将多个替换处理后的哈希值对应的位相加,获得由n个位的相加结果组成的第一特征数组。

可选地,在上述装置中,所述特征提取模块具体用于提取所述待处理音频的多个音频特征;

所述位相加模块具体用于将每个音频特征对应的多个区间标记组的哈希值的对应位相加,获得由n个位的相加结果组成的特征数组。

可选地,在上述装置中,所述装置还包括:

检索排序模块,用于根据所述待处理音频的音频索引值在预设音频库中进行检索,其中,所述预设音频库中包括多个已知音频及各已知音频对应的音频索引值;并根据与所述待处理音频的音频索引值之间的汉明距离对检索得到的音频进行排序,得到检索结果。

相对于现有技术而言,本申请具有以下有益效果:

本申请实施例提供的音频检索索引生成方法及装置,通过对音频特征的离散化泛化处理及保留时序特性的滑动窗口提取处理,将音频转化为了同一长度的索引值,并且该索引值与音频的时序特性相关可以较为准确的反映音频本身的特征,如此,可以通过生成索引值进行高效准确地音频检索。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的数据分析设备的方框示意图;

图2为本申请实施例提供的音频检索索引生成方法的流程示意图;

图3为本申请实施例提供的音频检索索引生成装置的功能模块示意图之一;

图4为本申请实施例提供的音频检索索引生成装置的功能模块示意图之二。

图标:100-数据分析设备;110-音频检索索引生成装置;111-特征提取模块;112-离散化模块;113-滑窗处理模块;114-哈希处理模块;115-位相加模块;116-索引生成模;117-检索排序模块;120-存储器;130-处理器。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。

在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。

请参照图1,图1本实施例提供的数据分析设备100的方框示意图。所述数据分析设备100包括音频检索索引生成装置110、存储器120及处理器130。

所述存储器120及处理器130相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述音频检索索引生成装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述数据分析设备100的操作系统(operatingsystem,os)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述音频检索索引生成装置110所包括的软件功能模块及计算机程序等。

其中,所述存储器120可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。

请参照图2,图2为应用于图1所示的数据分析设备100的一种音乐检索索引生成方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。

步骤s110,提取待处理音频的音频特征,所述音频特征包括与时序相关的浮点数序列。

在本实施例中,可以提取所述待处理音频的一个或多个音频特征,所述音频特征可以为与时序相关的特征信息,例如,所述音频特征包括梅尔频率倒谱系数(mfcc)或色度特征(chroma)等。所述音频特征可以为多个浮点数组成的浮点数序列的形式。

可选地,通常的音频特征数据中,为了防止音频特征中的极端数值影响后续处理步骤,在本实施例中,可以通过设置一个置信区间,根据预设的置信区间先从所述浮点数序列中剔除所述置信区间之外的浮点数,也就是说,将数值大小呈正态分布的音频特征数据中太大或太小的数据剔除。

步骤s120,根据预先划分的数值区间,将所述浮点数序列中的浮点数转换为该浮点数所在数值区间的区间标记,得到与该音频特征对应的区间标记序列。

在本实施例中,针对每个所述待处理音频可以根据预先划分的多个数值区间,每个数值区间对应有一个区间标识。在对所述音频特征数据进行处理时,根据所述浮点数序列中每个浮点数的数值大小,确定每个浮点数所在的数值区间,并将各浮点数替换为其对应的数值区间的区间标记。如此,就获得了一个由区间标记组成的与时序相关的区间标记序列。

通过将浮点数映射为区间标记,对浮点数进行了离散化的处理,这样在一定范围内变化的浮点数可以都会转换为数值边界对应的区间标记,引入了稀松性,提高了音频特征的泛化能力。

步骤s130,根据预设窗口长度及预设步长采用滑动窗口处理对所述区间标记序列进行数据提取,得到与所述音频特征对应的多个区间标记组,每个所述区间标记组包括时序上连续的多个区间标记。其中,所述窗口长度大于所述预设步长。

例如,在步骤s120中获得了100帧的区间标记序列,采用窗口长度为5帧,步长为2帧的滑动窗口进行数据提取,可以提取到48个区间标记组,每个区间标记组包括5帧区间标记数据。

在本实施例中,通过滑动窗口处理在所述区间标记序列中提取所述取件标记组,这样每个区间标记组包括多个时序上连续的区间标记,使得区间标记组的数据本身具有一定的时序特性。

步骤s140,针对每个所述区间标记组,对该区间标记组中的多个区间标记进行哈希处理,得到与该区间标记组对应的n位哈希值。

在本实施例中,对每个区间标记组中的多个区间标记进行哈希处理,生成一个n位的哈希值。区间标记组中的数据具有一定时序特征,生成的n为哈希值也就具有一定的时序特性。

步骤s150,将所述多个区间标记组的哈希值中对应的位相加,获得由n个位的相加结果组成的特征数组。

通过步骤s140获得了多个哈希值,在步骤s150中,将多个哈希值相应的位相加,每个位会得到一个相加结果,n个相加结果组成了所述特征数组的n个数组成员。

可选地,待处理音频较长时,步骤s140中得到的哈希值数量可能较大,在步骤s150进行哈希值位相加结果就会很大,故在本实施例中,步骤s150中可以针对每个哈希值,将值为0的位替换为-1,然后将多个替换处理后的哈希值对应的位相加,获得由n个位的相加结果组成的特征数组,这样,通过将值为0的位替换成值为-1,在于1相加是可以相互抵消,可以一定程度上防止相加结果太大增加数据处理负担。

可选地,若在步骤s110中获得了多个音频特征,在步骤s150中需要将每个音频特征对应的多个区间标记组的哈希值的对应位相加,获得由n个位的相加结果组成的特征数组。

由于各所述哈希值都是与时序相关的,通过上述处理过的特征数组也具有一定的时序特征,可以反映所述待处理音频一定的时序特性。

步骤s160,根据所述特征数组中数组成员的值是否大于0将所述特征数组的n个数组成员转换为n位二进制的音频索引值。

为了方便检索,在步骤s160中将所述特征数组转换为易于检索的二进制形式。具体地,针对所述特征数组中的n个数组成员,可以将值大于0的数组成员替换为1,将值不大于0的数组成员替换为0,这样获得了n个0或1的数值,将这n个数字组成一个n位二进制的数就得到了所述待处理音频对应的音频索引值。

通过离散化处理增加了泛化性,通过滑动窗口保留了时序特性,使得最终获得音频索引值可以较为准确的反映音频的特性,并且容易检索。

可选地,在本实施例中,可以对预设音频库中的已知音频均做步骤s110到步骤s160的处理,得到各已知音频的音频索引值。

在需要检索与待处理音频相似的音频时,先通过步骤s110到步骤s160获得待处理音频的音频索引值,然后根据所述待处理音频的音频索引值在预设音频库中进行检索,其中,所述预设音频库中包括多个已知音频及各已知音频对应的音频索引值。根据与所述待处理音频的音频索引值之间的汉明距离对检索得到的音频进行排序,得到检索结果。

如此,由于音频索引值是统一长度的二进制值可以高效迅速的进行汉明距离的比对,使得检索效率可以非常高。

请参照图3,本实施例还提供应用于图1所示数据分析设备100的一种音频检索索引生成装置110,所述装置包括特征提取模块111、离散化模块112、滑窗处理模块113、哈希处理模块114、位相加模块115及索引生成模116。

所述特征提取模块111用于提取待处理音频的音频特征,所述音频特征包括与时序相关的浮点数序列。

本实施例中,所述特征提取模块111可用于执行图2所示的步骤s110,关于所述特征提取模块111的具体描述可参对所述步骤s110的描述。

所述离散化模块112用于根据预先划分的数值区间,将所述浮点数序列中的浮点数转换为该浮点数所在数值区间的区间标记,得到与该音频特征对应的区间标记序列。

本实施例中,所述离散化模块112可用于执行图2所示的步骤s120,关于所述离散化模块112的具体描述可参对所述步骤s120的描述。

所述滑窗处理模块113用于根据预设窗口长度及预设步长采用滑动窗口处理对所述区间标记序列进行数据提取,得到与所述音频特征对应的多个区间标记组,每个所述区间标记组包括时序上连续的多个区间标记。

本实施例中,所述滑窗处理模块113可用于执行图2所示的步骤s130,关于所述滑窗处理模块113的具体描述可参对所述步骤s130的描述。

所述哈希处理模块114,用于针对每个所述区间标记组,对该区间标记组中的多个区间标记进行哈希处理,得到与该区间标记组对应的n位哈希值。

本实施例中,所述哈希处理模块114可用于执行图2所示的步骤s140,关于所述哈希处理模块114的具体描述可参对所述步骤s140的描述。

所述位相加模块115用于将所述多个区间标记组的哈希值中对应的位相加,获得由n个位的相加结果组成的特征数组。

本实施例中,所述位相加模块115可用于执行图2所示的步骤s150,关于所述位相加模块115的具体描述可参对所述步骤s150的描述。

所述索引生成模116块用于根据所述特征数组中数组成员的值是否大于0将所述特征数组的n个数组成员转换为n位二进制的音频索引值。

本实施例中,所述索引生成模116可用于执行图2所示的步骤s160,关于所述索引生成模116的具体描述可参对所述步骤s160的描述。

可选地,在本实施例中,所述位相加模块115具体用于针对每个哈希值,将值为0的位替换为-1;将多个替换处理后的哈希值对应的位相加,获得由n个位的相加结果组成的第一特征数组。

可选地,在本实施例中,所述特征提取模块111具体用于提取所述待处理音频的多个音频特征。所述位相加模块115具体用于将每个音频特征对应的多个区间标记组的哈希值的对应位相加,获得由n个位的相加结果组成的特征数组。

可选地,请参照图4,在本实施例中,所述装置还包括检索排序模块117。

所述检索排序模块117用于根据所述待处理音频的音频索引值在预设音频库中进行检索,其中,所述预设音频库中包括多个已知音频及各已知音频对应的音频索引值;并根据与所述待处理音频的音频索引值之间的汉明距离对检索得到的音频进行排序,得到检索结果。

综上所述,本申请实施例提供的音频检索索引生成方法及装置,通过对音频特征的离散化泛化处理及保留时序特性的滑动窗口提取处理,将音频转化为了同一长度的索引值,并且该索引值与音频的时序特性相关可以较为准确的反映音频本身的特征,如此,可以通过生成索引值进行高效准确地音频检索。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1