测量相似度的方法和设备的制造方法_3

文档序号:9598815阅读:来源:国知局
'计算为各平 均值A(Sy),0〈j〈N+l的平均值,其中N是第二音频部分的以分段为单位的长度。可以将内 容一致性Coh'计算为各平均值A (Sy)的最小值或最大值。
[0075] 在步骤431,基于内容一致性Coh和内容一致性Coh'计算最终的对称内容一致性。 然后,方法400在步骤411结束。
[0076] 图5是图示根据本发明实施例的相似度计算器501的示例的框图。
[0077] 如图5所示,相似度计算器501包括特征生成器521、模型生成器522以及相似度 计算单元523。
[0078] 针对要计算的相似度,特征生成器521从相关联的音频分段中提取第一特征向 量。
[0079] 模型生成器522根据特征向量生成用于计算内容相似度的统计模型。
[0080] 相似度计算单元523基于所生成的统计模型计算内容相似度。
[0081] 在两个音频分段之间的内容相似度的计算中,可以采用各种度量,这些度量包括 而不限于KLD、贝叶斯信息准则(Bayeisan Information Criteria, BIC)、海林格距离、平方 距离、欧氏距离、余弦距离以及马氏距离(Mahalonobis distance)。度量的计算可涉及根据 音频分段生成统计模型并计算这些统计模型之间的内容相似度。统计模型可以基于高斯分 布。
[0082] 也可从音频分段中提取特征向量,其中,相同特征向量中的所有特征值都是非负 的并且这些特征值的和为1 (称之为"单纯形特征向量")。这种特征向量更加符合狄里克 雷分布(Dirichlet distribution)而不是高斯分布。单纯形特征向量的示例包括而不限 于子带特征向量(由所有子带相对于整个帧能量的能量比形成)以及色度特征,色度特征 一般定义为12维向量,其中每个维度对应于一个半音类的强度。
[0083] 在相似度计算器501的进一步实施例中,针对要计算的两个音频分段之间的相似 度,特征生成器521从音频分段中提取单纯形特征向量。这些单纯形特征向量被提供给模 型生成器522。
[0084] 作为响应,模型生成器522根据这些单纯形特征向量,基于狄里克雷分布生成用 于计算内容相似度的统计模型。这些统计模型被提供给相似度计算单元523。
[0085] 特征向量X (阶数d彡2)的具有参数α . . .,α ,的狄里克雷分布(Dir ( α ))可 以表达为
[0087] 其中,Γ ()为伽马函数,而特征向量X满足以下单纯形特性
[0089] 单纯形特性可以通过特征归一化(例如L1或L2归一化)来获得。
[0090] 可以采用各种方法估计统计模型的参数。例如,可以通过最大似然(ML)法估计狄 里克雷分布的参数。类似地,也可以将用于处理更复杂的特征分布的、本质为多个狄里克雷 模型的混合的狄里克雷混合模型(DMM)估计为
[0092] 作为响应,相似度计算单元523基于所生成的统计模型计算内容相似度。
[0093] 在相似度计算单元523的进一步实施例中,采用海林格距离计算内容相似度。在 这种情况下,可以将分别生成于两个音频分段的两个狄里克雷分布Dir(a)与Dir(i3)之 间的海林格距离D ( α,β )计算为
[0095] 可替选地,采用平方距离计算内容相似度。在这种情况下,将分别生成于两个音频 分段的两个狄里克雷分布Dir(a)与Dir(i3)之间的平方距离匕计算为
[0096]
[0098] 例如在采用诸如梅尔频率倒谱系数(Mel-frequency Cepstral Coefficient, MFCC)、谱通量(spectral flux)和亮度的特征的情况下,也可以提取不具有 单纯形特性的特征向量。也可将这些非单纯形特征向量转换为单纯形特征向量。
[0099] 在相似度计算器501的进一步示例中,特征生成器521可以从音频分段中提取非 单纯形特征向量。针对各非单纯形特征向量中的每一个,特征生成器521可以计算用于测 量非单纯形特征向量与各参考向量中的每一个之间的关系的量。参考向量也是非单纯形特 征向量。假定存在Μ个参考向量j = 1,...,M,Μ等于特征生成器521要生成的单纯形 特征向量的维数。用于测量一个非单纯形特征向量与一个参考向量之间的关系的量V],是 指非单纯形特征向量与参考向量之间相关的程度。可以利用通过相对于非单纯形特征向量 观察参考向量而获得的各种特性来测量该关系。可以将与各非单纯形特征向量相对应的所 有量归一化,形成单纯形特征向量V。
[0100] 例如,该关系可以是以下之一:
[0101] 1)非单纯形特征向量与参考向量之间的距离;
[0102] 2)非单纯形特征向量与参考向量之间的相关或内积;以及
[0103] 3)参考向量的以非单纯形特征向量作为相关证据的后验概率。
[0104] 在距离的情况下,可将量Vj计算为非单纯形特征向量X与参考向量z ^之间的距 离,然后将获得的距离归一化为1,即
[0106] 其中1111表示欧式距离。
[0107] 也可以应用统计或概率方法来测量该关系。在后验概率的情况下,假定通过某些 种类的分布对每个参考向量建模,则可以将单纯形特征向量计算为
[0108] v = [p (Zi | x), p (z21 x), . . . , p (zM | x) ] (11)
[0109] 其中,p(x | zj代表给定参考向量Zj的情况下非单纯形特征向量x的概率。通过 假定先验的P (Z_j)为均勾分布,可以将概率p (z_j I X)计算如下
[0111] 可以存在生成参考向量的替代方式。
[0112] 例如,一种方法随机生成若干向量作为参考向量,类似于随机投影的方法。
[0113] 再例如,一种方法是无监督聚类法(unsupervised clustering),其中,提取自训 练样本的训练向量被分组为聚类,并计算参考向量以分别代表这些聚类。以此方式,每个获 得的聚类可被看作参考向量,并由其中心或分布(例如通过使用其均值和协方差的高斯分 布)来表示。可以采用诸如k均值和谱聚类的各种聚类方法。
[0114] 再例如,一种方法是监督建模法(supervised modeling),其中,可以根据人工收 集的数据集来人工定义和学习每个参考向量。
[0115] 再例如,一种方法是特征分解法(eigen-decomposition),其中,将参考向量计 算为以训练向量作为行的矩阵的特征向量。可以采用诸如主成分分析法(principle component analysis, PCA)、独立成分分析法(independent component analysis, ICA)以 及线性判别分析法(linear discriminant analysis, LDA)的一般统计方案。
[0116] 图6是用于图示通过采用统计模型来计算内容相似度的示例方法600的流程图。
[0117] 如图6所示,方法600始于步骤601。在步骤603,针对要计算的两个音频分段之 间的相似度,从音频分段中提取特征向量。在步骤605,根据这些特征向量,生成用于计算内 容相似度的统计模型。在步骤607,基于所生成的统计模型计算内容相似度。方法600在步 骤609结束。
[0118] 在方法600的进一步实施例中,在步骤603,从音频分段中提取单纯形特征向量。
[0119] 在步骤605,根据这些单纯形特征向量生成基于狄里克雷分布的统计模型。
[0120] 在方法600的进一步实施例中,采用海林格距离计算内容相似度。可替选地,采用 平方距离计算内容相似度。
[0121] 在方法600的进一步示例中,从音频分段中提取非单纯形特征向量。针对各非单 纯形特征向量中的每一个,计算用于测量非单纯形特征向量与各参考向量中的每一个之间 的关系的量。可以将与各非单纯形特征向量相对应的所有量归一化,形成单纯形特征向量 v。更多关于该关系及参考向量的细节已与图5 -起描述,将不在此对其进行详细描述。
[0122] 可将各种分布应用于测量内容一致性,同时,可将关于各种分布的度量组合到一 起。从仅仅使用加权平均值到使用统计模型的各种组合方式都是可能的。
[0123] 用于计算内容一致性的准则可以不限于与图2 -起描述的准则。可以采用其 它准则,例如 L.Lu 及 A.Hanjalic. "Text-Like Segmentation of General Audio for Content-Based Retrieval, " IEEE Trans, on Multimedia, vol. 11,no. 4, 658-669, 2009 中 所描述的准则。在这种情况下,可以采用与图5和图6 -起描述的计算内容相似度的方法。
[0124] 图7是图示用于实施本发明的各个方面的示例系统的框图。
[0125] 在图7中,中央处理单元(CPU) 701根据只读存储器(ROM) 702中存储的程序或从 存储部分708加载到随机访问存储器(RAM) 703的程序执行各种处理。在RAM 703中,也根 据需要存储当CPU 701执行各种处理等等时所需的数据。
[0126] CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口 705也连 接到总线704。
[0127] 下列部件连接到输入/输出接口 705 :包括键盘、鼠标等等的输入部分706 ;包括 例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分707 ;包 括硬盘等等的存储部分708 ;和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分 709。通信部分709经由例如因特网的网络执行通信处理。
[0128] 根据需要,驱动器710也连接到输入/输出接口 705。例如磁盘、光盘、磁光盘、半 导体存储器等等的可移除介质711根据需要被安装在驱动器710上,使得从中读出的计算 机程序根据需要被安装到存储部分708。
[0129] 在通过软件实现上述步骤和处理的情况下,从例如因特网的网络或例如可移除介 质711的存储介质安装构成软件的程序。
[0130] 本文中所用的术语仅仅是为了描述特定实施例的目的,而非意图限定本发明。本 文中所用的单数形式的"一"和"该"旨在也包括复数形式,除非上下文中明确地另行指出。 还应理解,"包括" 一词当在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、 单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和 /或组件,以及/或者它们的组合。
[0131] 以下权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等 同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结 构、材料或操作。对本发明进行的描述只是出于图解和描述的目的,而非用来对具有公开形 式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言,在不偏离本发 明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最 好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可 以有适合所要的特定用途的具有各种改变的各种实施方式。
[0132] 描述了下面的示例性实施例(均用"EE"表示)。
[0133] EE 1. -种测量第一音频部分与第二音频部分之间的内容一致性的方法,包括:
[0134] 针对所述第一音频部分中的每个音频分段,
[0135] 确定所述第二音频部分中预定数目的音频分段,其中所述第一音频部分中的该音 频分段与所确定的音频分段之间的内容相似度高于所述第一音频部分中的该音频分段与 所述第二音频部分中的所有其它音频分段之间的内容相似度;以及
[0136] 计算所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度 的平均值;以及
[0137] 将第一内容一致性计算为,针对所述第一音频部分中的各音频分段而计算的各平 均值的平均值、最小值或最大值。
[
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1