测量相似度的方法和设备的制造方法_2

文档序号：9598815阅读：来源：国知局

计算器101确定第二音频部分中数目Κ，Κ>0的音频分段Sy。可以预先确定或动态确定数目K。所确定的音频分段形成第二音频部分中的音频分段Sy的子集KNN(s u)。音频分段Slil与KNN(s u)中的音频分段 Sy之间的内容相似度高于音频分段s u与第二音频部分中除KNN(s u)中的音频分段以外的所有其它音频分段之间的内容相似度。换言之，假使第二音频部分中的音频分段以它们与音频分段su之间的内容相似度的降序排序，则前K个音频分段形成集合KNN(s u)。术语"内容相似度"与术语"内容一致性"具有类似含义。在部分包括分段的语境下，术语"内容相似度"指代分段之间的内容一致性，而术语"内容一致性"指代部分之间的内容一致性。
[0038] 图2是用于图示第一音频部分中的音频分段su与第二音频部分中与音频分段 su相对应的KNN(Slil)中的所确定的音频分段之间的内容相似度的示意图。在图2中，方框代表音频分段。尽管第一音频部分和第二音频部分被图示为彼此邻接，然而，取决于应用，第一音频部分和第二音频部分可以是分开的或位于不同的音频信号中。同样取决于应用，第一音频部分和第二音频部分可以具有相同长度或不同长度。如图2所示，针对第一音频部分中的一个音频分段su，可以计算音频分段与第二音频部分中的音频分段Sp，0〈j〈M+l之间的内容相似度S(su，Sy)，其中Μ是第二音频部分的以分段为单位的长度。根据计算出的内容相似度3(8111，\丄0〈」〈1+1，确定前1(个最大的内容相似度 S(su, 至S(su，s.jKf), 0〈jl,…，jK〈M+l，并且确定音频分段至s 以形成集合 KNN(su)。图2中的弧形箭头示出了音频分段Slil与KNN(s j中的所确定的音频分段S]u 至sAr之间的对应。
[0039] 针对第一音频部分中的每个音频分段su，相似度计算器101计算音频分段 8111与 KNN(su)中的所确定的音频分段至s_jK^之间的内容相似度S(su, s_n^)至S(su, s_jK^) 的平均值A(Slil)。平均值A(Slil)可以是加权平均值或非加权平均值。在加权平均值的情况下，可以将平均值A (Slil)计算为
[0041] 其中，wjk为加权系数，可以是1/K，或者可替选地，如果jk与i之间的距离较小，则 wjk可以较大，而如果该距离较大，则w jk可以较小。
[0042] 针对第一音频部分和第二音频部分，一致性计算器102将内容一致性Coh计算为各平均值A(su)，0〈i〈N+l的平均值，其中N是第一音频部分的以分段为单位的长度。可以将内容一致性Coh计算为
[0044] 其中，N为第一音频部分的以音频分段为单位的长度，为加权系数，它可以例如为1/N。也可以将内容一致性Coh计算为各平均值A(Slil)的最小值或最大值。
[0045] 可以采用诸如海林格距离（Hellinger distance)、平方距离（Square distance)、 K-L 散度（Kullback-Leibler divergence)和贝叶斯信息准则差（Bayeisan Information Criteria difference)的各种度量来计算内容相似度Sh+Sy)。此外，可以将L.Lu 及 A. Hanjalic. "Text-Like Segmentation of General Audio for Content-Based Retrieval, " IEEE Trans, on Multimedia, vol. 11，no. 4, 658-669, 2009 中描述的语义相似性计算为内容相似度S(Slil，Sy)。
[0046] 可能存在两个音频部分内容相类似的各种情况。例如，在理想的情况下，第一音频部分中的任意音频分段与第二音频部分中的所有音频分段相类似。然而，在很多其它情况下，第一音频部分中的任意音频分段与第二音频部分中的一部分音频分段相类似。通过将内容一致性Coh计算为第一音频部分中的每一音频分段Sli:与第二音频部分中的某些音频分段，即KNN(su)的音频分段之间的内容相似度的平均值，可识别所有这些内容相类似的情况。
[0047] 在设备100的进一步实施例中，可以将第一音频部分中的音频分段su与 KNN(Slil)的音频分段之间的每个内容相似度S(Slil，Sy)计算为第一音频部分中的序列 [su，…，Sm U]与第二音频部分中的序列[Sy,…，s# 之间的内容相似度，L>1。可以采用各种计算两个分段序列之间的内容相似度的方法。例如，可以将序列[su，…，Slm] 与序列[Sy,…，s_j+n J之间的内容相似度S(su, Sy)计算为
[0049] 其中，wk为加权系数，可以被设置为例如为V(L-l)。
[0050] 可以采用诸如海林格距离、平方距离、K-L散度和贝叶斯信息准则差的各种度量来计算内容相似度S'（Si,丨，Sj,r)。此外，可以将L. Lu及A. Hanjalic. "Text-Like Segmentation of General Audio for Content-Based Retrieval,'，IEEE Trans, on Multimedia, vol. 11 ，no. 4, 658-669, 2009中描述的语义相似性计算为内容相似度S'（su，Sy)。
[0051] 以此方式，通过将两个音频分段之间的内容相似度计算为分别始于这两个音频分段的两个音频分段序列之间的内容相似度，可以考虑到时间信息。结果，可以获得更准确的内容一致性。
[0052] 此外，可以通过应用动态时间规整（dynamic time warping, DTW)方案或动态规划 (dynamic programming, DP)方案来计算序列[Si,丨，…，si+L u]与序列[s.j,r，…，s.j+L lir]之间的内容相似度S (Sliu Sy)。DTW方案或DP方案是用于测量两个序列之间的内容相似度的算法，该算法可以在时间或速度上变化，其中，搜索最佳匹配路径，并基于最佳匹配路径计算最终的内容相似度。以此方式，可以考虑可能的节奏/速度改变。结果，可以获得更准确的内容一致性。
[0053] 在一个应用DTW方案的示例中，针对第一音频部分中的给定序列[Slil，… ，Slm]，通过检查第二音频部分中所有始于音频分段Sy的序列，可以在第二音频部分中确定最佳匹配的序列[Sy,…，S#，IJ。然后，可以将序列[Su，…，Sil u]与序列[Sy,… ，S_j+L，之间的内容相似度S(su, Sy)计算为
[0054] sjjr) = DTKts^i, ..., si+L [sjjr, ..., sj+L. 1ιΓ]) (4)
[0055] 其中，DTW([]，[])是也考虑到插入损耗和删除损耗的基于DTW的相似度得分。
[0056] 在设备100的进一步实施例中，可以计算对称内容一致性。在这种情况下，针对第二音频部分中的每个音频分段Sy，相似度计算器101确定第一音频部分中数目K的音频分段su。所确定的音频分段形成集合KNN(Sy)。音频分段与KNN(S y)中的音频分段 su之间的内容相似度高于音频分段s y与第一音频部分中除KNN(s y)中的音频分段以外的所有其它音频分段之间的内容相似度。
[0057] 针对第二音频部分中的每个音频分段Sy，相似度计算器101计算音频分段Sy与 KNN(s.y)中的所确定的音频分段siUS s ilu之间的内容相似度S(s.p，siU)至S(s.y，siM) 的平均值A(Sy)。平均值A(Sy)可以是加权平均值或非加权平均值。
[0058] 针对第一音频部分和第二音频部分，一致性计算器102将内容一致性Coh'计算为各平均值A(Sy)，0〈j〈N+l的平均值，其中N是第二音频部分的以分段为单位的长度。可以将内容一致性Coh'计算为各平均值A(Sy)的最小值或最大值。此外，一致性计算器102 基于内容一致性Coh和内容一致性Coh'计算最终的对称内容一致性。
[0059] 图3是图示根据本发明实施例的测量内容一致性的示例方法300的流程图。
[0060] 在方法300中，根据测量出的内容一致性来对音频信号进行预定处理。该预定处理取决于应用。音频部分的长度可以取决于要分割或分组的对象内容的语义等级。
[0061] 如图3所示，方法300始于步骤301。在步骤303,针对第一音频部分中的一个音频分段su，确定第二音频部分中数目K，K>0的音频分段Sy。可以预先确定或动态确定数目K。所确定的音频分段形成集合KNN(Slil)。音频分段Slil与KNN(Slil)中的音频分段之间的内容相似度高于音频分段su与第二音频部分中除KNN(s u)中的音频分段以外的所有其它音频分段之间的内容相似度。
[0062] 在步骤305,针对音频分段Slil，计算音频分段Slil与KNN(s u)中的所确定的音频分段至S .jK,r之间的内容相似度S(S S.n,r)至S(SU，S.jK,r)的平均值A(S U)。平均值 A (Sli D可以是加权平均值或非加权平均值。
[0063] 在步骤307,确定第一音频部分中是否还有另一未处理的音频分段Slu。如果有，则方法300返回至步骤303以计算另一平均值A (Slu)。如果没有，则方法300前进至步骤 309 〇
[0064] 在步骤309,针对第一音频部分和第二音频部分，将内容一致性Coh计算为各平均值A(su)，0〈i〈N+l的平均值，其中N是第一音频部分的以分段为单位的长度。也可以将内容一致性Coh计算为各平均值A (su)的最小值或最大值。
[0065] 方法300在步骤311结束。
[0066] 在方法300的进一步实施例中，可以将第一音频部分中的音频分段Slil与 KNN(Slil)的音频分段之间的每个内容相似度S(Slil，Sy)计算为第一音频部分中的序列 [su，…，Sl+m]与第二音频部分中的序列[Sp，…，Sj+uJ之间的内容相似度，L>1。
[0067] 此外，可以通过应用动态时间规整（DTW)方案或动态规划（DP)方案来计算序列 [\1，一，&1,1]与序列[^，*"，&^]之间的内容相似度3(\ 1，^)。在一个应用01￥方案的示例中，针对第一音频部分中的给定序列[su，…，Shu]，通过检查第二音频部分中所有始于音频分段Sy的序列，可以在第二音频部分中确定最佳匹配的序列[8 ]^，··· ，s.j+l/ U]。然后，可以通过公式⑷计算序列[Sn，…，si+l^u]与序列[Sy,…，s. j+l/ U]之间的内容相似度S(su，Sy)。
[0068] 图4是图示根据方法300的进一步实施例的测量内容一致性的示例方法400的流程图。
[0069] 在方法 400 中，步骤 401、403、405、409、411 分别与步骤 301、303、305、309、311 具有相同的功能，将不在此对其进行详细描述。
[0070] 在步骤409之后，方法400前进至步骤423。
[0071] 在步骤423,针对第二音频部分中的一个音频分段Sy，确定第一音频部分中数目 K的音频分段su。所确定的音频分段形成集合KNN(Sy)。音频分段与KNN(S y)中的音频分段Si:之间的内容相似度高于音频分段s y与第一音频部分中除KNN(s y)中的音频分段以外的所有其它音频分段之间的内容相似度。
[0072] 在步骤425,针对音频分段Sy，计算音频分段&与KNN(s y)中的所确定的音频分段siU至s iM之间的内容相似度S(s siU)至S(Sy, siM)的平均值A(Sy)。平均值 A (Sy)可以是加权平均值或非加权平均值。
[0073] 在步骤427,确定第二音频部分中是否还有另一未处理的音频分段Sky如果有，则方法400返回至步骤423以计算另一平均值A (SkJ。如果没有，则方法400前进至步骤 429 〇
[0074] 在步骤429,针对第一音频部分和第二音频部分，将内容一致性Coh

完整全部详细技术资料下载

当前第2页1 2 3 4 5