索引设备和索引方法

文档序号:2822438阅读:309来源:国知局
专利名称:索引设备和索引方法
技术领域
本发明涉及一种用于为音频信号提供索引(index)的索引设备(indexing apparatus)、一种索引方法以及一种索引程序。
背景技术
通过已知的用于为声信号提供索引的传统索引方法,将每个声信号划分为许多段,并且利用这些段之间的相似性对段进行分类。由Yvonne Moh,Patrick Nguyen和Jean-Claude Junqua等人在“TOWARDS DOMAIN INDEPENDENT SPEAKERCLUSTERING”(Proc.IEEE-ICASSP,vol2,PP.85-88,2003)中披露了利用段之间的相似性的索引方法。
通过为声信号提供索引,可以对存储的大量数据进行有效的处理。例如,将表示电视广播节目语音信号当中的每个语音信号属于哪个说话者的说话者信息提供为索引。通过这样的处理,可以方便地在电视广播节目的语音信号中搜索每个说话者。
但是,利用这种传统的索引技术,有这样的情况出现,即,由于噪音的不利影响,不能准确地判断段之间的相似性,从而不能进行准确的索引。因此,不能对各种类型的声信号进行准确的索引。为了解决这个问题,希望增加索引的准确度。

发明内容
按照本发明的一个方面,索引设备包括获取单元,用于获得声信号;划分单元,用于将声信号划分为多个段;声模型生成单元,用于为每个段生成声模型;可靠性确定单元,用于确定声模型的可靠性;相似性矢量生成单元,用于根据可靠性生成具有作为预定段的声模型与每个其它段的声信号之间的相似性的元素的相似性矢量;分组单元(clustering unit),用于将由相似性矢量生成单元生成的相似性矢量分组;以及索引单元,用于根据分组的相似性矢量对声信号进行索引。
按照本发明的另一个方面,索引设备包括获取单元,用于获得声信号;划分单元,用于将声信号划分为多个段;声模型生成单元,用于为每个段生成声模型;声类型识别单元,用于识别每个段的声类型;相似性矢量生成单元,用于根据声类型生成相似性矢量;分组单元,用于将由相似性矢量生成单元生成的相似性矢量分组;以及索引单元,用于根据分组的相似性矢量,为声信号提供索引。
按照本发明的另一个方面,索引方法包括如下步骤获得声信号;将声信号划分为多个段;为每个段生成声模型;确定声模型的可靠性;根据可靠性生成具有作为预定段的声模型与每个其它段的声信号之间的相似性的元素的相似性矢量;对生成的相似性矢量分组;并且,根据分组的相似性矢量对声信号进行索引。
按照本发明的另一个方面,索引方法包括如下步骤获得声信号;将声信号划分为多个段;为每个段生成声模型;识别每个段的声类型;根据声类型生成相似性矢量;对生成的相似性矢量分组;并且,根据分组的相似性矢量,为声信号加索引。
按照本发明的另一个方面的计算机程序产品使计算机执行按照本发明的索引方法。


图1为示出了利用本发明的第一实施例的索引方法对声信号进行索引的索引设备10的功能结构的框图;图2示出了索引设备的划分单元104的操作;图3示出了索引设备的相似性矢量生成单元110的操作;
图4示出了由相似性矢量生成单元110生成的相似性矢量的例子;图5示出了相似性矢量生成单元110的操作;图6示出了按照第一实施例的索引设备的硬件结构;图7为示出了按照本发明的第二实施例的索引设备的功能结构的框图;图8为示出了按照本发明的第四实施例的索引设备的功能结构的框图;图9示出了在利用GMM进行分组的情况下的典型模型;图10示出了在通过K装置进行分组的情况下的典型模型;并且图11为示出了按照第四实施例的索引设备10的修改的功能结构的框图。
具体实施例方式
以下将参照附图,对按照本发明的索引设备、索引方法以及索引程序的实施例进行详细描述。应该注意,本发明不限于以下实施例。
(第一实施例)图1为示出了利用按照本发明的第一实施例的索引系统对声信号进行索引的索引设备10的功能结构的框图。
索引设备10包括声信号获取单元102、划分单元104、声模型生成单元106、可靠性确定单元108、相似性矢量生成单元110、分组单元112以及索引单元114。
声信号获取单元102通过麦克风等获得从外部输入的声信号。划分单元104接收来自声信号获取单元102的声信号。然后,划分单元104,例如利用关于功率或零交叉值的信息,将声信号划分为许多段。
图2示出了划分单元104的操作。划分单元104利用作为边界点的划分点210a到210d将图2的上半部所示的声信号200划分为若干个段。根据上面的声信号200得到在下半部示出的段1到段5。段1到段5可以相互重叠。
作为另一个例子,可以将一个话语(utterance)设置为一段。以这样的方式,可以按照声信号的内容确定段。
声模型生成单元106为每个段生成声模型。在生成声模型的过程中,最好使用HMM、高斯混合模型(Gaussian Mixture Model,GMM)或者VQ代码本等。更具体地说,声模型生成单元106提取被划分单元104划分的每个段的特征量。根据特征量,声模型生成单元106生成表示代表每个段的特征的声模型。
可以按照要被分类的对象确定要在生成声模型过程中使用的特征量。当要对说话者进行分类时,声模型生成单元106提取倒谱特征量,如LPC倒谱或MFCC等。当对音乐类型进行分类时,声模型生成单元106提取如音调、零交叉值及倒谱等特征量。
通过提取适合于要被分类的对象的特征量,可以对每种要被分类的对象进行想要的索引。
可以由用户改变要提取的特征量。因此,可以从每个声信号中提取适合于要被分类的对象的特征量。
只要能够反映每个段的声类型,由声模型生成单元106生成的每个声模型可以是任何类型的声模型。此外,生成声模型的方法不限于本实施例。
可靠性确定单元108确定由声模型生成单元106生成的每个声模型的可靠性。可靠性确定单元108根据每个段的长度确定可靠性。对于较长的段,将可靠性设置为较大的值。
更具体地说,可以将每个段的段长度设置为对应的声模型的可靠性。例如,为1.0秒的段生成的声模型的可靠性被设置为“1”,为2.0秒的段生成的声模型的可靠性被设置为“2”。
可靠性确定单元108还判断每个段的长度是否大于预定阈值。例如,预定阈值最好是1.0秒。
这里,对可靠性进行详细解释。一般来说,对于要生成的声模型,得到的数据量越大,声模型的可靠性越高。当根据可靠性低的声模型生成相似性矢量时,相似性矢量的准确度变低,而这是不希望的。
例如,来自讨论节目的声信号包括大量短话语,如听众声(listening sounds)。当模型代表本段(subject segment)所属的声类型(说话者信息)时,根据包括短话语的段生成的声模型呈现很低的可靠性。
如上所述,可靠性是取决于段长度的值。更具体地说,段长度越大,可靠性越高。可靠性确定单元108根据段长度确定每个声模型的可靠性。
相似性矢量生成单元110将由划分单元104得到的段与由声模型生成单元106生成的声模型之间的相似性用作元素,生成相似性矢量。更具体地说,相似性矢量生成单元110根据由可靠性确定单元108判断的可靠性,生成相似性矢量。
首先,对相似性矢量生成单元110的工作原理进行描述。相似性矢量生成单元110根据段的声模型与段的声信号之间的相似性,生成相似性矢量。由以下公式表示段xi的相似性矢量SiSi=P(xi|M1)P(xi|M2)···P(xi|MN)---(1)]]>式中N代表段的总数;xi代表第i段的声信号;Mi代表第i段的声模型;并且(Pxi|Mj)代表段xi与声模型Mj之间的相似性。
当声信号被划分为从段1到段5的五个段时,相似性矢量生成单元110进行以下操作。首先,相似性矢量生成单元110计算根据段1生成的声模型与段1到段5中的每个段的声信号之间的相似性。同样,相似性矢量生成单元110计算段2到段5的每个声模型与段1到段5中的每个段的声信号之间的相似性。根据计算的相似性,相似性矢量生成单元110生成相似性矢量。
图3示出了相似性矢量生成单元110的操作的更具体的细节。图3中示出的段1和段4为说话者A的话语段(utterance segments)。段2、段3和段5为说话者B的话语段。
由于段1是说话者A的一个话语段,而段1和段4都是说话者A的话语段,因此,段1与段4之间的相似性很高。因此,段1的相似性矢量221呈现出关于段1与段4的很高的相似性。段4的相似性矢量224呈现出关于段1与段4的很高的相似性。
同时,由于段2是说话者B的一个话语段,而段2、段3和段5都是说话者B的话语段,因此,段2、段3和段5之间的相似性很高。因此,段2的相似性矢量222呈现出关于段2、段3和段5的很高的相似性。段3的相似性矢量223呈现出关于段2、段3和段5的很高的相似性。段5的相似性矢量225呈现出关于段2、段3和段5的很高的相似性。
图4示出了由相似性矢量生成单元110生成的相似性矢量的例子。在图4中,横轴表示段的编号。纵轴表示每个话语的相似性矢量。段1为说话者A的话语段,包括16个话语。段2为说话者B的话语段,也包括16个话语。同样,其它段包括说话者A到说话者H八个说话者的话语,每段包括16个话语。因此,声信号总共包括128个话语。在图4中,灰度较小的部分表示较高的相似性,灰度较大的部分表示较低的相似性。
接着,对本实施例的相似性矢量生成单元110的操作特征进行描述。相似性矢量生成单元110从可靠性确定单元108得到每个声模型的可靠性。根据关于可靠性等于或高于阈值的声模型的相似性,相似性矢量生成单元110生成相似性矢量。这里,关于可靠性低于阈值的声模型的相似性不用作相似性矢量的元素。
图5示出了相似性矢量生成单元110的操作。图5中示出的段3的声模型的可靠性等于或低于阈值。在这种情况下,代表段3的声模型与段1到段5的声信号之间的相似性的元素2213、2223、2233、2243和2253不用作相似性矢量的元素。因此,利用相似性矢量221的元素2211、2212和2215,相似性矢量222的元素2221、2222和2225,相似性矢量223的元素2231、2232和2235,相似性矢量224的元素2241、2242和2245以及相似性矢量225的元素2251、2252和2255,生成相似性矢量。在这种情况下,由以下公式表示相似性矢量Si=P(xi|M1)P(xi|M2)P(xi|M4)P(xi|M5)---(2)]]>当存在可靠性等于或低于阈值的声模型时,用比公式(1)表示的相似性矢量低一维的(N-1)维的公式表示相似性矢量。当相似性矢量为N维,并且段3的声模型的可靠性等于或低于阈值时,由以下公式表示相似性矢量Si=P(xi|M1)P(xi|M2)P(xi|M4)···P(xi|MN)---(3)]]>同样,当相似性矢量包括m个可靠性等于或低于阈值的声模型时,用比公式(1)表示的相似性矢量低m维的(N-m)维的公式表示相似性矢量。
通过声信号获取单元102获得的声信号可能包括短话语如听众声或者具有偏置音素(biased phoneme)如“Uh”的话语(补充语(filler))。这样的段的声信号仅包括少量信息。因此,根据这样的段的声信号生成的声模型的可靠性很低。
在上述的通过将低可靠性的声模型与另一段的声信号进行比较来确定相似性的情况下,产生的相似性可能与实际值很不相同。如果根据具有这样的低可靠性的声模型确定相似性,则相似性的值可能偏差很大。
当利用与实际相似性很不相同的相似性生成相似性矢量时,不能得到很准确的相似性矢量。
另一方面,在本实施例的索引设备10中,相似性矢量生成单元110仅利用可靠性等于或高于阈值的声模型生成相似性矢量。因此,能够产生很准确的相似性矢量。
在本实施例中,以这样的方式,按照声模型的可靠性,对相似性矢量的每个元素进行处理。通过这些处理,能够产生很准确的相似性矢量,而不受具有短段如听众声或者具有偏置音素如补充语的声信号的不利影响。
分组单元112对由相似性矢量生成单元110生成的相似性矢量进行分组。通过这样的处理,可以将输入的声信号分类。更具体地说,与图4所示的相似性矢量对应的声信号包括八个说话者,即说话者A到说话者H,的话语。这里,分组单元112进行分为八组(cluster)的分组。由此,可以进行说话者索引。
在进行分组操作的过程中,最好使用K装置和GMM。这里,可以利用信息基准如贝叶斯信息标准(Bayesian Information Criterion,BIC)估算组数。在图4所示的情况下,根据说话者的数量估算组数。
索引单元114根据被分组单元112分组的相似性矢量,为每个声信号提供索引。更具体地说,当按照与说话者A到说话者H的说话者数量对应的八个组进行分组时,提供表示关于每段的每个说话者的索引。
如上所述,本实施例的索引设备10根据在不使用可靠性低的声模型的相似性的情况下生成的相似性矢量进行分组。因此,可以提高分组的准确度。由此,可以进行准确的索引。
利用传统的索引技术,在计算段之间的相似性时不考虑每个声模型的可靠性。因此,难以对包含说话声、音乐声、噪音以及短话语如听众声等的信号进行准确索引。另一方面,本实施例的索引设备10使用根据声模型的可靠性生成的相似性矢量。因此,甚至能够对短话语如听众声进行准确的索引。
另外,可靠性是根据每个声信号的段的长度确定的。因此,即使段的长度不同,也能够进行准确的索引。
图6示出了第一实施例的索引设备10的硬件结构。索引设备10的硬件结构包括ROM52,用于存储用于在索引设备10中进行索引操作的索引程序等;CPU51,用于按照存储在ROM52中的程序,对索引设备10的每个部件进行控制;RAM53,用于存储控制索引设备10所需的各种数据;通信接口57,用于通过网络进行通信;以及总线62,用于连接每个部件。
可以按照以可以安装或执行的文件格式记录在计算机可读记录介质如CD-ROM、软盘(FD)(注册商标)或DVD等上的信息,提供索引设备10中的索引程序。
在这种情况下,从记录介质中读出索引程序,并且在索引设备10中执行索引程序。由此,将索引程序装入主存储器,从而在主存储器中生成上述的软件结构的每个部分。
或者,可以将本实施例的索引程序存储在与网络如因特网连接的计算机中,并且可以通过网络下载该索引程序。
尽管已经借助于第一实施例对本发明进行了描述,但是,可以对上述实施例进行各种改变和修改。
在第一修改中,第一实施例的可靠性确定单元108可以根据相近相似性(close similarity)而不是段长度来确定可靠性。
相近相似性是关于同一段的声模型与声信号之间的相似性。图4中示出的相似性矢量在对角线部分相近。因此,对角线部分表示出比其它相似性更高的值。
在第二修改中,与第一修改相同,根据相近相似性确定可靠性。此外,可以利用不具有与极高的相近相似性对应的可靠性的声模型生成相似性矢量。
存在相近相似性表示出极高的值的情况。表示这样的极高的值的声模型是关于本段的过度训练的结果。例如,当在相同的条件下生成关于段“Hello”和“Uh”的声模型时,对声模型之间的相近相似性进行相互比较,后面的关于“Uh”的声模型的值很大。这是由于音素是偏置的,并且对特殊音素进行了过度训练。对这样的经过过度训练的声模型确定相似性没有任何意义。
为了解决这个问题,第二修改的相似性矢量生成单元110对相近相似性设置上限值,即,对可靠性的下限值,并且利用除了可靠性低于下限值的声模型以外的声模型生成相似性矢量。通过这样的处理,可以计算更准确的相似性矢量。
在使用利用GMM的声模型的情况下,可以利用似然性表示相近相似性。当在特殊段中的音素是偏置的,或者,段长度相对于被GMM混合的数过小时,相近似然性呈现出极大的值。在许多情况下,这种GMM与另一个段之间的相似性没有任何意义。为了解决这个问题,如果似然性表示出极大的值,则相似性矢量生成单元110不将似然性的值用作相似性矢量的元素。
在第一实施例中,相似性矢量生成单元110利用可靠性等于或高于阈值的声模型生成相似性矢量。在第一实施例的第三修改中,相似性矢量生成单元110按照对应的声模型的可靠性,对相似性矢量的每个元素加权。
相似性矢量生成单元110生成由以下公式表示的相似性矢量Si=w1*P(xi|M1)w2*P(xi|M2)···wN*P(xi|MN)---(4)]]>式中,wi表示赋予第i个声模型的相似性的权重。按照对应的声模型的可靠性确定权重wi。
例如,为可靠性设置阈值,当可靠性的值等于或大于阈值时,权重值设为“1”。当可靠性的值等于或小于阈值时,权重值设为“0”。按照这样的方式,在“0”与“1”两个值之间切换权重值。因此,将按照可靠性值预先设定的值确定为权重值。
尽管在上述的第三修改中,权重值在两个值之间切换,但权重值也可以采用三个或多个值。例如,可以将划分的段的长度用作权重值。更具体地说,对于2.0秒的段,权重值设为“2.0”,对于2.1秒的段,权重值设为“2.1”,而对于4.0秒的段,权重值设为“4.0”。以这样的方式,可以提供在对应于段长度的最小单位的若干值当中切换的权重值。因此,可以给予权重值的值的数量不限于第三修改的例子。
尽管在公式(4)中,每个元素被乘以权重值,但是,加权的方法不限于该方式。相反,可以给每个元素加上权重值。
如上所述,在第三修改中,具有较高可靠性的元素对相似性矢量有较大的影响。因此,可以产生很准确的相似性矢量。利用由第三修改的相似性矢量生成单元110生成的相似性矢量,可以增加分组的准确度。
在第四修改中,相似性矢量生成单元110根据对应的声矢量的可靠性,用常数替换相似性矢量的元素。
更具体地说,相似性矢量生成单元110用常数替换对可靠性低于预定阈值的声模型的相似性。公式(5)示出了在用“0”对元素进行替换的情况下的相似性矢量。在以下公式示出的相似性矢量中,段3的声模型的可靠性低于阈值。
Si=P(xi|M1)P(xi|M2)0P(xi|M4)···P(xi|MN)---(5)]]>如上所述,在第四修改中,用“0”替换用于可靠性较低的声模型的元素。通过这样的处理,可以减小可靠性较低的声模型对相似性矢量的不利影响。由此可以生成更准确的相似性矢量。
在另一个修改中,可以用常数替换对可靠性等于或高于预定阈值的声模型的相似性。更具体地说,用“1”替换等于或高于阈值的可靠性。通过这样的处理,可以用“1”替换极高的可靠性值。这样的极高的可靠性值通常是不准确的。因此,用“1”替换极高的可靠性值,从而减少具有极高可靠性的声模型对相似性矢量的不利影响。由此可以产生很准确的相似性矢量。
在第五修改中,当相似性矢量的某个元素是极值的元素时,不使用该元素。更具体地说,当相似性矢量的一个元素具有极大值时,分组单元112在分组操作过程中不使用相似性矢量的该元素。或者,当相似性矢量的一个元素具有极小值时,分组单元112在分组操作过程中不使用该元素。
在另一个修改中,当相似性矢量的一个元素具有极小值或极大值时,分组单元112在分组操作中不使用相似性矢量的该元素。
为了识别在相似性矢量中的极大元素或极小元素,设置了用于相似性矢量的阈值。例如,等于或小于预定阈值的任何值被确定为极大值,并且,在分组操作中不使用相似性矢量的对应元素。
此外,可以根据相似性矢量的元素的差量(dispersion),确定每个值是否为极值。只要能识别出所有极值,进行此处理的方法不限于本例。
在第一实施例中,划分单元104利用如功率和零交叉值等信息,确定每个段的宽度。相反,作为第六修改的划分单元104可以不使用这些信息,而将声信号划分为预定的固定宽度。更具体地说,可以将声信号划分为1.0秒的段。每个段的宽度优选地为1.0到2.0秒。
在这种情况下,所有经过划分的段都具有相同的长度。因此,利用段长度确定的可靠性呈现出相同的值,并且没有任何意义。因此,可靠性确定单元108最好根据除段长度以外的其它信息如相近相似性确定可靠性值。
图7示出了按照本发明的第二实施例的索引设备的功能结构的框图。按照第二实施例的索引设备20与按照第一实施例的索引设备10的不同之处在于它包括声类型识别单元120。
声类型识别单元120对由划分单元104划分的每个段的声信号的类型进行识别。当对输入声信号的说话者进行索引时,包含在声信号中的代表音乐和噪音的非语音信号为无关信号。因此,声类型识别单元120在语音信号与非语音信号之间进行识别。
更具体地说,将每个输入的声信号划分为1.0秒到2.0秒的块,并且,从每个块中提取块倒谱通量(block cepstrum flux,BCF)。如果提取的BCF大于预定阈值,则将对应的块识别为语音块。如果提取的BCF小于预定阈值,则将对应的块判断为音乐块。这里,BCF是通过对决的每个帧的倒谱通量求平均值得到的。
为了进行这样的处理,可以使用在以下参考文献中披露的方法,该参考文献是“Visual and Audio Segmentation for Video Streams”,Muramoto,T.和Sugiyama,M.,Multimedia and Expo,2000.ICME2000.2000IEEE国际会议,卷3,2000年7月30日到8月2日,第1547-1550页,卷3。
声模型生成单元121为那些被声类型识别单元120识别为属于要被索引的类型的段生成声模型。例如,当要对说话者进行索引时,仅为声信号当中的语音段生成声模型。
为了生成相似性矢量,相似性矢量生成单元122使用属于要被索引的类型的段的声信号和声模型。换句话说,生成其元素为对属于要索引的类型的段的声模型的相似性的相似性矢量。
按照第二实施例的索引设备20的结构和操作的其它方面与按照第一实施例的索引设备10的结构和操作的其它方面相同。
利用传统技术,不对声类型进行识别,因此,难以对包含语音、音乐和噪音的声信号进行准确的索引。另一方面,利用上述方法,对经过划分的段的声类型进行识别,并且,对属于要索引的类型的段进行处理。以这样的方式,可以去除不是要索引的无关的声音信号如噪音等。因此,可以对想要的声信号进行准确的索引。
此外,通过限制要索引的段,可以省略不必要的过程。因此,能够实现更高的效率。
在本实施例中,对语音信号和非语音信号进行识别。但是,还可以在男声和女声之间进行识别,或者,对正在使用的语言进行识别。
下面对按照本发明的第三实施例的索引设备进行描述。按照第三实施例的索引设备功能结构与按照第二实施例的索引设备20的功能结构相同。但是,按照第三实施例的索引设备与按照前述实施例中的任何一个实施例的不同之处在于,将“语音似然性”用作每个声模型的可靠性。
声类型识别单元120对关于由划分单元104划分的每个段的语音似然性进行识别。为了设置语音似然性,可以计算预定语音模型的似然性。
或者,当段被识别为语音段时,声类型识别单元120将“1”设置为语音似然性的值。当段被识别为非语音段时,声类型识别单元120将“0”设置为语音似然性的值。为了识别关于每个段的语音似然性,似然性的值被识别为或者是“1”,或者是“0”。
可靠性确定单元108根据由声类型识别单元120识别的语音似然性的值来确定可靠性。换句话说,将语音似然性的值用作可靠性值。当用两个值表示语音似然性时,也用两个值来表示可靠性。此外,可靠性确定单元108将“1”用作阈值。
相似性矢量生成单元110将由声类型识别单元120识别的语音似然性用作可靠性,生成每个声模型。更具体地说,相似性矢量生成单元110为表示阈值“1”的段生成相似性矢量。
如上所述,按照第三实施例的索引设备根据语音似然性生成相似性矢量。因此,可以限制不是要被索引的噪音的不利影响。这样,可以生成很准确的相似性矢量。
按照第三实施例的索引设备的结构和操作的其它方面与按照第一实施例的索引设备10的结构和操作的其它方面相同。
在另一个修改中,可以将每个段的语音似然性用作对应的声模型的可靠性,并且可以将可靠性作为权重加到相似性矢量的每个元素上。
例如,当段(1,2,3,...,N)的语音似然性被设置为(1,0,2,...,1.5)时,利用以下公式表示段xi的相似性矢量SiSi=1*P(xi|M1)0*P(xi|M2)2*P(xi|M3)···15*P(xi|MN)---(6)]]>在这个公式中N代表段的总数;xi代表第i段的声信号;Mi代表第i段的声模型;并且(Pxi|Mj)代表段xi与声模型Mj之间的相似性。
以这样的方式,对相似性矢量进行按照语音似然性的加权。通过这样的处理,可以限制低语音似然性的声模型的不利影响。低语音似然性的声模型包括从其中重叠了如音乐信号和噪音等非语音信号的声段生成的声模型。
在本实施例中,根据语音似然性生成相似性矢量。但是,当对音乐进行索引时,可以根据音乐似然性生成相似性矢量。通过这样的处理,可以进行准确的音乐索引。
下面,对按照本发明的第四实施例的索引设备进行描述。图8为示出了按照第四实施例的索引设备30的功能结构的框图。每个部件的功能与第一和第二实施例的索引设备中的任何一个索引设备的(用相同的标号表示)等效部件的功能相同。
在按照第四实施例的索引设备30中,声类型识别单元132在净语音信号与重叠了噪音的语音信号之间进行识别。分组单元131利用根据由声类型识别单元132识别为净语音信号的段生成的相似性矢量,生成分组的典型模型。在这个方面,按照第四实施例的索引设备30与按照前述实施例中的任何一个实施例的索引设备30不同。
在本实施例中,声类型识别单元132将声信号分类为净语音信号和重叠了噪音的语音信号,从而对声信号进行说话者索引。
具体地说,将每个输入的声信号划分为1秒的块,从每个块中提取26种不同类型的特征值。这里,特征值包括短时零交叉值的平均值和差量;短时功率的平均值和差量;以及谐波结构的强度。根据这些特征值,可以识别净语音信号和重叠了噪音的语音信号。
更具体地说,例如,可以使用由Y.Li和C.Dorai在“SVM-basedAudio Classification for Instructional Video Analysis”,ICASSP 2004,V 897-900,2004,中披露的技术。
分组单元132利用被声类型识别单元131识别为净语音信号的段的相似性矢量,生成分组的典型模型。然后,分组单元132利用典型模型,对包含重叠了噪音的语音信号的所有段进行分组。
图9示出了分组操作,示出了在用GMM进行分组的情况下的典型模型。在正常情况下,相似性矢量的维数与话语段的数量相同。但是,在图9和图10中,为了便于说明,示出了二维的特征矢量。x轴表示话语相似性矢量的第一元素,而y轴表示话语相似性矢量的第二元素。
在用GMM进行分组的情况下,典型模型示出了从样本集得到的混合高斯分布。
以这样的方式,本实施例的分组单元132利用被识别为净语音信号的段的相似性矢量,生成典型模型。由此可以生成很准确的典型模型。
按照第四实施例的索引设备30的结构和操作的其它方面与按照第一实施例的索引设备10的结构和操作的其它方面相同。
在本实施例中,尽管用GMM进行分组,但是,也可以通过K装置进行分组。在利用GMM进行分组的情况下,得到每个组的高斯分布。
图10示出了在利用K装置进行分组的情况下的典型模型。在这种情况下,典型模型是在利用K装置进行分组的情况下,从样本集得到的典型点(每个组的重心)。与利用GMM进行分组的情况相同,仅根据净语音信号生成典型模型。因此,可以得到很准确的典型模型。
图11为示出了按照第四实施例的索引设备的修改的功能结构的框图。在本修改的索引设备40中,与按照第二实施例的声模型生成单元106相同,声模型生成单元106根据由声类型识别单元120确定的结果,生成关于要分组的声类型的段的声模型。
以这样的方式,仅根据要分组的声类型的段进行分组。因此,可以进一步提高分组操作的准确度。
对于本领域技术人员来说,另外的优点和修改是显而易见的。因此,在其更广的方面,本发明不限于这里所示出和描述的具体细节和典型实施例。因此,在不脱离由所附权利要求以及它们的等价物所限定的一般发明概念的精神和范围的情况下,可以进行各种修改。
权利要求
1.一种索引设备,包括获取单元,用于获得声信号;划分单元,用于将所述声信号划分为多个段;声模型生成单元,用于为每个所述段生成声模型;可靠性确定单元,用于确定所述声模型的可靠性;相似性矢量生成单元,用于根据所述声模型的可靠性,生成具有作为预定段的所述声模型与每个其它段的所述声信号之间的相似性的元素的相似性矢量;分组单元,用于将由所述相似性矢量生成单元生成的相似性矢量分组;以及索引单元,用于根据分组的所述相似性矢量,对所述声信号进行索引。
2.如权利要求1所述的索引设备,其中,所述相似性矢量生成单元生成具有作为可靠性不小于预定阈值的段的声模型与每个其它段的声模型之间的相似性的元素的所述相似性矢量。
3.如权利要求1所述的索引设备,其中,所述相似性矢量生成单元按照由所述声模型生成单元生成的声模型的可靠性,对每个声模型的相似性加权,并且生成以经过加权的相似性作为元素的相似性矢量。
4.如权利要求1所述的索引设备,其中,所述相似性矢量生成单元将对声模型的相似性确定为由所述声模型生成单元生成的声模型的可靠性的预定值,并且生成以相似性为元素的相似性矢量。
5.如权利要求4所述的索引设备,其中,当由所述声模型生成单元生成的声模型的可靠性不小于预定阈值时,所述相似性矢量生成单元将所述预定值确定为对声模型的相似性,并且生成以所述相似性为元素的相似性矢量。
6.如权利要求4所述的索引设备,其中,当由所述声模型生成单元生成的声模型的可靠性不大于预定阈值时,所述相似性矢量生成单元将预定值确定为对声模型的相似性,并且生成以所述相似性为元素的相似性矢量。
7.如权利要求1所述的索引设备,其中,所述可靠性确定单元根据由所述声模型生成单元生成的每个声模型的段长度确定可靠性。
8.如权利要求5所述的索引设备,其中,当由所述声模型生成单元生成的每个声模型的段长度较长时,所述可靠性确定单元将一较高值确定为可靠性。
9.如权利要求1所述的索引设备,其中,所述可靠性确定单元根据由所述声模型生成单元生成的每个声模型与本段的声信号之间的相似性确定可靠性。
10.如权利要求7所述的索引设备,其中,当由所述声模型生成单元为预定段生成的声模型与该预定段的声信号之间的相似度很高时,所述可靠性确定单元将一较低值确定为可靠性。
11.如权利要求1所述的索引设备,还包括声类型识别单元,用于识别每个段的声信号的声类型,其中,所述相似性矢量生成单元根据声类型生成相似性矢量。
12.如权利要求11所述的索引设备,其中,所述相似性矢量生成单元根据被所述声类型识别单元识别为预定声类型的每个段的声信号,生成相似性矢量。
13.如权利要求11所述的索引设备,其中,所述可靠性确定单元根据由所述声类型识别单元识别的声类型,确定可靠性。
14.如权利要求13所述的索引设备,其中,所述声类型识别单元识别声信号的声类型,并且计算被识别的声类型的似然性,并且,所述可靠性确定单元根据由所述声类型识别单元识别的声类型的似然性,确定可靠性。
15.如权利要求14所述的索引设备,其中,当由所述声类型识别单元识别的声类型的似然性较高时,所述可靠性确定单元将较高值确定为可靠性。
16.如权利要求1所述的索引设备,还包括声类型识别单元,用于识别每段声信号的声类型,其中,所述分组单元根据由所述声类型识别单元识别的声类型,计算每个组的典型点,并且根据所述典型点对多个相似性矢量分组。
17.一种索引设备,包括获取单元,用于获得声信号;划分单元,用于将所述声信号划分为多个段;声模型生成单元,用于为每个所述段生成声模型;声类型识别单元,用于识别每段的声类型;相似性矢量生成单元,用于根据所述声类型生成相似性矢量;分组单元,用于将由所述相似性矢量生成单元生成的所述相似性矢量分组;以及索引单元,用于根据所述分组的相似性矢量,为声信号提供索引。
18.一种索引方法,包括如下步骤获得声信号;将所述声信号划分为多个段;为每个所述段生成声模型;确定所述声模型的可靠性;根据所述声模型的可靠性,生成具有作为预定段的声模型与每个其它段的声信号之间的相似性的元素的相似性矢量;对生成的所述相似性矢量分组;并且根据分组的所述相似性矢量,对声信号进行索引。
19.一种索引方法,包括如下步骤获得声信号;将所述声信号划分为多个段;为每个所述段生成声模型;识别每段的声类型;根据所述声类型,生成相似性矢量;将生成的相似性矢量分组;并且根据分组的所述相似性矢量,为所述声信号加索引。
20.一种计算机程序产品,具有包括编程指令的计算机可读介质,其中当计算机执行所述指令时,所述指令使计算机执行如下步骤获得声信号;将所述声信号划分为多个段;为每个所述段生成声模型;确定所述声模型的可靠性;根据所述声模型的可靠性,生成具有作为预定段的声模型与每个其它段的声信号之间的相似性的元素的相似性矢量;对生成的所述相似性矢量分组;并且根据分组的所述相似性矢量,对声信号进行索引。
21.一种计算机程序产品,具有包括编程指令的计算机可读介质,其中当计算机执行所述指令时,所述指令使计算机执行如下步骤获得声信号;将所述声信号划分为多个段;为每个所述段生成声模型;识别每段的声类型;根据所述声类型,生成相似性矢量;将生成的相似性矢量分组;并且根据分组的所述相似性矢量,为所述声信号加索引。
全文摘要
一种索引设备,包括获取单元,用于获得声信号;划分单元,用于将声信号划分为多个段;声模型生成单元,用于为每个段生成声模型;可靠性确定单元,用于确定声模型的可靠性;相似性矢量生成单元,用于根据可靠性,生成具有作为预定段的声模型与每个其它段的声信号之间的相似性的元素的相似性矢量;分组单元,用于将由相似性矢量生成单元生成的相似性矢量分组;以及索引单元,用于根据经过分组的相似性矢量,对声信号进行索引。
文档编号G10L15/00GK1750120SQ20051009175
公开日2006年3月22日 申请日期2005年8月17日 优先权日2004年9月16日
发明者山本幸一, 益子贵史, 田中信一 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1