声音处理装置以及声音处理方法

文档序号：2827479阅读：227来源：国知局

声音处理装置以及声音处理方法
【专利摘要】本发明提供一种声音处理装置以及声音处理方法。声音处理装置的特征为，具备：获取声音数据中包含的元音区间的特征量的获取单元；按照每个元音通过非监督分类法将所述获取到的特征量中与多个相同元音对应的特征量，分类为多个集群的分类单元；以及对所述多个元音从分类的集群中决定与相同说话人对应的集群组合的决定单元。
【专利说明】声音处理装置以及声音处理方法

【技术领域】
[0001] 本发明涉及声音处理装置以及声音处理方法。

【背景技术】
[0002] 随着以1C录音机为首的小型录音设备的普及，增加了在会议或座谈会上对不规则地交替的多个说话人的声音进行录音的机会。为了有效地利用录音的声音数据，开发一种特定在声音数据中何时、由谁发音的技术（例如，专利文献1 :日本特开2004-145161号公报）。该技术被称为说话人特定（Speaker Diarization)。
[0003] 在专利文献1公开的技术中，通过比较录音数据的声音区间的特征量和预先记录的说话人的声音的特征量来特定说话人。
[0004] 在专利文献1中，为了特定说话人，必须预先记录成为对象的说话人的声音特征量。即，没有进行登录的未知的说话人不能成为处理对象。
[0005] 鉴于上述问题，本发明提出了一种不必事先登录说话人也能容易地执行说话人特定的声音处理装置、声音处理方法。

【发明内容】

[0006] 本发明的声音处理装置，其特征在于，具备：
[0007] 获取单元，其获取声音数据所包含的元音区间的特征量；
[0008] 分类单元，其通过非监督分类法将所述获取到的特征量中与相同元音对应的多个特征量按照每个元音分类为多个集群；以及
[0009] 决定单元，其根据对所述多个元音进行了分类的集群来决定与相同说话人对应的集群的组合。
[0010] 根据本发明，能够不事先登录说话人也容易地执行说话人特定。

【专利附图】

【附图说明】
[0011] 图1是表示该发明的实施方式一的声音处理装置的功能结构的框图。
[0012] 图2是表示声音处理装置的物理结构的框图。
[0013] 图3A是用于说明声音数据的音素识别处理的图。
[0014] 图3B是表不特征量表的一例的图。
[0015] 图4A是特征量的聚类（clustering)处理的概念图。
[0016] 图4B是表不聚类表的一例的图。
[0017] 图5A是用于说明计算频率的处理的图。
[0018] 图5B是表示频率表以及对分值（pair score)表的一例的图。
[0019] 图6A是用于说明组合分值的计算方法的图。
[0020] 图6B是表示组合分值表的一例的图。
[0021] 图7是表不决定组合表的一例的图。
[0022] 图8A是用于说明赋予假定说话人编号的处理的图。
[0023] 图8B是表不假定说话人表的一例的图。
[0024] 图9A是用于说明决定确定说话人编号的处理的图。
[0025] 图9B是表不决定说话人表的一例的图。
[0026] 图10是表示说话人信息输出处理的一例的流程图。
[0027] 图11是表示分类（Diarization)处理的一例的流程图。
[0028] 图12是表示对分值决定处理的一例的流程图。
[0029] 图13是表示组合决定处理的一例的流程图。
[0030] 图14是表示区分处理的一例的流程图。
[0031] 图15A、B是用于说明计数变形例的频率的处理的图。

【具体实施方式】
[0032] 以下，参照附图对用于实施本发明的方式的声音处理装置进行说明。另外，在图中对相同或相等的部分赋予相同的符号。
[0033](实施方式一）
[0034] 实施方式一的声音处理装置1具备以下几个功能。i)使用麦克风来录音声音的录音功能；ii)从录音的声音数据中提取声音区间的特征量的特征量提取功能；iii)根据提取出的特征量将声音区间按说话人进行区分的区分功能；iv)输出区分结果的输出功能等。
[0035] 如图1所示，声音处理装置1具备麦克风10、信息处理部20、显示部30、输出部40、输入部50以及操作部60。
[0036] 麦克风10是具有将音波转换成电信号的转换部和将转换的电信号传达给信息处理部20的传达部的话筒。麦克风10通过这样的物理结构将多个说话人发出的声音转换成电信号后传达给信息处理部20。以下，以麦克风10录音了使用包含"a"、"i"、"u"、"e"、"o" 五个元音的日语的多个说话人的会话的情况为一例进行说明。
[0037] 如图2所示，信息处理部20在物理上由CPU(中央处理单元）21、RAM(随机存取存储器）22、ROM(只读存储器）23、1/0(输入/输出）部24、外部存储装置25以及内部总线 26构成。
[0038] CPU21是控制声音处理装置1的诸功能的中央运算装置，执行从R0M23下载到 RAM22中的程序，来执行后述的处理。
[0039] RAM22是易失性存储器，临时保存CPU21执行的程序和中间数据，并作为CPU21进行各种处理时的作业区域来使用。
[0040] R0M23是存储CPU21执行的程序的非易失性存储器。
[0041] I/O部24由USB (通用串行总线）、串行端口以及以太网适配器等接口设备构成，来实现与信息处理部20连接的显示部30、操作部60和其他外部装置等的信息的输入输出。 I/O部24作为图1的输入部50和输出部40发挥作用。
[0042] 外部存储装置25是硬盘驱动、⑶-ROM(只读光盘存储器）和闪存等非易失性存储装置，存储声学模型等在后述处理中使用的数据。
[0043] 另外，CPU21、RAM22、R0M23、I/0部24以及外部存储装置25分别通过内部总线26 进行连接，能够相互发送信息。
[0044] 信息处理部20通过上述物理结构作为声音数据存储部210、特征量提取部220、特征量分类部230、包含对分值决定部2410以及组合分值决定部2420的组合决定部240、区分部250而发挥作用。在后述中对信息处理部20进行详细的说明。
[0045] 显示部30由液晶显示器等构成，显示从信息处理部20传达的信息。
[0046] 输出部40从信息处理部20接收成为声音数据和表示后述的说话人特定结果的信息的输出数据，并将其输出给外部装置。
[0047] 输入部50从外部装置接收成为声音数据和特征量数据的输入数据，并将其传达给信息处理部20。将后述的元音区间的特征量作为输入数据来接收时，输入部50作为获取特征量的获取单元而发挥作用。
[0048] 操作部60由触摸屏、键盘、按键、定点设备等接受用户操作的操作接受装置和将操作接受装置接受的操作信息传达给信息处理部20的传达部构成。操作部60通过这样的物理结构接受用户的操作，并将操作信息传达给信息处理部20。
[0049] 接下来，对信息处理部20的功能进行说明。如图1所示，信息处理部20作为功能单元包括：声音数据存储部210、特征量提取部220、特征量分类部230、包含对分值决定部 2410和组合分值决定部2420的组合决定部240以及区分部250。
[0050] 声音数据存储部210将从麦克风10传达的信号（声音信号）作为声音数据来记录。或者，记录输入部50从外部设备接收的声音数据。声音数据存储部210将成为记录的处理对象的声音数据传达给特征量提取部220。
[0051] 特征量提取部220获取包含在从声音数据存储部210传达来的声音数据中的元音区间的特征量。为了获取元音区间的特征量，首先特征量提取部220对声音数据执行音素识别。具体而言，将声音数据中音量（功率）超过预定阈值的部分推定为声音区间后，提取音频特征量。然后，与音频模型中包含的各音素的特征量进行比较，将最类似的音素决定为其声音区间的音素（图3(A))。此时，当与最类似的音素的类似度低于预定的阈值时，可以作为非声音区间从处理对象中排除。
[0052] 例如，为了能够超过个体差、性差而决定音素，将根据多个说话人的声音而生成的一般的音频模型预先记录到R0M23或外部存储装置25中。该音频模型分别包括说话人使用的语言（在此为日语）所包含的各元音以及辅音的特征量。
[0053] 在此为了简单，设声音数据的说话人全员以与声音处理装置1存储的一个音频模型对应的语言进行发音。为了能够通过一个声音处理装置1处理多个语言，准备分别与多个语言对应的多个音频模型，根据用户的设定操作选择最佳的音频模型即可。此外，也可以根据每个说话人的性别、年龄选择声音模型。
[0054] 特征量提取部220提取确认了声音识别结果的元音的声音区间（元音区间）的特征量。在此，作为特征量提取十六维的ISPs (Immittance Spectral Pairs)。然后，将关联了提取的元音区间的特征量、时间信息以及元音的类别的信息（参照图3B)传达给特征量分类部230。特征量提取部220提取声音数据包含的元音区间的特征量，因此也被称为获取单元。
[0055] 另外，在此重视在多个元音区间保持的说话人个体特征程度较高的特征量，将 ISPs采用为特征量。然而，本发明并不局限于此，也可以采用LSPs(Line Spectral Pairs) 或 MFCCs (Mel-Frequency Cepstral Coefficients)等任意的特征量。
[0056] 例如，如图3A所示，设分别在声音数据的时刻tl?t2(元音区域VI 1)录音了元音"a"、在时刻t3?t4(元音区间VI 2)录音了元音"i"。此时，特征量提取部220对每个元音区间特定确定了元音的信息（例如，对于元音区域VI 1为"a"）、声音区间的信息（VI 1、 VI 2……）以及其声音区间的特征量。元音区间的信息包含表示其声音区间的定时的信息 (例如，对于VI 1为开始时刻tl和结束时刻t2)。然后，将确认的信息与特征量表FT (图 3B)对应起来进行存储。将在声音数据中出现的所有元音的信息记录到特征量表中后，特征量提取部220将生成的特征量表FT传达给特征量分类部230。
[0057] 特征量分类部230将获取的特征量中与相同元音对应的特征量通过非监督分类法分类为多个集群。另外，特征量分类部230也可以经由输入部50从外部装置获取元音区间的特征量。
[0058] 具体而言，首先，将包含在从特征量提取部220传达的特征量表中包含的特征量按元音（日语的"3"、"1"、"11"、"6"、"0"五个类别）进行分割。然后，对每个分割的特征量表执行聚类，从而在特征空间上将特征量分割为已知的说话人数量的集群。聚类是预先通过不使用正解的监督数据的非监督学习（Unsupervised Learning),将特征量分类为说话人数量的集群（非监督分类：Unsupervised Classification)的处理。
[0059] 在本实施方式中，设用户预先使用操作部60输入说话人人数。将被输入的说话人数量作为设定信息存储到RAM22中。
[0060] 图4A是特征量分类部230执行的聚类的概念图。图4A表示在二维的特征量空间 FP上，根据用黑点示出的特征量的配置来进行聚类，并将特征量进行了分类的结果表示在用虚线划分的三个集群上。此时，特征量空间FP的坐标轴与特征量的参数对应。或者，当通过主成分分析削减维度时，在各坐标轴分别与主成分分值对应的空间上进行坐标转换的基础上进行特征量的聚类。此时，η维特征量空间FP的坐标轴分别与第一?第η主成分分值的任意一个对应。
[0061] 在本实施方式中，通过LBG(Linde-Buzo-Gray)法将按照每个原因进行汇集的特征量进行向量量化后，通过制作VQ(Vector Quantization)表来进行聚类。VQ表也被称为代码本。
[0062] 制作的VQ表包含特征空间中的各说话人的元音特征量的代表向量。各元音区间的特征量被量化为VQ表包含的代表值中距离（例如马氏距离）最近的代表值。即，当将代表向量考虑成集群时，将各特征量分类为多个集群的任意一个。
[0063] 另外，聚类方式并不局限于此。例如，代替LBG法，也能通过PNN(Pairwise Nearest Neighbor)法来制作VQ表。或者，也可以通过被称为群平均法或沃德（ward)法的阶层聚类，或使用了 SOM (Self-Organizing Maps)的聚类方法等，用于非监督地分析集群的已知的任意方法来代用。无论用哪种方法聚类，作为聚类结果得到的集群都是分别将成为处理对象的元音特征量分类为每个说话人的集群。理想上，各集群包含的特征量的元音区间全部都是一个说话人发音的。并且，可以说集群的代表值是其说话人的元音特征量。
[0064] 当对所有元音结束聚类时，特征量分类部230将聚类结果传达给组合决定部240。例如，如图4A中的模式所示，在特征量空间FT上将元音"a"的特征量分割为集群A1?A3 时，特征量提取部220制作如图4B所示的集群表CT。
[0065] 集群表CT将根据元音类别按时间顺序分配的"元音ID"（图4B中的al?a3……）、其元音出现的声音数据上的区间"元音区间"（图4B中的VI 1、VI k、VI j……）以及其元音区间的特征量所属的集群（图4B中的A1?A3)对应起来进行记录。特征量分类部230对 "a"?"〇"的所有元音执行聚类，并制作集群表CT。然后，将制作的集群表CT传达给组合决定部240。
[0066] 如上所述，特征量分类部230对说话人使用的语言中包含的各元音执行通过非监督分类法将与相同元音对应的特征量分类为多个集群的处理。由于使用非监督分类法，因此没有登录的说话人（声音的特征量未知的说话人）也能成为分类的处理对象。此外，使用用户预先输入的说话人数量来进行聚类，因此能够省略推定说话人数量的处理从而减少处理量。并且，能够防止因说话人数量的推定误差而产生的聚类精确度的降低。尤其，对于录音了会话的用户而言大多情况下参加会话的人数（说话人数量）是已知的，因此即使设定说话人数量，对用户的负担较小。
[0067] 此外，特征量分类部230分别对元音进行聚类处理。即，能够将聚类对象限定成相同音素（元音）的特征量，因此与对具有不同特征的多个音素统一进行聚类的情况相比，聚类的精确度较高。即，包含在通过聚类生成的集群中的特征量为相同说话人发音的元音区间的特征量的概率较高。换而言之，通过分类生成的集群与相同说话人对应的程度较高。 [0068] 此外，由于说话人个体特征集中到强烈出现的元音的特征量来执行聚类，因此能够降低成为处理对象的特征量。并且，能够防止由于不出现（出现的概率较低）说话人个体特征的环境音或辅音的影响而导致的聚类精确度的降低。
[0069] 组合决定部240根据包含在特征量分类部230进行分类的集群中的特征量的元音区间出现的声音数据中的定时来决定进行分类的集群的组合中与相同说话人对应的组合 (对应组合）。
[0070] 对应组合是从每个元音中一个一个提取了集群的组合中的所有集群与相同说话人对应的组合。
[0071] 将上述的聚类处理的结果、各元音区间的特征量分类为每个说话人的不同的集群。然而，对每个元音进行聚类，因此某个元音的某个集群的说话人是否与其他元音的哪个集群对应，其对应关系并不明确。因此，在本实施方式中，决定组合部240决定与各说话人对应的集群的组合。
[0072] 当决定组合时，首先分值决定部2410对集群对决定表示与相同说话人对应程度的对分值，其中，所述集群对是从特征量分类部230对于不同的两个元音（元音对）进行了分类的集群中一个一个提取出来的。
[0073] 如本例子所示，当特征量分类部230对日语中包含的五个元音分别进行特征量的聚类时，元音对是{ { "a"、"u"}、……{ "e"、"o"}的形式存在5C2 = 10。对分值决定部2410对从特征量分类部230进行了分类处理的元音中提取的两个元音对的所有组合（本例子中为10)执行后述的计算对分值的处理。
[0074] -个元音对包含特征量分类部230执行了分类处理的不同的两个元音。对分值决定部2410对集群的对（集群对）决定对分值，其中集群对是一个一个从对其一方的元音进行的分类结果的集群集合和对另一方的元音进行的分类结果的集群集合中提取出的。当元音对为"a"和" i "，且分别分类为三个集群时，有"集群A1"和"集群11"、"集群A2"和"集群12"、……"集群A3"和"集群13"等9个集群（参照图5B)。设元音数量为N、集群数量（说话人数量）为Μ时，共计能够定义nC2XMXM(个）集群对。对分值决定部2410通过后述的方法对该各集群对计算对分值。
[0075] 在本实施方式中，对分值决定部2410根据一方的集群中包含的特征量的元音区间和另一方的集群中包含的特征量的元音区间在声音数据的部分区间中共同出现的频率，决定对分值。参照图5具体说明对分值的计算方法的具体例。对分值决定部2410将包含预定数量的音素的部分区间一个音素一个音素地错开来对声音数据进行定义（图5A的PI1、 PI2……）。然后，计算在相同的部分区间集群对中包含的元音区间共同出现的频率。另外，部分区间中包含的音素数量最好是从5?10范围中选择一个来进行设定。
[0076] 例如，在某部分区间PIk中出现了具有属于集群对一方（例如集群A1)的特征量的元音区间和具有属于另一方（例如集群II)的特征量的元音区间时，不论个数是几个而将A1和II的共存次数设为一次来计算频率。
[0077] 或者，也可以在例如以1?m秒为部分区间PIl，m+l?2m秒为部分区间PI2的方式用时间进行等分划分来定义部分区间的基础上，进行以下的计算。在某部分区间PIk中，考虑分别出现a个具有属于集群对一方（例如集群A1)的特征量的元音区间，b个具有属于另一方（例如集群II)的特征量的元音区间的情况。此时，双方的元音区间共存的频率例如像（a+b)次、（aXb)次那样能够定义多个。在此，将从一方的集群对中提取了一个一个元音区间的组合的共计的aXb/2次设成在部分区间PI1共同出现的频率。例如，即使在 a+b的值为100较大的情况，如a = 99、b = 1那样偏向一方的情况下，考虑双方的集群与同一人物对应的程度较低。因此，通过设成aXb/2次，能够以进一步反映与相同人物对应的程度的形式来测量频率。
[0078] 对分值决定部2410对各部分区间计算集群对的元音区间共存的频率。计算的频率能够以如图5B的对频率表PFT的形式进行表示。在图5B的对频率表PFT中，元音对 { 的集群对中{A2、11}为和1039 -起出现的频率最多。频率越多的对，包含在其对中的两个集群中包含的元音区间在时间上接近地出现的程度就越高。会话中说话人变化的频率比发音新的元音的频率更低。因此，在声音数据中接近地出现的元音区间的特征量是相同说话人的特征量的可能性较高。因此，在本实施方式中计算频率越高的集群对，作为与相同说话人对应的程度越高来设定集群分值。
[0079] 在本实施方式中，为了减少处理负担，将频率表PFT的频率顺序直接作为对分值进行处理。具体而言，对分值决定部2410对图5B所示的频率表PFT的各单元按照频率值从小到大的顺序从一开始修改数值后，变换成对分值表PST。此时，对分值较低的一方与相同说话人对应的程度变高。
[0080] 另外，从频率计算对分值的方法能够使用频率越高与相同说话人对应的程度越高的其他方法来计算。例如，将频率值设为ft时，也可以使用下列公式（1)来计算对分值ps。
[0081] ps = 1/log (ft)…（1)
[0082] 此外，也可以使用对分值越高与相同说话人对应的程度越高的结构。此时，例如能够使用下列公式（2)来计算对分值。
[0083] ps = log (ft)…（2)
[0084] 组合决定部240根据对分值决定部2410计算出的对分值，对从所有元音中一个一个提取出的集群组合来决定表示与相同说话人对应的程度的分值（组合分值）。具体而言，组合分值决定部2420将从组合各元音的集群集合中一个一个提取出的集群组合的全部设为与相同说话人对应的组合的候补。然后，对各候补通过后述的方法计算组合分值。此后，将计算出的组合分值最高的组合决定成与相同说话人对应的对应组合。
[0085] 组合分值决定部2420对成为候补的各组合提取出所有的组合中包含的集群对。例如，当成为当前处理对象的候补组合是图6A所示的组合C1 (包括集群A1、集群II、集群 U1、集群E1以及集群01)时，提取{Al、II}、{A1、U1}、……、{E1、01}等10个集群对。然后，将对提取出的集群对的集群分值进行了相加后而得到的值设成候补组合的组合分值 (参照图6A)。
[0086] 当元音数量为η、说话人数量为m时，能够定义N = πΓη个候补组合。例如，当元音数量为η = 5、说话人数量为m = 3时，能够定义Ν = 3~5 = 243个候补组合。组合分值决定部2420分别对定义了的候补组合（C1?CN)决定集群分值。将决定结果存储到组合分值表CST中，其中所述组合分值表CST为如图6B所示的将组合ID、组合中包含的集群ID 与组合分值对应起来的组合分值表。
[0087] 在本实施方式中，对分值越小其集群对与相同说话人对应的程度越高。因此，可以说候补组合中包含的集群对的对分值最低的组合与相同说话人对应的程度最高。因此，本实施方式的组合决定部240将图6B的组合分值表CST中组合分值最小的组合决定为最初的对应组合。另外，当对分值越大与相同说话人对应的程度越高的情况下，将组合分值最大的组合决定为对应组合即可。以下也是相同的。
[0088] 接下来，将不包括包含在已经决定的对应组合中的集群的候补组合中的组合分值最小的组合决定为下次的对应组合。这样，组合决定部240决定说话人数量份的对应组合。决定的各对应组合分别对声音数据b的说话人的某一人成为与所有元音的特征量对应的组合。因此，能够对决定的各组合分配说话人编号。基于组合决定部240的决定结果能够以如图7表不的决定组合表DCT的方式进行表不。
[0089] 区分部250根据包含在由组合决定部240决定的各对应组合的集群中的特征量的元音区间在声音数据中出现的定时，按说话人不同来区分声音数据的声音区间。
[0090] 具体而言，区分部250首先根据其特征量包含的集群属于哪个说话人编号的对应组合，来对各元音区间赋予假定说话人编号。例如，如图8A所示，当集群A1包含元音区间 VI 1 (元音al)的情况下，将集群A1所属的对应组合的说话人编号P3设定成假定说话人编号。以下，对声音数据包含的各元音区间同样分配假定说话人编号。将分配结果如图8B所示那样存储到将元音ID、表示元音区间的信息以及假定说话人编号对应起来的假定说话人表PT中。
[0091] 假定说话人编号是使用聚类结果不进行任何修饰地直接进行了说话人特定的结果。例如，当在特征量分类部230进行的聚类结果中存在误差时，即使说话人实际上没有进行变换也会通过其特征量部分决定为说话人进行了交换。不能期待聚类结果中完全不存在误差，因此这样的话会降低说话人特定的结果的精确度。
[0092] 接下来，区分部250根据对各声音区间进行分配的假定说话人编号，按每个说话人区分各声音区间（元音区间和辅音区间）。例如，区分部250对各元音区间特定分配给其前后X个元音区间的假定说话人编号的众数。然后，将特定的说话人编号设为该声音区间的确定说话人编号。
[0093] 以图9(A)为一例说明该处理。在图9(A)中，对在声音数据上以白色长方形表示的元音区间和以黑色长方形表示的辅音区间的两种声音区间进行说话人特定。
[0094] 例如，在图9A所示的元音区间VI k中，对前后四个元音区间（元音区间VI k-4? VIk+4)分配五个假定说话人编号P1、两个PI2、一个PI3。此时，众数P1成为元音区间VIk 的确定说话人编号。同样，对于元音区间VI k+1，前后四个元音区间（元音区间VI k-3? VI k+5)的众数PI1成为确定说话人编号。
[0095] 通过这样的处理，能够使用前后元音区间的信息来修饰最初执行的说话人特定结果。因此，即使在特征量分类部230进行的聚类结果中多少存在点误差，也能够根据前后预定期间的信息来修正错误的说话人交换点。因此能够实现高精度的说话人特定。
[0096] 当对各元音期间分配确定说话人编号时，区分部250接着进行辅音区间的说话人特定。在本实施方式中，根据对成为处理对象的辅音区间的前后的元音区间而决定的确定说话人编号来分配辅音区间的确定说话人编号。例如，如图9A、9B的Clj所示，当元音区间被分配了相同确定说话人编号的元音区间包围的情况下，辅音区间分配与前后的元音区间相同的说话人编号。如果，当对前后的元音区间决定不同的确定说话人编号的情况下，将对于时间距离近的元音区间而决定的确定说话人编号决定为其辅音区间的确定说话人编号。 [0097] 区分部250通过对各声音区间分配确定说话人编号来进行说话人特定。如图9B 所示，将说话人确认结果存储到特定说话人表DST中，其中特定说话人表DST将表示声音区间的信息和确定说话人编号对应起来。然后，输出部40输出特定说话人表DST。或者，显示部30显示表示特定说话人表DST的画面。
[0098] 接下来，参照流程图对声音处理装置1执行的处理进行说明。声音处理装置1通过用户使用麦克风10录音声音或使用输入部50进行汲取的任意一个方法将声音数据存储到声音数据存储部210中后，使用操作部60执行指示说话人确定的执行的操作时，开始图 10所示的说话人信息输出处理。
[0099] 在说话人信息输出处理中，首先特征量提取部220获取存储在声音数据存储部 210中的声音数据（步骤S101)。然后，对获取的声音数据特定声音区间，并执行音素识别 (步骤 S102)。
[0100] 接下来，特征量提取部220对确定了音素识别结果的各元音区间提取十六维的 ISPs，存储到特征量表FT中（步骤S103)。
[0101] 当结束步骤S103时，特征量分类部230开始进行分类处理（步骤S104)。
[0102] 参照图11，对在步骤S104中执行的分类处理进行说明。在分类处理中，首先由特征量分类部230获取说话人人数（步骤S201)。用户使用操作部60预先输入说话人人数，存储到RAM22中。
[0103] 当步骤S201结束时，特征量分类部230选择被设定的语言中包含的元音中的在当前循环中成为处理对象的关注元音（步骤S202)。
[0104] 接下来，特征量分类部230从特征量表FT中提取关注元音的特征量（步骤S203)。例如，当关注元音为"a"时，从特征量表FT中只收集元音类别"a"的行，来制作新的特征量表即可。新的特征量表只存储与相同元音对应的特征量。
[0105] 接下来，特征量分类部230将提取出的关注元音的特征量分类为在步骤S201中获取到的数量的集群（步骤S204)。通过用LBG法制作VQ来实现聚类。
[0106] 当对关注元音结束聚类时，接下来特征量分类部230对成为处理对象的所有元音判断是否结束了聚类处理（步骤S205)。当有未处理的元音时（步骤S205 ;否），将下次的未处理的元音设为关注元音后，重复从步骤S202开始的处理。另一方面，当对所有元音完成处理的情况下（步骤S205 ;是），对分值决定部2410开始对分值决定处理（步骤S206)。
[0107] 参照图12,说明在步骤S206中执行的对分值决定处理。在对分值决定处理中，对分值决定部2410首先将声音数据按时间分割成部分区间（步骤S301)。
[0108] 接下来，对分值决定部2410对特征量分类部230进行聚类的所有元音能够定义的所有元音对，制作对频率表PFT的雏形（步骤S302)。例如，当对于日语的五个元音进行了聚类的情况下，只要在RAM22的预定区域中制作 5C2 = 10个对频率表即可。如图5B所示，对频率表包含记录频率值的单元，其中所述频率值是分别根据对元音对而定义的集群对，相当于一方的元音的集群数量X另一方的集群数量相当的数量的值。在本实施方式中，该数量与说话人人数的平方相等。
[0109] 接下来，对分值决定部2410选择根据步骤S301的分割而制作的部分区间中未处理的一个作为关注部分区间（步骤S303)。例如，从声音数据的最前开始一个一个向后选择即可。
[0110] 接下来，对分值决定部2410根据包含在在对频率表中定义的各集群对中的特征量的元音区间在关注部分区间共同出现的频率，更新所有的对频率表（步骤S304)。
[0111] 具体而言，对于和各对频率表的各单元对应的集群对，在关注部分区间共存双方集群中包含的特征量的元音区间时，将出现频率的计算+1来进行更新。对所有的单元执行该处理，更新一个对频率表。另外，如上述所示，当根据时间等分地进行划分来定义部分区间时，也可以共同计算包含在一方的集群中的特征量的元音区间出现的数量a和包含在另一方的集群中的特征量的元音区间出现的数量b，并使用计算出的a和b，将aXb/2的值作为关注部分区间中的集群对共同出现的频率，加到当前的单元。
[0112] 当在步骤S304中更新所有的对频率表时，接下来对分值决定部2410对在步骤 S301中定义的所有的部分区间判断是否完成上述处理（步骤S305)。当存在未处理的部分区间时（步骤S305 ;否），对下次的未处理的部分区间重复从步骤S303开始的处理。另一方面，当对所有的部分区间完成了处理的情况下（步骤S305 ;是），频率计算结束并完成了对频率表PFT，因此转移到步骤S306。
[0113] 在步骤S306中，对分值决定部2410根据对频率表PFT记录的频率，决定对分值 (步骤S306)。具体而言，对各对频率表PFT按频率值从小到大的顺序分配从一开始的数值，从而变换成对分值表PST。这样来决定所有的对分值。
[0114] 当返回到图11，在步骤S206中决定所有的对分值时，接下来组合决定部240开始进行组合决定处理（步骤S207)。
[0115] 参照图13,对在步骤S207中执行的组合决定处理进行说明。在组合决定处理中，首先组合分值决定部2420提取从生成的集群集合中的各元音一个一个提取的所有的组合作为候补组合（步骤S401)。
[0116] 当提取候补组合时，接下来组合分值决定部2420选择在提取的候补组合中在当前的循环中成为处理对象的关注组合（步骤S402)。然后，如图6的说明所示，对选择的关注组合决定组合分值（步骤S403)。
[0117] 接下来，组合分值决定部2420对在步骤S401中提取的所有的候补组合判断是否完成决定组合分值的处理（步骤S404)。当存在未处理的候补组合时（步骤S404 ;否），对下次的未处理的候补组合重复从步骤S402开始的处理。另一方面，当对所有的候补组合完成决定组合分值时（步骤S404 ;是），处理进入步骤S405。
[0118] 接下来，组合决定部240根据决定的组合分值决定与各说话人对应的对应组合 (步骤S405?S408)。首先，组合决定部240是成为候补的组合中的未决定集群的组合，并且决定与相同说话人对应的可能性最高的组合（最有可能性组合）（步骤S405)。另外，未决定集群的组合是一个都不包含设定了后述的决定完成标识的集群的组合。在最初的循环中，任一个集群中都没有设定决定完成标识，因此将记录在组合分值表中的组合分值最小的组合决定为最有可能性组合。
[0119] 接下来，组合决定部240对决定的最有可能性组合分配说话人编号（步骤S406)。说话人编号只要是每个循环的唯一的编号即可，在此对每个循环按顺序分配PI、P2、…… 的编号。例如，最初将包含集群A3、I1、U2、E2以及01的组合决定为最有可能性组合时，如图7所示，将其组合与说话人编号P1关联起来存储到决定组合表DCT中即可。
[0120] 接下来，组合决定部240对最有可能性组合包含的集群设定决定完成标识（步骤 S407)。此时，对集群A3、I1、U2、E2以及01设定决定完成标识。以后，在步骤S405?S408 的循环中，从步骤S405的决定对象中排除只要包含一个设定了决定完成标识的集群的候补组合。
[0121] 通过这样的处理，能够从每个元音的聚类结果以可能性高的顺序而无集群重复地决定与相同人物对应的元音特征量的组合。
[0122] 因此，能够对每个元音执行聚类处理来提高精度的同时，以较少的计算量确定每个说话人通过多少的特征量来产生多个元音。
[0123] 接下来，组合决定部240判断是否完成在分类处理（图11)的步骤S201中获取的人数的所有说话人份的对应组合的决定（步骤S408)。当没有决定所有说话人份的情况下 (步骤S408 ;否），对没有建立决定完成标识的集群的组合即候补组合重复从步骤S405开始的处理。另一方面，当完成了所有的说话人份的决定的情况下（步骤S408 ;是），结束组合决定处理。
[0124] 返回到图11，在步骤S207中决定所有的对应组合时，接下来区分部250开始进行区分处理（步骤S208)。
[0125] 参照图14,对在步骤S208中执行的区分处理进行说明。在区分处理中，首先区分部250对各元音区间赋予假定说话人编号（步骤S501)。具体而言，如图8的说明所示，区分部250对各元音区间根据包含其特征量的集群属于哪个说话人编号的对应组合，赋予假定说话人编号。
[0126] 然后，区分部250对各元音区间特定确定说话人编号（步骤S502)。具体而言，如图9的说明所示，区分部250对各元音区间将分配给其前后四个元音区间的假定说话人编号的众数特定为确定说话人编号。
[0127] 接下来，区分部250对各辅音区间特定确定说话人编号（步骤S503)。具体而言，如图9的说明所示，区分部250对各辅音区间根据分配给其前后的元音区间的假定说话人编号，特定确定说话人编号。然后结束区分处理。
[0128] 返回到图11，当在步骤S208中结束区分处理时，结束分类处理。
[0129] 返回到图10,当在步骤S104中结束分类处理时，输出部40输出表示说话人特定结果的信息（确定说话人表DST)(步骤S105)。
[0130] 然后，结束说话人信息输出处理。
[0131] 根据以上说明，在本实施方式的声音处理装置1中，分类部230将与相同元音对应的特征量通过非监督分类法分类为多个集群。然后，组合决定部240决定分类的特征量中的与相同说话人对应的组合。当事前没有登录说话人而进行说话人特定时，很难特定相同说话人发音的区间的特征量的情况成为课题。在本实施方式的声音处理装置1中，能够将包含在组合决定部240决定的组合的集群中的特征量的元音区间视为相同说话人的发声，因此说话人特定变得容易。
[0132] 尤其，当通过非监督分类法来分类特征量时，将声音的特征量无关音素而总括起来进行聚类的话聚类精确度下降。然而，当分别进行聚类时，不能使各自的集群与说话人的对应，从而说话人特定变得困难。因此，在本实施方式中，在与相同元音对应的特征量执行聚类后，决定与相同说话人对应的集群的组合，从而能够确保聚类精确度的同时使说话人特定变得容易。
[0133] 此外，本实施方式的声音处理装置1，根据组合决定部240决定的组合集群中包含的声音区间在声音区间出现的定时，由区分部250按说话人来区分声音数据的声音区间。然后，输出区分结果。因此，能够在事前没有登录说话人的情况下执行说话人特定。
[0134] 本实施方式的声音处理装置1，对每个与相同元音对应的特征量进行聚类，因此聚类的精确度较高。因此，与没有区别音素进行聚类的情况相比，能够实现精确度高的说话人特定。此外，对每个元音执行聚类处理来提高精度，并且能够以较少的计算量特定不同的说话人发出哪个特征量的元音。
[0135] 此外，通过根据聚类结果分别对多个元音进行说话人特定，即使存在聚类精确度较低的元音也能够通过其他的元音进行辅助，因此能够抑制说话人特定精确度的降低。
[0136] 此外，当说话人特定时，将聚类的对象按每个说话人限定到特征明确的元音中。因此，根据每个说话人很难出现差别的辅音或杂音不能使说话人的差异变小，从而说话人特定的精确度较高。此外，成为处理对象的声音区间混在元音区间，因此需要的计算量较小。
[0137] 此外，从每个元音的聚类结果，根据分类的集群分别包含的特征量的元音区间在声音数据中出现的定时，决定对应组合。在会话中，相同说话人说话的元音区间比不是这样的元音区间时间上接近的比例较高。因此，通过根据出现定时将集群之间对应起来，能够确切地决定说话人与集群的对应。
[0138] 具体而言，分别对成为多个候补的组合决定表示与相同说话人对应程度的组合分值后，根据决定的组合分值来决定对应组合。根据这样的结构，与没有确立候补来决定组合的情况相比，能够更准确地决定对应的组合。
[0139] 尤其在本实施方式中，对候补组合包含的集群对决定对分值，并根据决定的对分值决定组合分值。对两个特征量的集群能够通过上述的单纯且计算量少的方法来计算出与相同说话人对应的程度。在本实施方式中，通过使用这样的方法，能够以高精度地、且计算量少地决定对应组合。其结果，能够以少计算量来实现高精度的说话人特定。
[0140] 另外，从多个对分值计算组合分值的结构，在候补组合包含多个集群对的情况下有效。即，在候补组合至少包含三个集群的情况下有效。
[0141] 在本实施方式中，根据集群对中一方集群中包含的特征量的元音区间和另一方的集群中包含的特征量的元音区间在声音数据的部分区间共同出现的频率，决定对分值。计算两集群的特征量的元音区间的频率的处理，在单纯且计算量少的基础上，作为与相同说话人对应的程度的指标较优越。通过这样的方法决定对分值，能够高精度地、且少计算量地决定对应组合。其结果，能够以少计算量地实现高精度的说话人特定。
[0142] (变形例）
[0143] 以上，对本发明的实施方式一进行了说明，但本发明的实施方式并不局限于此。
[0144] 例如，在上述实施方式中，主要对录音了包含五个元音的日语会话的声音数据的处理进行了说明。然而，本发明并不局限于日语，也能够应用于英语、中文、法语等任意的语言。在此时，特征量分类以及组合决定部进行处理的元音的数量、组合数量只根据其语言的元音数量进行增减，也能够进行相同的处理。
[0145] 此外，在上述实施方式中，对使用语言中包含的所有的每个元音执行了聚类/组合决定处理，但本发明并不局限于此，对使用语言的一部分元音执行上述处理的结构也能产生效果。尤其，在像英语那样元音数量较多的情况下，当对其语言中包含的所有的元音执行聚类/以及组合决定处理时，有时处理量变大。因此，可以将"a"和" Λ "这些类似的元音作为一个元音来执行聚类等的处理。或者，也可以只对个人的特征量明确的元音执行上述处理。
[0146] 在上述实施方式中，将说话人数量作为数值执行聚类。然而，在说话人数量未知的情况下也能够应用本发明。例如，在分类处理（图11)的步骤S204中，对每个元音推定特征量的集群数量。然后，将按每个元音进行推定的聚类数量的众数推定为说话人数量后，分类为重新推定的说话人数量的集群即可。例如，作为推定的集群数量，在分别对元音"a"得到4、对元音"i"得到4、对元音"u"得到3、对元音"e"得到3、对元音得到4的情况下，将众数4设为说话人数量。然后，将与众数不同的元音（该一例中的元音"u"和元音"e"）分类为众数的四个集群。另外，说话人数量的推定方法并不局限于此。作为其他方法，有将对说话人特征明确的元音（例如"a"或"i"）推定了说话人数量的值应用到其他元音中的方法。另外，集群的数量能够使用沃德法、Upper tail法、X-means法等已知的方法进行推定。
[0147] 此外，输出信息并不局限于图9(B)，如果是包含说话人特定的结果，也可以是用户所希望的任意的信息。输出信息的形式不同也可以。例如，可以是将说话人变更点定时与交替后的说话人编号对应起来的文件、或对每个说话人分割的声音数据。
[0148] 此外，决定与相同说话人对应的组合的方法并不局限于上述实施方式的一例。例如，当计算对分值时，计算集群对的频率的方法并不局限于在上述实施方式中所示例的方法。例如，也可以以各元音区间为中心，将预定时间（例如10秒）作为部分区间，计算频率。例如，如图15 (A)所示，当将集群A1所包含的元音区间al设为关注元音区间时，以al为中心定义部分区间一，计算在部分区间一中出现其他元音的集群的元音区间的数量。此时，在部分区间一中分别出现II 一次、U2 -次、E2两次、E3 -次、01 -次。因此，分别对频率表中的A1-I1单元加上1、A1-U2单元加上1、A1-E2单元加上2、A1-E3单元加上1、A1-01单元加上1。也能够通过以各元音区间为中心执行这样的计算处理来求出频率。
[0149] 此外，当计算对分值时，该对所包含的两个集群中包含的元音区间越是接近地表现，也可以使用与相同人物对应的程度较高的其他方法来计算。例如，能够根据两个集群所包含的元音区间的距离来决定对分值。具体而言，通过频率变化，将集群对的元音区间之间的距离的平均值可以设为集群分值。此时，集群分值越小，与相同人鱼对应的程度越高。
[0150] 此外，从对分值计算组合分值的方法，也并不局限于上述实施方式示例的方法。例如，在上述实施方式中，通过均等地评价各对分值来求出了组合分值。然而，也可以按照每个元音使用不同的权重，将进行了权重相加的值设为组合分值。例如，一方面对日语元音中的"a"和"i"每个说话人出现明确的特征，但对"u"很难进行正确的聚类。因此，包含"a" 和"i"的元音对的对分值加权1. 5,包含"u"的元音对的对分值加权0. 7,求出组合分值。根据这样的结构，能够实现反映了每个音素的性质的更高精度的说话人特定。
[0151] 此外，能够对成为候补的组合采用计算组合分值以外的方法。例如，特定一个所有的分值表中频率最高的集群对。然后，对包含进行了特定的集群所包含的集群的其他集群对中的频率最高的集群对进行特定。以下，通过决定频率最高的组合，更简单地对所有的元音决定与相同说话人对应的组合。以下，通过特定除了已特定的集群而剩余的表中频率最高的集群对，能够决定与各说话人对应的组合。根据这样的结构，能够以少计算量来决定对应组合。
[0152] 另外，本发明不仅能够提供作为实施方式一或其变形例的声音处理装置1，还能够通过程序的应用，将已有的个人计算机等通用计算机作为声音处理装置1来发挥作用。艮P，将用于实现声音处理装置1的各功能结构的文本检索程序进行应用，使得能够通过控制已有的文本检索装置的计算机（CPU等）来执行，从而能够作为实施方式一或变形例的声音处理装置1来发挥功能。
[0153] 这样的程序的传播方法是任意的，例如，除了能够将其存储到存储卡、CD-ROM(只读光盘存储器）或DVD-ROM(数字通用光盘只读存储器）等记录介质中进行传播外，也能够经由网络等通信介质来进行传播。此外，也可以采用将重新配置CTD以及倒置索引等在上述处理中必要的数据的一部分或全部存储到外部服务器中，通过通信功能获取这些数据来执行上述处理的结构。
[0154] 此外，本发明在不脱离本发明的广义宗旨和范围的情况下，能够采用各种实施方式以及变形。即，说明了本发明的几个实施方式，但上述的实施方式是用于说明本发明的，而不是限定本发明的范围的。本发明的范围除了实施方式外，还包括在权利要求的范围中记载的发明和与其均等的范围。
【权利要求】
1. 一种声音处理装置，其特征在于，该声音处理装置具备：获取单元，其获取声音数据所包含的元音区间的特征量；分类单元，其通过非监督分类法将所述获取到的特征量中与相同元音对应的多个特征量按照每个元音分类为多个集群；以及决定单元，其根据对所述多个元音进行了分类的集群来决定与相同说话人对应的集群组合。
2. 根据权利要求1所述的声音处理装置，其特征在于，该声音处理装置还具备：区分单元，其根据包含在作为所述相同说话人而决定了组合的集群中的特征量的元音区间在所述声音数据中出现的定时，按说话人来区分所述声音数据的声音区间；以及输出单元，其输出表示所述区分结果的信息。
3. 根据权利要求2所述的声音处理装置，其特征在于，所述决定单元根据分别包含在所述进行了分类的集群中的特征量的元音区间在所述声音数据中出现的定时，决定与相同说话人对应的集群的组合。
4. 根据权利要求3所述的声音处理装置，其特征在于，所述决定单元，分别对成为与所述相同说话人对应的集群的组合的候补的多个组合，决定表示与相同说话人对应的程度的组合分值，根据所述决定的组合分值，决定与所述相同说话人对应的集群的组合。
5. 根据权利要求4所述的声音处理装置，其特征在于，所述分类单元对所述说话人使用的语言所包含的元音中的至少三个元音执行所述进行分类的处理，所述决定单元，对从由所述分类单元对不同的两个元音进行分类的集群中一个一个提取出的集群对，决定表示与相同说话人对应的程度的对分值，对由所述分类单元执行了分类处理的每个元音一个一个提取集群，生成成为所述候补的组合，根据对成为该生成的候补的组合所包含的集群对而决定的对分值，决定所述组合分值。
6. 根据权利要求5所述的声音处理装置，其特征在于，所述决定单元根据所述集群对中的一方集群所包含的特征量的元音区间和另一方集群所包含的特征量的元音区间在所述声音数据的部分区间共同出现的频率，决定所述对分值。
7. -种声音处理方法，其特征在于，具有以下几个步骤：获取声音数据所包含的元音区间的特征量的步骤，通过非监督分类法将所述获取到的特征量中与相同元音对应的多个特征量按照每个元音分类为多个集群的步骤，根据对所述多个元音进行分类的集群，决定与相同说话人对应的集群组合的步骤。
8. 根据权利要求7所述的声音处理方法，其特征在于，该声音处理方法还具备以下步骤：根据作为所述相同说话人而决定了组合的集群所包含的特征量的元音区间在所述声音数据中出现的定时，按说话人不同来区分所述声音数据的声音区间的步骤；以及输出表示所述区分结果的信息的步骤。
9. 根据权利要求8所述的声音处理方法，其特征在于，所述组合决定步骤根据分别包含在所述进行了分类的集群中的特征量的元音区间在所述声音数据中出现的定时，决定与相同说话人对应的集群的组合。
10. 根据权利要求9所述的声音处理方法，其特征在于，所述组合决定步骤，分别对成为与所述相同说话人对应的集群组合的候补的多个组合，决定表示与相同说话人对应的程度的组合分值，根据所述决定了的组合分值来决定与所述相同说话人对应的集群的组合。
11. 根据权利要求10所述的声音处理方法，其特征在于，所述分类步骤对所述说话人使用的语言所包含的元音中的至少三个元音来执行所述进行分类的处理，所述组合决定步骤，对于由所述分类步骤对不同的两个元音进行了分类的集群中一个一个提取出的集群对，决定表示与相同说话人对应的程度的对分值，从由所述分类步骤执行了分类处理的每个元音一个一个提取集群，生成成为所述候补的组合，根据对成为该生成的候补的组合所包含的集群对而决定的对分值，决定所述组合分值。
12. 根据权利要求11所述的声音处理方法，其特征在于，所述组合决定步骤根据所述集群对中的一方集群所包含的特征量的元音区间和另一方集群所包含的特征量的元音区间在所述声音数据的部分区间共同出现的频率，决定所述对分值。
【文档编号】G10L17/14GK104143332SQ201410189831
【公开日】2014年11月12日申请日期:2014年5月7日优先权日:2013年5月8日
【发明者】井手博康申请人:卡西欧计算机株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：井手博康
技术所有人：卡西欧计算机株式会社
我是此专利的发明人

上一篇：利用混合分量聚类Fisher得分算法提高音频分类准确率的方法
上一篇：自驱动无噪音录音键盘乐器的制造方法