检测音调频率的语音分析器、语音分析方法以及语音分析程序的制作方法

文档序号：2830080阅读：343来源：国知局

专利名称：检测音调频率的语音分析器、语音分析方法以及语音分析程序的制作方法
技术领域：
本发明涉及一种检测话音音调频率的语音分析技术。本发明还涉及一种根据话音音调频率来估计情感的情感检测技术。
背景技术：
近来，通过分析被检者的话音信号来估计被检者的情感的技术己被公开。
例如，专利文献l中公开了一种技术，在该技术中，计算歌唱声的基础频率，并在歌唱结束时根据基础频率的上升和下降变化来估计歌唱者的情感。
专利文献1:日本未审专利申请公开No.Hei 10-187178。

发明内容
本发明解决的问题
在
乐器声音中清楚地出现基础频率，因而基础频率容易被检测。然而，由于话音通常包括嘶哑话音、震颤话音等，所以基础频率
会发生波动。此外，谐音分量将是不规则的。因此，还没有提出一种
从这种类型的话音中确切地检测基础频率的高效方法。
因此，本发明的一个目的是提供一种准确并确切地检测话音频率
的技术。
本发明的另一个目的是提供一种新的基于语音处理的情感估计技术。
解决问题的手段
(1) 根据本发明的语音分析器包括话音获取部件、频率转换部件、自相关部件以及音调检测部件。
话音获取部件获取被检者的话音信号。频率转换部件将所述话音信号转换成频率谱。
当在频率轴上移动所述频率谱时，自相关部件计算自相关波形。音调检测部件基于所述自相关波形的波峰和波谷中的一种之间的局部间隔来计算音调频率。
(2) 优选地，当在所述频率轴上离散地移动所述频率谱时，所述自相关部件计算所述自相关波形的离散数据。所述音调检测部件对所述自相关波形的所述离散数据进行内插，并且计算局部的波峰或波谷距内插线的出现频率。音调检测部件基于所计算的出现频率的间隔来计算音调频率。
(3) 优选地，所述音调检测部件针对所述自相关波形的波峰和波谷中的至少一种计算多个(出现顺序，出现频率)。所述音调检测部件对所述出现顺序和所述出现频率执行回归分析，并且基于所获得的回归线的斜率计算所述音调频率。
(4) 优选地，所述音调检测部件从所计算的多个(出现顺序，出现频率)的总体中排除所述自相关波形中级别波动较小的样本。所述音调检测部件针对剩余的总体执行所述回归分析，并且基于所获得的回归线的斜率计算所述音调频率。
(5) 优选地，所述音调检测部件包括提取部件和减法部件。所述提取部件通过对所述自相关波形执行曲线拟合，提取包括在所述自相关波形中的"取决于共振峰的分量"。
所述减法部件计算自相关波形，其中通过从所述自相关波形中消除所述分量来减轻共振峰的影响。
根据该配置，所述音调检测部件可以基于减轻了共振峰影响的所述自相关波形来计算音调频率。
(6) 优选地，上述语音分析器包括对应关系存储部件和情感估计部件。
所述对应关系存储部件存储至少"音调频率"与"情感状态"之间的对应关系。
所述情感估计部件通过针对由所述音调检测部件检测的所述音调频率来查找所述对应关系，估计所述被检者的情感状态。
(7) 在上述3的语音分析器中，优选地，所述音调检测部件计
算"(出现顺序，出现频率)相对于所述回归线的分散程度"和"所述回归线和原点之间的偏差"中的至少一个，作为所述音调频率的不规则性。所述语音分析器设有对应关系存储部件和情感估计部件。
所述对应关系存储部件存储至少"音调频率"以及"音调频率的不规则性"与"情感状态"之间的对应关系。
所述情感估计部件通过针对在所述音调检测部件中计算的"音调频率"和"音调频率的不规则性"来查找所述对应关系，估计所述被检者的情感状态。
(8) 本发明中的语音分析方法包括以下步骤。 (步骤l)获取被检者的话音信号的步骤， (步骤2)将所述话音信号转换成频率谱的步骤，
(步骤3)当在频率轴上移动所述频率谱时，计算自相关波形的步骤，以及
(步骤4)基于所述自相关波形的波峰或波谷之间的局部间隔，计算音调频率的步骤。
(9) 本发明的语音分析程序是一种用于使得计算机成为根据上述1到7中的任何一个的语音分析器的程序。
本发明的优点在本发明中，一个语音信号曾被转换成一个频率谱。该频率谱包括基础频率的波动以及作为噪声的谐音分量的不规则性。因此，难以根据频率谱读出基础频率。
在本发明中，当在频率轴上移动频率谱时，计算自相关波形。在自相关波形中，抑制了具有低周期性的频谱噪声。因此，在自相关波形中，具有强周期性的谐音分量周期性地作为波峰出现。
在本发明中，通过基于其噪声被降低的自相关波形来计算周期性出现的波峰或波谷之间的局部间隔，从而准确地计算音调频率。
如上述计算的音调频率有时类似基础频率，然而，其并非总是对应于基础频率，这是因为并不是根据自相关波形的最大峰或第一峰来计算音调频率。通过根据波峰(或波谷)之间的间隔计算音调频率，即使根据基础频率不清楚的话音也可以稳定并准确地计算音调频率。在本发明中，优选地，当在频率轴上离散地移动频率谱时，计算自相关波形的离散数据。根据该离散处理，可以降低计算量，并且可以縮短处理时间。然而，要被离散移动的频率变大，自相关波形的解析度变低，并且音调频率的检测准确性降低。因此，通过对自相关波形的离散数据进行内插并准确地计算局部波峰(或波谷)的出现频率，可以以比离散数据的解析度更高的准确性来计算音调频率。存在如下情况，其中，周期性地出现在自相关波形中的波峰 (或波谷)的局部间隔并不同等地取决于话音。此时，如果通过仅参考某一个间隔来确定音调频率，则难以计算准确的音调频率。因此，优选地，针对自相关波形的波峰或波谷中的至少一种计算多个(出现顺序，出现频率)。可以计算出如下音调频率，其中，通过利用回归线逼近这些(出现顺序，出现频率)来使不相等的间隔平均化。
根据这种音调频率的计算方法，即使是根据极弱的语音话音，也可以准确地计算音调频率。因此，对于难以分析音调频率的话音，可以增加情感估计的成功率。由于级别波动较小的点成为平缓的波峰(波谷)，所以难以准确地计算波峰或波谷的出现频率。因此，优选地，从如上计算的(出现顺序，出现频率)的总体中排除自相关波形中级别波动较小的样本。通过对于以这种方式限制的总体执行回归分析，可以更稳定并准确地计算音调频率。在话音的频率分量中会出现随着时间移动的特定峰。这些峰被称作共振峰。除了波形的波峰和波谷，反映共振峰的分量也出现在自相关波形中。因此，利用对自相关波形的波动进行拟合的曲线来逼近自相关波形。可以估计该曲线是包括在自相关波形中的"取决于共
振峰的分量"。可以计算这种自相关波形，其中，通过从自相关波形中减去所述分量而减轻共振峰的影响。在执行了这种处理的自相关波形中，降低了由共振峰引起的失真。因此，可以更准确并确切地计算音调频率。以上述方式获得的音调频率是表示例如话音高度或话音质
量等特征的参数，其根据说话时的情感而灵敏地发生改变。因此，即使在难以通过将音调频率用作情感估计来检测基础频率的话音中，也可以确切地执行情感估计。此外，优选地，将周期性波峰(或波谷)之间的间隔的不规则性检测作为话音的新特征。例如，统计性地计算(出现顺序，出现频率)相对于回归线的分散程度。此外，例如，计算出回归线和原点之间的偏差。
如上计算的不规则性体现了话音获取环境的质量并表示了话音的细微变化。因此，通过将音调频率的不规则性增加作为用于情感估计的元素，可以增加将被估计的情感类型，并且增加细微情感的估计成功率。
在以下说明和附图中将具体示出本发明的上述目的和其它目的。

图1是示出情感检测器(包括语音分析器)11的框图2是说明情感检测器11的操作的流程图3A到图3C是说明对话音信号的处理的视图4是说明自相关波形的内插处理的视图；以及
图5A和图5B是说明回归线和音调频率之间关系的视图。
具体实施例方式
图1是示出情感检测器(包括语音分析器)11的框图。
在图1中，情感检测器11包括下述配置。
(1)麦克风12:将被检者的话音转换成话音信号。
(2) 话音获取部件13:获取话音信号。
(3) 频率转换部件14:对所获取的话音信号进行频率转换，以计算频率谱。
(4) 自相关部件15:在频率轴上计算频率谱的自相关，并且将周期性地出现在频率轴上的频率分量计算作为自相关波形。
(5) 音调检测部件16:将自相关波形中波峰(或波谷)之间的频率间隔计算作为音调频率。
(6) 对应关系存储部件17:存储例如音调频率或分散(variance) 的判断信息与被检者情感状态之间的对应关系。通过将例如音调频率或分散的实验数据与被检者所声称的情感状态(生气、高兴、紧张、悲伤等)相关联，可以创建所述对应关系。所述对应关系的描述形式优选为对应关系表、判断逻辑或神经网络。
(7) 情感估计部件18:利用在音调检测部件16中计算的音调频率来查找对应关系存储部件17中存储的对应关系，以判断相应的情感状态。所判断的情感状态被输出作为所估计的情感。
上述配置13到18中的部分或全部可以由硬件来配置。此外，优选地，通过在计算机中执行情感检测程序(语音分析器程序)来用软件实现上述配置13到18中的部分或全部。图2是说明情感检测器11的操作的流程图。下面，将根据图2中示出的步骤编号说明特定操作。步骤Sl:频率转换部件14从话音获取部件13中截取用于FFT (快速傅立叶变换)计算的必要区间的话音信号(参考图3A)。此时，
对于所截取的区间执行例如余弦窗口的窗口函数，以减轻在所截取区
间的两端处的影响。
步骤2:频率转换部件14对经由窗口函数处理的话音信号执行
FFT计算，以计算出频率谱(参考图3B)。
由于当利用普通对数计算对频率谱执行级别抑制处理时会产生
负值，所以后面描述的自相关计算将会变得复杂且困难。因此，对于频率谱，优选执行例如根计算的级别抑制处理，而不是利用对数计算执行级别抑制处理，由此能够获得正值。
当频率谱的级别变化增强时，可以对频率谱值执行例如四次方计算的增强处理。
步骤S3:在频率谱中，周期性地出现对应于例如乐器声音中的
谐音(harmonic tone)的频谱。然而，由于语音话音的频率谱包括如图3B所示的复杂分量，所以难以清楚地区分周期性频谱。因此，当在频率轴方向上以规定的宽度移动频率谱时，自相关部件15顺序地计算自相关值。根据被移动的频率，对通过所述计算而获得的自相关值的离散数据进行绘制，从而获得自相关波形(参考图3C)。
频率谱除了包括话音带之外，还包括非必要分量(DC分量和超低带分量)。这些非必要分量削弱了自相关计算。因此，优选地，频率转换部件14在自相关计算之前，从频率谱中抑制或去除这些非必要分量。
例如，优选地，从频率谱中截除DC分量(例如，60Hz或更小)。此外，例如，优选地，通过设定给定的较低界限级别(例如，频
率谱的平均级别)并对频率谱进行切除(较低界限限度)，从而截除
作为噪声的微小频率分量。
根据这种处理，出现在自相关计算中的波形失真可以在发生之前
被阻止。
步骤S4:自相关波形是如图4所示的离散数据。因此，通过内插离散数据，音调检测部件16针对多个波峰和/或波谷计算出出现频率。例如，作为在这种情况中的内插方法，优选采用通过线性内插或曲线函数在波峰或波谷的邻近区域中内插离散数据的方法，这是因为这种方法很简单。当离散数据的间隔足够窄时，可以省略离散数据的内插处理。从而，计算出(出现顺序，出现频率)的多个样本数据。
难以准确地计算波峰或波谷的出现频率，这是因为自相关波形的级别波动很小的点变成平缓的波峰(或波谷)。因此，不准确的出现频率就像样本一样被包括进来，从而降低了之后检测的音调频率的准确性。由此，在如上述计算的(出现顺序，出现频率)的总体
(population)中确定自相关波形的级别波动很小的样本数据。从而，通过从总体中截除以这种方式确定的样本数据来获得适合于音调频率分析的总体。
步骤S5:音调检测部件16分别从步骤S4中获得的总体中提取样本数据，根据出现顺序排列出现频率。此时，由于自相关波形的级别波动很小而已被截除的出现顺序将是所缺失的号码。
音调检测部件16在排列了样本数据的坐标空间中执行回归分析，计算回归线的斜率。可以基于该斜率计算从中截除了出现频率的音调频率。
当执行回归分析时，音调检测部件16统计性地计算出现频率相对于回归线的分散，以作为音调频率的分散。
此外，计算出回归线和原点之间的偏差(例如，回归线的截距)，并且在该偏差大于预定容许限度的情况下，可以确定其不是适合音调检测的话音区间(噪声等)。在这种情况下，优选地，针对剩余的话音区间(而不是所述话音区间)，检测音调频率。
步骤S6:情感估计部件18通过针对步骤S5中计算的(音调频率，分散)数据查找对应关系存储部件17中的对应关系，确定相应的情感状态(生气、高兴、紧张、悲伤等)。
首先，将参考图5A和图5B说明本实施例和现有技术之间的差别。
本实施例的音调频率对应于自相关波形的波峰(或波谷)之间的间隔，其对应于图5A和图5B中回归线的斜率。另一方面，传统的基础频率对应于图5A和图5B中示出的第一波峰的出现频率。
在图5A中，回归线通过原点附近的区域，并且其分散很小。在这种情况下，在自相关波形中，波峰以几乎相等的间隔有规律地出现。因此，即使在现有技术中也可以清楚地检测基础频率。
另一方面，在图5B中，回归线与原点有较大的偏差，也就是，分散较大。在这种情况下，自相关波形的波峰以不相等的间隔出现。
因此，基础频率是不清晰的话音，并且难以指定基础频率。在现有技术中，基础频率是根据第一波峰处的出现频率来计算的，因此，在这种情况下会计算出错误的基础频率。
在本发明中，在这种情况下，可以基于根据波峰的出现频率所找到的回归线是否通过原点附近区域，或者基于音调频率的分散是否较小，来确定音调频率的可靠性。因此，在该实施例中，可以确定关于图5B中的话音信号的音调频率的可靠性较低，从而可以从用于估计情感的信息中截除该信号。因此，可以仅使用具有高可靠性的音调频率，这将使得情感估计更成功。
在图5B的情况下，可以将斜率的程度计算作为广义上的音调频
率。优选地，将广义的音调频率作为用于情感估计的信息。此外，还可以将"分散程度"和/或"回归线与原点之间的偏差"计算作为音调频率的不规则性。优选地，将以这种方式计算的不规则性作为用于情感估计的信息。此外，优选地，将以这种方式计算的广义音调频率及其不规则性作为用于情感估计的信息。通过这些处理，将实现如下情感估计，其中，以综合的方式反映了狭义上的音调频率以及话音频率的特征或变化。
此外，在该实施例中，通过内插自相关波形的离散数据来计算波峰(或波谷)的局部间隔。因此，可以以较高解析度计算音调频率。从而，可以更精密地检测到音调频率的变化，并且可以实现更准确的
情感估计。
此外，在该实施例中，将音调频率的分散程度(分散、标准偏差等)增加作为情感估计信息。音调频率的分散程度显示了独特的信息，
例如话音信号的不和谐音(inharmonic tone)的不稳定性或程度，其适合于检测例如说话者缺乏自信或紧张程度等情感。此外，可以根据紧张程度等实现用于检测说谎时的典型情感的说谎检测器。
在上述实施例中，计算来自于自相关波形的波峰或波谷的出现频率。然而，本发明不限于此。
例如，在话音信号的频率分量中出现随时间移动的特定峰(共振峰)。此外，在自相关波形中，除了音调频率，还出现反映共振峰的分量。因此，优选地，通过利用曲线函数以拟合波峰和波谷的微小变化的程度来逼近自相关波形，对包括在自相关波形中的"取决于共振峰的分量"进行估计。将以这种方式估计的分量(所逼近的曲线)从自相关波形中减去，从而计算出减轻了共振峰影响的自相关波形。通过执行这种处理，可以从自相关波形中截除由共振峰引起的波形失真，从而准确并确切地计算出音调频率。
此外，例如，在特定话音信号中，在自相关波形的波峰和波峰之间出现小波峰。当小波峰被错误地识别为自相关波形的一个波峰时，计算出半音调频率。在这种情况下，优选地，比较自相关波形中的波峰高度，并且将小波峰看作波形中的波谷。根据该处理，可以计算出准确的音调频率。
此外，优选地，对自相关波形执行回归分析以计算出回归线，并且将在自相关波形中高于回归线的峰点检测为自相关波形的波峰。
在上述实施例中，通过将(音调频率，分散)用作判断信息来执行情感估计。然而，该实施例不限于此。例如，优选地，通过至少将音调频率用作判断信息来执行情感估计。此外，优选地，通过将时间序列数据用作判断信息来执行情感估计，其中，按时间序列来获取这种判断信息。此外，优选地，通过将之前估计的情感增加作为判断信息而增加情感改变趋势，来执行情感估计。此外，优选地，通过将语音识别所获得的意思信息增加作为判断信息而增加对话内容，来实现情感估计。
在上述实施例中，通过回归分析计算音调频率。然而，该实施例不限于此。例如，将自相关波形的波峰(或波谷)之间的间隔计算为音调频率。或者，例如，在波峰(或波谷)的各个间隔处计算音调频率并且执行统计处理，通过将这些多个音调频率作为总体来确定音调频率及其分散程度。
在上述实施例中，优选地，针对讲话话音计算音调频率，并且基于音调频率的时间变化(抑扬变化)来创建用于估计情感的对应关系。
本发明人针对例如歌唱声或乐器演奏的乐曲(一种话音信号)，通过使用根据讲话话音而实验性创建的对应关系，进行情感估计的实验。
具体地，通过以短于音符的时间间隔采样音调频率的时间变化，可以获得不同于简单音质变化的抑扬信息。(用于计算一个音调频率的话音区间可能比音符更短或更长)。
作为另一种方法，通过在包括多个音符(例如子句单位)的长话音区间中执行采样以计算音调频率，可以获得反映了多个音符的抑扬
"f曰息Q
在依据乐曲的情感估计中，可以发现，情感输出具有与一个人听到乐曲时感受到的情感(或者作曲者想给予乐曲的情感)所相同的倾向。
例如，可以根据例如大调/小调等的调的差别来检测出高兴/悲伤的情感。还可以在具有令人愉快的好节拍的合声部分处检测出强烈的高兴。进一步地，可以根据强有力的鼓点检测出生气。
在这种情况下，实际上使用了根据语音话音所创建的对应关系，当使用专用于乐曲的情感检测器时，很自然地可以实验性地创建专用于乐曲的对应关系。
因此，通过使用根据该实施例的情感检测器，可以估计乐曲中所表达的情感。通过将检测器投入实际应用，可以形成模拟人的音乐理解状态的设备，或者根据乐曲表现的快乐、生气、悲伤和愉快而做出反应的机器人等。
在上述实施例中，基于音调频率估计相应的情感状态。然而，本发明不限于此。例如，可以通过增加下面参数中的至少一个来估计情感状态。
(1) 采用时间单位的频率谱变化
(2) 音调频率的波动循环、上升时间、保持时间或下降时间
(3) 根据低带侧中的波峰(波谷)所计算的音调频率与平均音调频率之间的差别
(4) 根据高带侧中的波峰(波谷)所计算的音调频率与平均音
调频率之间的差别
(5) 根据低带侧中的波峰(波谷)所计算的音调频率与根据高
带侧中的波峰(波谷)所计算的音调频率之间的差别，或其增加和减少的趋势
(6) 波峰(波谷)间隔的最大值或最小值
(7) 连续波峰(波谷)的数量
(8) 语音速度
(9) 话音信号的能量值或其时间变化
(10) 话音信号中在人类可听频带之外的频带的状态通过将音调频率与上述参数的实验数据和被检者声称的情感状
态(生气、高兴、紧张、悲伤等)相关联，可以预先创建用于估计情感的对应关系。对应关系存储部件17存储该对应关系。另一方面，情感估计部件18通过针对根据话音信号所计算的音调频率和上述参数来查找对应关系存储部件17中的对应关系，估计情感状态。
(1) 根据从话音或声音(本实施例)中提取的情感元素的音调频率，计算频率特征和音调。此外，可以基于时间轴的变化容易地计
算共振峰信息或能量信息。此外，可以使得该信息是可视的。
用于通过音调频率的提取使得话音、声音、音乐等随时间变化的波动状态变得明确，从而能够实现对话音或音乐的平稳情感和感性节奏分析以及音质分析。
(2) 在该实施例中，在由音调分析所获得的信息的时间变化中的变化模式信息可以被应用到除了感性会话之外的视频、举动(表情或动作)、音乐、视频、句法等中。
(3) 通过将具有节奏(指节奏信息)的信息(例如视频、举动 (表情或动作)、音乐、视频、句法等)作为话音信号，可以执行音
调分析。此外，能够实现关于在时间轴上的节奏信息的变化模式分析。此外，通过基于这些分析结果使得节奏信息变成可视的或可听的，可以将节奏信息转换成具有另一表达形式的信息。
(4) 此外，可以将由情感、感性、节奏信息、音质分析手段等获得的变化模式等应用到情感、感性、心理等的特征分析中。利用这个结果，可以发现感性、参数、阈值等的变化模式，其可以是共有的或联动的。
(5) 作为二次利用，通过根据情感元素的变化程度或者各种情
感的同时检测状态来估计例如本性等心理信息，可以估计心理或精神状态。因此，可以根据顾客、用户或其他方的心理状态，在金融或呼叫中心处实现商品顾客分析管理系统、真实性分析等应用。
(6) 在根据音调频率的情感元素判断中，可以通过分析人们拥有的心理特征(情感、指向性、嗜好、想法(心理愿望))来获得用于构造仿真的元素。可以将人们的心理特征应用到现有的系统、商品、服务和商业模型中。
(7) 如上所述，在本发明的语音分析中，即便是从不清楚的歌唱声、哼唱声、乐器声等中，也能够稳定且确切地检测到音调频率。通过应用上述方法，可以实现一种卡拉Ok系统，其中，对于过去难以评估的不清楚的歌唱声，可以确切地估计并判断歌唱的准确性。
此外，通过在屏幕上显示音调频率或其变化，能够使得歌唱声的音调、抑扬和音调变化是可视的。通过参考歌唱声的可视化的音调、抑扬或音调变化，可以在较短的时间段内感性地获知准确的音调、抑扬和音调变化。此外，通过使得熟练歌手的音调、抑扬和音调变化是可视的并且可模仿的，可以感性地获知熟练歌手的音调、抑扬和音调变化。
(8) 由于通过执行根据本发明的语音分析，可以根据以前难以检测的不清楚的哼唱歌曲或清唱音乐来检测音调频率，从而可以自动地、稳定并确切地形成乐谱。
(9) 可以将根据本发明的语音分析应用到语言教育系统。具体地，通过使用根据本发明的语音分析，即使是根据不熟悉的外语、标准语言和方言，也能够稳定并确切地检测出音调频率。基于该音调频率，可以构建指导外语、标准语言和方言的正确节奏和发音的语言教育系统。
(10) 此外，可以将根据本发明的语音分析应用到台词行指引系
统中。也就是说，通过使用本发明的语音分析，可以稳定并确切地检测到不熟悉的台词行的音调频率。将该音调频率与熟练演员的音调频率进行比较，从而构建不仅执行台词行指引而且执行舞台指导的台词行指引系统。
(11) 此外，可以将根据本发明的语音分析应用到话音训练系统中。具体地，可以根据话音的音调频率检测到音调的不稳定性以及不准确地发声方法，并且输出建议等，从而构建指导准确发音方法的话音训练系统。
(1) 通常，可以将精神状态的估计结果用于一般性地根据精神状态而改变处理的产品。例如，可以在计算机上建立虚拟人格(例如行为人、性格)，其根据另一方的精神状态而改变响应(性格、会话特性、心理特征、感性、情感模式、会话分支模式等)。此外，例如，其可被应用到灵活地取决于顾客的精神状态的系统中，该系统实现商品检索、商品索要处理、呼叫中心操作、接收系统、顾客感性分析、
顾客管理、游戏、Pachinko、 Pachislo、内容分发、内容创建、网络检索、手机服务、商品说明、介绍以及教育支持。
(2) 此外，可以将精神状态的估计结果用于一般性地通过使得精神状态成为用户的修正信息来增加处理准确性的产品。例如，在语音识别系统中，通过在被识别的词汇候选中选择与说话者的精神状态具有高相似性的单词，可以增加语音识别的准确性。
(3) 此外，可以将精神状态的估计结果用于一般性地通过根据精神状态来估计用户的违法紧张度，从而增加安全性的产品。例如，在用户验证系统中，通过对表现出例如紧张或掩饰的精神状态的用户拒绝验证或要求额外验证，可以增加安全性。此外，可以基于高安全性验证技术来建立无所不在的(ubiquitous)系统。
(4) 此外，可以将精神状态的估计结果用于一般性地将精神状态处理作为操作输入的产品中。例如，通过将精神状态作为操作输入而执行处理(控制、语音处理、图像处理、文本处理等)的系统。此外，可以实现故事创作支持系统，其中，通过将精神状态作为操作输入并控制字符的移动来开发故事。此外，通过将精神状态作为操作输入并改变音律、基调或乐器配置，可以实现执行对应于精神状态的音乐创作或改编的音乐创作支持系统。此外，通过将精神状态作为操作
输入并控制例如照明、BGM等周围环境，可以实现舞台指导装置。
(5) 此外，可以将精神状态的估计结果用于一般性地针对精神分析、情感分析、感性分析、特征分析或心理分析的装置。
(6) 此外，可以将精神状态的估计结果用于一般性地通过利用例如声音、话音、音乐、气味、颜色、视频、字符、震动或光等表达手段来向外部输出精神状态的装置。利用这种装置，可以辅助与人的精神交流。
(7) 此外，可以将精神状态的估计结果用于一般性地执行精神状态信息交流的交流系统。例如，可以将其应用到感性交流或感性和情感共鸣交流中。
(8) 此外，可以将精神状态的估计结果用于一般性地判断(评估)由例如视频或音乐等内容给予人们的心理影响的装置。此外，可以建立一种数据库系统，其中，通过将内容分类并将心理影响作为一个项目，可以基于心理影响来检索内容。
此外，通过以与话音信号相同的方式分析例如视频和音乐等内容本身，可以检测出话音的兴奋程度或者内容表演者或乐器演奏者的情感倾向。此外，通过针对内容中的话音执行话音识别或音素分段识别，可以检测出内容特征。根据所述检测结果对内容进行分类，由此可实现基于内容特征的内容检索。
(9) 此外，也可以将情感状态的估计结果用于一般性地根据精神状态来客观地判断用户使用商品时的满意度的装置。通过使用这种装置，可以容易地执行用户友好的产品开发和规范制定。
(10) 此外，可以将精神状态的估计结果应用到下述领域-看护支持系统，咨询系统，汽车导航，机动车控制，驾驶员状态
监测，用户界面，操作系统，机器人，虚拟形象，网络大型购物中心，
函授教育系统，网上学习，学习系统，举止训练，技能学习系统，能力确定，含义信息判断，人工智能领域，神经网络(包括神经元)应用，用于仿真的判断标准或分支标准或者需要概率模型的系统，对于例如经济或金融等市场模拟的心理元素输入，调査问巻的收集，对艺术家情感或感性的分析，金融信用检査，信用管理系统，例如占卜的内容，可携计算机，普遍存在的网络商品，对人类知觉判断的支持，广告商业，建筑物或大厅的管理，过滤，对用户的判断支持，厨房、
浴室、洗手间等中的控制，人机设备(human device),利用改变柔软度和透气性的纤维联结的衣服，虚拟宠物或针对康复和交流的机器人，计划制定系统，协调器系统，交通支持控制系统，烹饪支持系统，音乐演奏支持，DJ视频效果，卡拉OK装置，视频控制系统，个人验证，设计，设计仿真器，用于仿真购买倾向的系统，人力资源管理系统，试演，虚拟顾客群商业研究，陪审员/裁判员模拟系统，用于体育、艺术、商业、战略等的图像训练，已故者和祖先的记忆内容创建支持，存储生前情感或感性模式的系统或服务，导航/礼宾服务，网络博客创作支持，信使服务，闹钟，卫生器具，按摩工具，牙刷，医疗器械，生物装置，转换技术，控制技术，网络集线器，分支系统，冷凝器系统，分子计算机，量子计算机，von Neumann式计算机，生物芯片计算机，Boltzmann系统，AI控制，以及模糊控制。
本发明人利用如下所述的隔音面罩来构建测量环境，以便即使在噪声环境下也能够以良好的条件检测话音的音调频率。
首先，获得防毒面罩(SAFETY No. 1880-1 ， TOYOSAFETY制造)，以作为用于隔音面罩的基础材料。该防毒面罩在接触并覆盖嘴部的部分由橡胶制成。由于橡胶会根据周围噪声而发生振动，所以周围噪声进入到面罩内部。然后，将硅(QUICK SILICON,浅灰，液体形式，比重1.3， NISSINRESIN有限公司制造)填充到橡胶部分中，以使得面罩变重。然后，将5层或更多层厨房用纸或海绵层叠到防毒面罩的通气过滤器中，以增加密封能力。在这种状态的面罩腔的中心部分，通过安装来提供一个小麦克风。经由这种方式制备的隔音面罩能够通过硅的自重和不相干材料的层积结构来有效地衰减周围噪声的振动。从而，在被检者的嘴部附近成功地形成了具有面罩形式的小隔音空间，其可以抑制周围噪声的影响并以良好的条件收集被检者的话音。
此外，通过在被检者的耳朵上佩戴采取了相同隔音措施的耳机，可以与被检者会话，而不会受到周围噪音的太大影响。
上述隔音面罩对于检测音调频率是高效的。然而，由于隔音面罩的密封空间很狭窄，所以话音易于被消音。因此，其不适用于除音调频率之外的频率分析或音质分析。对于这种应用，优选地，将经过与面罩相同隔音处理的管道穿过隔音面罩，以使得面罩与隔音环境的外部(空气腔)通气。在这种情况下，被检者可以没有任何问题地呼吸，嘴部和鼻子都可以由面罩覆盖。通过该通气装备的添加，可以降低隔音面罩中的消音。此外，由于被检者几乎没有例如窒息感等不适，因此，可以以更自然的状态收集话音。
在不脱离本发明主旨和主要特征的情况下，本发明可以用各种其它形式实现。因此，上述实施例仅是在各方面的一个范例，不应将其解释为是限制性的。本发明的范围由权利要求表示，并且完全不受说明书限制。此外，属于权利要求等同范围的各种修改和改变将位于本发明的范围内。
工业实用性
如上所述，本发明是一种可以用于语音分析器等的技术。
权利要求
1、一种语音分析器，包括话音获取部件，获取被检者的话音信号；频率转换部件，将所述话音信号转换成频率谱；自相关部件，当在频率轴上移动所述频率谱时，计算自相关波形；以及音调检测部件，基于所述自相关波形的波峰和波谷中的一种之间的局部间隔，计算音调频率。
2、根据权利要求1的语音分析器，其中，当在所述频率轴上离散地移动所述频率谱时，所述自相关部件计算所述自相关波形的离散数据，并且其中，所述音调检测部件对所述自相关波形的所述离散数据进行内插，计算局部的波峰和波谷中的一种的出现频率，以及基于所述出现频率的间隔计算音调频率。
3、根据权利要求1或2的语音分析器，其中，所述音调检测部件针对所述自相关波形的波峰和波谷中的至少一种计算多个(出现顺序，出现频率)，对所述出现顺序和所述出现频率执行回归分析，以及基于回归线的斜率计算所述音调频率。
4、根据权利要求3的任何一个的语音分析器，其中，所述音调检测部件从(所述出现顺序，所述出现频率)的总体中排除所述自相关波形中级别波动较小的样本，针对剩余的总体执行所述回归分析，以及基于所述回归线的斜率计算所述音调频率。
5、根据权利要求1到4中的任何一个的语音分析器，其中，所述音调检测部件包括提取部件，通过对所述自相关波形执行曲线拟合，提取包括在所述自相关波形中的"取决于共振峰的分量"，以及减法部件，计算自相关波形，其中通过从所述自相关波形中消除所述分量来减轻共振峰的影响，以及基于减轻了共振峰影响的所述自相关波形，计算音调频率。
6、根据权利要求1到5中的任何一个的用于检测情感的语音分析器，还包括对应关系存储部件，存储至少"音调频率"与"情感状态"之间的对应关系；以及情感估计部件，通过针对由所述音调检测部件检测的所述音调频率来查找所述对应关系，估计所述被检者的情感状态。
7、根据权利要求3的用于检测情感的语音分析器，其中，所述音调检测部件计算"(所述出现顺序，所述出现频率) 相对于所述回归线的分散程度"和"所述回归线和原点之间的偏差" 中的至少一个，作为所述音调频率的不规则性，还包括对应关系存储部件，存储至少"音调频率"以及"音调频率的不规则性"与"情感状态"之间的对应关系；以及情感估计部件，通过针对在所述音调检测部件中计算的"音调频率"和"音调频率的不规则性"来查找所述对应关系，估计所述被检者的情感状态。
8、一种语音分析方法，包括获取被检者的话音信号；将所述话音信号转换成频率谱；当在频率轴上移动所述频率谱时，计算自相关波形；以及基于所述自相关波形的波峰和波谷中的一种之间的局部间隔，计算音调频率。
9、一种用于使得计算机成为根据权利要求1到7中的任何一个的语音分析器的语音分析程序。
全文摘要
根据本发明的语音分析器包括话音获取部件、频率转换部件、自相关部件和音调检测部件。频率转换部件将由话音获取部件获取的话音信号转换成频率谱。当在频率轴上移动频率谱时，自相关部件计算自相关波形。音调检测部件基于自相关波形的波峰或波谷之间的局部间隔来计算音调频率。
文档编号G10L11/04GK101199002SQ20068002016
公开日2008年6月11日申请日期2006年6月2日优先权日2005年6月9日
发明者光吉俊二, 尾形薰, 门间史晃申请人:A.G.I.株式会社;光吉俊二

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：光吉俊二;尾形薰;门间史晃
技术所有人：A.G.I.株式会社;光吉俊二
我是此专利的发明人

上一篇：来自不可转录数据的诊断识别问题的制作方法
上一篇：用于确定内容项特性的方法和电子设备的制作方法