评估装置和记录介质的制作方法

文档序号：14420821阅读：270来源：国知局

本发明涉及评估节奏感的技术。

背景技术：

具有分析歌唱声音以进行评估的功能的卡拉ok装置正在增加。例如，比较歌唱声音的音高和被歌唱的歌曲的音高，并基于这些音高之间的匹配程度来评估歌唱声音。此外，通过使用各种方法，可以做出更准确的评估。例如，作为各种评估方法之一，已经开发出了其中将节奏感计入考量的对音乐作品的歌唱进行评估的技术(例如专利文献1)。

引用列表

专利文献

专利文献1：日本专利申请公开no.2013-190564

技术实现要素：

技术问题

在专利文献1所公开的技术中，通过比较作为音乐作品的模范的声音和歌唱声音之间的特征值来对节奏感进行评估。根据该评估，可以从节奏感的角度来执行歌唱是否接近该音乐作品的模范声音的评估。另一方面，还期望在没有模范声音的情况下进行节奏感的评估。

本发明的一个目的是与模范声音无关地评估输入声音的节奏感。

问题的解决方案

根据本发明的一个实施例，提供了一种评估装置，其包括：获取单元，其获取输入声音；特征值计算单元，其从由所述获取单元所获取的所述输入声音来计算特征值；检测单元，其基于由所述特征值计算单元所计算的特征值，来检测与由所述获取单元所获取的所述输入声音中所包括的每个声音的起点相对应的中断位置；以及评估值计算单元，其基于由所述检测单元检测到的多个中断位置，来计算关于所述多个中断位置的规律程度的评估值。

此外，所述特征值可以包括与所述输入声音的音量级别相对应的值，并且所述检测单元可以基于与所述特征值相对应的音量级别从较低级别转变到比预先确定的阈值更高的级别的位置来检测所述中断位置。

当检测所述中断位置时，所述检测单元可以针对每个预定区间，通过遵循预先确定的规则来改变所述阈值。

所述音量级别可以是所述输入声音在预定振荡频带中的音量级别。

所述特征值可以包括与所述输入声音的振荡频率分布的sn比相对应的值，并且所述检测单元还可以基于所述sn比降低了预先确定的比例或更多比例然后变为升高的位置来检测所述中断位置。

所述特征值可以包括与所述输入声音的振荡频率分布相对应的值，并且所述检测单元还可以基于所述振荡频率分布的基音强度从较低强度转变为比预先确定的阈值更高的较高强度的位置来检测所述中断位置。

所述特征值可以包括与所述输入声音的音高相对应的值，并且所述检测单元还可以基于所述音高的改变变化了预先确定的宽度或更宽宽度的位置来检测所述中断位置。

所述装置还可以包括输出伴奏声音的伴奏输出单元，并且所述获取单元可以在至少输出所述伴奏声音的时段中获取所述输入声音。

此外，根据本发明的一个实施例，提供了一种计算机可读记录介质，其上记录有使计算机执行以下操作的程序：获取输入声音；从获取的输入声音计算特征值；基于所计算的特征值来检测与所述获取的输入声音所包括的每个声音的起点相对应的中断位置；以及基于多个所述中断位置来计算关于所述多个中断位置的规律程度的评估值。

本发明的有利效果

根据本发明的一个实施例，可以与模范声音无关地评估输入声音的节奏感。

附图说明

图1是示出本发明第一实施例中的评估装置的结构的框图。

图2是示出本发明第一实施例中的节奏评估功能的结构的框图。

图3是说明本发明第一实施例中的评估方法的示意图。

图4是相邻中断位置之间的时间间隔的频率分布的示例的示意图。

图5是说明在本发明第一实施例中的评估方法中的其中阈值为低的示例的示意图。

图6是说明本发明第一实施例中的评估方法中的其中阈值为高的示例的示意图。

图7是示出本发明第二实施例中的节奏评估功能的结构的框图。

图8是说明本发明第二实施例中的评估方法的示意图。

图9是说明本发明第一实施例中的评估方法中的其中所包括的歌词不包括辅音的示例的示意图。

图10是示出本发明第三实施例中的节奏评估功能的结构的框图。

图11是说明在本发明的第三实施例中所使用的sn比的示意图。

图12是说明本发明第三实施例中的评估方法的示意图。

图13是示出本发明第四实施例中的评估功能的结构的框图。

图14是说明本发明第四实施例中的评估方法的示意图。

具体实施方式

下面参照附图详细描述本发明的一个实施例中的评估装置。以下描述的各实施例各自仅仅是本发明的实施例的一个示例，并且本发明不限于这些实施例。另外，在本实施例所参照的附图中，相同的部分或具有相似功能的部分设有相同的附图标记或相似(仅在数字后附加a、b等)的附图标记，并且可以省略它们的重复描述。

<第一实施例>

参照附图详细描述本发明的第一实施例中的评估装置。根据第一实施例的评估装置是评估歌唱用户(以下可以称为歌手)的歌唱声音的节奏感的装置。该评估装置可以在即使没有作为要歌唱的音乐作品的模范的声音的情况下，也可以评估歌唱声音的节奏感。下面描述该评估装置。

[硬件]

图1是示出本发明的第一实施例中的评估装置的结构的框图。评估装置1例如是卡拉ok装置。请注意，该装置可以是便携式装置，如智能手机。评估装置1包括控制单元11、存储单元13、操作单元15、显示单元17、通信单元19、和信号处理单元21。这些结构中的每一个都经由总线连接。此外，麦克风23和扬声器25连接到信号处理单元21。

控制单元11包括诸如cpu的算术运算处理电路。在控制单元11中，cpu执行存储在存储单元13中的控制程序以实现评估装置1中的各种功能。要实现的功能包括评估歌唱声音的节奏感的功能(在下文中可以称之为节奏评估功能)。存储单元13是诸如非易失性存储器或硬盘之类的存储装置。存储单元13存储用于实现节奏评估功能的控制程序。控制程序需要由计算机执行，并且可以按以下状态提供：存储在诸如磁记录介质、光记录介质、光磁记录介质、或半导体存储器等计算机可读记录介质中。在这种情况下，评估装置1需要包括读取记录介质的装置。此外，可以通过网络下载该控制程序。

此外，作为关于歌唱的数据，存储单元13中存储了音乐作品数据、歌唱声音数据、和评估参考信息。所述音乐作品数据包括与歌唱的卡拉ok音乐作品有关的数据，例如，引导旋律数据、伴奏数据、和歌词数据。引导旋律数据是表示歌唱音乐作品的旋律的数据。伴奏数据是表示歌唱音乐作品的伴奏的数据。引导旋律数据和伴奏数据可以是以midi格式表示的数据。歌词数据是用于使歌唱音乐作品的歌词显示的数据，并且是表示所显示的歌词字幕的颜色切换时间的数据。这些数据可以从外部服务器获取。所述歌唱声音数据是表示歌手从麦克风23输入的歌唱声音的数据。在该示例中，歌唱声音数据被缓存在存储单元13中，直到由节奏评估功能对歌唱声音进行评估为止。评估参考信息是给节奏评估功能用作评估歌唱声音的参考的信息。例如，定义用于确定阈值的规则的信息(这将在下面进一步描述)、关于用于计算评估值的算术表达式的信息，等等。

操作单元15具有根据输入的操作向控制单元11输出信号的装置，诸如设置在操作面板、遥控器等之上的操作按钮、键盘和鼠标。该操作单元15能够实现在卡拉ok装置中通常执行的输入操作，例如选择音乐作品。显示单元17是诸如液晶显示器或有机el显示器的显示装置，其基于控制单元11的控制而显示画面。注意，操作单元15和显示单元17可以整体配置为触摸面板。通信单元19连接到诸如互连网的通信线路，以向外部装置(例如，服务器)发送信息或从外部装置(例如，服务器)接收信息。注意，存储单元13的功能可以由可与通信单元19通信的外部装置来实现。

信号处理单元21包括根据midi格式的信号生成音频信号的声源、a/d转换器、d/a转换器，等等。歌唱声音在麦克风23处被转换成电信号、被输入到信号处理单元21、在信号处理单元21处经历a/d转换、并且被输出到控制单元11。如上所述，歌唱声音被缓存在存储单元13中作为歌唱声音数据。此外，伴奏数据由控制单元11读取、在信号处理单元21处经历d/a转换、并且作为歌唱音乐作品的伴奏从扬声器25输出。这里，引导旋律可以从扬声器25输出。

[节奏评估功能]

描述通过评估装置1的控制单元11执行控制程序而实现的节奏评估功能。注意，以下描述的由节奏评估功能所实现的全部或部分结构可以通过硬件来实现。

图2是示出本发明第一实施例中的节奏评估功能的结构的框图。节奏评估功能100包括获取单元101、特征值计算单元103、检测单元105、和评估值计算单元107。获取单元101获取表示从麦克风23输入的歌唱声音的歌唱声音数据。在该示例中，在正在输出伴奏声音的时间段期间到达麦克风23的输入声音被识别为评估目标的歌唱声音。注意，获取单元101获取在存储单元13中缓存的歌唱声音数据。这可以在整个音乐作品的歌唱声音数据被存储在存储单元13中之后或者在预定时间的歌唱声音数据被缓存之后执行。此外，获取单元101不限于获取表示到达麦克风23的输入声音的歌唱声音数据，而且还可以获取表示通过通信单元19经由网络输入到外部装置的声音的歌唱声音数据。

特征值计算单元103分析由获取单元101获取的歌唱声音数据并计算特征值的时间变化。在该示例中，特征值为歌唱声音的音量级别。

检测单元105基于在特征值计算单元103处计算的音量级别，检测与歌唱声音所包括的每个声音的起点相对应的中断位置。每个声音对应于例如歌词中的每个字符的发声。同样在该示例中，每个声音的起点对应于从辅音切换到元音的时间(即，元音开始的部分)。与每个声音的起点相对应的中断位置不限于与该起点相匹配，而且是由基于该起点的预定处理所确定的位置。

在日语中，当声音作为辅音和元音的组合发出时，辅音发出时段中的音量级别倾向于小于元音发出时段中的音量级别。该倾向不限于单独发出一个字符的声音的情况，而且在连续发出多个字符的声音的情况下也可以看到。利用该特征，检测单元105检测与每个声音的起点相对应的中断位置。

图3是说明本发明第一实施例中的评估方法的示意图。这里，示例性地描述了当歌唱字符“sa(辅音“s”+元音“a”)”、“ku(辅音“k”+元音“u”)”、和“ra(辅音“r”+元音“a”)”时音量级别的时间变化。这些音量变化由图3中所示的vs谱表示。该时间表示输入歌唱声音之后所经过的时间(从评估开始的时间开始)。对于字符的任何发声，都可以看到辅音发出时段音量级别降低的倾向。

即使在连续发出多个字符的声音时，检测单元105通过使用如上所述的辅音部分中音量级别降低的部分来检测中断位置。在该示例中，检测单元105确定音量级别的阈值vth，并且检测级别从较低级别转变到高于vth的级别的点作为中断位置。在图3的示例中，时间ts1、ts2、ts3...被检测为中断位置。vth可以是预先确定的任何音量级别，而在该示例中，vth是基于音量级别的背景级别vb和音量级别的最大级别vp确定的。只需要由预定的算术表达式来确定阈值，例如当以db为单位设置时，vth＝vp×0.9(vp-vb)。在该示例中，vp是整个音乐作品中音量级别的最大值。注意，一个音乐作品可以分为多个评估区间，并且可以通过遵循预先确定的规则来改变vth以对应于每个评估区间。在这种情况下，只需要针对每个评估区间使用vb和vp来确定vth。

再次参照图2，继续描述。评估值计算单元107计算关于由检测单元105检测到的多个中断位置的规律程度的评估值。在该示例中，评估值计算单元107计算相邻中断位置之间的时间间隔的频率分布，并基于该分布来计算评估值。这些时间间隔对应于图3的示例中的tw1、tw2、和tw3。

图4是相邻中断位置之间的时间间隔的频率分布的示例的示意图。横轴表示相邻中断位置之间的时间间隔，纵轴表示频率。当以这种方式获取时间间隔的频率分布时，出现周期性峰值。在该示例中，峰值出现在时间tp1、tp2、tp3、和tp4处。当tp1对应于八分音符的长度时，tp2对应于四分音符的长度，tp3对应于附点四分音符，并且tp4对应于二分音符。因此，当每个峰值从tp1的整数倍发生偏移时，这表示歌唱节奏发生了偏移。当在比tp1更短的时间处存在峰值时，期望通过以最短时间中的峰值作为参考来进行确定。这是因为，例如，在tp1的一半的位置处存在峰值的情况下，也倾向于在tp1的整数倍以外(即1.5倍和2.5倍)处出现峰值。

此外，即使峰值没有偏移，随着每个峰值的宽度(例如，半宽度w1、w2、w3、和w4)更大，也表示歌唱节奏更不稳定。通过这种方式，评估值计算单元107根据上述各峰值的位置关系(例如，各峰值间隔的方差)和每个峰值的宽度(例如，峰值的方差或半宽度)来计算评估值。例如，计算评估值使得，随着各峰值间隔越接近、峰值宽度越窄，规律程度越高，即节奏感越好。注意，可以通过使用频率分布的自相关系数或使用梳状滤波器来排除由于附点音符等导致的峰值扩展，而做出评估。当使用自相关系数时，可以基于该系数和峰值间隔来进一步估计节拍。

通过这种方式，根据实现节奏评估功能100的评估装置1，即使歌唱包括连续发出的多个字符的声音，也可以根据歌唱声音的音量级别的变化来检测与每个声音的起点相对应的中断位置。根据评估装置1，即使不使用用作比较参考的数据(例如，每个音乐作品的模范声音)，也允许通过计算关于多个中断位置的规律程度的评估值来评估歌手的节奏感。注意，基于该评估值的结果可以呈现在显示单元17中。

[阈值vth的影响]

这里，关于音量级别的阈值vth，描述低设置阈值vthb和高设置阈值vthu的影响。

图5是说明在本发明第一实施例中的评估方法中的其中阈值为低的示例的示意图。如图5所示，当采用相对较低的阈值vthb时，很难在连续发声区间中检测到每个声音的中断位置。结果，检测到针对多个集合声音的中断位置。例如，作为大单位进行检测，例如针对每个乐句进行检测。在图5的示例中，例如在ts5和ts6处检测到中断位置，其间的间隔是tw5。即使在这种检测结果的情况下，如果可以在该区间的一部分中检测到与上述tw1对应的中断位置，则可以根据tw5从tw1的整数倍偏移的程度来确定节奏感的程度。

图6是说明在本发明第一实施例中的评估方法中的其中阈值为高的示例的示意图。如图6所示，当采用相对较高的阈值vthu时，没有检测到小音量级别的声音。结果，未检测到连续发声区间中的各个声音的中断位置的一部分。各中断位置之间的时间间隔会增加，或者获取频率分布时的频率会降低。图6示出了这样的示例，其中检测到ts7和ts8并且它们之间的间隔是tw7。这个tw7对应于图3中的tw3。

通过这种方式，需要适当地设置阈值vth。然而，即使阈值发生偏移，频率也会降低，并且通过以多个声音为单位来检测中断位置，因此对结果的影响很小。注意，上述阈值vth可以预先设定为多个值，并可以针对每个值检测中断位置。然后，参考检测到的中断位置，可以利用预定方法来确定将被正式设置为阈值vth的值。例如，阈值vth可以是使得评估值的计算结果为最高的值，或者可以是使得当计算频率分布时具有预定频率或更高频率的峰值数量为最大的值。通过这种方式，阈值vth可以被不同地设置。任何遵循预先确定的规则的设置都可以确定。

<第二实施例>

在第二实施例中，描述了节奏评估功能100a，其包括以下功能：在特征值计算单元103处计算音量级别之前，去除歌唱声音的一部分的振荡频带。

图7是示出本发明第二实施例中的节奏评估功能的结构的框图。如上所述，节奏评估功能100a包括滤波器单元102，该滤波器单元102去除由获取单元101获取的歌唱声音数据所表示的歌唱声音的一部分的振荡频带。在该示例中，滤波器单元102是低通滤波器或带通滤波器，从而去除歌唱声音的高频分量。特征量计算单元103接收表示除去了高频分量的特定振荡频带的歌唱声音的数据的输入，并计算音量级别。该音量级别对应于该特定振荡频带的功率。与元音相比，辅音包括更多的用于基音的谐音分量和噪声分量。因此，通过去除高频分量，可以扩大辅音和元音之间的音量级别差异。

图8是说明本发明第二实施例中的评估方法的示意图。在存在滤波器单元102的情况下，如图8所示，每个声音的初始部分(辅音部分)的音量级别相比于另一部分的音量级别降低相对显著。这扩大了阈值vth的裕量，利用该阈值vth可以准确地检测出每个声音的中断位置。此外，在日语以外的语言(例如，汉语)中，辅音和元音之间的音量级别的差异很小。通过将滤波器单元102应用于这样的语言，可以降低辅音部分的音量级别，从而便于检测中断位置。注意，如第一实施例中那样的不应用滤波器单元102时(即，不对特定振荡频带执行滤波时)的使用音量级别检测中断位置的方法可以与第二实施例中的检测方法一起执行。

<第三实施例>

在上述实施例中，即使对于连续的声音，通过使用辅音中的音量级别的降低来检测每个声音的中断位置。在第三实施例中，描述了节奏评估功能100b，即使声音仅包括元音并且没有辅音，该节奏评估功能100b也允许检测中断位置。首先，在这种情况下，描述当通过第一实施例中的节奏评估功能100检测中断位置时的示例。

图9是说明本发明第一实施例中的评估方法中的其中所包括的歌词不包括辅音的示例的示意图。这里，描述了以下示例：其中，歌词是“sa(辅音“s”+元音“a”)”、“i(元音“i”)”、和“ta(辅音“t”+元音“a”)”。因此，“sa”和“i”之间没有辅音，看不到音量级别的降低。因此，在第一实施例的节奏评估功能100中，在ts8、ts10、和ts11处检测到中断位置，并且没有检测到与声音“i”的起点相对应的中断位置。因此，用于获取频率分布的中断位置的时间间隔是tw8和tw10。在这种情况下，在第三实施例中，通过另一种不同的方法来尝试检测中断位置。以下描述本发明的第三实施方式中的节奏评估功能100b。

图10是示出本发明第三实施例中的节奏评估功能的结构的框图。在该示例中，特征值计算单元103b包括与第一实施例中的特征值计算单元103的功能相对应的音量级别计算单元1031和振荡频率分布计算单元1032。在振荡频率分布计算单元1032中，分析在获取单元101处获取的歌唱声音数据，通过使用fft(快速傅里叶变换)来计算振荡频率分布的时间变化，并且进一步地，计算振荡频率分布的sn比。下面描述振荡频率分布的sn比。

图11是说明在本发明的第三实施例中使用的sn比的示意图。歌唱声音的振动频率分布的fs谱包括作为各峰值的基音f0以及整数倍的谐音f1、f2...。在各个峰值处，包括在半宽度vf0、vf1、vf2...中的区域(阴影部分)的积分值被取为信号s(sf0、sf1、sf2...)，而其他部分则被取为噪声n，并且将s/n作为sn比来进行计算。这里，例如，利用为预定谐音(例如，三次谐音)的峰值设置的范围，在预定的振荡频率范围内计算sn比。

检测单元105b通过使用在音量级别计算单元1031处计算的音量级别和在振动频率分布计算单元1032处计算的sn比来检测中断位置。

图12是说明本发明第三实施例中的评估方法的示意图。如ds谱所示，上述计算出的sn比具有在每个声音开始时较低(具有许多噪声n分量)然后突然增加的倾向。即使只有元音的声音的sn比也有这种倾向。当通过使用sn比来检测中断位置时，检测单元105b利用这种倾向。

基于音量级别，检测单元105b通过与第一实施例的方法类似的方法来检测中断位置。然后，检测单元105b通过使用sn比来检测不能通过使用音量级别来检测的中断位置(即，相邻中断位置之间的另一中断位置)。例如，检测单元105b确定sn比的预定阈值vthf。然后，检测单元105b将sn比减小了预先确定的比例或更多比例、之后又变为升高的位置检测为中断位置；在该示例中，将sn比从较低的值转变为比vthf更高的值的位置检测作为中断位置。这里，仅在从基于音量级别检测到的中断位置偏离了预定时间或更多时间的位置处检测到中断位置。例如，在图12的示例中，基于sn比将“tsp9”检测为中断位置。在该示例中，“ts8”和“ts10”接近该中断位置，因此没有作为基于sn比的中断位置而检测出来。结果，相邻中断位置之间的时间间隔是“tw8”、“tw9”、和“tw10”。

阈值vthf可以基于sn比的最小值和最大值来确定。只需要由预定的算术表达式确定阈值，例如，当最小值是snm并且最大值是snp时，vthf＝snp×0.9(snp-snm)。注意，阈值可以如下所述确定。在基于音量级别确定的各中断位置(在图12的示例中，“ts8”和“ts10”)中的任何一个处，sn比的级别(在图12的示例中，cp8用于中断位置“ts8”)可以被当作阈值vthf。此外，可以在每次级别达到基于音量级别确定的中断位置时，更新阈值vthf。例如，在级别通过“ts8”之后、通过“ts10”之前的区间中，将“ts8”时的sn比cp8当作阈值vthf8。在“ts10”之后的区间中，将“ts10”时的sn比cp10当作阈值vthf10。这允许在阈值vth处和阈值vthf处间接相关。结果，即使是通过不同的方法检测的中断位置，也可以评估中断位置的规律程度，而无需修正方法的差异。

通过这种方式，即使在连续声音中声音仅包括元音并且存在不能通过基于音量级别的节奏评估功能100检测的中断位置，该中断位置也可以通过利用使用sn比的节奏评估功能100b进行检测。注意，在通过使用sn比检测中断位置时，不一定同时使用通过使用音量级别进行的中断位置的检测。在这种情况下，音量级别计算单元1031是不必要的。检测单元105b处的基于音量级别的中断位置的检测也是不必要的。另一方面，在第三实施例的结构中，可以同时使用第二实施例的结构(特定振荡频带的功率)来检测中断位置。

<第四实施例>

在第四实施例中，描述了为了节奏感之外的目的而执行歌唱声音的评估的示例。在该示例中，描述了评估歌唱声音的音高变化的示例。这里，特别地，描述了当歌唱声音的音高的比较对象不是音乐作品的旋律时(即，当能够在不依赖音乐作品的旋律的情况下对歌唱声音的音高进行评估时)的结构。

在该示例中，评估参考信息还包括将要被评估功能用作评估歌唱声音的参考的信息。例如，评估参考信息包括用于指定歌唱音高变化的信息，以检测歌唱方法(歌唱音高波形)。例如，对于诸如颤音(vibrato)、riffsandruns(kobushi)、升音(bend-up)(shakuri)、以及降音(bend-down)(fall)等歌唱方法，各歌唱音高波形如下。

(1)颤音：音高(以预定周期或更低的周期)细微地上下变化。在日本专利申请公开no.2005-107087中公开了检测颤音的具体示例。

(2)riffsandruns：音高(在预定时间内)临时升高，然后返回到原始音高。日本专利申请公开no.2008-268370中公开了检测riffs-and-runs的具体示例。

(3)升音：音高升高预定时间，然后变得稳定。日本专利申请公开no.2005-107334中公开了检测升音的具体示例。

(4)降音：音高降低预定时间，然后歌唱中断。日本专利申请公开no.2008-225115中公开了检测降音的具体示例。

图13是示出本发明第四实施例中的评估功能的结构的框图。评估功能200包括具有与上述节奏评估功能100的功能等同的功能的节奏评估功能单元100c，并且还包括伴奏输出单元201、输入声音获取单元203、音高计算单元205、特定区间检测单元207、音高比较单元209、和评估单元211。伴奏输出单元201读取与歌手指定的歌唱音乐作品相对应的伴奏数据，并且使伴奏声音经由信号处理单元21从扬声器25输出。

输入声音获取单元203获取从麦克风23输入的表示歌唱声音的歌唱声音数据。在该示例中，将正在输出伴奏声音期间到达麦克风23的输入声音识别为评估目标的歌唱声音。注意，在输入声音获取单元203获取在存储单元13中缓存的歌唱声音数据时，其可以在将整首音乐作品的歌唱声音数据存储在存储单元13中之后获取该数据，或者可以直接从信号处理单元21获取该数据。注意，由与节奏评估功能单元100c中的获取单元101相对应的功能获取的歌唱声音数据与由输入声音获取单元203获取的歌唱声音数据相同。

音高计算单元205分析由输入声音获取单元203获取的歌唱声音数据，并计算歌唱音高的时间变化(振荡频率)，即歌唱音高波形。具体而言，通过已知方法(例如，使用歌唱声音的波形的零交叉的方法或使用fft的方法)计算歌唱音高波形。注意，当节奏评估功能单元100c的节奏评估功能对应于第三实施例中的节奏评估功能100b时，可以通过使用在振荡频率分布计算单元1032处获取的振荡频率分布来计算歌唱音高。

特定区间检测单元207分析歌唱音高波形，并且从各个歌唱声音输入时段当中检测包括由评估参考信息限定的歌唱方法的区间(特定区间)。此时检测到的特定区间可以与每种类型的歌唱方法相关联。

音高比较单元209将各歌唱声音输入时段中除了在特定区间检测单元207处检测到的特定区间之外的区间设置为评估区间。音高比较单元209将评估区间中的歌唱音高波形与参考音高进行比较。作为比较结果，在该示例中，计算歌唱音高波形与参考音高之间的失配程度。多个参考音高以100音分的间隔出现。因此，从多个参考音高中选择最接近歌唱音高的参考音高作为歌唱音高的比较目标。歌唱音高波形和参考音高之间的差异越大，计算的失配程度就越高。例如，在评估区间中将歌唱音高波形的每个样本中的歌唱音高与参考音高之间的差值相加，并用该相加值除以评估区间中的样本数量，从而计算失配程度。

通过这种方式，可以在不依赖旋律的情况下执行歌唱评估。在该示例中，不是在歌唱声音的整个输入期间，而是在除特定区间以外的区间中比较歌唱音高和参考音高。因此，还可以防止由于特定区间中的歌唱方法引起的歌唱音高的有意偏移而导致失配程度增加。

基于从节奏评估功能单元100c输出的关于歌唱的节奏感的评估值(从评估值计算单元107输出的评估值)和音高比较单元209的比较结果，评估单元211计算评估值用作评估歌唱声音的指标。在该示例中，当音高比较单元209中计算出的失配程度更低且从节奏评估功能单元100c输出的评估值表示更高的节奏感时，则计算出的评估值更高且对歌唱声音的评估更高。

注意，评估单元211可以进一步基于另一因素来计算评估值。作为另一个因素，可以采取从歌唱方法和歌唱声音数据中可提取的另一个参数。为了将歌唱方法反映到评估值中，只需要使用在特定区间检测单元207处检测到的与特定区间相对应的歌唱方法。例如，另一个参数可以是音量变化。如果使用音量变化，则也可以对歌唱韵律(cadence)执行评估。评估单元211的评估结果可以呈现在显示单元17上。

通过使用图14中示出的特定歌唱音高的示例来描述上述评估功能200的歌唱声音评估方法。

图14是说明本发明第四实施例中的评估方法的示意图。图14中示出的波形是部分歌唱中的歌唱音高波形的示例。纵轴表示音高。音高方向上每隔100音分布置的虚线表示多个参考音高。横轴代表时间的流逝。特定区间检测单元207从歌唱音高波形中检测存在歌唱方法的特定区间。在图14中示出了：区间s是对应于“升音(shakuri)”的特定区间，区间f是对应于“降音(fall)”的特定区间，区间k是对应于“riffsandruns(kobushi)”的特定区间，以及区间v是对应于“颤音”的特定区间。因此，评估区间是除了对应于区间s、f、k、和v的特定区间之外的区间。

在音高比较单元209处计算的失配程度对应于每个样本中歌唱音高与参考音高之间的差值的相加值。在区间v中，由于颤音的音高变化特征，这个相加值很大。因此，当用作歌唱音高和参考音高的比较目标包括区间v时，尽管使用颤音歌唱方法丰富了歌唱，但可能计算出较大的失配程度，从而降低了对歌唱的评估。即使在这种情况下，如果如在本实施例中的评估装置1中那样在除了包括区间v的特定区间之外的评估区间中对歌唱音高和参考音高进行比较，则使用歌唱方法也可以防止评估降低。

在特定区间中，当歌唱音高发生特定变化时，可能发生与正常歌唱时不同的音量级别变化。因此，为了在节奏评估功能单元100c处评估节奏感，使用特定歌唱方法的特定区间可以是非评估目标。例如，特定区间中的中断位置可以不反映到由评估值计算单元107所计算的频率分布上。

<其他实施例>

在第三实施例中，通过基于歌唱声音数据的振荡频率分布来计算sn比，基于sn比来检测中断位置。通过将这样获得的振荡频率分布用于另一个用途也可以检测到中断位置。例如，可以基于歌唱声音的振荡频率分布来计算歌唱声音的音高，并且可以基于音高来检测中断位置。例如，可以基于音高变化了预先确定的宽度或更宽宽度的位置来检测中断位置。这是因为音高显著变化的位置通常有不同的声音。

此外，可以基于振荡频率分布中的基音f0的强度从较低级别变化到比预先确定的阈值更高的级别的位置来检测中断位置。这是因为基音f0的强度从低级别变为高级别的位置常常有新的声音发出。注意，这些检测中断位置的方法可以与上述每个实施例中检测中断位置的方法一起使用。此外，每种检测方法可以单独使用。例如，可以在不使用音量级别的情况下，基于音高或基音f0来检测中断位置。

虽然在第一实施例中是基于音量级别和阈值vth之间的关系检测中断位置，但是也可以基于音量级别和另一参数来检测中断位置。例如，检测单元105指定音量级别的波动处于预定范围内的区域(平坦区域)。然后，当低于音量级别的下降区域排列在多个平坦区域之间时，可以在下降区域之后立即检测到中断位置。

由输入声音获取单元203获取的歌唱声音数据所表示的声音不限于歌手的声音，还可以是通过歌唱合成的声音或乐器的声音。在乐器的声音的情况下，期望是单音符的演奏。注意，在乐器的声音的情况下，不存在辅音和元音的概念，但是取决于演奏方法，同样存在与在每个声音的发声起点处歌唱的倾向相类似的倾向。因此，也可以对乐器的声音进行类似的判定。此外，上述基于音高对中断位置的检测和基于基音f0对中断位置的检测也可以应用于乐器的声音。特别是，音高不能连续变化的结构的乐器(例如，单簧管或小号)中，音高经常以100音分为单位逐步变化。因此，很容易检测中断位置。

此外，在乐器的操作的情况下，在乐器的声音中可能包含独特的噪声。例如，可能存在小号活塞的操作声音作为噪声而被包括在乐器的声音中的情况。可能存在这种噪声被包括在特定振荡频带中的情况。因此，如第二实施例那样，可以通过将以下时间作为参考来检测中断位置：所述时间为例如，当特定振荡频带中的音量级别(特定振荡频带的功率)达到峰值时，或者当该级别增加到超过预定阈值时。此外，上述噪声可能具有第三实施例中所描述的sn比的特征变化。因此，如第三实施例那样，可以通过检测sn比的特征变化来检测中断位置。

附图标记列表

1：评估装置，11：控制单元，13：存储单元，15：操作单元，17：显示单元，19：通信单元，21：信号处理单元，23：麦克风，25：扬声器，100：节奏评估功能，101：获取单元，102：滤波器单元，103：特征值计算单元，105：检测单元，107：评估值计算单元，200：评价功能，201：伴奏输出单元，203：输入声音获取单元，205：音高计算单元，207：特定区间检测单元，209：音高比较单元，211：评估单元，1031：音量级别计算单元，1032：振荡频率分布计算单元。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：成山隆一;寺岛辰弥
技术所有人：雅马哈株式会社
我是此专利的发明人