演奏分析方法、自动演奏方法及自动演奏系统与流程

文档序号：17117966发布日期：2019-03-15 23:31阅读：777来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及分析乐曲演奏的技术。

背景技术：

一直以来，提案有如下的乐谱对位(scorealignment)技术，即，通过分析演奏乐曲的音来估计在乐曲内当前正演奏的位置(以下，称为“演奏位置”)(例如，专利文献1)。

现有技术文献

专利文献1：(日本)特开2015－79183号公报

发明概要

发明所要解决的课题

另一方面，利用表示乐曲的演奏内容的乐曲数据而使键盘乐器等乐器发音的自动演奏技术正在普及。若将演奏位置的分析结果应用于自动演奏，则能够实现与由演奏者进行的乐器演奏同步的自动演奏。但是，例如，在乐曲刚开始后或者经过长时间的休止符后的状态下，仅通过分析音响信号而高精度地估计演奏位置是比较困难的。考虑到上述情况，本发明的目的在于高精度地估计演奏位置。

用于解决技术问题的手段

为了解决上述课题，本发明优选的实施方式的演奏分析方法是，检测演奏乐曲的演奏者的提示动作，通过分析表示演奏所述乐曲的音的音响信号，计算作为所述乐曲内的各时间点与演奏位置符合的准确度的指标的观测似然度的分布，根据所述观测似然度的分布估计所述演奏位置，在所述观测似然度的分布的计算中，在检测出所述提示动作的情况下，关于所述乐曲使在时间轴上被指定的基准点的前方的期间中的观测似然度降低。

本发明的优选的实施方式的自动演奏方法是，检测演奏乐曲的演奏者的提示动作，通过分析表示演奏所述乐曲的音的音响信号来估计所述乐曲内的演奏位置，以与所述演奏位置的行进同步的方式使自动演奏装置执行所述乐曲的自动演奏，在所述演奏位置的估计中，通过分析所述音响信号，计算所述乐曲内的各时间点与演奏位置符合的准确度的指标即观测似然度的分布，根据所述观测似然度的分布估计所述演奏位置，在所述观测似然度分布的计算中，在检测出所述提示动作的情况下，关于所述乐曲使在时间轴上被指定的基准点的前方的期间的观测似然度降低。

本发明的优选的实施方式的自动演奏系统具备：提示检测部，检测演奏乐曲的演奏者的提示动作；分析处理部，通过分析表示演奏所述乐曲的音的音响信号来估计所述乐曲内的演奏位置；以及演奏控制部，使自动演奏装置以与所述提示检测部检测的提示动作和所述演奏分析部估计的演奏位置的行进同步的方式执行乐曲的自动演奏，所述分析处理部包括：似然度计算部，通过分析所述音响信号来计算作为所述乐曲内的各时间点与演奏位置符合的准确度的指标的观测似然度的分布；以及位置估计部，根据所述观测似然度的分布估计所述演奏位置，所述似然度计算部在检测出所述提示动作的情况下，关于所述乐曲使在时间轴上被指定的基准点的前方的期间中的观测似然度降低。

附图说明

图1是本发明实施方式的自动演奏系统的框图。

图2是提示动作及演奏位置的说明图。

图3是由图像合成部进行的图像合成的说明图。

图4是演奏对象曲的演奏位置与自动演奏的指示位置的关系的说明图。

图5是提示动作的位置与演奏对象曲的演奏开始点的关系的说明图。

图6是演奏图像的说明图。

图7是演奏图像的说明图。

图8是控制装置的动作的流程图。

图9是第二实施方式的分析处理部的框图。

图10是第二实施方式的分析处理部的动作的说明图。

图11是第二实施方式的分析处理部的动作的流程图。

图12是自动演奏系统的框图。

图13是演奏者的发音定时与伴奏声部的发音定时的模拟结果。

图14是自动演奏系统的评价结果。

具体实施方式

＜第一实施方式＞

图1是本发明第一实施方式的自动演奏系统100的框图。自动演奏系统100设置在多个演奏者p进行乐器演奏的音响厅等空间，是与由多个演奏者p进行的乐曲(以下，称为“演奏对象曲”)演奏并行地执行演奏对象曲的自动演奏的计算机系统。另外，演奏者p一般是乐器的演奏者，但演奏对象曲的歌唱者也可以是演奏者p。即，本申请的“演奏”不仅包括乐器的演奏还包括唱歌。此外，实质上不担任乐器演奏的人(例如，音乐会时的指挥者或录音(recording)时的音响导演等)也可以包含在演奏者p中。

如图1所例示的，本实施方式的自动演奏系统100具备控制装置12、存储装置14、收录装置22、自动演奏装置24以及显示装置26。控制装置12和存储装置14例如可以通过个人计算机等信息处理装置来实现。

控制装置12例如是cpu(中央处理单元(centralprocessingunit))等处理电路，统一控制自动演奏系统100的各要素。存储装置14例如是磁记录介质或半导体记录介质等公知的记录介质，或者由多种记录介质的组合构成，存储控制装置12执行的程序以及控制装置12使用的各种数据。另外，可以事先准备与自动演奏系统100分开的存储装置14(例如云存储)，控制装置12经由移动通信网络或互联网等通信网络执行对存储装置14的写入或读取。即，可以从自动演奏系统100中省略掉存储装置14。

本实施方式的存储装置14存储乐曲数据m。乐曲数据m指定自动演奏涉及的演奏对象曲的演奏内容。例如，作为乐曲数据m，优选遵照midi(音乐设备数字接口(musicalinstrumentdigitalinterface))标准的格式的文件(标准midi文件(smf：standardmidifile))。具体来说，乐曲数据m是将表示演奏内容的指示数据和表示该指示数据的发生时间点的时间数据进行了排列的时间序列数据。指示数据对音高(音符编号(notenumber))和强度(速度(velocity))进行指定并指示发音及消音等各种事件(event)。时间数据例如是指定相继前后的指示数据的间隔(delta时间)。

图1的自动演奏装置24基于控制装置12进行的控制而执行演奏对象曲的自动演奏。具体来说，由自动演奏装置24自动演奏构成演奏对象曲的多个演奏声部中与多个演奏者p的演奏声部(例如弦乐器)分开的演奏声部。本实施方式的自动演奏装置24是具备驱动机构242和发音机构244的键盘乐器(即，自动演奏钢琴)。发音机构244与自然乐器的钢琴一样，是与键盘的各键的位移连动而使琴弦(即发音体)发音的击弦机构。具体来说，发音机构244在每个键具备由能够击打琴弦的音锤和将键的位移传递给音锤的多个传递部件(例如切克(whippen)、顶杆(jack)及震奏杆(repetitionlever))构成的执行(action)机构。驱动机构242通过驱动发音机构244而执行演奏对象曲的自动演奏。具体来说，驱动机构242包含使各键进行位移的多个驱动体(例如螺线管等促动器)和驱动各驱动体的驱动电路而构成。通过驱动机构242根据来自控制装置12的指示驱动发音机构244而实现演奏对象曲的自动演奏。另外，可以在自动演奏装置24上搭载控制装置12或存储装置14。

收录装置22收录多个演奏者p演奏演奏对象曲的情形。如图1所例示的，本实施方式的收录装置22具备多个摄像装置222和多个收音装置224。每个演奏者p设有摄像装置222，摄像装置222通过对演奏者p进行摄像而生成图像信号v0。图像信号v0是表示演奏者p的动态图像的信号。每个演奏者p设有收音装置224，收音装置224收音通过演奏者p的演奏(例如演奏乐器或唱歌)而发音的音(例如乐音或者唱歌音)而生成音响信号a0。音响信号a0是表示音的波形的信号。从以上的说明可以理解，收录摄像了不同演奏者p的多个图像信号v0和收音了不同演奏者p演奏的音的多个音响信号a0。另外，也可以利用从电子弦乐器等电子乐器输出的音响信号a0。因此，也可以省略掉收音装置224。

控制装置12通过执行存储在存储装置14中的程序而实现用于实现演奏对象曲的自动演奏的多个功能(提示检测部52、演奏分析部分54、演奏控制部56及显示控制部58)。另外，也可以由多个装置的组合(即系统)来实现控制装置12的功能，或者通过专门的电子电路来实现控制装置12的功能的一部分或全部。此外，还可以由位于从设有收录装置22、自动演奏装置24和显示装置26的音响厅等空间离开的位置的服务器(server)装置来实现控制装置12的一部分或者全部的功能。

各演奏者p执行作为提示演奏对象曲演奏的动作(以下，称为“提示动作”)。提示动作是指示时间轴上的一个时间点的动作(手势)。作为提示动作的优选例子，例如是演奏者p拿起自身乐器的动作或演奏者p活动自身身体的动作。例如，如图2所例示的，主导演奏对象曲演奏的特定演奏者p在相对于演奏对象曲的演奏应开始的开始点向前移动仅规定的期间(以下，称为“准备期间”)b的时间点q执行提示动作。准备期间b例如是演奏对象曲1的拍子时长的期间。因此，准备期间b的时长根据演奏对象曲的演奏速度(拍子)而变动。例如，演奏速度越快，准备期间b的时长变得越短。演奏者p基于演奏对象曲设想的演奏速度，在从演奏对象曲的开始点仅向前移动与1拍子相当的准备期间b的时间点执行提示动作，在此基础上，根据该开始点的到来而开始演奏对象曲的演奏。提示动作除了成为其他演奏者p进行演奏的契机之外，也用作自动演奏装置24进行的自动演奏的契机。另外，准备期间b的时长是任意的，例如也可以是多拍的时长。

图1的提示检测部52检测演奏者p进行的提示动作。具体来说，提示检测部52通过分析各摄像装置222摄像的演奏者p的图像来检测提示动作。如图1所例示的，本实施方式的提示检测部52具备图像合成部522和检测处理部524。图像合成部522通过合成由多个摄像装置222生成的多个图像信号v0来生成图像信号v。如图3所例示的，图像信号v是表示排列了各图像信号v0表示的多个动态图像(#1，#2，#3，……)的图像的信号。即，从图像合成部522向检测处理部524提供表示多个演奏者p的动态图像的图像信号v。

检测处理部524通过分析图像合成部522生成的图像信号v来检测多个演奏者p中的某个演奏者的提示动作。在检测处理部524进行的提示动作的检测中可以使用公知的图像分析技术，该技术包含从图像中提取演奏者p执行提示动作时移动的要素(例如身体或乐器)的图像识别处理以及检测该要素的移动的移动体检测处理。此外，在提示动作的检测中也可以使用神经网络或多叉树等识别模型。例如，将从摄像了多个演奏者p进行的演奏的图像信号中提取的特征量用作给定的学习数据，并事先执行识别模型的机械学习(例如深度学习)。检测处理部524通过将在实际执行自动演奏的场景中从图像信号v提取的特征量应用于机械学习后的识别模型来检测提示动作。

图1的演奏分析部54与各演奏者p进行的演奏并行地依次估计演奏对象曲中多个演奏者p当前正演奏的位置(以下，称为“演奏位置”)t。具体来说，演奏分析部54通过分析多个收音装置224各自收音的音来估计演奏位置t。如图1所例示的，本实施方式的演奏分析部54具备音响混合部542和分析处理部544。音响混合部542通过混合多个收音装置224生成的多个音响信号a0来生成音响信号a。即，音响信号a是表示不同的音响信号a0所表示的多种音的混合音的信号。

分析处理部544通过分析音响混合部542生成的音响信号a来估计演奏位置t。例如，分析处理部544通过将音响信号a表示的音与乐曲数据m表示的演奏对象曲的演奏内容相互进行对照来确定演奏位置t。此外，本实施方式的分析处理部544通过分析音响信号a来估计演奏对象曲的演奏速度(拍子(tempo))r。例如，分析处理部544从演奏位置t随时间的变化(即，时间轴上的演奏位置t的变化)来特定演奏速度r。另外，在由分析处理部544进行的演奏位置t及演奏速度r的估计中，可任意采用公知的音响分析技术(乐谱对位)。例如，也可以利用专利文献1公开的分析技术来估计演奏位置t及演奏速度r。此外，在演奏位置t及演奏速度r的估计上可利用神经网络或多叉树等识别模型。例如，将从收音了多个演奏者p进行的演奏的音响信号a中提取出的特征量用作给定的学习数据，并在自动演奏前执行用于生成识别模型的机械学习(例如深度学习)。分析处理部544通过将在实际上执行自动演奏的情境下从音响信号a提取出的特征量应用于通过机械学习生成的识别模型来估计演奏位置t及演奏速度r。

提示检测部52进行的提示动作的检测和演奏分析部54进行的演奏位置t及演奏速度r的估计与多个演奏者p进行的演奏对象曲的演奏并行地实时执行。例如，以规定的周期反复进行提示动作的检测和演奏位置t及演奏速度r的估计。但是，对提示动作的检测的周期与演奏位置t及演奏速度r的估计周期的异同并无要求。

图1的演奏控制部56使自动演奏装置24以与提示检测部52检测的提示动作和演奏分析部54估计的演奏位置t的行进同步的方式执行演奏对象曲的自动演奏。具体来说，演奏控制部56以提示检测部52检测出提示动作的情况为契机对自动演奏装置24作出开始自动演奏的指示，并在演奏对象曲中与演奏位置t对应的时间点向自动演奏装置24指示乐曲数据m所指定的演奏内容。即，演奏控制部56是向自动演奏装置24依次提供演奏对象曲的乐曲数据m所包含的各指示数据的音序器(sequencer)。自动演奏装置24根据来自演奏控制部56的指示执行演奏对象曲的自动演奏。由于随着由多个演奏者p进行的演奏的行进，演奏位置t向演奏对象曲内的后方移动，因此，由自动演奏装置24进行的演奏对象曲的自动演奏也随着演奏位置t的移动而行进。从以上的说明可以理解，演奏控制部56以演奏对象曲的各音的强度或乐句表现等音乐表现维持在乐曲数据m所指定的内容不变且演奏的拍子和各音的定时与多个演奏者p进行的演奏同步的方式对自动演奏装置24作出自动演奏的指示。因此，例如，如果使用表示特定演奏者(例如当前已去世的过去的演奏者)的演奏的乐曲数据m，则能够通过自动演奏来忠实地再现该演奏者所特有的音乐表现，同时营造就像该演奏者和实际存在的多个演奏者p彼此恰好合拍地协调合奏的氛围。

另外，演奏控制部56在从通过输出指示数据对自动演奏装置24作出自动演奏的指示到自动演奏装置24实际上发音(例如发音机构244的音锤击弦)为止需要数百毫秒左右的时间。即，自动演奏装置24的实际发音相对于来自演奏控制部56的指示不可避免地发生延迟。因此，其结果，在演奏控制部56对自动演奏装置24指示演奏演奏对象曲中演奏分析部54所估计的演奏位置t本身的结构中，自动演奏装置24的发音相对于多个演奏者p的演奏发生延迟。

此处，如图2所例示的，本实施方式的演奏控制部56将相对于演奏对象曲中演奏分析部54估计的演奏位置t靠后方(未来)的时间点ta的演奏指示给自动演奏装置24。即，演奏控制部56预先读取演奏对象曲的乐曲数据m内的指示数据，以使延迟后的发音与多个演奏者p进行的演奏同步(例如，自动演奏装置24与各演奏者p大致同时演奏演奏对象曲的特定音符)。

图4是演奏位置t随时间的变化的说明图。单位时间内的演奏位置t的改变量(图4的直线斜率)相当于演奏速度r。在图4中，为了便于说明，例示演奏速度r维持为恒定的情况。

如图4所例示的，演奏控制部56将演奏对象曲中相对于演奏位置t靠后方调整量α的后方的时间点ta的演奏指示给自动演奏装置24。调整量α可以根据从演奏控制部56进行的自动演奏指示起到自动演奏装置24实际发音为止的延迟量d以及演奏分析部54估计出的演奏速度r可变地设定。具体来说，演奏控制部56将基于演奏速度r在延迟量d的时间内演奏对象曲的演奏行进的区间长度设定为调整量α。因此，演奏速度r越快(图4的直线斜度陡)，调整量α的数值越大。另外，在图4中设想遍及演奏对象曲的整个区间，演奏速度r维持为恒定的情况，但实际上演奏速度r可改变。因此，调整量α与演奏速度r联动而随时间改变。

事先设定延迟量d为与自动演奏装置24的测定结果相应的规定值(例如几十到几百毫秒左右)。另外，在实际的自动演奏装置24中，基于所演奏的音高或强度，延迟量d可以不同。因处，也可以根据成为自动演奏对象的音符的音高或强度来可变地设定延迟量d(进一步，依赖于延迟量d的调整量α)。

此外，演奏控制部56以提示检测部52检测的提示动作为契机对自动演奏装置24作出开始自动演奏演奏对象曲的指示。图5是说明提示动作与自动演奏的关系的说明图。如图5所例示的，演奏控制部56在从检测出提示动作的时间点q起经过了时长δ的时间点qa开始对自动演奏装置24作出自动演奏的指示。时长δ是从相当于准备期间b的时长τ中减去自动演奏的延迟量d得到的时长。准备期间b的时长τ根据演奏对象曲的演奏速度r而改变。具体来说，演奏速度r越快(图5的直线的斜度陡)，准备期间b的时长τ变得越短。但是，由于在提示动作的时间点qa没有开始演奏对象曲的演奏，因此没有估计演奏速度r。因此，演奏控制部56根据演奏对象曲设想的标准演奏速度(标准拍子)r0计算准备期间b的时长τ。演奏速度r0例如被乐曲数据m指定。但是，可以将多个演奏者p关于演奏对象曲有共同认识的速度(例如，演奏练习时设想的速度)设定为演奏速度r0。

如以上说明，演奏控制部56在从提示动作的时间点qa起经过了时长δ(δ＝τ－d)的时间点qa开始自动演奏的指示。因此，在从提示动作的时间点q起经过了准备期间b的时间点qb(即，多个演奏者p开始演奏的时间点)，自动演奏装置24进行的发音开始。即，与由多个演奏者p进行的演奏对象曲的演奏的开始大致同时地开始自动演奏装置24进行的自动演奏。本实施方式的演奏控制部56进行的自动演奏的控制如以上例示所述。

图1的显示控制部58使在视觉上表现了自动演奏装置24进行的自动演奏的行进的图像(以下，称为“演奏图像”)g显示在显示装置26上。具体来说，显示控制部58通过生成表示演奏图像g的图像数据并输出到显示装置26而使演奏图像g显示在显示装置26上。显示装置26显示被显示控制部58指示的演奏图像g。例如，液晶显示面板或者投影仪可作为显示装置26的优选例。多个演奏者p能够与显示装置26显示的演奏图像g并行地随时在视觉上确认显示装置26显示的演奏图像g。

本实施方式的显示控制部58将与自动演奏装置24进行的自动演奏联动并动态地变化的动态图像作为演奏图像g显示在显示装置26上。图6及图7是演奏图像g的显示例。如图6及图7所例示的，演奏图像g是在有底面72的虚拟空间70配置了显示体(目标物)74的立体图像。如图6所例示的，显示体74是悬浮在虚拟空间70内并以规定的速度下降的大致球状的立体。显示体74的影子75显示在虚拟空间70的底面72上，该影子75随着显示体74的下降在底面72上接近显示体74。如图7所例示的，在自动演奏装置24进行的发音开始的时间点，显示体74上升直到虚拟空间70内的规定的高度，并且显示体74的形状在该发音持续的过程中不规则地变形。然后，如果自动演奏的发音停止(消音)，则显示体74的不规则的变形停止并恢复到图6的初始的形状(球状)，转变到显示体74以规定的速度下降的状态。在每次自动演奏发音时，反复进行显示体74的以上动作(上升及变形)。例如，在演奏对象曲的演奏开始前，显示体74下降；在演奏对象曲的开始点的音符通过自动演奏而发音的时间点，显示体74的移动的方向从下降转换成上升。因此，在视觉上确认显示在显示装置26上的演奏图像g的演奏者p能够通过显示体74从下降向上升的转换来掌握自动演奏装置24进行的发音的定时。

本实施方式的显示控制部58控制显示装置26，以使以上所例示的演奏图像g被显示。另外，从显示控制部58对显示装置26作出图像的显示或变更的指示之后到该指示被反映在显示装置26的显示图像上为止的延迟与自动演奏装置24进行的自动演奏的延迟量d相比充分小。因此，显示控制部58使演奏对象曲中与演奏分析部54估计出的演奏位置t本身的演奏内容相应的演奏图像g显示在显示装置26上。因此，如前所述，演奏图像g与自动演奏装置24进行的实际的发音(从演奏控制部56进行的指示起延迟了仅延迟量d的时间点)同步地动态变化。即，在自动演奏装置24实际上开始演奏对象曲的各音符的发音的时间点，演奏图像g的显示体74的移动从下降转换为上升。因此，各演奏者p能够在视觉上确认自动演奏装置24发音演奏对象曲的各音符的时间点。

图8是例示自动演奏系统100的控制装置12的动作的流程图。例如，将以规定周期发生的中断信号为契机，与由多个演奏者p进行的演奏对象曲的演奏并行地开始图8的处理。如果开始图8的处理，则控制装置12(提示检测部52)通过分析从多个摄像装置222提供的多个图像信号v0来判定有无由任意的演奏者p进行的提示动作(sa1)。此外，控制装置12(演奏分析部54)通过分析从多个收音装置224提供的多个音响信号a0来估计演奏位置t和演奏速度r(sa2)。另外，可以颠倒提示动作的检测(sa1)和演奏位置t及演奏速度r的估计(sa2)的顺序。

控制装置12(演奏控制部56)对自动演奏装置24作出与演奏位置t及演奏速度r相应的自动演奏的指示(sa3)。具体来说，以与提示检测部52检测的提示动作以及演奏分析部54估计的演奏位置t的行进同步的方式使自动演奏装置24执行演奏对象曲的自动演奏。此外，控制装置12(显示控制部58)使表现自动演奏的行进的演奏图像g显示在显示装置26上(sa4)。

在以上所例示的实施方式中，以与演奏者p的提示动作以及演奏位置t的行进同步的方式执行自动演奏装置24进行的自动演奏，另一方面，表示自动演奏装置24进行的自动演奏的行进的演奏图像g被显示在显示装置26上。因此，演奏者p能够在视觉上确认自动演奏装置24进行的自动演奏的行进并反映在自身的演奏上。即，多个演奏者p进行的演奏和自动演奏装置24进行的自动演奏彼此作用而实现协调自然的合奏。本实施方式尤其具有以下优点：由于与自动演奏的演奏内容相应地动态变化的演奏图像g被显示在显示装置26上，所以演奏者p能够在视觉上直观地掌握自动演奏的行进。

此外，在本实施方式中，相对于演奏分析部54估计出的演奏位置t在时间上相对靠后的时间点ta的演奏内容被指示给自动演奏装置24。因此，即使自动演奏装置24进行的实际的发音相对于由演奏控制部56作出的演奏的指示延迟的情况下，也能够使演奏者p进行的演奏与自动演奏高精度地同步。此外，相对于演奏位置t向后仅调整了与演奏分析部54估计出的演奏速度r相应的可变调整量α的时间点ta的演奏被指示给自动演奏装置24。因此，例如，即使在演奏速度r改变的情况下，也能够使演奏者进行的演奏与自动演奏高精度地同步。

＜第二实施方式＞

说明本发明的第二实施方式。另外，在以下例示的各实施方式中，关于作用或功能与第一实施方式一样的要素，沿用在第一实施方式的说明中使用的标号并适当省略各自的详细说明。

图9是例示第二实施方式的分析处理部544的结构的流程图。如图9所例示的，第二实施方式的分析处理部544具备似然度计算部82和位置估计部84。图10是似然度计算部82的动作的说明图。

似然度计算部82与由多个演奏者p进行的演奏对象曲的演奏并行地计算演奏对象曲内的多个时间点t各自的观测似然度l。即，计算遍及演奏对象曲内的多个时间点t的观测似然度l的分布(以下，称为“观测似然度分布”)。在将在时间轴上划分的每个单位区间(帧)计算音响信号a的观测似然度分布。在关于音响信号a的一个单位区间计算出的观测似然度分布中任意一个时间点t的观测似然度l是使该单位区间的音响信号a表示的音在演奏对象曲内的该时间点t发音的准确度的指标。换言之，观测似然度l是多个演奏者p对演奏对象曲内的各时间点t进行演奏的准确度的指标。即，在任意一个单位区间内计算出的观测似然度l较高的时间点t与该单位区间内的音响信号a表示的音的发音位置符合的可能性较高。另外，先后的单位区间在时间轴上可相互重复。

如图9所例示的，第二实施方式的似然度计算部82具备第一运算部821、第二运算部822以及第三运算部823。第一运算部821计算第一似然度l1(a)，第二运算部822计算第二似然度l2(c)。第三运算部823通过第一运算部821计算出的第一似然度l1(a)与第二运算部822计算出的第二似然度l2(c)的乘法运算来计算观测似然度l的分布。即，观测似然度l以第一似然度l1(a)与第二似然度l2(c)的乘积来表现(l＝l1(a)l2(c))。

第一运算部821通过相互对照各单位区间内的音响信号a与演奏对象曲的乐曲数据m来计算演奏对象曲内的多个时间点t各自的第一似然度l1(a)。即，如图10所例示的，按每个单位区间计算遍及演奏对象曲内的多个时间点t的第一似然度l1(a)的分布。第一似然度l1(a)是通过分析音响信号a而计算出的似然度。通过分析音响信号a的一个单位区间而关于任意一个时间点t计算出的第一似然度l1(a)是该单位区间内的音响信号a表示的音在演奏对象曲内的该时间点t被发音的准确度的指标。在时间轴上的多个时间点t中与音响信号a的一个单位区间的演奏位置符合的可能性较高的时间点t，存在第一似然度l1(a)的峰值。关于从音响信号a计算第一似然度l1(a)的方法，例如可优选地利用(日本)特开2014－178395号公报的技术。

图9的第二运算部822计算与有无检测出提示动作相应的第二似然度l2(c)。具体来说，第二似然度l2(c)是根据表示有无提示动作的变量c而计算出的似然度。变量c被从提示检测部52通知给似然度计算部82。在提示检测部52检测出提示动作的情况下，变量c被设定为1；在提示检测部52没有检测出提示动作的情况下，变量c被设定为0。另外，变量c的数值不限定于0及1这两个值。例如也可以将不检测提示动作时的变量c设定为规定的正数(但是，是小于检测出提示动作时的变量c的数值的数值)。

如图10所例示的，在演奏对象曲的时间轴上指定多个基准点a。基准点a是例如乐曲的开始时间点或者从延长符等所指示的长时间休止符后演奏再次开始的时间点。例如，演奏对象曲内的多个基准点a各自的时刻由乐曲数据m来指定。

如图10所例示的，在没有检测出提示动作的单位区间(c＝0)中，第二似然度l2(c)维持为1。另一方面，在检测出提示动作的单位区间(c＝1)中，第二似然度l2(c)在从各基准点a遍及时间轴上前方侧的规定长的期间(以下，称为“参照期间”)ρ被设定为0(第二值的示例)，在各参照期间ρ以外的期间被设定为1(第一值的示例)。参照期间ρ例如被设定为从演奏对象曲的一拍量到二拍量左右的时长。如前所述，通过第一似然度l1(a)与第二似然度l2(c)的乘积来计算观测似然度l。因此，在检测出提示动作的情况下，被演奏对象曲指定的多个基准点a各自的前方的参照期间中ρ的观测似然度l下降为0。另一方面，在没有检测出提示动作的情况下，由于第二似然度l2(c)维持为1，因此计算观测似然度l作为第一似然度l1(a)。

图9的位置估计部84根据似然度计算部82计算出的观测似然度l估计演奏位置t。具体来说，位置估计部84从观测似然度l计算演奏位置t的后验分布，从该后验分布估计演奏位置t。演奏位置t的后验分布是在单位区间内的音响信号a被观测到的条件下该单位区间的发音的时间点为演奏对象曲内的位置t的后验概率的概率分布。在利用了观测似然度l的后验分布的计算中，例如，如(日本)特开2015－79183号公报公开所例示的，使用利用了隐式半马尔科夫模型(hsmm)的贝叶斯估计等公知的统计处理。

如前所述，由于在与提示动作对应的基准点a的前方的参照期间ρ中观测似然度l被设定为0，因此后验分布在该基准点a以后的区间是有效的。因此，估计与提示动作对应的基准点a以后的时间点作为演奏位置t。此外，位置估计部84从演奏位置t随时间的变化确定演奏速度r。分析处理部544以外的结构及动作与第一实施方式一样。

图11是例示分析处理部544估计演奏位置t及演奏速度r的处理(图8的步骤sa2)的内容的流程图。与由多个演奏者p进行的演奏对象曲的演奏并行地在时间轴上的每个单位区间执行图11的处理。

第一运算部821通过分析单位区间内的音响信号a来关于演奏对象曲内的多个时间点t中的各时间点计算第一似然度l1(a)(sa21)。此外，第二运算部822计算与有无检测出提示动作相应的第二似然度l2(c)(sa22)。另外，可以颠倒第一运算部821进行的第一似然度l1(a)的计算(sa21)与第二运算部822进行的第二似然度l2(c)的计算(sa22)的顺序。第三运算部823通过将第一运算部821计算出的第一似然度l1(a)与第二运算部822计算出的第二似然度l2(c)进行乘法运算来计算观测似然度l的分布(sa23)。

位置估计部84根据似然度计算部82计算出的观测似然度分布来估计演奏位置t(sa24)。此外，位置估计部84从演奏位置t随时间的变化来计算演奏速度r(sa25)。

如以上说明，在第二实施方式中，由于除了音响信号a的分析结果以外，在演奏位置t的估计中还考虑进去提示动作的检测结果，因此，例如与仅考虑音响信号a的分析结果的结构相比，能够高精度地估计演奏位置t。例如，在乐曲的开始时间点或从休止符后再次开始演奏的时间点，也高精度地估计演奏位置t。此外，在第二实施方式中，在检测出提示动作的情况下，被演奏对象曲指定的多个基准点a中与检测出该提示动作的基准点a对应的参照期间ρ内的观测似然度l下降。即，在演奏时间点t的估计中不反映参照期间ρ以外的提示动作的检测时间点。因此，具有能够抑制在提示动作被误检测出的情况下错误地估计演奏时间点t的优点。

＜变形例＞

在以上例示的各实施方式可进行多样化的变形。在以下例示的具体变形方式。从以下的例示中任意地选择的两个以上的实施方式在彼此不矛盾的范围内可以适当地合并。

(1)在前述的实施方式中，以提示检测部52检测出的提示动作为契机开始演奏对象曲的自动演奏，但也可以将提示动作使用在演奏对象曲的中途时间点的自动演奏的控制中。例如，在演奏对象曲内历经长时间的休止符后再次开始演奏的时间点，与前述的各实施方式一样，以提示动作为契机再次开始演奏对象曲的自动演奏。例如，与参照图5说明的动作一样，在相对于在演奏对象曲内在休止符后演奏再次开始的时间点靠前准备期间b的时间点q，特定的演奏者p执行提示动作。然后，在从该时间点q经过了与延迟量d和演奏速度r相应的时长δ的时间点，演奏控制部56重新开始对于自动演奏装置24的自动演奏的指示。另外，由于在演奏对象曲的中途的时间点演奏速度r已经被估计，因此演奏分析部54估计出的演奏速度r被应用于时长δ的设定。

另外，可从演奏对象曲的演奏内容中事先掌握演奏对象曲中可执行提示动作的期间。因此，也可以是，提示检测部52以演奏对象曲中可能执行提示动作的特定期间(以下，称为“监视期间”)为对象监视有无提示动作。例如，关于演奏对象曲所设想的多个监视期间中的各监视期间，指定开始点和终点的区间指定数据被存储在存储装置14中。可以将区间指定数据内包在乐曲数据m中。提示检测部52在演奏对象曲中被区间指定数据指定的各监视期间内存在演奏位置t的情况下，执行提示动作的监视；在演奏位置t在监视期间的外侧的情况下停止提示动作的监视。根据以上的结构，由于在演奏对象曲中限定于监视期间检测提示动作，与遍及演奏对象曲的全区间监视有无提示动作的结构相比，具有减轻提示检测部52的处理负荷的优点。此外，关于演奏对象曲中实际上不能执行提示动作的期间来说，能够降低提示动作被误检测的可能性。

(2)在前述的实施方式中，虽然通过分析图像信号v表示的图像的整体(图3)检测出提示动作，但也可以是，提示检测部52以图像信号v表示的图像中特定的区域(以下，称为“监视区域”)为对象监视有无提示动作。例如，提示检测部52选择图像信号v表示的图像中包含被预定了提示动作的特定演奏者p的范围作为监视区域，以该监视区域为对象检测提示动作。监视区域以外的范围被从提示检测部52的监视对象中除外。根据以上的结构，由于限定在监视区域检测提示动作，因此与遍及图像信号v表示的图像整体来监视有无提示动作的结构相比，具有减轻提示检测部52的处理负荷的优点。此外，能够降低实际上没有执行提示动作的演奏者p的动作被误判为提示动作的可能性。

另外，如前述的变形例(1)所例示的，如果设想在演奏对象曲的演奏中多次执行提示动作的情况，则在每次提示动作时执行提示动作的演奏者p可能被变更。例如，演奏对象曲开始前的提示动作由演奏者p1执行，另一方面，演奏对象曲的中途的提示动作由演奏者p2执行。因此，优选随着时间的经过来变更在图像信号v表示的图像内的监视区域的位置(或者尺寸)的结构。由于执行提示动作的演奏者p被在演奏前确定，所以例如在时间序列上指定监视区域的位置的区域指定数据被预先存储在存储装置14中。提示检测部52关于在图像信号v表示的图像中被区域指定数据指定的各监视区域来监视提示动作，关于监视区域以外的区域，被从提示动作的监视对象中除外。根据以上的结构，即使在随着乐曲的行进，执行提示动作的演奏者p变更了的情况下，也能够适当地检测提示动作。

(3)在前述的实施方式中，虽然利用多个摄像装置222对多个演奏者p进行摄像，但也可以通过一个摄像装置222对多个演奏者p(例如，多个演奏者p所在的舞台整体)进行摄像。同样地，也可以通过一个收音装置224对多个演奏者p演奏的音进行收音。此外，也可以采用提示检测部52关于多个图像信号v0中的各个监视有无提示动作的结构(因此，可以省略掉图像合成部522)。

(4)在前述的实施方式中，虽然通过分析摄像装置222摄像的图像信号v来检测出了提示动作，但提示检测部52检测提示动作的方法不限定于以上的示例。例如，也可以是，提示检测部52通过分析在演奏者p的身体上安装的检测器(例如加速度传感器等各种传感器)的检测信号来检测演奏者p的提示动作。但是，根据通过分析摄像装置222摄像的图像来检测提示动作的前述实施方式的结构，与在演奏者p的身体上安装检测器的情况相比，具有能够降低对演奏者p的演奏动作的影响并且检测提示动作的优点。

(5)在前述的实施方式中，虽然通过分析混合了表示不同的乐器的音的多个音响信号a0的音响信号a来估计出了演奏位置t及演奏速度r，但也可以通过分析各音响信号a0来估计演奏位置t及演奏速度r。例如，演奏分析部54以与前述实施方式一样的方法关于各音响信号a0来估计暂定的演奏位置t及演奏速度r，从与各音响信号a0有关的估计结果决定确定的演奏位置t及演奏速度r。例如，计算从各音响信号a0估计出的演奏位置t及演奏速度r的代表值(例如平均值)，作为确定的演奏位置t及演奏速度r。从以上的说明可以理解，可省略掉演奏分析部54的音响混合部542。

(6)如前述的实施方式所例示的，自动演奏系统100通过控制装置12与程序的协同工作来实现。本发明的优选的实施方式的程序使计算机发挥以下功能：提示检测部52，检测演奏演奏对象曲的演奏者p的提示动作；演奏分析部54，通过将表示所演奏的音的音响信号a与该演奏并行地进行分析，依次估计演奏对象曲内的演奏位置t；演奏制御部56，以与提示检测部52检测的提示动作和演奏分析部54估计的演奏位置t的行进同步的方式使自动演奏装置24执行演奏对象曲的自动演奏；显示控制部58，使表示自动演奏行进的演奏图像g显示在显示装置26上。即，本发明优选的实施方式的程序是使计算机执行本发明优选的实施方式的乐曲数据处理方法的程序。可以以存储在计算机可读取的存储介质的方式来提供以上例示的程序并将其安装在计算机上。存储介质例如是非临时性(non-transitory)的存储介质，虽然优选例是cd-rom等光学式存储介质(光盘)，但也可以包含半导体存储介质或磁存储介质等公知的任意形式的存储介质。此外，也可以以借助通信网络发送的方式将程序发送到计算机。

(7)本发明优选的实施方式也特定为前述实施方式的自动演奏系统100的动作方法(自动演奏方法)。例如，本发明的优选的实施方式的自动演奏方法是，计算机系统(由单一计算机或多个计算机构成的系统)检测演奏演奏对象曲的演奏者p的提示动作(sa1)，通过将表示演奏音的音响信号a与该演奏并行地进行分析，依次估计演奏对象曲内的演奏位置t(sa2)，以与提示动作和演奏位置t的行进同步的方式使自动演奏装置24执行演奏对象曲的自动演奏(sa3)，使表示自动演奏行进的演奏图像g显示在显示装置26上(sa4)。

(8)从以上例示的实施方式可掌握例如以下的结构。

[实施方式a1]

本发明优选的实施方式(实施方式a1)的演奏分析方法是，检测演奏乐曲的演奏者的提示动作，通过分析表示演奏了所述乐曲的音的音响信号，计算所述乐曲内的各时间点与演奏位置符合的准确度的指标即观测似然度的分布，根据所述观测似然度的分布估计所述演奏位置，在所述观测似然度的分布的计算中，在检测出所述提示动作的情况下，关于所述乐曲使在时间轴上被指定的基准点的前方的期间中的观测似然度降低。在以上实施方式中，由于在演奏位置的估计中除了考虑音响信号的分析结果之外，还考虑了提示动作的检测结果，因此，与例如仅考虑音响信号的分析结果的结构相比，能够高精度地估计演奏位置。

[实施方式a2]

在实施方式a1的优选例(实施方式a2)中，在所述观测似然度的分布的计算中，从所述音响信号计算所述乐曲内的各时间点与演奏位置符合的准确度的指标即第一似然度，在没有检测出所述提示动作的状态下设定为第一值，在检测出所述提示动作的情况下，在所述基准点的前方的期间中计算设定为低于所述第一值的第二值的第二似然度，通过所述第一似然度和所述第二似然度的乘法运算来计算所述观测似然度。在以上实施方式中，具有通过从音响信号计算出的第一似然度和与提示动作的检测结果相应的第二似然度的乘法运算能够简便地计算观测似然度的优点。

[实施方式a3]

在实施方式a2的优选例(实施方式a3)中，所述第一值为1，所述第2值为0。根据以上实施方式，能够明确区分检测出提示动作的情况下和没有检测出提示动作的情况下的观测似然度。

[实施方式a4]

本发明的优选的实施方式(实施方式a4)的自动演奏方法是，检测演奏乐曲的演奏者的提示动作，通过分析表示演奏了所述乐曲的音的音响信号来估计所述乐曲内的演奏位置，以与所述演奏位置的行进同步的方式使自动演奏装置执行所述乐曲的自动演奏，在所述演奏位置的估计中，通过分析所述音响信号来计算所述乐曲内的各时间点与演奏位置符合的准确度的指标即观测似然度的分布，根据所述观测似然度的分布估计所述演奏位置，在所述观测似然度的分布的计算中，在检测出所述提示动作的情况下，关于所述乐曲使在时间轴上被指定的基准点的前方的期间的观测似然度降低。在以上实施方式中，由于在演奏位置的估计除了考虑音响信号的分析结果之外，还考虑提示动作的检测结果，因此，与例如仅考虑音响信号的分析结果的结构相比，能够高精度地估计演奏位置。

[实施方式a5]

在实施方式a4的优选例(实施方式a5)中，在所述观测似然度的分布的计算中，从所述音响信号计算第一似然度，该第一似然度是所述乐曲内的各时间点与演奏位置符合的准确度的指标，在没有检测出所述提示动作的状态下设定为第一值，在检测出所述提示动作的情况下，在所述基准点的前方的期间计算设定为低于所述第一值的第二值的第二似然度，通过所述第一似然度和所述第二似然度的乘法运算来计算所述观测似然度。在以上实施方式中，具有通过从音响信号计算出的第一似然度和与提示动作的检测结果相应的第二似然度的乘法运算能够简便地计算观测似然度的优点。

[实施方式a6]

在实施方式a4或实施方式a5的优选例(实施方式a6)中，使所述自动演奏装置根据表示所述乐曲的演奏内容的乐曲数据执行自动演奏，所述多个基准点由所述乐曲数据指定。在以上实施方式中，由于各基准点通过对自动演奏装置指示自动演奏的乐曲数据而被指定，因此和与乐曲数据分开地指定多个基准点的结构相比，具有简化结构及处理的优点。

[实施方式a7]

在从实施方式a4到实施方式a6的任一项的优选例(实施方式a7)中，使表示所述自动演奏行进的图像显示在显示装置上。根据以上实施方式，演奏者能够在视觉上确认由自动演奏装置进行的自动演奏的行进并反映在自身的演奏中。即，演奏者进行的演奏和自动演奏装置进行的自动演奏互相作用而实现协调自然的演奏。

[实施方式a8]

本发明的优选的实施方式(实施方式a8)的自动演奏系统具备：提示检测部，检测演奏乐曲的演奏者的提示动作；分析处理部，通过分析表示演奏所述乐曲的音的音响信号来估计所述乐曲内的演奏位置；以及演奏控制部，以与所述提示检测部检测的提示动作以及所述演奏分析部估计的演奏位置的行进同步的方式使自动演奏装置执行乐曲的自动演奏。所述分析处理部包括：似然度计算部，通过分析所述音响信号，计算所述乐曲内的各时间点与演奏位置符合的准确度的指标即观测似然度的分布；以及位置估计部，根据所述观测似然度的分布，估计所述演奏位置。在检测出所述提示动作的情况下，所述似然度计算部关于所述乐曲使在时间轴上被指定的基准点的前方的期间中的观测似然度降低。在以上实施方式中，由于在演奏位置的估计中除了考虑音响信号的分析结果以外，还考虑提示动作的检测结果，因此，与例如仅考虑音响信号的分析结果的结构相比，能够高精度地估计演奏位置。

(9)关于在以上实施方式中所例示的自动演奏系统，可掌握例如以下结构。

[实施方式b1]

本发明的优选的实施方式(实施方式b1)的自动演奏系统具备：提示检测部，检测演奏乐曲的演奏者的提示动作；演奏分析部，通过将表示演奏音的音响信号与该演奏并行地进行分析，依次估计乐曲内的演奏位置；演奏控制部，以与所述提示检测部检测的提示动作以及所述演奏分析部估计的演奏位置的行进同步的方式使自动演奏装置执行乐曲的自动演奏；以及显示控制部，使表示自动演奏行进的图像显示在显示装置上。在以上的结构中，以与演奏者进行的提示动作以及演奏位置的行进同步的方式执行自动演奏装置进行的自动演奏，另一方面，表示由自动演奏装置进行的自动演奏的行进的图像被显示在显示装置上。因此，演奏者能够在视觉上确认由自动演奏装置进行的自动演奏的行进并反映在自身的演奏中。即，演奏者进行的演奏和自动演奏装置进行的自动演奏互相作用而实现协调自然的演奏。

[实施方式b2]

在实施方式b1的优选例(实施方式b2)中，演奏控制部对自动演奏装置作出演奏乐曲中相对于演奏分析部估计出的演奏位置靠后方的时间点的乐曲的指示。在以上实施方式中，相对于演奏分析部估计的演奏位置在时间上靠后方的时间点的演奏内容被指示给自动演奏装置。因此，即使在自动演奏装置的实际发音相对于演奏控制部作出的演奏的指示延迟的情况下，也能够使演奏者进行的演奏与自动演奏高精度地同步。

[实施方式b3]

在实施方式b2的优选例(实施方式b3)中，演奏分析部通过分析音响信号来估计演奏速度，演奏控制部对自动演奏装置作出演奏乐曲中相对于演奏分析部估计出的演奏位置靠后方与演奏速度相应的调整量的时间点的乐曲的指示。在以上实施方式中，相对于演奏位置靠后方与演奏分析部估计的演奏速度相应的可变调整量的时间点的演奏被指示给自动演奏装置。因此，例如即使在改变演奏速度的情况下，也能够使演奏者进行的演奏与自动演奏高精度地同步。

[实施方式b4]

在从实施方式b1到实施方式b3任一项的优选例(实施方式b4)中，提示检测部通过分析摄像装置摄像演奏者得到的图像来检测提示动作。在以上实施方式中，由于通过分析摄像装置摄像得到的图像来检测演奏者的提示动作，所以例如与通过在演奏者的身体上安装的检测器来检测提示动作的情况相比，具有能够降低对演奏者进行的演奏的影响并且检测提示动作的优点。

[实施方式b5]

在从实施方式b1到实施方式b4任一项的优选例(实施方式b5)中，显示控制部根据自动演奏的演奏内容使动态变化的图像显示在图像显示装置上。在以上实施方式中，由于根据自动演奏的演奏内容使动态变化的图像显示在图像显示装置上，因此具有演奏者能够在视觉上直观地掌握自动演奏的行进的优点。

[实施方式b6]

本发明的优选的实施方式(实施方式b6)的自动演奏方法是，计算机系统检测演奏乐曲的演奏者的提示动作，通过将表示演奏音的音响信号与该演奏并行地进行分析，依次估计乐曲内的演奏位置，以与提示动作以及演奏位置的行进同步的方式使自动演奏装置执行乐曲的自动演奏，使表示自动演奏行进的图像显示在显示装置上。

＜详细的说明＞

本发明的优选的实施方式可表现如下。

1.前提

自动演奏系统是机械与人类的演奏相匹配地生成伴奏的系统。此处，讨论的是如古典音乐那样，给定自动演奏系统和人分别应该弹奏的乐谱表现的自动演奏系统。这样的自动演奏系统广泛应用于音乐演奏的辅助练习或与演奏者匹配地驱动电子乐器(electronics)这样的音乐扩展表现等。另外，以下，将合奏机演奏的部分称为“伴奏声部”。为了进行在音乐上匹配的合奏，有必要适当地控制伴奏声部的演奏定时。适当的定时控制有以下记载的四个要求。

[要求1]原则上，自动演奏系统需要在人演奏者弹奏的场所弹奏。因此，需要将自动演奏系统再生乐曲的位置与人演奏者匹配。特别是在古典音乐中，由于演奏速度(拍子)的抑扬在音乐表现上是重要的，因此需要追随演奏者的拍子变化。此外，为了进行更高精度的追随，优选通过分析演奏者的练习(彩排)来获得演奏者的偏好。

[要求2]自动演奏系统生成在音乐上匹配的演奏。也就是说，需要在保持伴奏声部的音乐性的范围内追随人的演奏。

[要求3]根据乐曲的上下文，能够改变伴奏声部与演奏者匹配的程度(主从关系)。在乐曲中，存在即使稍微损伤一些音乐性也应该与人匹配的地方或即使损伤追随性也应该保持伴奏声部的音乐性的地方。因此，在要件1和要件2中分别描述的“追随性”和“音乐性”的平衡根据乐曲的上下文改变。例如，节奏不清楚的声部倾向于追随清楚地记录节奏声部。

[要求4]能够根据演奏者的指示立即改变主从关系。追随性和自动演奏系统的音乐性的折衷多在彩排中通过人们之间交谈来调整。此外，在进行了这样的调整的情况下，通过重弹进行了调整的地方来确认调整结果。因此，需要在彩排中能够设定追随性的行动的自动演奏系统。

为了同时满足这些要求，需要在追随演奏者正在演奏的位置的基础上，以在音乐上无瑕疵的方式生成伴奏声部。为了实现这些，自动演奏系统需要以下三要素：(1)预测演奏者位置的模型；(2)用于生成音乐上的伴奏声部的定时生成模型；(3)依据主从关系校正演奏定时的模型。此外，这些要素需要能够独立操作或学习。但是，一直以来，独立地处理这些要素是困难的。因此，在以下的说明中，考虑独立地模型化且统一以下三要素：(1)演奏者的演奏定时生成过程；(2)自动演奏系统将在音乐上可演奏的范围进行表现的演奏定时生成过程；(3)为了自动演奏系统保持主从关系并与演奏者匹配地将自动演奏系统和演奏者的演奏定时进行结合的过程。通过独立地进行表现而能够独立地学习或操作每个要素。在使用系统时，一边推断演奏者的定时生成过程，一边推断自动演奏系统能够演奏的定时的范围，以协调合奏和演奏者的定时的方式再生伴奏声部。由此，自动演奏系统能够与人匹配地演奏在音乐上无瑕疵的合奏。

2.相关技术

在以往的自动演奏系统中，通过利用乐谱追随来估计演奏者的演奏定时。在此基础上，为使合奏机和人相协调，大体分为使用两种方法。第一，提案如下：通过利用多次彩排对演奏者和合奏机的演奏定时之间的关系进行回归，来获得乐曲中的平均性的行动或时刻变化的行动。在这样的方法中，由于对合奏结果本身进行回归，其结果，能够同时获得伴奏声部的音乐性和伴奏声部的追随性。另一方面，由于将演奏者的定时预测、合奏机的生成过程和匹配程度分开表现是比较困难的，因此认为在彩排中独立地操作追随性或音乐性是比较困难的。此外，由于为了获得音乐上的追随性，需要另行分析人们之间的合奏数据，因此在内容整合上花费成本。第二，通过使用以较少的参数记录的动态系统来对拍子轨迹设置约束的方法。在该方法中，在设置拍子连续性这样的事先信息的基础上，通过彩排学习演奏者的拍子轨迹等。此外，伴奏声部能够另行学习伴奏声部的发音定时。由于它们是用较少的参数记录拍子轨迹，因此能够容易地手动改写彩排中伴奏声部或人的“偏好”。但是，独立地操作追随性是比较困难的，追随性是从演奏者和合奏机分别独立地演奏时的发音定时的波动中间接得到的。为了提高彩排中的爆发力(instantaneousforce)，由自动演奏系统进行的学习以及交互地进行自动演奏系统与演奏者之间的对话是有效的。因此，为了独立地操作追随性，提案调整合奏再生逻辑本身的方法。在该方法中，考虑基于这样的想法能够独立地且以对话的方式控制“匹配方”、“伴奏声部的演奏定时”、“演奏者的演奏定时”这样的数学模型。

3.系统的概要

在图12中示出自动演奏系统的结构。在本方法中，为了追随演奏者的位置，基于音响信号和相机影像进行乐谱追随。此外，以从乐谱追随的后验分布中得到的统计信息为基础，基于演奏者正在演奏的位置的生成过程，预测演奏者的位置。为了确定伴奏声部的发音定时，通过将演奏者的定时与预测模型和可取得伴奏声部的定时的生成过程相结合，来生成伴奏声部的定时。

4.乐谱追随

为了估计演奏者当前弹奏的乐曲中的位置而使用乐谱追随。在本系统的乐谱追随方法中，考虑将乐谱的位置和演奏的拍子同时表现的离散性的状态空间模型。将观测音作为状态空间上的隐式马尔科夫模型过程(hiddenmarkovmodel；hmm)而进行模型化，用delayed-decision型的forward-backward算法来依次估计状态空间的后验分布。delayed-decision型的foward-backward算法是通过依次执行forward算法，运行将当前时刻看作数据末端的backward算法来计算相比于当前时刻在数帧之前的状态的后验分布。在后验分布的map值经过在乐谱上被看作音符起始点(onset)的位置的时间点，输出后验分布的拉普拉斯近似。

描述状态空间的结构。首先，将乐曲分成r个区间，每个区间作为一个状态。在第r个区间中，具有经过该区间所必需的帧数n和相对于每个n当前的经过帧0≦1＜n作为状态变量。也就是说，n相当于某一区间的拍子，r和l的组合相当于乐谱上的位置。将这样的状态空间上的转变表现为接下来的马尔科夫过程。

[数1]

(1)从(r,n,l)到自身：p

(2)从(r,n,l<n)到(r,n,l+1)：1-p

(3)从(r,n,n-1)到(r+1,n’,0)：

这样的模型兼具explicit-durationhmm和left-to-righthmm双方的优点。即，通过n的选择大概确定区间内的持续长度且能够用自身转变几率p吸收区间内的微小的拍子变化。分析乐曲数据求出区间的长度或自身转变几率。具体来说，有效利用拍子指令或者延长符(fermata)这样的注解(annotation)信息。

接着，定义这种模型的观测似然度。在各个状态(r，n，l)中对应有某个乐曲中的位置～s(r,n,l)。此外，相对于乐曲中的任意的位置s，加上所观测的恒q变换(cqt)和δcqt的平均值/～cs²和/δ～cs²，精度κs^(c)和κs^(δc)被分别分配(符号“/”表示向量，符号“～”表示数学式内的上划线)。基于这些，在时刻t，当观测到cqt、ct、δcqt、δct时，如以下那样定义与状态(rt,nt,lt)对应的观测似然度。

[数2]

此处，vmf(x|μ,κ)指vonmises-fisher分布，具体来说，标准化成x∈s^d(sd：d－一维单位球面)并用以下的数学式来表示。

[数3]

确定^～c或δ^～c之时，使用乐谱表现的钢琴键轴(pianoroll)以及从各音所设想的cqt模型。首先，相对于在乐谱上存在的音高和乐器名的配对分配固有的索引(index)i。此外，对第i个音分配平均的观测cqtωif。在乐谱上的位置s，设第i个音的强度为hsi，则^～cs,f如下所例示。δ^～c是通过对^～cs,f在s方向上取一次微分，且进行半波整流而得到的。

[数4]

在从无音的状态开始乐曲之时，视觉信息变得更加重要。因此，在本系统中，如前所述，有效利用从在演奏者的前面配置的相机中检测出的提示动作(cue，提示)。在本方法中，与从上至下(top-down)地控制自动演奏系统的方法不同，通过使有无提示动作直接反映在观测似然度上来统一处理音响信号和提示动作。因此，首先，在乐谱信息中提取需要提示动作的地方{^qi}。在^qi中包括乐曲的开始地点或延长符的位置。在执行乐谱追随的过程中检测出提示动作的情况下，通过将与乐谱上的位置u[^qi－τ，^qi]对应的状态的观测似然度设为0而在提示动作以后的位置引导后验分布。通过乐谱追随，合奏机从在乐谱上音被切换了的位置几帧以后，接收将当前估计的位置或拍子的分布作为标准分布进行近似得到的分布。即，乐谱追随机如果检测出在乐曲数据上存在的第n个音的切换(以下，称为“音符起始事件”)，则将检测出该音符起始事件的时刻的时间戳(timestamp)tn、估计出的乐谱上的平均位置μn及其方差σn²通知给合奏定时生成部。另外，由于进行delayed-decision型的估计，因此通知本身会产生100ms的延迟。

5.演奏定时结合模型

合奏机以从乐谱追随通知的信息(tn，μn，σn²)为基础，计算适当的合奏机的再生位置。合奏机为了与演奏者匹配，优选对以下三个过程独立地进行模型化的合奏机：(1)演奏者演奏的定时的生成过程；(2)伴奏声部演奏的定时的生成过程；(3)伴奏声部一边听演奏者一边演奏的过程。使用这样的模型，把伴奏声部想要生成的演奏定时和演奏者的预测位置也考虑进去而生成最终的伴奏声部的定时。

5.1演奏者的演奏定时生成过程

为了表现演奏者的演奏定时，将演奏者在tn与tn+1之间乐谱上的位置设想为以速度vn^(p)进行直线运动。即，把xn^(p)作为在tn演奏者正在弹奏的乐谱上的位置且把εn^(p)作为相对于速度或乐谱上的位置的噪声(noise)，而考虑下面的生成过程。其中，设δtm,n＝tm－tn。

[数5]

噪声εn^(p)除了包括拍子的变化之外还包括延音(agogic)或发音定时误差。为了表示前者，考虑基于发音定时随拍子变化而变化的情况，以从方差ψ²的正态分布中生成的加速度在tn和tn-1之间转变的模型。这样，εn^(p)的协方差矩阵是当h＝[δtn,n-1²/2，δtn,n-1]时，则σn^(p)＝ψ²h’h，且拍子变化和发音定时变化变得相关。此外，为了表示后者，考虑到标准偏差σn^(p)的白噪声而将σn^(p)与σn,0,0^(p)相加。因此，若将σn,0,0^(p)加上σn^(p)得到的矩阵设为σn^(p)，则εn^(p)～n(0,σn^(p))。n(a,b)是指均值为a及方差为b的正态分布。

接着，考虑将乐谱追随系统报告的、用户的演奏定时的历史/μn＝[μn,μn-1,…,μn-in]和/σn²＝[σn,σn-1,…,σn-in]与式(3)或式(4)联系在一起。在此，in是所考虑的历史的长度，设定成包括比tn还早一拍的事件。如以下那样确定这样的/μn或者/σn²的生成过程。

[数6]

在此，/wn是用于从xn^(p)和vn^(p)来预测观测/μn的回归系数。在此，如下定义/wn。

[数7]

如以往一样，并非使用新近的μn作为观测值，而是使用在此之前的历史作为观测值，这样，即使乐谱追随局部失败，其动作也不容易出瑕疵。此外，还能够通过彩排获得/wn，还能依赖于诸如拍子的增减的模式这样的长时间的趋势的演奏法。在意味着清楚地记载拍子和乐谱上的位置变化之间的关系性这一点上，这样的模型相当于将轨迹hmm的概念应用到连续状态空间的模型。

5.2伴奏声部的演奏定时生成过程

如前所述，通过使用演奏者的定时模型，能够从乐谱追随所报告的位置历史中推理演奏者的内部状态[xn^(p),vn^(p)]。自动演奏系统一边使这样的推理与伴奏声部的“想要怎样弹奏”的偏好协调，一边推理最终的发音定时。因此，这里考虑伴奏声部“想要怎样弹奏”的、伴奏声部的演奏定时的生成过程。

伴奏声部的演奏定时是从给定的拍子轨迹以一定范围内的拍子轨迹进行演奏的过程。给定的拍子轨迹是指考虑使用带有演奏表情的系统或人的演奏数据的情况。当自动演奏系统接收到第n个音符起始事件时，如以下那样表现正在弹奏乐曲上哪个位置的预测值^xn^(a)和其相对速度^vn^(a)。

[数8]

此处、～vn^(a)是指在时刻tn所报告的乐谱上的位置n处事先被给定的拍子，代入事先被给定的拍子轨迹。此外，ε^(a)确定相对于从事先给定的拍子轨迹生成的演奏定时而允许的偏离的范围。通过这样的参数，确定在音乐上自然的演奏范围作为伴奏声部。β∈[0,1]是表示有多么强烈想要拉回到事先给定的拍子的项，起到将拍子轨迹拉回到ˉvn^(a)的效果。由于这样的模型在音频校准(audioalignment)上具有一定的效果，因此，暗示着适合作为演奏同一乐曲的定时的生成过程。另外，由于当没有这样的限制时(β＝1)，^v服从维纳过程，因此，拍子会发散，且可能生成极快或极慢的演奏。

5.3演奏者和伴奏声部的演奏定时结合过程

到此为止，将演奏者的发音定时和伴奏声部的发音定时分别独立地进行模型化。在此，描述关于在遵照这些生成过程的基础上，伴奏声部一边听演奏者一边“匹配”的过程。因此，考虑在伴奏声部与人匹配之时，对逐渐校正伴奏声部当前要演奏的位置的预测值与演奏者的当前位置的预测值之间的误差的这样的行动进行记载。以下，将这样的对校正误差的程度进行记载的变量称为“结合系数”。结合系数被伴奏声部与演奏者之间的主从关系影响。例如，在记录演奏者比伴奏声部更清楚的节奏的情况下，伴奏声部强烈地与演奏者匹配的情况较多。此外，在彩排中从演奏者指示了主从关系的情况下，需要如所指示的那样改变匹配方式。即，结合系数根据乐曲的上下文或与演奏者之间的对话而改变。因此，当接收到tn之时的乐谱位置的结合系数γn∈[0,1]被给定时，伴奏声部与演奏者匹配的过程如下记载。

[数9]

在该模型中，追随度根据γn的大小而改变。例如，使γn＝0之时，伴奏声部与演奏者一点都不匹配，γn＝1之时，伴奏声部与演奏者完美地匹配。在这样的模型中，伴奏声部可演奏的演奏^xn^(a)的方差和演奏者的演奏定时xn^(p)的预测误差也根据结合系数而被加权。因此，x^(a)或v^(a)的方差成为与演奏者的演奏定时概率过程本身和伴奏声部的演奏定时概率过程本身协调的方差。因此可知，能够自然地统一演奏者和自动演奏系统这两者“想要生成”的拍子轨迹。

在图13中示出β＝0.9的本模型的模拟。通过这样改变γ，能够将伴奏声部的拍子轨迹(正弦波)与演奏者的拍子轨迹(步骤函数)之间补足。此外，可知，因β的影响，所生成的拍子轨迹成为与演奏者的拍子轨迹相比靠近设为伴奏声部的目标的拍子轨迹。即，认为具有如下效果：在演奏者比～v^(a)快的情况下“扯拉”演奏者；在演奏者比～v^(a)慢的情况下“催促”演奏者。

5.4结合系数γ的计算方法

根据一些要素来设定如结合系数γn所表示的演奏者之间的同步程度。首先，主从关系受乐曲中的上下文影响。例如，引导合奏的多是记录容易理解的节奏的声部。此外，也有通过对话来改变主从关系的情况。为了从乐曲中的上下文设定主从关系，从乐谱信息计算音密度由于音数多的声部容易确定拍子轨迹，因此考虑通过使用这样的特征量而能够近似地提取结合系数。此时，在伴奏声部不进行演奏的情况下合奏的位置预测完全被演奏者支配，此外，在演奏者不进行演奏的地方期望合奏的位置预测完全无视演奏者那样的行动。在此，如以下那样确定γn。

[数10]

其中，设ε＞0是充分小的值。在人们之间的合奏中，与难以产生完全单方面的主从关系(γn＝0或γn＝1)一样，如上式那样的试探法(heuristic)，在演奏者和伴奏声部都在演奏的情况下不会成为完全单方面的主从关系。完全单方面的主从关系只在演奏者/合奏机中哪一个暂时无音的情况下才会发生，但倒不如说并不期望这样的行动。

此外，γn是彩排中等根据需要，可由演奏者或操作员改写的。γn的定义域有限，且在其边界条件下的行动是不言而喻的或行动相对于γn的改变而连续变化，而认为在彩排中由人改写为适当的值方面是期望的特性。

5.5在线推理

在运用自动演奏系统时，在接收到(tn,μn,σn²)的定时，更新前述的演奏定时模型的后验分布。提案方法能够使用卡尔门滤波(kalmanfilter)来高效地进行推理。在(tn,μn,σn²)被通知的时间点，执行卡尔门滤波的predict和update步骤，在时刻t如以下那样预测伴奏声部应该演奏的位置。

[数11]

在此，τ^(s)是自动演奏系统中的输入输出延迟。另外，在本系统中，在伴奏声部发音时也更新状态变量。也就是说，如前述所述，除根据乐谱追随结果执行predict/update步骤之外，在伴奏声部发音的时间点仅进行predict步骤，且将得到的预测值代入状态变量。

6.评价实验

为了评价本系统，首先评价演奏者的位置估计精度。关于合奏的定时生成，通过对演奏者进行聆听来评价将合奏的拍子拉回到规定值的项即β、或者将伴奏声部与演奏者以何程度进行匹配的指标即γ的有用性。

6.1乐谱追随的评价

为了评价乐谱追随精度，评价对于bergmuller练习曲的追随精度。使用收录了钢琴家演奏的bergmuller练习曲(op.100)中十四首曲子(第一曲、第四曲-第十曲、第十四曲、第十五曲、第十九曲、第二十曲、第二十二曲、第二十三曲)的数据作为评价数据，来评价乐谱追随精度。另外，在该实验中，没有使用相机的输入。评价标准效仿mirex，评价了totalprecision。totalprecision是指，将包含于存在校准误差落在阈值τ内的情况作为正解情况下的、对于汇编(corpus)整体的精度。

首先，为了验证与delayed-decision型的推理有关的有效性，评价相对于delayed-decisionforwardbackward算法的延迟帧量的totalprecision(τ＝300ms)。在图14中示出结果。通过有效利用几帧前的结果的后验分布，能够提高精度。此外，如果延迟量超过两帧，则可知精度逐渐下降。此外，在延迟量为两帧的情况下，τ＝100ms时totalprecision＝82％、τ＝50ms时totalprecision＝64％。6.2演奏定时结合模型的验证

通过聆听演奏者来进行演奏定时结合模型的验证。作为本模型的特征，存在将合奏机拉回到设想拍子的β和结合系数γ，故验证关于这两者的有效性。

首先，为了排除结合系数的影响，准备了将式(4)设为vn^(p)＝βvn-1^(p)+(1-β)～vn^(a)且设为xn^(a)＝xn^(p)、vn^(a)＝vn^(p)的系统。也就是说，考虑如下的合奏机：假定被控制为拍子的期望值为^v、其方差为β这样的动力学，同时将乐谱追随的结果进行过滤得到的结果用于直接伴奏的演奏定时生成。首先，在设定为β＝0的情况下的自动演奏系统被六名钢琴家在一天内使用，之后关于使用感进行听取意见。对象曲从古典派/浪漫派/流行派等范围较广的种类的曲子中选取。在听取意见时，大多不满如下情况：当人想要与合奏匹配时，伴奏声部也想要与人匹配，故拍子变得极慢或极快。这样的现象在因不恰当地设定式(12)中的τ^(s)而系统的响应与演奏者微妙地不匹配的情况下发生。例如，在系统的响应比预想略微早的情况下，用户为了想要与略微提前返回的系统匹配，而加快拍子。其结果，由于追随其拍子的系统更加提前地返回响应，因此拍子持续地加速。

接着，当β＝0.1时对使用相同曲目的其他五名钢琴家和也参加了β＝0的实验的一名钢琴家进行实验。虽然以与β＝0时一样的提问内容进行了意见听取，但没有听到有拍子发散的问题。此外，从也协助了β＝0的实验的钢琴家收到追随性改进的评价。只是，听到如下这样的评价：在演奏者对某个曲子设想的拍子与系统想要拉回的拍子之间产生较大分歧的情况下，系统磨磨蹭蹭/急急忙忙。这样的趋势出现在特别是弹奏未知的曲子的情况下，即演奏者不知道“常识性的”拍子的情况下。因此，通过把系统引入一定的拍子的效果来预先防止拍子的发散，另一方面，在伴奏声部和与拍子有关的解释极其不同的情况下，暗示着有被伴奏声部煽动的印象。此外，关于追随性，还暗示着根据乐曲的上下文来改变比较好。这是因为，根据乐曲的特性“往回拉比较好”、“想要更加匹配”这样的与匹配程度有关的意见是大致一致的。

最后，在专业人士的弦乐四重奏中使用固定为γ＝0的系统和根据演奏的上下文调整γ的系统时，有后者行动更好的评价，暗示着其有效性。但是，在该验证中被实验者已经知道后者的系统是改进后的系统，因此优选需要使用ab法进行附加验证。此外，由于存在一些根据彩排中的对话改变γ的情况，所以暗示着在彩排中改变结合系数是有效的。

7.事先的学习处理

为了获得演奏者的“偏好”，在从乐谱追随计算出的时刻t的map状态^st和其输入特征序列{ct}^tt＝1的基础上估计his和ωif以及拍子轨迹。在这里，简单描述这些估计方法。在his和ωif的估计中，考虑下面的poisson-gamma类的informednmf模型来估计后验分布。

[数12]

从乐器音数据库或乐谱表现的钢琴键轴适当地计算在此出现的超参数。通过变分贝叶斯法近似地估计后验分布。具体来说，将后验分布p(h，ω|c)以q(h)q(w)的形式进行近似，导入辅助变量且将后验分布与q(h)q(w)之间的kl距离最小化。从这样估计出的后验分布中，保存与乐器音的音色相当的参数ω的map估计，并使用在之后的系统运用中。另外，还能够使用与钢琴键轴的强度相当的h。

接着，估计演奏者演奏各个乐曲上的区间的长度(即，拍子轨迹)。由于若估计出拍子轨迹则能够复原演奏者特有的拍子表现，因此，演奏者的位置预测被改进。另一方面，在彩排次数少的情况下，因估计误差等导致拍子轨迹的估计发生错误，且有位置预测的精度倒不如说变差的可能性。因此，在变更拍子轨迹之时，首先持有与拍子轨迹相关的事先信息，仅改变演奏者的拍子轨迹与事先信息一致地脱离的地方的拍子。首先，计算演奏者的拍子有多大的波动。由于波动程度的估计值本身也因为彩排次数少而变得不稳定，因此使演奏者的拍子轨迹的分布本身也具有先验分布。设演奏者在乐曲中的位置s的拍子均值μs^(p)和方差λs^(p)服从n(μx^(p)|m0，b0λs^(p)-1)gamma(λs^(p)-1|a0^λ，b0^λ)。这样，若从k次演奏中得到的拍子均值为μs^(r)、精度(方差)为λs^(r)-1，则如以下那样给出拍子的后验分布。

[数13]

将这样得到的后验分布看作由在乐曲中的位置s可取得的拍子分布n(μs^s，λs^s-1)生成的分布，如果求出在此情况下的后验分布，则如以下那样给出该后验分布的平均值。

[数14]

基于这样计算出的拍子，更新用于式(3)或式(4)的ε的平均值。

标号说明

100…自动演奏系统、12…控制装置、14…存储装置、22…收录装置、222…摄像装置、224…收音装置、24…自动演奏装置、242…驱动机构、244…发音机构、26…显示装置、52…提示检测部、522…图像合成部、524…检测处理部、54…演奏分析部、542…音响混合部、544…分析处理部、56…演奏控制部、58…显示控制部、g…演奏图像、70…虚拟空间、74…显示体、82…似然度计算部、821…第一运算部、822…第二运算部、823…第三运算部、84…位置估计部。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：前泽阳
技术所有人：雅马哈株式会社
我是此专利的发明人

上一篇：用于油井固井添加剂的材料和方法与流程
上一篇：一种鸡蛋孵化室的制作方法