唱歌评测方法及系统的制作方法

文档序号：2833086阅读：220来源：国知局

专利名称：唱歌评测方法及系统的制作方法
技术领域：
本发明涉及语音信号处理技术领域，特别涉及ー种唱歌评测方法及系统。
背景技术：
近年来，一些卡拉OK产品在用户演唱结束后给出计分，提高了娱乐互动性。传统唱歌评分系统通常采用比较用户唱歌语音数据的音高曲线及预设标准音高曲线差异的方法，通过直接计算它们基频曲线之间的误差面积大小或在利用动态时间规整(DynamicTime Warping，简称DTW)等技术对基频曲线对齐规整后计算基频曲线之间的差异来评价唱歌水平的高低。曲线差异值越大则用户唱歌数据得分越低；反之则用户唱歌数据得分越高。该方法在用户数据与标准音高曲线节奏不一致时容易导致评分过低的问题。为此，业界提出了一种基于连续语音信号切分的单独唱词片断基频标准度评估的方法。该方法首先将连续语音信号相对于各唱词单元进行对齐，随后对切分的音符语音片断的标准度进行评估，进而获知连续语音信号的标准度。通过唱词对齐实现了用户语音信号和标准參考信号的有效对应，可以使评判评分更加准确合理。显然，基于唱词对齐的音符评分系统性能的好坏主要依赖于音符对齐效果以及单独唱词片段的评分結果。音符对齐越准确以及单个唱词片段评分越客观，则整体评分结果越合理。现有技术中通常采用距离度量的方法计算单个唱词片断的标准度，即将提取的唱词片段的声学特征，如音高特征和系统预存的基于乐谱构建的音符标准音高匹配并计算差异。然而在实际应用中，用户音高往往存在波动，如通常所说的Vibration(颤音)现象；另外音高也容易受到上下文影响，在不同音符转换时存在如通常所说的Preparation(预准备)、OverShort的现象，在实际音高曲线上不是表现为自然的连接曲线，而是需要经历ー个准备过程和后续过程。在不同音符切换时，用户无法实现高低音的跳跃，而是需要经历ー个连续过程；另外相同音符在不同上下文环境中会表现出一定的差异性。可见，即使用户的音高曲线与乐谱设定的标准音高走势完全一致，但由于根据乐谱标准值设定的标准音高曲线，由于无法体现音符的上下文相关变化，无法准确细致地模拟用户音高变化曲线，用户音高变化曲线中的各种噪音干扰使得用户最终评分较低，影响到对唱歌评测的合理性。为了更好地模拟音符在不同上下文中的变化，研究人员提出了基于音高曲线拟和的方法，设定音高曲线y(t)为标准音符值h(t)和ニ阶阻尼函数f(t)的卷积加上一个误差函数e(t)，即y (t) = f (t) *h (t) +e (t)。对给定待测唱词片段，系统针对唱歌时的Preparation、OverShort> Vibration等现象采用不同的样条曲线加权拟和用户的音高曲线，并通过參数估计实现用户音高曲线的分解，得到用户真实的音高值，随后据此和预设标准值比较计算差异。这种基于音高曲线拟和的方法在计算每个音符真实音高时需要估计较多的參数值，而在音符时长有限(短的只有O. I秒)的情况下，训练数据量相对较少，因而容易过拟合导致參数估计不够鲁棒，影响系统的评测性能。

发明内容
本发明实施例提供ー种唱歌评测系统及方法，提高音符匹配的客观性和准确性，提升唱歌评测系统的评测性能。ー种唱歌评测方法，包括

接收用户唱歌的连续语音信号；确定所述连续语音信号中每个音符的边界位置，以切分出每个音符；选择切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的；提取所述音符的音调特征；根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度；根据所述音符的标准度确定唱歌评测得分。优选地，所述方法还包括将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；按照所述语音片段对应的音符对所述语音片段归类；对每ー类语音片断，分别按时间顺序提取其中每ー个语音片断的音调特征，生成对应所述音符的特征序列；构建音调模型拓扑；对每个音符，利用该音符对应的所有训练数据的特征序列训练对应所述音调模型拓扑的參数；所述选择切分出的每个音符对应的音调模型包括选择切分出的每个音符对应的用于模拟音符的音高特征的音调模型；所述提取所述音符的音调特征包括提取每个音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征。优选地，所述方法还包括将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；按照所述语音片段对应的音符具有相同前后高低音转换的标准对所述语音片段归类；对每ー类语音片断，分别按时间顺序提取其中每ー语音片断的音调特征，生成对应所述音符的特征序列；构建音调模型拓扑；对每ー类具有相同前后高低音转换的音调模型，利用该音调模型对应的所有训练数据的特征序列训练对应所述音调模型拓扑的參数；所述选择切分出的每个音符对应的音调模型包括选择切分出的每个音符对应的用于模拟具有相同前后高低音转换的音高特征的音调模型；所述提取所述音符的音调特征包括
提取每个音符的音高特征；计算每个音符的音高特征与其前ー个音符的标准音高的差异，并将所述差异作为所述音符的音调特征。优选地，所述确定所述连续语音信号中每个音符的边界位置包括将所述连续语音信号及其对应的歌词进行字音对齐，得到所述歌词中每个唱词对应的语音信号片断；根据所述唱词对应的乐谱确定所述语音信号片段中每个音符的边界位置。优选地，所述根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度包括计算所述音调特征与所述音符相对应的音调模型的相似度，并将所述相似度作为所述音符的标准度。优选地，所述根据所述音符的标准度确定唱歌评测得分包括对计算得到的所述音符的标准度进行加权平均，得到唱歌音准评分；根据所述唱词对应的连续语音信号的时间长度与所述唱词对应的标准时间长度的差异，计算唱歌节奏评分；将所述唱歌音准评分和所述唱歌节奏评分通过以下函数映射为唱歌评测得分Score = a · ToneScore+b · RhythmScore+c ；其中，Score为唱歌评测得分,ToneScore为唱歌音准评分,RhythmScore为唱歌节奏评分，a, b分别表示唱歌音准评分及唱歌节奏评分的权重，c为调整常数项。ー种唱歌评测系统，包括信号接收单元，用于接收用户唱歌的连续语音信号；音符切分単元，用于确定所述连续语音信号中每个音符的边界位置，以切分出每个音符；模型选择单元，用于选择所述音符切分単元切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的；特征提取単元，用于提取所述音符的音调特征；标准度计算单元，用于根据所述特征提取单元提取的音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度；得分计算单元，用于根据所述音符的标准度确定唱歌评测得分。优选地，所述系统还包括第一模型训练单元，所述第一模型训练单元包括切分子単元，用于将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；第一分类子单元，用于按照所述语音片段对应的音符对所述语音片段归类；特征提取子単元，用于对每ー类语音片断，分别按时间顺序提取其中每ー语音片断的音高特征，生成对应所述音符的特征序列；模型拓扑构建子単元，用于构建音调模型拓扑；參数训练子单元，用于对每个音符，利用该音符对应的所有训练数据的特征序列训练对应所述音调模型拓扑的參数；所述模型选择单元，具体用于选择切分出的每个音符对应的用于模拟音符的音高特征的音调模型；所述特征提取单元，具体用于提取所述音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征。优选地，所述系统还包括第二模型训练单元，所述第二模型训练单元包括切分子単元，用于将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；第二分类子单元，用于按照所述语音片段对应的音符具有相同前后高低音转换的标准对所述语音片段归类；特征提取子単元，用于对每ー类语音片断，分别按时间顺序提取其中每ー语音片断的音高特征，生成对应所述音符的特征序列；模型拓扑构建子単元，用于构建音调模型拓扑；參数训练子单元，用于对每ー类具有相同前后高低音转换的音调模型，利用该音调模型对应的所有训练数据的特征序列训练对应所述音调模型拓扑的參数；所述模型选择单元，具体用于选择切分出的每个音符对应的用于模拟具有相同前后闻低首转换的首闻特征的首调キ旲型；所述特征提取单元包括提取子单元，用于提取每个音符的音高特征；计算子単元，用于计算每个音符的音高特征与其前ー个音符的标准音高的差异，并将所述差异作为所述音符的音调特征。优选地，所述音符切分単元包括字音对齐子単元，用于将所述连续语音信号及其对应的歌词进行字音对齐，得到所述歌词中每个唱词对应的语音信号片断；边界定位子単元，用于根据所述唱词对应的乐谱确定所述语音信号片段中每个音符的边界位置。优选地,所述标准度计算单元包括相似度计算子単元，用于计算所述音调特征与所述音符相对应的音调模型的相似度，并将所述相似度作为所述音符的标准度。优选地，所述得分计算单元包括音准评分子単元，用于对计算得到的所述音符的标准度进行加权平均，得到唱歌音准评分；节奏评分子単元，用于根据所述唱词对应的连续语音信号的时间长度与所述唱词对应的标准时间长度的差异，计算唱歌节奏评分；得分映射子単元，用于将所述唱歌音准评分和所述唱歌节奏评分通过以下函数映射为唱歌评测得分Score = a · ToneScore+b · RhythmScore+c ；其中，Score为唱歌评测得分,ToneScore为唱歌音准评分,RhythmScore为唱歌节奏评分，a, b分别表示唱歌音准评分及唱歌节奏评分的权重，c为调整常数项。本发明实施例唱歌评测方法及系统，预先以离线方式从真实唱歌数据中学习各音符发音特点，训练得到各种不同音符对应的音调模型。这样，在对用户唱歌的连续语音信号进行评测时，就可以根据所述连续语音信号中各音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度，根据所述音符的标准度确定唱歌评测得分。由于离线方式训练得到的音调模型从真实数据中尽可能模拟了各种不同音调的变化特点及分布规律，因而可以准确拟合各音符在不同上下文环境下的发音特点，提高了单个音符水平测试的准确度，进而可以更加准确客观地评价用户唱歌水平的高低，提升唱歌评测系统的评测性能。同时还可以提高系统运行效率，更好地满足实用要求。

为了更清楚地说明本发明实施的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图I是本发明实施例唱歌评测方法的流程图；图2是本发明实施例中音调模型训练过程的ー种流程图；图3是本发明实施例中音调模型训练过程的另ー种流程图；图4是本发明实施例中计算单个音符的标准度的一种流程图；图5是本发明实施例唱歌评测系统的结构示意图；图6是本发明实施例唱歌评测系统中第一模型训练单元的结构示意图；图7是本发明实施例唱歌评测系统中第二模型训练单元的结构示意图；图8是本发明实施列唱歌评测系统中得分计算单元的一种结构示意图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本发明实施例唱歌评测方法及系统，针对现有技术中基于音高曲线拟和的方法在音符时长有限的情况下，训练数据量相对较少，因而容易过拟或导致參数估计不够鲁棒，影响系统的评测性能的问题，预先以离线方式从真实唱歌数据中学习各音符发音特点，训练得到各种不同音符对应的音调模型，使所述音调模型可以尽可能模拟各种不同音调的变化特点及分布规律。这样，在对用户唱歌的连续语音信号进行评测时，就可以根据所述连续语音信号中各音符的音调特征、以及与所述音符相对应的音调模型确定唱歌评测得分，提高了单个音符水平测试的准确度，进而可以更加准确客观地评价用户唱歌水平的高低，提升唱歌评测系统的评测性能。同时还可以提高系统运行效率，更好地满足实用要求。如图I所示，是本发明实施例唱歌评测方法的流程图，包括以下步骤步骤101，接收用户唱歌的连续语音信号。步骤102，确定所述连续语音信号中每个音符的边界位置，以切分出每个音符。具体地，可以采用基于语谱切分的方法来确定所述连续语音信号中的每个音符。首先，将所述连续语音信号及其对应的歌词进行字音对齐，得到所述歌词中每个唱词对应的语音信号片断。所述唱词是指基本的识别单元，通常为音节或者说单字符单元。然后，根据所述唱词对应的乐谱(即标准音高特性)确定所述语音信号片段中每个音符的边界位
置。在进行唱词对应的语音信号片段切分时，可以利用预先训练得到的语谱模型采用Viterbi算法，确定出每个唱词的边界。所述语谱模型可以通过录制清唱数据训练得到。这些过程可參照相关文献，在此不再详细描述。在根据唱词确定音符位置时，可以采用DTW(Dynamic Time Warping,动态时间规整)算法将所述唱词对应的标准音高特性曲线与所述语音信号片段对应的音高曲线进行对齐，实现音符的切分。所述DTW算法的基本思想是将时间的规整和距离测度规整结合在一起的ー种非线性规整技术，通过在允许的时间规整范围内寻找距离测度最小的时间上的规整方式，进而确定输入信号和模板在时间上的对应关系。步骤103，选择切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的。在本发明实施例中，所述音调模型是预先以离线方式训练得到的。而且，所述音调模型可以是用于模拟音符的音高特征的模型，或者是用于模拟具有相同前后高低音转换的音高特征的模型。步骤104，提取所述音符的音调特征。在本发明实施例中，所述音调特征可以是音符的基频特征或音高特征，也可以是音符的音高特征与该音符前ー个音符的标准音高的差异特征，具体采用哪种音调特征与实际采用的音调模型相关，对此将在后面详细说明。步骤105，根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度。由于不同人在唱同一首歌时表现往往不同，其音高曲线差异较大，很难找到标准音高曲线。为此，在本发明实施例中，采用统计模型模拟的方法，通过在海量数据上训练模型參数实现对音高曲线变化规律的学习。在实际应用中，所述音调模型可以有多种不同的方式来生成，具体将在后面详细说明。步骤106，根据所述音符的标准度确定唱歌评测得分。需要说明的是，为了进一步提高系统的鲁棒性，在上述步骤102之前，可以先对接收到的连续语音信号进行降噪处理。首先通过VAD (语音活动性检测)，从所述语音信号中确定出语音的起点以及终点，以将连续的语音信号分割成独立的语音片断和非语音片断，然后对分割得到的语音片断进行语音增强处理，在进行语音增强处理时，可以通过维纳滤波等方法，将语音信号中的环境噪声进ー步消除，以提高后续系统对该信号的处理能力。本发明实施例唱歌评测方法，预先以离线方式从真实唱歌数据中学习各音符发音特点，训练得到各种不同音符对应的音调模型。由于离线方式训练得到的音调模型尽可能模拟了各种不同音调的变化特点及分布规律，因而可以准确拟合各音符在不同上下文环境下的发音特点，提高了单个音符水平测试的准确度，进而可以更加准确客观地评价用户唱歌水平的高低，提升唱歌评测系统的评测性能。同吋，由于音调模型通过离线方式训练得至IJ，因此还提高了系统运行效率，更好地满足实用要求。
在本发明实施例中，所述音调模型是预先以离线方式训练得到的。而且，所述音调模型可以是用于模拟音符的音高特征的模型，或者是用于模拟具有相同前后高低音转换的音高特征的模型。下面对不同音调模型的训练过程做进ー步详细说明。如图2所示，是本发明实施例中音调模型训练过程的ー种流程图。在该实施例中，所述音调模型是ー种用于模拟音符的音高特征的模型，其训练过程包括以下步骤步骤201，将预先采集的歌曲训练数据切分为与不同音符对应的语音片段。具体地，可以采集具有代表性的歌曲原唱来获得训练数据。步骤202，按照所述语音片段对应的音符对所述语音片段归类。步骤203，对每ー类语音片断，分别按时间顺序提取其中每ー语音片断的音高特征，生成对应所述音符的特征序列。对某个音符对应的语音片断集合中的第i个时长为T帧的语音片段，按照时间顺序提取每帧语音信号的基频特征，形成T个ー维的特征序列。也可以将所述基频特征序列转换成音乐中12平均律的音高值特征。这样，所述音符对应的单个语音片断量化为ー个T时长的单维特征序列Y = (Υι y2, ... , Ji, ... yT)，其中Yi, y2, ... , yi； ... yT表示音高特征值。步骤204，构建音调模型拓扑。该音调模型用于模拟每个不同音符的音高特点，因此相应于每个音符，都可以单独设置ー个音调模型。具体地，对每个音调模型，可以选择基于HMM (隐马尔可夫模型)的统计模型，定义音调模型拓扑结构为自左向右的N状态模型，复杂度为K高斯。其中，參数N和K可以预先设定，如在考虑数据复杂度和识别精确度条件下可以设置N = 3，K = 8等。步骤205，对每个音符，利用该音符对应的一维特征序列训练对应所述音调模型拓扑的參数。对每个単独的音符，可以利用提取的该音符对应的训练数据的特征训练对应的模型參数。具体地，可以米用EM(Expectation-Maximization)算法基于MLE(MaximumLikelihood Estimation)准则训练得到各參数。相应地，基于这种用于模拟音符的音高特征的音调模型，在上述步骤104中，需要提取每个音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征。如图3所示，是本发明实施例中音调模型训练过程的ー种流程图。在该实施例中，所述音调模型是ー种用于模拟具有相同前后高低音转换的音高特征的模型，其训练过程包括以下步骤步骤301，将预先采集的歌曲训练数据切分为与不同音符对应的语音片段。步骤302，按照所述语音片段对应的音符具有相同前后高低音转换的标准对所述语音片段归类。比如，对训练数据中的从“I”到“2”音符转变的数据，将音符“2”对应的语音片段归入“当前音符比前一音符高ー阶”的模型训练数据中。相应地，对从“2”到“3”音符转变的数据，同样将“3”对应的语音片段归入“当前音符比前一音符高一阶”的模型训练数据中。可见，步骤302不同于前面的步骤202，即不再根据音符对语音片段进行归类，而是根据相邻音符前后高低音变化的差异值将语音片段归类，并作为该具有相同前后高低音转换的音高特点的训练数据，同时还要记录该语音片段的前一音符的标准音高值。步骤303，对每ー类语音片断，分别按时间顺序提取其中每ー语音片断的音高特征，生成对应所述音符的特征序列。具体地，对某个音符对应的T帧语音片段，按照时间顺序提取每帧语音信号的基频特征，形成T个ー维的特征序列。也可以将所述基频特征序列转换成音乐中12平均律的音高值特征，这样，单个音符量化为一个T时长的单维特征序列Y = (yi，y2，...，yi，... yT)，、其中 Υι Υ2 ··· Υ ···Υτ 表^]^ 曰冋值。步骤304，构建音调模型拓扑。针对唱歌标准度评测主要由用户的音高曲线走势和标准音高走势一致性确定的特点，本发明实施例通过设定具有相同上下文高低音变化的音符模型，以减少模型參数。对应于实际存在的不同高低音转换，可以设计相应的音调模型，包括“当前音符比前一音符高i阶”，其中i =-Μ，-Μ+1，. . .，_1，0，1，. . .M-l，M。M是系统预设的阈值。当然，也可以选择设置较小的M值，并将所有音差大于M阶或小于-M阶的音符对统ー为“当前音符比前一音符高M阶”或“当前音符比前一音符高-M阶”模型，以进ー步减少模型数量，提高处理效率。具体地，对每个音调模型，可以选择基于HMM(隐马尔可夫模型)的统计模型，定义音调模型拓扑结构为自左向右的N状态模型，复杂度为K高斯。其中，參数N和K可以预先设定，如在考虑数据复杂度和识别精确度条件下可以设置N = 3，K = 8等。步骤305，对每ー类具有相同前后高低音转换的音调模型，利用该音调模型对应的所有训练数据的特征序列训练对应所述音调模型拓扑的參数。具体的训练过程与前面步骤205相同，在此不再赘述。相应地，基于这种用于模拟具有相同前后高低音转换的音高特征的音调模型，在上述步骤103中，不仅需要提取每个音符的音高特征，而且还要计算每个音符的音高特征与其前ー个音符的标准音高的差异，并将所述差异作为所述音符的音调特征。在前面所述的步骤104中，需要对切分出的每个音符，根据上述离线生成的与所述音符相对应的音调模型计算所述音符的标准度。具体地，可以计算步骤104中提取出的对应某个音符的音调特征与所述音符相对应的音调模型的相似度，并将该相似度作为所述音符的标准度。另外，还可以先对所述音调特征进行优化，然后再计算相似度。下面对本发明实施例中单个音符的标准度的计算过程进行详细说明。如图4所示，是本发明实施例中计算单个音符的标准度的ー种流程图，包括以下步骤步骤401，获取音符的音调特征。步骤402，根据所述音符的变化趋势对所述音调特征进行优化，得到规整特征。前面提到，所述音调特征可以是音符的基频特征或音高特征，也可以是音符的音高特征与该音符前ー个音符的标准音高的差异特征。而无论是哪种音调特征，都可以先对其进行优化，比如进行起调和半倍频规整等，得到规整特征。为了进ー步提高特征区分性，、还可以计算该规整音高值的差分特征，如ー阶差分，ニ阶差分等作为辅助特征。步骤403，计算所述音调特征与所述音符相对应的音调模型的相似度，并将所述相似度作为所述音符的标准度。具体地，可以按以下公式计算所述声学特征序列与所述音符相对应的音调模型的相似度
权利要求
1.ー种唱歌评测方法，其特征在于，包括接收用户唱歌的连续语音信号；确定所述连续语音信号中每个音符的边界位置，以切分出每个音符；选择切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的；提取所述音符的音调特征；根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度；根据所述音符的标准度确定唱歌评测得分。
2.如权利要求I所述的方法，其特征在干，所述方法还包括将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；按照所述语音片段对应的音符对所述语音片段归类；对每ー类语音片断，分别按时间顺序提取其中每ー个语音片断的音调特征，生成对应所述音符的特征序列；构建音调模型拓扑；对每个音符，利用该音符对应的所有训练数据的特征序列训练对应所述音调模型拓扑的參数；所述选择切分出的每个音符对应的音调模型包括选择切分出的每个音符对应的用于模拟音符的音高特征的音调模型；所述提取所述音符的音调特征包括提取每个音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征。
3.如权利要求I所述的方法，其特征在于，所述方法还包括将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；按照所述语音片段对应的音符具有相同前后高低音转换的标准对所述语音片段归类；对每ー类语音片断，分别按时间顺序提取其中每ー语音片断的音调特征，生成对应所述音符的特征序列；构建音调模型拓扑；对每ー类具有相同前后高低音转换的音调模型，利用该音调模型对应的所有训练数据的特征序列训练对应所述音调模型拓扑的參数；所述选择切分出的每个音符对应的音调模型包括选择切分出的每个音符对应的用于模拟具有相同前后高低音转换的音高特征的音调模型；所述提取所述音符的音调特征包括提取姆个首符的首闻特征；计算每个音符的音高特征与其前ー个音符的标准音高的差异，并将所述差异作为所述音符的音调特征。
4.如权利要求I至3任一项所述的方法，其特征在于，所述确定所述连续语音信号中每个音符的边界位置包括将所述连续语音信号及其对应的歌词进行字音对齐，得到所述歌词中每个唱词对应的语音信号片断；根据所述唱词对应的乐谱确定所述语音信号片段中每个音符的边界位置。
5.如权利要求I至3任一项所述的方法，其特征在于，所述根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度包括计算所述音调特征与所述音符相对应的音调模型的相似度，并将所述相似度作为所述音符的标准度。
6.如权利要求I至3任一项所述的方法，其特征在于，所述根据所述音符的标准度确定唱歌评测得分包括对计算得到的所述音符的标准度进行加权平均，得到唱歌音准评分；根据所述唱词对应的连续语音信号的时间长度与所述唱词对应的标准时间长度的差异，计算唱歌节奏评分；将所述唱歌音准评分和所述唱歌节奏评分通过以下函数映射为唱歌评测得分Score = a i'oneScore+b RhythmScore+c ；其中，Score为唱歌评测得分,ToneScore为唱歌音准评分,RhythmScore为唱歌节奏评分，a, b分别表示唱歌音准评分及唱歌节奏评分的权重，c为调整常数项。
7.ー种唱歌评测系统，其特征在于，包括信号接收单元，用于接收用户唱歌的连续语音信号；音符切分単元，用于确定所述连续语音信号中每个音符的边界位置，以切分出每个音符; 模型选择单元，用于选择所述音符切分単元切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的；特征提取単元，用于提取所述音符的音调特征；标准度计算单元，用于根据所述特征提取单元提取的音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度；得分计算单元，用于根据所述音符的标准度确定唱歌评测得分。
8.如权利要求7所述的系统，其特征在于，所述系统还包括第一模型训练单元，所述第一模型训练单元包括切分子単元，用于将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；第一分类子单元，用于按照所述语音片段对应的音符对所述语音片段归类；特征提取子単元，用于对每ー类语音片断，分别按时间顺序提取其中每ー语音片断的音高特征，生成对应所述音符的特征序列；模型拓扑构建子単元，用于构建音调模型拓扑；參数训练子单元，用于对每个音符，利用该音符对应的所有训练数据的特征序列训练对应所述音调模型拓扑的參数；所述模型选择单元，具体用于选择切分出的每个音符对应的用于模拟音符的音高特征的首调ホ旲型；所述特征提取单元，具体用于提取所述音符的基频特征或音高特征，并将所述基频特征或音高特征作为所述音调特征。
9.如权利要求7所述的系统，其特征在于，所述系统还包括第二模型训练单元，所述第二模型训练单元包括切分子単元，用于将预先采集的歌曲训练数据切分为与不同音符对应的语音片段；第二分类子单元，用于按照所述语音片段对应的音符具有相同前后高低音转换的标准对所述语音片段归类；特征提取子単元，用于对每ー类语音片断，分别按时间顺序提取其中每ー语音片断的音高特征，生成对应所述音符的特征序列；模型拓扑构建子単元，用于构建音调模型拓扑；參数训练子单元，用于对每ー类具有相同前后高低音转换的音调模型，利用该音调模型对应的所有训练数据的特征序列训练对应所述音调模型拓扑的參数；所述模型选择单元，具体用于选择切分出的每个音符对应的用于模拟具有相同前后高低音转换的音高特征的音调模型；所述特征提取单元包括提取子単元，用于提取每个音符的音高特征；计算子単元，用于计算每个音符的音高特征与其前ー个音符的标准音高的差异，并将所述差异作为所述音符的音调特征。
10.如权利要求7至9任一项所述的系统，其特征在于，所述音符切分単元包括字音对齐子単元，用于将所述连续语音信号及其对应的歌词进行字音对齐，得到所述歌词中每个唱词对应的语音信号片断；边界定位子単元，用于根据所述唱词对应的乐谱确定所述语音信号片段中每个音符的边界位置。
11.如权利要求7至9任一项所述的系统，其特征在于，所述标准度计算单元包括相似度计算子単元，用于计算所述音调特征与所述音符相对应的音调模型的相似度，并将所述相似度作为所述音符的标准度。
12.如权利要求7至9任一项所述的系统，其特征在于，所述得分计算单元包括音准评分子単元，用于对计算得到的所述音符的标准度进行加权平均，得到唱歌音准评分；节奏评分子単元，用于根据所述唱词对应的连续语音信号的时间长度与所述唱词对应的标准时间长度的差异，计算唱歌节奏评分；得分映射子単元，用于将所述唱歌音准评分和所述唱歌节奏评分通过以下函数映射为唱歌评测得分Score = a i'oneScore+b RhythmScore+c ；其中，Score为唱歌评测得分,ToneScore为唱歌音准评分,RhythmScore为唱歌节奏评分，a, b分别表示唱歌音准评分及唱歌节奏评分的权重，c为调整常数项。
全文摘要
本发明涉及语音信号处理技术领域，公开了一种唱歌评测方法及系统，该方法包括接收用户唱歌的连续语音信号；确定所述连续语音信号中每个音符的边界位置，以切分出每个音符；选择切分出的每个音符对应的音调模型，所述音调模型是预先以离线方式训练得到的；提取所述音符的音调特征；根据所述音符的音调特征、以及与所述音符相对应的音调模型计算所述音符的标准度；根据所述音符的标准度确定唱歌评测得分。利用本发明，可以提高音符匹配的客观性和准确性，提升唱歌评测系统的评测性能。
文档编号G10L15/14GK102664016SQ201210120560
公开日2012年9月12日申请日期2012年4月23日优先权日2012年4月23日
发明者何婷婷, 刘庆峰, 胡国平, 胡郁, 蒋成林申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋成林;何婷婷;胡国平;胡郁;刘庆峰
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：参数解码方法及参数解码装置的制作方法
上一篇：基于语音识别技术的汉语学习系统的制作方法