一种自动韵律提取方法、系统及其在自然语言处理任务中的应用与流程

文档序号：11924032阅读：292来源：国知局

本发明涉及一种语音韵律提取方法，更具体的，涉及一种自动韵律提取方法、系统及其在自然语言处理任务中的应用。

背景技术：

语音中的韵律能够通过赋予句子中不同词语以不同的突出性来反应说话者的意图，因此韵律突出性被认为对于理解语音的语义性和语用性有着指示性作用，语音的韵律主要包括连读、意群停顿、重读、升降调等信息。而除了语音之外，文本作为能够表达语义性与语用性的另一种形式，其内含的韵律特性是可以被不同的阅读者理解并学习的，即文本包含了自身的韵律特性，这种特性可以被学习与预测，同时这种内含的韵律能够为其它自然语言处理任务提供语义性和语用性上的指导，进而提升它们的性能。文本数据中隐式的韵律无法被直接观测与获得，因此，只能从语音数据中获得并标记其对应文本的韵律，进而才能让算法学习如何从纯文本中感知并预测韵律，从而为其它自然语言处理任务提供除了有监督的语法信息以外的指导。

当前大部分自然语言处理架构均以词语及其表示(词向量)为基本单位，而语音中的韵律特性表现为连续的特征序列，并且语音没有明显的词语分割点，加上基于语音识别技术的精准词语韵律提取无法得到大规模优质的语料和训练，导致目前大部分对于语音的韵律特性的提取和利用的方法均需要有专家经验的人进行人工分割语音片段、对齐语音与文本、标注词语韵律特征等，使得有监督数据的产生过程效率低下。

现有技术中有以下相关文献：

1)Brenier,J.M.；Cer,D.M.；and Jurafsky,D.2005.The detection of emphatic words using acoustic and lexical features.In INTERSPEECH,3297-3300.

2)Brenier,J.M.2008.The Automatic Prediction of Prosodic Prominence from Text.ProQuest.

提供了利用纯文本预测韵律的方法及其对应的评价指标。文献使用了ToBI工具集对语音及其对应文本进行人工的分割与韵律突出性标注，根据不同单词对应的语音特征，如：发音时长(duration)、发音强度(intensity)、发音基础频率的最大最小值(fundamental frequency minima and maxima)等，来判断其是否被突出，进而生成文本的韵律数据集。文献同时使用了最大熵分类器对文本的韵律进行学习与预测，在只使用文本特征的情况下，分类器能够达到79％左右的预测准确率。以上文献并没有将生成的韵律数据集应用于辅助其它自然语言处理任务。

另外一篇相关文献：

3)Hovy,D.；Anumanchipalli,G.K.；Parlikar,A.；Vaughn,C.；Lammert,A.；Hovy,E.；and Black,A.W.2013.Analysis and Modeling of“Focus”in Context.In INTERSPEECH,402-406.

提供了一种利用纯文本从上下文预测韵律的方法。文献在相关工作的基础上，使用了上下文辅助了文本韵律的预测，并使用了众包(crowdsourcing)的方法进行了一定规模的人工韵律数据集标注。

上面列举的三个相关文献中，无一例外地均需要人工对词语韵律属性进行标注，同时在标注前需要进行语音的分割及其与文本的对齐，这在效率上对数据集的生成造成了限制，使得该方法无法在短时间内获得大量标注数据，因而上节的文献中提到的方法均缺乏实效性，无法在实际生产中应用。同时，以上方法产生的数据集样本量不足以覆盖所有韵律预测的问题空间，使得算法可扩展性不强，造成应用上性能不足的情况。

因此，现有技术中并没有发现能够自动从语音中提取词语对应的韵律特性的方法，其全部均为人工进行手动提取，同时在现有相关文献中，并没有发现任何使用语音对应的文本韵律特性辅助自然语言处理任务的记载或实际应用，在此特定范畴内，本发明提供了第一个可行的方法。

技术实现要素：

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的目的在于，提出一种高效的自动韵律提取及其在自然语言处理任务上应用的方法，这种方法能够克服传统人工标注的低效、标准不一、无法大规模应用的缺陷，同时能够将存在于大量语音数据中的语义和语用特性迁移到其它任务上，作为一种在标注上无监督的数据生成方式，本发明能够有效地利用语音中的韵律模式，对其它自然语言处理任务的性能进行改进。

为实现上述目的，本发明提供了一种自动语音韵律提取标注方法，该方法包括如下步骤：

步骤1，接收待标注语音数据，获取所述语音数据的对应文本；

步骤2，使用文本-语音对齐技术对采集到的语音数据及所述对应文本进行时间轴上的对齐，形成对齐文本；

步骤3，对所述对齐文本进行句子分割，从而生成以句子为单位的样本；

步骤4，对所述样本中的每个句子应用自动韵律突出性标注算法，从而构造并得到自动标注的文本韵律数据集，其中，所述句子的韵律突出性标注(或句子的韵律标注)指代句子对应的数值序列，该序列通过数值大小反映句子不同部分(或基本单元)所具有的韵律突出性强度。

更具体的，所述步骤2中所述的语音数据及其对应文本进行时间轴上的对齐具体是指：使得每个文本中的基本单元能够对应所述语音数据上的一段时间轴，从而得到所述文本中每个基本单元对应的语音数据片段，其中，所述基本单元指代中文的字或词语，英文的单词。

更具体的，所述步骤4还包括：若原始语音数据中包含多个朗读者或者多个不同朗读的环境，则需要对不同朗读者的发音习惯分别做标准化处理，以及将所述语音数据的韵律特征进行离散化处理。

根据本发明的另一方面，还提供了一种自动韵律提取方法在自然语言处理任务中的应用，该方法包括：

将文本数据的韵律作为一个序列标注任务，采用长短期记忆人工神经网络(LSTM)对于韵律序列进行建模，LSTM模型的输入为句子对应的词向量序列，在每个时间点预测并输出当前位置基本单元的韵律突出性标注。

更具体的，所述LSTM模型可扩展到双向LSTM网络、多层双向LSTM网络或时间循环神经网络及其衍生类型与结构等。

更具体的，该方法还包括：

将文本韵律数据集用于基于循环神经网络(RNN)的句子压缩任务：将文本韵律突出性标注作为辅助任务，将句子压缩任务作为主要任务，采用多任务学习下的交替训练方式，每个时间段给所述模型输入一部分文本韵律数据或句子压缩数据，下一个时间段输入另外一个任务，两个任务交替进行，直到所述模型收敛。

更具体的，该方法还包括：

将文本韵律数据集用于辅助基于循环神经网络及其相关扩展改进结构的自然语言处理任务：将文本韵律突出性标注作为辅助任务，将句子压缩任务作为主要任务，采用多任务学习下的交替训练方式，每个时间段给所述模型输入一部分文本韵律数据或句子压缩数据，下一个时间段输入另外一个任务，两个任务交替进行，通过优化所述模型参数，直到所述模型收敛。

根据本发明的另一方面，还提供了一种自动语音韵律提取标注系统，该系统包括：

采集模块，接收待标注语音数据，获取所述语音数据的对应文本；

对齐模块，使用文本-语音对齐技术对采集到的语音数据及其文本进行时间轴上的对齐，形成对齐文本；

分割模块，对所述对齐文本进行句子分割，生成以句子为单位的样本；

自动韵律标注模块，对所述样本中的每个句子应用自动韵律突出性标注算法，从而构造并得到自动标注的文本韵律数据集，其中，所述句子的韵律突出性标注(或句子的韵律标注)指代句子对应的数值序列，该序列通过数值大小反映句子不同部分(或基本单元)所具有的韵律突出性强度。

更具体的，所述对齐模块中所述的语音数据及其对应文本进行时间轴上的对齐具体是指：使得每个文本中的基本单元能够对应所述语音数据上的一段时间轴，从而得到所述文本中每个基本单元对应的语音数据片段，其中，所述基本单元指代中文的字或词语，英文的单词。

更具体的，所述分割模块还用于：

若原始语音数据中包含多个朗读者或者多个不同朗读的环境，则需要对不同朗读者发音习惯分别做标准化处理，以及根据需要将韵律特征进行离散化处理。

本发明具有如下有益技术效果：

1)使用了自动文本-语音对齐技术进行大规模韵律数据集的生成，利用对齐后的语音片段作为韵律指标，能够将韵律突出性的标注质量控制在一定强度的基础上，构造具有弱监督特性的文本韵律数据集，相比于传统的人工标注手段，除了效率更高的优势以外，在扩展性上也显著优于传统方式，能够随时加入先验知识以调整数据集的实际标注结果和性能表现，处理速度快、成本低，节省了大量人力资源的情况下构造巨量的数据(相同时间内产生数据量比传统方法多两个数量级以上)。

2)本发明使用了循环神经网络对句子的韵律进行建模，加入双向扩展的机制之后，循环神经网络能够有效考虑词语的上下文状态，对于词语韵律突出性标注的预测准确率可以达到90％以上，显著优于传统最大熵方法，同时无需专家知识进行特征提取，减少特征工程的同时，流程更加符合人类认知的过程。

3)本发明将自动构造的文本韵律数据集用于基于循环神经网络的自然语言处理任务上。

此方法充分利用了文本韵律序列和自然语言处理任务中的常见序列数据的同构特性，通过在多任务学习下的交替训练方式，使得自然语言处理任务在不需要显式标注的语义信息的辅助下得到提升。在句子压缩任务的实例中，本发明的方法相对于现有技术有着显著的性能提升(10％以上的性能提升)。

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明一种自动语音韵律提取标注方法的流程图；

图2中示出了根据本发明的多任务LSTM模型处理方式图；

图3中示出了根据本发明的多任务双向LSTM模型处理方式图；

图4示出了本发明一种自动语音韵律提取标注系统的系统框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明一种自动语音韵律提取标注方法的流程图。

如图1所示，根据本发明的一种自动语音韵律提取标注方法，该方法包括如下步骤：

步骤1，接收待标注语音数据，获取所述语音数据的对应文本。

步骤2，使用文本-语音对齐技术对采集到的语音数据及所述对应文本进行时间轴上的对齐，形成对齐文本；

具体的，可以通过每个文本中的基本单元对应所述语音数据上的一段时间轴，从而得到所述文本中每个基本单元对应的语音数据片段。其中，基本单元，指代中文中的字或词语，英文中的一个单词。

此外，文本-语音对齐技术包括但不限于通过获取所述语音数据中每个基本单元起始发音对应的时间到结束发音对应的时间，从而获取在所述语音数据中每个基本单元所用的一段时间轴以及基本单元之间的时间段。

步骤3，对所述对齐文本进行句子分割，生成以句子为单位的样本。

举例来说，可以但不限于根据句子的标点符号特性，对对齐文本进行句子分割，使得每个句子由附带有对应语音数据片段的基本单元组成。

步骤4，对所述句子分割后文本中的每个句子应用自动韵律突出性标注算法，从而构造并得到自动标注的文本韵律数据集。

具体的，在该步骤中还包括：若原始语音数据中包含多个朗读者或者多个不同朗读的环境，则需要对不同朗读者发音习惯分别做标准化处理，以消除其中的影响，并根据需要对语音数据的韵律特征进行离散化处理。其中，韵律特征指代所述基本单元的发音长度、发音强度、发音基础频率的最大值与最小值。

对所述句子分割后文本中的每个句子应用自动韵律突出性标注算法，可以选择上述三个韵律特征中的部分或者全部特征作为自动韵律突出性标注算法的输入，其中，所述句子的韵律突出性标注(或句子的韵律标注)指代句子对应的数值序列，该序列通过数值大小反映句子不同部分(或基本单元)所具有的韵律突出性强度。

根据本发明的第二方面，还提供了一种自动韵律提取在自然语言处理任务中的应用方法，该应用方法包括：

将对于文本数据的韵律作为一个序列标注任务，采用长短期记忆人工神经网络(LSTM)对于韵律序列进行建模，LSTM模型的输入为句子对应的词向量序列，在每个时间点预测并输出当前位置基本单元的韵律突出性标注。

更具体的，所述LSTM模型可扩展到双向LSTM网络、多层双向LSTM网络或时间循环神经网络及其衍生类型与结构，如门控时间循环网络(Gated Recurrent Network，GRN)等。

更具体的，该应用方法还包括：

将文本韵律数据集用于基于循环神经网络(RNN)的句子压缩任务：将文本韵律突出性标注作为辅助任务，将句子压缩任务作为主要任务，采用多任务学习下的交替训练方式，每个时间段给所述模型输入一部分文本韵律数据或句子压缩数据，下一个时间段输入另外一个任务，两个任务交替进行，直到所述模型收敛。图2中示出了根据本发明的多任务LSTM模型处理方式，文本韵律突出性标注作为辅助任务，对应A系列节点的输出，而句子压缩任务作为主要任务，对应Y系列节点的输出。采用交替训练的方式，每个时间段给模型输入一部分文本韵律突出性标注任务数据或句子压缩数据，下一个时间段输入另外一个任务，两个任务交替进行，直到模型收敛。图3中示出了根据本发明的多任务双向LSTM模型处理方式。

更具体的，该应用方法还包括：

将文本韵律数据集用于基于循环神经网络的自然语言处理任务：将文本韵律突出性标注作为辅助任务，将句子压缩任务作为主要任务，采用多任务学习下的交替训练方式，每个时间段给所述模型输入一部分文本韵律数据或句子压缩数据，下一个时间段输入另外一个任务，两个任务交替进行，通过优化所述模型参数，直到所述模型收敛。其中，循环神经网络包括但不限于LSTM、GRU及其深度上的扩展。

对于上述方式可以用形式化语言描述，设X是输入的文本序列，A为文本序列对应的韵律突出性序列，Y为文本对应的压缩标记，三个序列对应于以下形式：

X＝(x₁，...，x_N)，

A＝(a₁，...，a_N)

Y＝(y₁，...，y_N)

上述任务实际上是优化如下问题：

对于LSTM模型(上)，p可以表示为：

对于双向LSTM模型(下)，p可以表示为：

其中，

使用优化后的参数θ*，模型的韵律突出性A预测输出表示为：

同理对于模型的主要预测任务Y，可以得到同构的表达式，这里不再赘述。

图4示出了本发明一种自动语音韵律提取标注系统的系统框图。

如图4所示，该系统包括：

采集模块，接收待标注语音数据，获取所述语音数据的对应文本；

对齐模块，使用文本-语音对齐技术对采集到的语音数据及其文本进行时间轴上的对齐，形成对齐文本；

分割模块，对所述对齐文本进行句子分割，生成以句子为单位的样本；

更具体的，所述分割模块还用于：

若原始语音数据中包含多个朗读者或者多个不同朗读的环境，则需要对不同朗读者发音习惯分别做标准化处理，以及根据需要将所述语音数据的韵律特征进行离散化处理。

本发明通过自动文本-语音对齐技术，将语音片段与对文本中应词语进行对齐，利用语音片段作为词语韵律突出性的指标，从而获得自动生成的大量带有标注的文本韵律数据，构建文本韵律数据集。

同时，本发明利用弱监督特性，将文本韵律数据集使用多任务学习的方式，在循环神经网络的模型结构下，与其它自然语言处理任务进行交替训练，从而达到改进其它任务性能的目的。

在本说明书的描述中，术语“一个实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈彦局;潘嵘;李双印
技术所有人：深圳爱拼信息科技有限公司
我是此专利的发明人

上一篇：一种应用于电力线路施工的C型夹具的制作方法与工艺
上一篇：一种药粉均匀下料装置的制作方法