本技术涉及自然语言处理领域,具体涉及一种多音字发音标签的预测方法及装置。
背景技术:
1、字形到音素转换(grapheme-to-phoneme,简称g2p)是自然语言处理与语音合成的核心任务之一,其核心目标是将书面语言的字形(如英文单词、中文拼音/汉字)转换为能够被语音系统识别的音素(语音的最小发音单位)。在中文g2p转换过程中,由于大量汉字存在多个不同发音,如何依据具体语境从多个候选发音中筛选出唯一正确的发音,成为决定中文g2p转换效果的关键环节。
2、现有技术中针对上述问题存在两种解决方法:一种是基于规则的方法,依赖构建稳健的发音字典与复杂的预定义规则来确定字形单元的发音。另一种是基于学习的方法,先从大量带发音标注的数据中,利用统计模型或深度神经网络(dnn)自动学习多音字的发音特征与上下文关联规律,再依据这些学到的规律,结合多音字所在的具体上下文语义,判断其正确发音。在这类方法中,当前应用最广泛的上下文语义获取模型是bert(bidirectional encoder representations from transformers)模型。
3、然而,一方面,若过于依赖有限且固定规则,在面对复杂语境(如歧义句、新兴网络用语)时,难以灵活调整匹配策略,极易出现多音字发音预测错误的情况;同时,随着语言的动态演变,规则库的维护与更新成本极高,难以适应不断变化的语言使用需求。另一方面,在多音字发音标签预测任务或多音字消歧任务中,bert模型暴露出一系列适配性与实用性问题,具体体现在以下几方面:其一,bert依赖全局注意力机制,处理长序列时计算复杂度达o(n²),直接影响推理速度;其二,多音字发音往往更依赖相邻词汇、短语等局部上下文,bert的全局注意力虽能覆盖所有上下文信息,但对这些关键局部语境的权重分配可能被全局无关信息稀释,反而引入干扰噪声,削弱对核心关联信息的捕捉精度;其三,bert模型因计算复杂度高需设置最大长度限制,超长文本会被截断,可能会丢失关键语义。中文多音字预测依赖长距离上下文语境判断发音,bert的长度限制可能导致关键语境信息缺失,从而影响预测准确度。
4、因此,如何在降低计算复杂度的同时,获得融合多音字的局部语境信息和长句中多音字的上下文语义信息的多音字的双向语境特征向量,以此提高多音字发音标签预测的准确度,是现在需要解决的问题。
技术实现思路
1、本技术实施例提供一种多音字发音标签的预测方法,在降低计算复杂度的同时,获得融合多音字的局部语境信息和长句中多音字的上下文语义信息的多音字的双向语境特征向量,并根据多音字的双向语境特征向量预测多音字发音标签,提高了多音字发音标签预测的准确度。
2、本技术实施例提供一种多音字发音标签的预测方法,包括:获得待处理文本中的每个字符的字符特征向量,待处理文本包括待预测发音标签的多音字;将每个字符的字符特征向量按照每个字符在待处理文本中的顺向位次进行拼接,获得待处理文本顺向字符特征序列;将每个字符的字符特征向量按照每个字符在待处理文本中的逆向位次进行拼接,获得待处理文本逆向字符特征序列;截取待处理文本顺向字符特征序列中的部分序列作为多音字的顺向局部特征向量序列,多音字的顺向局部特征向量序列包括多音字的字符特征向量、在待处理文本顺向字符特征序列中位次在多音字的字符特征向量之前且与多音字的字符特征向量的位次差的绝对值在第一预设位次差阈值内的字符特征向量、以及待处理文本顺向字符特征序列中位次在多音字的字符特征向量之后且与多音字的字符特征向量的位次差的绝对值在第二预设位次差阈值内的字符特征向量;根据多音字的顺向局部特征向量序列获得多音字的顺向局部融合特征向量;截取待处理文本逆向字符特征序列中的部分序列作为多音字的逆向局部特征向量序列,多音字的逆向局部特征向量序列包括多音字的字符特征向量、在待处理文本逆向字符特征序列中位次在多音字的字符特征向量之前且与多音字的字符特征向量的位次差的绝对值在第三预设位次差阈值内的字符特征向量、以及待处理文本顺向字符特征序列中位次在多音字的字符特征向量之后且与多音字的字符特征向量的位次差的绝对值在第四预设位次差阈值内的字符特征向量;根据多音字的逆向局部特征向量序列获得多音字的逆向局部融合特征向量;根据多音字的顺向局部融合特征向量和多音字的逆向局部融合特征向量,获得多音字的双向语境特征向量;从多音字的双向语境特征向量中提取多音字的词性特征向量;根据多音字的词性特征向量及多音字的双向语境特征向量,预测多音字的发音标签。
3、可选的,根据多音字的顺向局部融合特征向量和多音字的逆向局部融合特征向量,获得多音字的双向语境特征向量,包括:根据在待处理文本顺向字符特征序列中位次在多音字的字符特征向量之前的至少一个字符特征向量和多音字的顺向局部融合特征向量,获得多音字的顺向语境特征向量,作为多音字顺向语境特征向量;根据在待处理文本逆向字符特征序列中位次在多音字之前的至少一个的字符特征向量和多音字的逆向局部融合特征向量,获得多音字的逆向语境特征向量,作为多音字逆向语境特征向量;根据多音字顺向语境特征向量和多音字逆向语境特征向量,获得多音字的双向语境特征向量。
4、本技术实施例还提供一种多音字发音标签的预测装置,包括:获得单元,用于获得待处理文本中的每个字符的字符特征向量,待处理文本包括待预测发音标签的多音字;将每个字符的字符特征向量按照每个字符在待处理文本中的顺向位次进行拼接,获得待处理文本顺向字符特征序列;将每个字符的字符特征向量按照每个字符在待处理文本中的逆向位次进行拼接,获得待处理文本逆向字符特征序列;第一截取单元,用于截取待处理文本顺向字符特征序列中的部分序列作为多音字的顺向局部特征向量序列,多音字的顺向局部特征向量序列包括多音字的字符特征向量、在待处理文本顺向字符特征序列中位次在多音字的字符特征向量之前且与多音字的字符特征向量的位次差的绝对值在第一预设位次差阈值内的字符特征向量、以及待处理文本顺向字符特征序列中位次在多音字的字符特征向量之后且与多音字的字符特征向量的位次差的绝对值在第二预设位次差阈值内的字符特征向量;根据多音字的顺向局部特征向量序列获得多音字的顺向局部融合特征向量;第二截取单元,用于截取待处理文本逆向字符特征序列中的部分序列作为多音字的逆向局部特征向量序列,多音字的逆向局部特征向量序列包括多音字的字符特征向量、在待处理文本逆向字符特征序列中位次在多音字的字符特征向量之前且与多音字的字符特征向量的位次差的绝对值在第三预设位次差阈值内的字符特征向量、以及待处理文本顺向字符特征序列中位次在多音字的字符特征向量之后且与多音字的字符特征向量的位次差的绝对值在第四预设位次差阈值内的字符特征向量;根据多音字的逆向局部特征向量序列获得多音字的逆向局部融合特征向量;融合单元,用于根据多音字的顺向局部融合特征向量和多音字的逆向局部融合特征向量,获得多音字的双向语境特征向量;提取单元,用于从多音字的双向语境特征向量中提取多音字的词性特征向量;预测单元,用于根据多音字的词性特征向量及多音字的双向语境特征向量,预测多音字的发音标签。
5、与现有技术相比,本技术具有以下优点:
6、本技术提供的多音字发音标签的预测方法,根据多音字的(顺向/逆向)局部特征向量序列获得多音字的(顺向/逆向)局部融合特征向量,且多音字的(顺向/逆向)局部特征向量序列包括多音字的字符特征向量及与多音字的字符特征向量的位次差的绝对值在预设位次差阈值内的字符特征向量,因此,所获的多音字的(顺向/逆向)局部融合特征向量融合了多音字的局部上下文语义信息。并且,在根据多音字(顺向/逆向)局部融合特征向量获得多音字的双向语境特征向量时,根据多音字的顺向局部融合特征向量及在待处理文本中多音字的前序字符的字符特征向量(即待处理文本顺向字符特征序列中位次在多音字的字符特征向量之前的至少一个字符特征向量),获得多音字顺向语境特征向量,根据多音字的逆向局部融合特征向量及在待处理文本中多音字的后序字符的字符特征向量(即待处理文本逆向字符特征序列中位次在多音字之前的至少一个的字符特征向量),获得多音字逆向语境特征向量,而多音字的双向语境特征向量是根据多音字顺向语境特征向量和多音字逆向语境特征向量获得的,因此,多音字的双向语境特征向量同时融合了多音字的局部语义信息和多音字在待处理文本(长句)中的上下文语义信息,同时捕捉了多音字的局部语境信息和长句中多音字的语义角色,增强了语境理解能力,而根据所获得多音字的双向语境特征向量预测多音字的发音标签,提高了多音字发音标签预测的准确度。另外,在获得多音字顺向语境特征向量和多音字逆向语境特征向量的过程中,采用的是状态转移逻辑处理序列特征(如多音字的顺向/逆向局部融合特征向量与待处理文本顺向/逆向字符特征序列组成的序列特征),其计算复杂度呈线性,计算复杂度较低,能够显著提高对长序列的处理能力。