一种基于多元语义特征和掩码策略的文本纠错方法和系统与流程

文档序号:31140522发布日期:2022-08-16 21:07阅读:68来源:国知局
一种基于多元语义特征和掩码策略的文本纠错方法和系统与流程

1.本技术涉及人工智能领域,更具体地,涉及一种基于多元语义特征和掩码策略的文本纠错方法。


背景技术:

2.随着人工智能大数据技术的不断发展,中国电信大数据分析挖掘相关的业务日益增多,如今中国电信已经成为大数据人工智能技术的重要使用方。在电信实际业务中,已广泛使用人工智能等相关技术进行大数据的信息分析和数据挖掘。如今依托于电信广泛的通话呼叫业务来进行通话数据分析在营销等业务中都有着至关重要的意义。对通话记录数据的分析常常依赖于语音转写的文本记录,然而,由于语音转写局限性和通话设备噪音的干扰,转写的文本往往出现较多的错误,因此在这种情况下需要对文本进行纠错处理。
3.针对这个问题,传统的解决方式是通过混淆词典的方式,技术人员利用同音词、近音词以及同形字的多种易错词来构造纠错混淆词典,并且通过基于马尔可夫过程的n-gram语言模型来计算文本句子的困惑度以进行错误检测,将检测出的错误通过混淆词典纠正后,再判断困惑度是否降低,进而实现纠错的目标。该方法主要存在影响其文本纠错的正确率的以下两个问题:
4.(1)使用混淆词典对文本进行错误检测,需要串行化地对每一个字词进行检查,同时还依赖于分词工具的准确度,当分词工具在待检测文本上性能表现一般时,分词器本身会划分出错误的分词结果,从而影响语言模型和混淆词典的错误纠正结果,将原本正确的字词错误地进行修改。
5.(2)使用n-gram的语言模型进行错误检测,仅能考虑当前字符的前1-3个字,难以获得待检测文本的全局信息,而简单地扩展语言模型窗口大小,又会产生大量未登录词和低频词汇,平滑处理过后,依旧会导致推理过程中句子整体困惑度过大,影响对转写错误的判断。同时,语言模型难以显式地学习到其中的语法语义信息,这几方面的缺点都会导致在错误定位和校验中容易产生较大误差。
6.因此,为了在保证基于混淆词典纠错的高可解释性和业务灵活性的同时提升语音转写错误字符检测和纠正的性能,期望提供一种改进的语音转写文本纠错方法,以便在提高纠错准确率的同时加快单句文本的处理速度。


技术实现要素:

7.提供本技术内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本技术内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
8.针对上述现有技术中存在的不足,本技术提供了一种基于随机掩码并结合多元语义特征编码提高混淆词典文本纠错准确率的方法,在保证基于混淆词典纠错的高可解释性和业务灵活性的同时,利用随机掩码策略和多元语义特征编码提升语音转写错误字符检测
和纠正的性能,在提高准确率的同时加快了单句文本的处理速度。本技术通过监督的方式训练一个高效的错误检测模型,智能识别可能出现的错误点并进行概率评估,其中对于转写的一个片段文本,仅需要一轮前向运算即可得到错误可能出现的位置。
9.根据本技术的第一方面,提供了一种用于语音转写文本纠错的方法,所述方法包括:将待纠错的语音转写文本作为输入,利用预先构建的混淆词典来确定所述语音转写文本中的备选错误位置;利用经训练的基于多元语义特征提取的自编码器中的编码器来对所述语音转写文本进行编码以得到连续的特征向量;将所得到的特征向量输入经训练的基于掩码策略的错误检测模型以得到针对所确定的备选错误位置中的每个备选错误位置的错误发生置信度;以及对于每个备选错误位置,响应于该备选错误位置的错误发生置信度高于预定义的阈值,利用所述混淆词典来对该备选错误位置的文本进行纠错,以输出经纠错的语音转写文本。
10.本技术实施例的技术方案中,利用基于多元语义特征的编码器以及基于掩码策略的错误检测模型来对语音转写文本进行纠错,可以在提高准确率的同时加快单句文本的处理速度。
11.在一些实施例中,所述混淆词典是通过搜集历史分析数据以及通用的易错字、同音词、近音词和同形字来预先构建的,其中在所述混淆词典中将所搜集的错误字词记录为错误词组-纠正词组。
12.在一些实施例中,利用预先构建的混淆词典来确定所述语音转写文本中的备选错误位置进一步包括:利用前向最大匹配算法来在所述语音转写文本中对所述混淆词典中的字词进行标记以检索出在所述混淆词典中收集的可能出现错误,从而确定所述语音转写文本中的备选错误位置。
13.在一些实施例中,利用经训练的基于多元语义特征提取的自编码器中的编码器来对所述语音转写文本进行编码以得到连续的特征向量进一步包括:对所述语音转写文本进行多元语义特征提取以得到离散语义特征,其中所述多元语义特征提取包括中文拼音特征提取、中文词性特征提取和文本字词位置特征提取;以及将所得到的离散语义特征映射到低维的连续特征空间中以得到连续的特征向量。通过利用基于多元语义特征提取的自编码器来将从语音转写文本中提取的多元语义特征编码为连续的特征向量,可以提高错误检测和纠正的准确率和可解释性。
14.在一些实施例中,所述自编码器和所述错误检测模型是基于以下操作利用多任务学习来训练得到的,其中训练数据集包括经人工标注的语音转写文本,其中在所述语音转写文本中标注所确定的备选错误位置中真实存在错误和无错误发生的部分:将所述训练数据集中的每个训练样本输入所述自编码器以提取离散语义特征进行编码;将所述训练数据集中的每个训练样本输入所述错误检测模型以基于掩码策略来将所述备选错误位置使用掩码进行遮盖,并且利用上下文来预测掩码位置的实际字符;以及计算并且累加所述自编码器的损失和所述错误检测模型的损失,进行所述自编码器和所述错误检测模型的参数更新。通过利用多任务学习来训练基于多元语义特征提取的自编码器和基于掩码策略的错误检测模型,可以进一步增强模型的可解释性和预测准确度。
15.根据本技术的第二方面,提供了一种用于语音转写文本纠错的系统,所述系统包括:备选错误确定模块,所述备选错误确定模块被配置成将待纠错的语音转写文本作为输
入,利用预先构建的混淆词典来确定所述语音转写文本中的备选错误位置;语义特征编码模块,所述语义特征编码模块被配置成利用经训练的基于多元语义特征提取的自编码器中的编码器来对所述语音转写文本进行编码以得到连续的特征向量;转写错误检测模块,所述转写错误检测模块被配置成将所得到的特征向量输入经训练的基于掩码策略的错误检测模型以得到针对所确定的备选错误位置中的每个备选错误位置的错误发生置信度;以及
16.转写错误纠正模块,所述转写错误纠正模块被配置成对于每个备选错误位置,响应于该备选错误位置的错误发生置信度高于预定义的阈值,利用所述混淆词典来对该备选错误位置的文本进行纠错,以输出经纠错的语音转写文本。
17.在一些实施例中,所述混淆词典是通过搜集历史分析数据以及通用的易错字、同音词、近音词和同形字来预先构建的,其中在所述混淆词典中将所搜集的错误字词记录为错误词组-纠正词组。
18.在一些实施例中,所述语义特征编码模块被进一步配置成:对所述语音转写文本进行多元语义特征提取以得到离散语义特征,其中所述多元语义特征提取包括中文拼音特征提取、中文词性特征提取和文本字词位置特征提取;以及将所得到的离散语义特征映射到低维的连续特征空间中以得到连续的特征向量。
19.在一些实施例中,所述自编码器和所述错误检测模型是基于以下操作利用多任务学习来训练得到的,其中训练数据集包括经人工标注的语音转写文本,其中在所述语音转写文本中标注所确定的备选错误位置中真实存在错误和无错误发生的部分:将所述训练数据集中的每个训练样本输入所述自编码器以提取离散语义特征进行编码;将所述训练数据集中的每个训练样本输入所述错误检测模型以基于掩码策略来将所述备选错误位置使用掩码进行遮盖,并且利用上下文来预测掩码位置的实际字符;以及计算并且累加所述自编码器的损失和所述错误检测模型的损失,进行所述自编码器和所述错误检测模型的参数更新。
20.根据本技术的第三方面,提供了一种用于语音转写文本纠错的系统,所述系统包括:存储器,所述存储器存储有经训练的基于多元语义特征提取的自编码器和基于掩码策略的错误检测模型以及计算机可执行指令;以及至少一个处理器,所述计算机可执行指令在被执行时使所述至少一个处理器执行如前述第一方面中任一者所述的方法。
21.与现有技术中的方案相比,本技术所提供的用于语音转写文本纠错的方法和系统至少具有以下优点:
22.(1)本技术使用基于掩码策略的错误检测模型代替n-gram的语言模型进行错误检测,对混淆词典中出现的词语采用掩码代替原本的字符,预测掩码位置是否真实发生文本转写错误,智能识别可能出现的错误点并进行概率评估,对转写的一个片段文本,仅需要一轮前向运算即可得到错误可能出现的位置,同时提升纠错的精度与处理速度;
23.(2)本技术基于待检测文本的拼音特征、词性特征、词序特征等多元离散特征,通过编码器映射到低维的连续特征空间,作为显式特征加入模型训练,提升了错误检测和纠正的准确率和可解释性;以及
24.(3)本技术引入多任务学习,通过同时学习多元语义编码和掩码错误预测两个任务来增强模型的可解释性和预测准确度。
25.通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显
而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
26.为了能详细地理解本技术的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本技术的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
27.图1示出了根据本技术的一个实施例的用于语音转写文本纠错的系统的示例架构图;
28.图2示出了根据本技术的一个实施例的用于采用多任务学习来训练自编码器和错误检测模型的方法的示例流程图;
29.图3示出了根据本技术的一个实施例的用于语音转写文本纠错的方法的示例流程图;
30.图4示出了根据本技术的一个实施例的多元语义特征编码部分的示例流程图;以及
31.图5示出了根据本技术的一个实施例的用于语音转写文本纠错的系统的示例架构图。
具体实施方式
32.下面结合附图详细描述本技术,本技术的特点将在以下的具体描述中得到进一步的显现。
33.图1示出了根据本技术的一个实施例的用于语音转写文本纠错的系统100的示例架构图。如图1中所示,本技术的系统100至少包括:备选错误确定模块101、语义特征编码模块102、转写错误检测模块103和转写错误纠正模块104。
34.备选错误确定模块101可被配置成将待纠错的语音转写文本作为输入,利用预先构建的混淆词典来确定该语音转写文本中的备选错误位置。在一些情形中,可以通过搜集历史通话分析数据、外呼营销等部门业务经验、以及通用的易错字、同音词来预先构建支持纠错的混淆词典,在该混淆词典中将所搜集的错误字词记录为“错误词组-纠正词组”的形式。进一步地,备选错误确定模块101可被配置成利用前向最大匹配算法来在待纠错的语音转写文本中对混淆词典中出现的字词进行标记以检索出在该混淆词典中收集的可能出现错误,从而标出该语音转写文本中的备选错误位置。
35.语义特征编码模块102可被配置成利用经训练的基于多元语义特征提取的自编码器中的编码器来对待纠错的语音转写文本进行编码以得到连续的特征向量。由于在人工参与文本纠错的过程中,往往会对字词的读音、句中所处位置以及在句中所拥有的词性进行考虑,因此语义特征编码模块102可被进一步配置成对待纠错的语音转写文本进行多元语义特征提取以得到离散语义特征,其中该多元语义特征提取包括中文拼音特征提取、中文词性特征提取和文本字词位置特征提取,并且随后将所得到的离散语义特征映射到低维的连续特征空间中以得到连续的特征向量。
36.转写错误检测模块103可被配置成将所得到的特征向量输入经训练的基于掩码策略的错误检测模型以得到针对所确定的备选错误位置中的每个备选错误位置的错误发生置信度。在一些情形中,上述基于多元语义特征提取的自编码器和基于掩码策略的错误检测模型是采用多任务学习来训练得到的,具体训练过程如图2中所示并且在下文中进一步详细描述。
37.转写错误纠正模块104可被配置成对于每个备选错误位置,响应于该备选错误位置的错误发生置信度高于预定义的阈值,利用预先构建的混淆词典来对该备选错误位置的文本进行纠错,在对所有需要纠错的位置进行纠错之后,输出经纠错的语音转写文本。
38.本领域技术人员能够理解,本技术的系统及其各模块既可以以硬件形式实现,也可以以软件形式实现,并且各模块可以任意合适的方式合并或组合。
39.图2示出了根据本技术的一个实施例的用于采用多任务学习来训练自编码器和错误检测模型的方法200的示例流程图。
40.在训练基于多元语义特征提取的自编码器和基于掩码策略的错误检测模型之前,需要构建人工标注的训练数据集。具体而言,可以通过以下操作来构建训练数据集:首先利用前向最大匹配算法,在已有的语音转写语料上对混淆词典中的字词进行标记,检索出在该混淆词典中收集的可能出现错误。随后通过人工标注来构造一批训练数据集,标识检索产生的备选错误位置中,真实存在错误和无错误发生的部分。
41.随后在训练过程中采用多任务学习来同时训练基于多元语义特征提取的自编码器和基于掩码策略的错误检测模型。多任务学习是指多个相关的任务同时并行学习,梯度同时反向传播,多个任务通过底层的共享表示来互相帮助学习,从而提升泛化效果。简而言之,多任务学习是把多个相关的任务放在一起学习,在学习过程中通过一个在浅层的共享表示来互相分享、互相补充学习到的领域相关的信息,互相促进学习,提升泛化的效果。
42.具体而言,在训练过程中,可以将所构建的训练数据集中的每个样本输入自编码器以提取离散语义特征进行编码,其中该自编码器包括编码器和解码器。另外,可以将所构建的训练数据集中的每个样本输入错误检测模型以基于掩码策略来将经标注的备选错误位置使用掩码进行遮盖,并且利用上下文来预测掩码位置的实际字符。随后,以人工标注的错误发生位置作为真实标签,采用多任务学习的方式,同时关注上述多元语义特征编码和掩码错误预测两个任务,计算这两个任务的损失(例如,l1和l2),将损失进行累加以对自编码器和错误检测模型的参数进行更新,随后重复上述训练过程的各步骤,不断迭代寻优直至收敛。在一些情形中,将损失进行累加是指基于指派给各任务的权重(例如,任务1的权重为w1,任务2的权重为w2)来累加损失以得到总损失l,其中l=w1l1+w2l2。
43.图3示出了根据本技术的一个实施例的用于语音转写文本纠错的方法300的示例流程图。方法300开始于步骤301,备选错误确定模块101可将待纠错的语音转写文本作为输入,利用预先构建的混淆词典来确定所述语音转写文本中的备选错误位置。在一些情形中,可以通过搜集历史分析数据以及通用的易错字、同音词、近音词和同形字来预先构建混淆词典,其中在该混淆词典中将所搜集的错误字词记录为错误词组-纠正词组。进一步地,备选错误确定模块101可利用前向最大匹配算法来在待纠错的语音转写文本中对混淆词典中出现的字词进行标记以检索出在该混淆词典中收集的可能出现错误,以标识待纠错的语音转写文本中的备选错误位置。
44.在步骤302,语义特征编码模块102可利用经训练的基于多元语义特征提取的自编码器中的编码器来对待纠错的语音转写文本进行编码以得到连续的特征向量。进一步地,语义特征编码模块102可对待纠错的语音转写文本进行多元语义特征提取以得到离散语义特征,并且将所得到的离散语义特征映射到低维的连续特征空间中以得到连续的特征向量。在一些情形中,该多元语义特征提取可包括中文拼音特征提取、中文词性特征提取和中文词序特征提取。
45.在步骤303,转写错误检测模块103可将所得到的连续特征向量输入经训练的基于掩码策略的错误检测模型以得到针对所确定的备选错误位置中的每个备选错误位置的错误发生置信度。基于掩码策略的错误检测模型可被用于将所标识的备选错误位置的词语用掩码进行遮盖,利用上下文来预测掩码位置的实际字符,以判断该位置的错误发生置信度。
46.在步骤304,转写错误纠正模块104可在备选错误位置的错误发生置信度高于预定义的阈值时利用预先构建的混淆词典来对该备选错误位置的文本进行纠错,以输出经纠错的语音转写文本。
47.图4示出了根据本技术的一个实施例的多元语义特征编码部分400的示例流程图。如图4中所示,图3中的步骤302中的多元语义特征提取和编码进一步包括以下步骤:
48.302-1:使用拼音提取工具来提取待纠错文本中每个句子的拼音作为离散特征以供模型学习使用;
49.302-2:使用序列标注工具(词性标注)来提取待纠错文本中每个句子中的每个字词所属的词性离散特征;
50.302-3:构建待纠错文本中每个句子中的每个字所处句中位置的离散特征;以及
51.302-4:构建自编码器模型以将离散的语义特征信息编码为连续的特征向量。
52.由此,本技术通过融合多元语义特征并且通过自编码器将这些离散的信息特征映射在连续的特征空间之中,提高了模型表达能力和预测准确度。
53.图5示出了根据本技术的一个实施例的用于语音转写文本纠错的系统500的示例架构图。如图5所示,系统500可包括存储器501和至少一个处理器502。
54.存储器501可存储有经训练的自编码器和基于掩码策略的错误检测模型。存储器501可包括ram、rom、或其组合。存储器501可存储计算机可执行指令,这些指令在由至少一个处理器502执行时使该至少一个处理器执行本文中所描述的各种功能,包括将待纠错的语音转写文本作为输入,利用预先构建的混淆词典来确定该语音转写文本中的备选错误位置;利用经训练的基于多元语义特征提取的自编码器中的编码器来对该语音转写文本进行编码以得到连续的特征向量;将所得到的特征向量输入经训练的基于掩码策略的错误检测模型以得到针对所确定的备选错误位置中的每个备选错误位置的错误发生置信度;以及对于每个备选错误位置,响应于该备选错误位置的错误发生置信度高于预定义的阈值,利用该混淆词典来对该备选错误位置的文本进行纠错,以输出经纠错的语音转写文本。在一些情形中,存储器501可尤其包含bios,该bios可控制基本硬件或软件操作,诸如与外围组件或设备的交互。处理器502可包括智能硬件设备(例如,通用处理器、dsp、cpu、微控制器、asic、fpga、可编程逻辑器件、分立的门或晶体管逻辑组件、分立的硬件组件,或其任何组合)。
55.结合本文中的公开描述的各种解说性框以及模块可以用设计成执行本文中描述
的功能的通用处理器、dsp、asic、fpga或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合(例如,dsp与微处理器的组合、多个微处理器、与dsp核心协同的一个或多个微处理器,或者任何其他此类配置)。
56.本文中所描述的功能可以在硬件、由处理器执行的软件、固件、或其任何组合中实现。如果在由处理器执行的软件中实现,则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。其他示例和实现落在本公开及所附权利要求的范围内。例如,由于软件的本质,本文描述的功能可使用由处理器执行的软件、硬件、固件、硬连线或其任何组合来实现。实现功能的特征也可物理地位于各种位置,包括被分布以使得功能的各部分在不同的物理位置处实现。
57.以上所已经描述的内容包括所要求保护主题的各方面的示例。当然,出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,所要求保护主题的许多进一步的组合和排列都是可能的。从而,所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1