文本语料扩增方法、装置、电子设备及存储介质与流程

文档序号：22735736发布日期：2020-10-31 09:13阅读：95来源：国知局

本发明涉及自然语言处理领域，尤其涉及一种文本语料扩增方法、装置、电子设备及存储介质。

背景技术：

随着数据的不断积累，计算能力的不断提升，一些人工智能系统也越来越成熟，然而在人工智能系统广泛应用的语音识别、数据挖掘、图像识别、自然语言处理、视频理解领域，大多都是需要基于一定量的数据，在数据规模达到一定规模后，再构建基于深度学习的模型，才能发挥出较好的效果。例如，深度神经网络在许多任务中表现较好，但深度神经网络通常需要大量数据才能避免过拟合。但是，许多场景下，无法获取大量数据，例如医学图像数据。数据的扩增和增强技术即是为了解决这个问题而使用的技术，通过让有限的数据产生更多等价数据来克服用于训练的训练数据的不足。

在语音识别、自然语言处理、机器翻译等领域，尤其是一些特定的场景，常常会遇到数据量不足的问题。因此，文本语料的自动扩增和数据增强方法尤为重要。

目前来说，一方面，数据扩增与增强技术，主要用于图像和视频领域。在图像识别领域，常见的数据扩增包括反转、平移、缩放、亮度变化、颜色变化、模糊、灰度、裁剪、光照等。视频由于主要是采用分帧图像实现的，所以，视频与图像有类似的数据增强处理方法。在语音识别领域，常见的数据扩增方法包括噪声增强、速度音量调整、混合背景音、增加白噪声等。在自然语言处理领域，被验证为有效的数据增强方法相对少得多，常见的方法包括同义词词典、随机插入、随机交换、随机删除、语法树结构替换、加噪、回译技术。图像、语音、文本的数据扩增方法本质上的共同点是相似的，是对不同信号的裁剪、拼接、交换、旋转、拉伸等方式。

另一方面，随着人工智能技术的不断发展，基于深度学习的数据扩增与增强算法也不断应用起来。常用的方法包括特征空间增强、对抗生成网络、无监督数据扩增。采用深度学习模型的方法主要为生成和原数据类似的数据。但在自然语言处理领域，由于自然语言本身是离散的抽象符号，微小的变化就可能会导致含义上的巨大偏差。因此，在自然语言处理领域，基于深度学习的数据增强算法并不常用。而传统的方法，由于生成的数据与真实数据之间的差异，不可避免地带来数据噪声的问题。

传统的数据扩增与增强技术、以及基于深度学习的数据扩增方法，虽然都能一定程度上提高数据容量，但都会受限于原始数据集。原始数据集即具有一定容量的数据，它是数据扩增的基本前提，例如只有一张正面照，那么无论怎么处理，都只能基于正面照形成扩增数据。

当前对于自然语言文本语料的传统的数据扩增方法、以及深度学习的自然生成和对抗网络的方式，引入以下技术问题：第一，这些方式都过度依赖于原始数据集，无法做到粗粒度的扩增。例如，随机删除、随机插入、交换等方式，都是在已有的数据上处理，数据的扩展知识有限、场景领域知识的覆盖度比较局限，无法覆盖到场景领域，而自然语言的生成，往往需要更多、更大的原始语料做模型训练。第二，已有的数据扩增方式，会引入较多的数据噪声，比如随机删除、随机插入、交换等方式，可能导致自然语言的语句不通顺、搭配不当等多种情况。如果将这样扩增生成的自然语言语料应用于词频统计层面，会带来统计误差。再比如，使用基于深度学习的方式扩增语料，会出现概率性的逻辑不当，尤其是使用需要大量数据迭代的深度学习模型时，会引入生成的语言不通顺、搭配不当的噪声或错误。为了减少噪声或脏数据，现有技术中也存在对扩增或增强的数据设置清洗和过滤功能，以减少脏数据或噪声数据的影响。为了解决数据扩增的知识覆盖比较局限的问题，现有技术中也存在采用领域模型关联的方式或者手动写模板，按照语义槽位生成数据的方式。但上述方式引入第三个问题：需要从业人员具有较强的业务经验，对知识库、模型训练、机器学习等技术都有充分的了解，了解系统的整体实现，对人员的水平要求高。

技术实现要素：

本发明实施例提供一种文本语料扩增方法、装置、电子设备及存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种文本语料扩增方法，所述方法包括：

s11、对原始语料数据预处理，得到原始语料数据的分词结果，基于所述原始语料数据的分词结果生成原始语料关键词；

s12、基于所述原始语料关键词、搜索引擎的语法、搜索引擎爬取数据的处理方式，生成搜索策略；

s13、根据所述搜索策略，采集数据；

s14、对采集到的数据分词得到多个文本词条，基于每个文本词条的ppl，过滤所述多个文本词条；

s15、将过滤后保留的文本词条输入领域分类系统，获取新的关键词，将所述新的关键词扩充到所述原始语料关键词中，若未迭代完成，进入s12；否则，方法结束。

第二方面，本发明实施例提供一种文本语料扩增装置，包括：

分词模块，配置为对原始语料数据预处理，得到原始语料数据的分词结果，基于所述原始语料数据的分词结果生成原始语料关键词；

搜索策略生成模块、配置为基于所述原始语料关键词、搜索引擎的语法、搜索引擎爬取数据的处理方式，生成搜索策略；

数据采集模块、配置为根据所述搜索策略，采集数据；

过滤模块、配置为对采集到的数据分词得到多个文本词条，基于每个文本词条的ppl，过滤所述多个文本词条；

关键词扩充模块、配置为将过滤后保留的文本词条输入领域分类系统，获取新的关键词，将所述新的关键词扩充到所述原始语料关键词中。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项文本语料扩增方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项文本语料扩增方法。

本发明实施例的有益效果在于：相对于现有技术，本发明实施例的方法结合分词规范化、搜索引擎、意图理解、爬虫技术、语言模型这几个角度进行处理。能够有效扩增语料、减少噪声、还能够有效地完成数据清洗，扩充场景知识。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的文本语料扩增方法的一种实施例的流程图；

图2a为本发明的文本语料扩增方法的又一实施例的流程图；

图2b为本发明的文本语料扩增方法的又一实施例的搜索策略示意图；

图2c为本发明的文本语料扩增方法的又一实施例的数据清洗示意图；

图3为本发明的文本语料扩增装置的结构示意图；

图4为本发明的电子设备的一种实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语解释：

ppl：perplexity，一种衡量概率分布或概率模型预测未知样本时的性能指标。

如图1所示，本发明的实施例提供一种文本语料扩增方法，所述方法包括：

s11、对原始语料数据预处理，得到原始语料数据的分词结果，基于所述原始语料数据的分词结果生成原始语料关键词；

s12、基于所述原始语料关键词、搜索引擎的语法、搜索引擎爬取数据的处理方式，生成搜索策略；

s13、根据所述搜索策略，采集数据；

s14、对采集到的数据分词得到多个文本词条，基于每个文本词条的ppl，过滤所述多个文本词条；

所述s11、对原始语料数据预处理，得到原始语料数据的分词结果，基于所述原始语料数据的分词结果生成原始语料关键词。

其中，原始语料数据，也叫种子语料。所述预处理包括格式规范化、文本归一化、分词处理。通过对原始语料数据做文本规范化、文本归一化及分词处理，可以将原始语料数据中的特殊标记、特殊符号、非常规字符等清除掉，并将原始语料数据处理成标准的、一行一行的文本词条的形式，这种词条也称为短文本词条。再以词作为粒度，将原始语料数据分词后得到的文本词条按照该粒度进行拆分，使得每行文本词条成为由多个关键词组成的短句，以便于后续依据搜索策略采集数据。

所述s12、基于所述原始语料关键词、搜索引擎的语法、搜索引擎爬取数据的处理方式，生成搜索策略,

其中，不同搜索引擎的语法是存在差别的，例如谷歌和百度，在基于关键字进行搜索时，语法是不同的。并且，不同搜索引擎爬取数据的处理方式、处理逻辑，也存在差别，例如，搜索到多个页面，由页面反馈数据，页面的内容是五花八门的，需要解决如何从反馈的数据中，筛选出与关键词高度相关的数据。本实施例中，经反复实验、对比，发现对搜索引擎查找到的页面，仅提取快照、摘要、相关搜索、标题的信息，提取到的信息与领域场景及搜索条件高度相关，即确定出搜索引擎爬取数据的处理方式。这种搜索引擎爬取数据的处理方式，可以避免获取到的数据冗余、与查询内容不相关。

进而，基于文本词条获取关键词，将若干关键词组合、指定搜索的领域关键词，依据搜索引擎的语法，作为搜索引擎输入框的输入，结合搜索引擎爬取数据的处理方式，生成搜索策略。

可见，本实施例中，搜索策略是基于搜索引擎逻辑、爬取数据逻辑两个层面生成的，搜索引擎逻辑分析并结合搜索引擎的语法，爬取数据逻辑制定搜索引擎爬取数据的处理方式，如图2b所示。

例如，将领域场景设定为金融领域下的催贷场景，现有若干催收用户还款的通话语料，为了对现有语料扩增，可以在将通话语料处理成文本词条后，动态生成搜索策略，即指定搜索的领域关键词为贷款及与贷款相关的关键词，结合文本词条中的关键词、领域关键词，搜索引擎的语法，指定将搜索引擎反馈的页面中的快照、标题、摘要、相关搜索中的内容提取出来。

常用搜索引擎如百度、谷歌的语法结构有所区别，为把搜索范围规定限制在特定的站点，可以使用site。使用中括号、双引号或书名号可以缩小搜索范围，实现精准匹配。

本实施例中，基于文本词条获取的关键词，在浏览器搜索框中，输入关键词，每个关键词使用双引号。由于基于文本词条获取的关键词比较多，为此，生成搜索策略，所述搜索策略为：在搜索框中，制定了个数限制，即单次搜索，搜索框中，从众多关键词中随机取3个关键词自由组合。在浏览器返回的页面中，不同的搜索引擎在机构上也存在差别。本实施例的搜索策略采取了3+3+2原则，即同时触发3个搜索引擎的搜索，取每个搜索引擎返回搜索页面的前3页，在基于每个页面得到的相关搜索文本，添加入搜索框搜索，取返回的2页。每个搜索页面仅获取标题摘要、快照、相关搜索信息，并将获取到的内容存储下来。

所述s13、根据所述搜索策略，采集数据，

其中，根据搜索策略，利用搜索引擎进行搜索，将搜索引擎反馈的页面中的快照、标题、摘要、相关搜索中的内容提取出来并保存。

本实施例中，搜索到的大量的互联网语料与领域场景高度相关，又因为以文本词条相似搜索的方式，能够减少脏数据的生成。

所述s14、对采集到的数据分词得到多个文本词条，基于每个文本词条的ppl，过滤所述多个文本词条，

其中，由于采集的数据量通常很大，依然会存在具有脏数据的情况，因此，需要采取合适的数据清洗方法对数据进行处理。

本实施例中，数据清洗方法如图2c所示。对采集到的数据做文本规范化、分词处理，将采集到的数据处理成文本词条，通过预设的领域模型为每个文本词条打分，测算每个文本词条的ppl，将每个文本词条的ppl与预设阈值比较，基于比较结果，确定过滤文本词条或保留文本词条。

所述预设的领域模型采用的是基于70个小领域的语料训练得到的模型，是一个含有70个小领域的通用领域分类模型，通过该模型可以将语料进行更细粒度的拆分。可以将语料拆分标记为1个到70个领域关键词，用于进一步的深度限定搜索。

所述测算每个文本词条的ppl，采用的是t量级的通用语料数据训练得到的语言模型，基于该语言模型对于搜索语料的文本打分，得出每行文本的ppl。

例如，可以将低于预设阈值的文本词条剔除，仅保留满足预设阈值的文本词条。也可以根据预设阈值的具体指代含义，保留低于预设阈值的文本词条，过滤掉高于或等于预设阈值的文本词条。如前所述的金融领域下的催贷场景，对爬取到的与催贷相关的数据，进行文本规范化处理及分词后，生成文本词条，使用预先准备的金融场景的语言模型对文本词条测算ppl，保留低于预设阈值的文本词条，过滤掉高于或等于预设阈值的文本词条。

保留下来的文本词条对应的数据，基本都满足语句通顺，并且是自然文本。

s15、将过滤后保留的文本词条输入领域分类系统，获取新的关键词，将所述新的关键词扩充到所述原始语料关键词中，若未迭代完成，进入s12；否则，方法结束，

其中，将过滤后保留的文本词条输入分类更细的领域分类系统，基于细领域分类的结果，获取更细粒度的关键词标签，再将所述关键词扩充到原始语料关键词中，即在之前的搜索采集的基础上，进一步增加用于搜索限定的关键词，以达到更高层次的相关搜索。经过不断迭代，将采集到的数据落盘，形成知识库、语料库，可以用于语音识别、自然语言处理、机器翻译等与文本语言知识库相关的任务。

所述领域分类系统采用的是基于70个小领域的丰富语料训练得到的模型，是一个含有70个小领域的通用领域分类模型，通过该模型可以将语料进行更细粒度的拆分。可以将语料拆分标记为1个到70个领域关键词，用于进一步的深度限定搜索。可见，该领域分类系统得到的分类结果更为细致。

又一实施例，在语料扩充后，通过增加自定义模板生成语料的方式，再次扩充语料，对于一些业务场景的特殊要求，增加了用户自定义模板，用户根据需要话术类型，定义模板，扩充语料。可以满足业务层面的特殊要求，自由度更高。

提供用于搜索的关键词，可能是和业务场景强相关的，也可能是众多业务场景交融在一起的。如果是和业务场景强相关的，那么通过关键词扩展即可以获取到强相关的领域语料数据。但如果是众多业务场景交融在一起的，则采集到的数据会有较多的脏数据引入。为此加入了领域分类，对作为种子语料的关键词进行扩展，对扩展后的得到的语料作领域分类，并将基于领域分类的关键词再次做领域关键词限定搜索，以提高业务领域下的语料搜索范围。本实施例中，没有在种子语料上直接作领域分类，因为种子语料通常较少，领域分类体现的效果不会很好。

本实施例的方法，不仅可以通过自身迭代自主扩充数据，而且减少了人为因素的干预，可以有效节省研发人员的精力。在整个生产系统里，每个模块的优化，都会带来整个系统的整体性能提升。若缺少领域限定，获取的语料是杂乱无章的。本实施例的文本语料扩增方法，可以有效地对搜索的范围和条件进行限定，自动获取数据，既节约了数据获取的成本，又提高了效率，能够获取与待扩增的语料高度相关的语料数据，可以将分析方法和技术融入到自动化工具中，快速高效地采集语料。利用语言模型量化过滤，实现数据清洗，避免了人为主观判断与参与，既减少了成本投入，又减少了托的来回往复的搬运，实现了高效自主、迭代优化。

将本实施例的方案扩增的语料与深度学习方法，即利用对抗生成网络迭代训练得到的模型扩增的语料进行对比。深度学习方法训练模型需要依赖大量数据，生成的语料非常有局限性。

将本实施例的方案扩增的语料与同义词林的方式扩增的语料比较，同义词林即对分词后的语料，将一些词条替换为同义词。比如“我爱唱歌”替换为“我喜欢唱歌”，将同义词条扩展的语料与原始数据混合，一同纳入搜索引擎，利用爬虫技术扩展采集。同义词林扩增的语料没有改善，反而增加了整个系统层面的设计复杂度。

通过基于文本词条获取的关键词做自动化扩展，得到更加相关的干净数据。通过对业务领域层面的精准搜索，尽可能的降低脏数据的引入。

本发明的文本语料扩增方法的又一实施例，具体见图2a。

如图3所示，为本发明的另一实施例的文本语料扩增装置，包括：

分词模块，配置为对原始语料数据预处理，得到原始语料数据的分词结果，基于所述原始语料数据的分词结果生成原始语料关键词；

搜索策略生成模块、配置为基于所述原始语料关键词、搜索引擎的语法、搜索引擎爬取数据的处理方式，生成搜索策略；

数据采集模块、配置为根据所述搜索策略，采集数据；

过滤模块、配置为对采集到的数据分词得到多个文本词条，基于每个文本词条的ppl，过滤所述多个文本词条；

关键词扩充模块、配置为将过滤后保留的文本词条输入领域分类系统，获取新的关键词，将所述新的关键词扩充到所述原始语料关键词中。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时能够执行文本语料扩增方法的步骤。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行文本语料扩增方法。

上述本发明实施例的文本语料扩增装置可用于执行本发明实施例的文本语料扩增方法，并相应的达到上述本发明实施例的实现文本语料扩增方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardwareprocessor)来实现相关功能模块。

图4是本申请另一实施例提供的电子设备的硬件结构示意图。如图4所示，该设备包括：

一个或多个处理器410以及存储器420，图4中以一个处理器410为例。

执行文本语料扩增方法的设备还可以包括：输入装置430和输出装置440。

处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器420作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音服务方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例文本语料扩增方法。

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音服务装置的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至语音服务装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可接收输入的数字或字符信息，以及产生与文本语料扩增装置的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的文本语料扩增方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：温亚
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人

上一篇：一种制备乙磺酸尼达尼布的方法与流程
上一篇：一种(Z)-烯烃吲哚化合物及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。