文本数据增强方法及知识元抽取方法与流程

文档序号:22967361发布日期:2020-11-19 21:41阅读:138来源:国知局
文本数据增强方法及知识元抽取方法与流程

本发明涉及自然语言处理的技术领域,具体涉及知识元抽取技术。



背景技术:

随着互联网技术的快速发展,构建工业领域知识库可以更好的应用于领域智能问答以及智能决策,推动工业制造的智能化,而工业生产过程中本身会产生大量的电子文本信息,这些信息被分散在工人的维修诊断表、互联网社区、工厂数据库当中,如果能够将这些非结构化以及半结构化的电子文本信息构建成知识密度极高的知识库,可以大大提高领域知识的利用率。

如何快速高效地对这些文本信息进行加工处理是自然语言处理领域关注的重点,其中特别以命名实体的识别最为关键。领域知识元实体的识别可从结构化以及半结构化的文本数据中抽取出重要的知识单元,这些知识单元通常是在特定领域最具有代表性的词语,在正确识别出实体后,即可进一步完成关系抽取、事件抽取以及知识库的构建。可以看出,命名实体识别效果的好坏直接影响到后续的信息抽取任务。

现有的命名实体识别方法大致分为三类:基于规则和字典的方法、基于统计机器学习的方法和基于深度学习的方法。其中,基于规则和字典的学习方法由于要制定大量的规则和字典,需要庞大的人力标注,同时受限于专业知识的限制,某些领域只有专家才能进行规则和字典的制定,往往识别的成本大,效率低;基于统计机器学习的方法主要包括隐马尔可夫模型、最大熵模型、支持向量机以及条件随机场模型,其识别效果主要依赖于模型所选取的各种特征组合,例如单词的词性特征、位置特征、上下文特征等,需要通过大规模的训练语料来进行实体识别;基于深度学习的实体识别技术是目前最主流的方法,首先使用预先训练好的词向量作为神经网络的输入,然后通过神经网络层对文本进行语义上的提取,将提取的句子特征经过一个全局归一化函数(softmax)层或者条件随机场就可以预测每个单词的标签。虽然深度学习在命名实体识别技术上的识别效果远好于统计机器学习和基于规则的方法,但其模型预测能力及泛化能力的实现需要足够多的高质量标记数据集作为支撑,否则会出现过拟合的情况,很难获得预期的识别准确率,而工业领域往往缺乏足够的标注数据集来优化训练模型的参数。



技术实现要素:

本发明的目的在于提出一种可对文本数据进行增强的方法,其可对来源较少的基础数据产生高效、大量的补充,同时可克服因补充数据与基础数据过于接近带来的模型准确率的问题,显著提升了模型的泛化能力和抽取准确性。

本发明的目的还在于提出一种基于增强后的文本数据,获得准确的知识元抽取的方法。

本发明首先公开了如下的技术方案:

一种文本数据增强方法,其包括自第一补充数据库和第二补充数据库中筛选相似文本的过程,其中所述第一补充数据库源自与基础数据集相近领域的知识库,所述第二补充数据库源自基础数据集中实体词语的同义词。

上述方案中所述实体词语是指的表示实体的词语。

所述基础数据集是指的含有一定文本数据、需要进行数据增强的数据集,优选为完成标注后的数据集。

所述相近领域是指的在产品、功能、工艺过程等方面存在实体词语相同或相似的领域。

如电网电力领域和电子器件领域。其体现如,电网领域的三相变压器在电子器件领域的音箱电子产品中会以环形变压器的名字出现。

或如无机非金属材料内的陶瓷生产领域和耐火材料领域。其体现如,陶瓷生产过程所需要的莫来石原料,在耐火材料中被称作蓝晶石、富铝红柱石或硅线石等。而基于莫来石的一系列莫来石化反应在这两个领域内也存在过程相同,当名称不同的情况。

通过扩充包含这种相近领域内的实体的语料信息一方面可以提高该实体词语的数据量,另一方面也可以提高模型的泛化能力。

这种相近领域的知识库可来自互联网、原料的配方单或者工人操作手册中等。

可以理解的是,第一补充数据库和第二补充数据库中的数据应表现为文本的形式。

在一些具体实施方式中,所述第一补充数据库通过其含有的实体词语经网页爬取获得,且所述第二补充数据库通过其含有的实体词语的同义词经网页爬取获得。

该实施方式中的网页优选为知识性内容较多的网页,如维基百科。

在一些具体实施方式中,所述相似文本通过以下过程判定:

s51:将来自所述第一补充数据库中的短文本与来自第二补充数据库中的短文本进行分词和标注,计算其分离出的实体词语之间的词向量余弦相似度,即实体词语相似度。

s52:计算其分离出的实体词语之外的其他词语之间的词向量余弦相似度,将其中相似度大于阈值的同词性词语配对为重叠词语,计算重叠词语的在词性特征下的加权相似度,即重叠词语相似度。

优选的,s52中所述阈值设置为0.5,即相似度大于0.5的词语为重叠词语。

s53:将所述实体词语相似度与所述重叠词语相似度进行加权平均,得到文本相似度。

对所述第一补充数据库和所述第二补充数据库中的文本进行针对文本相似度的迭代计算,每次迭代中所得文本相似度最大的两个文本为相似文本。

在一些具体实施方式中,所述同义词通过同义词裂变获得,所述同义词裂变包括:自语料中获取与基础数据集中的实体词语具有词向量余弦相似的词语,即该实体词语的同义词。

在一些具体实施方式中,每次裂变的同义词数量设置为1-4,优选为3。

在一些具体实施方式中,所述词向量通过word2vec模型转换获得。

在一些具体实施方式中,所述同义词裂变通过word2vec模型实现。

所用word2vec模型可通过百科、百度、和/或微博语料进行训练。

通过该模型训练好的词向量具有一定的先验知识,同义词具有语义上的相似度,具体表现为余弦距离相近。

本发明进一步公开了一种知识元抽取方法,其通过训练完成的抽取模型实现,所述模型的训练基于通过上述数据增强方法增强后的标注数据集。

在一些具体实施方式中,所述抽取模型为双向长短时记忆网络模型。

在一些具体实施方式中,所述抽取模型包括输入层、词嵌入层、双向lstm层和归一化指数函数层。

在一些具体实施方式中,所述输入层为句子中每个词在词表中的索引,词表由遍历所有的数据获得。

另外为了增强词语的表示信息,在一些具体实施方式中,所述词嵌入层使用预训练的中文词向量,词向量的训练语料优选为中文百科和微博数据,词向量的维度优选为300维。

另外为了增强词语的表示信息,在一些具体实施方式中,将词语的字符嵌入和词嵌入拼接在一起,其中,字符具体指词语中的每个汉字。

优选字符嵌入维随机初始化的100维词向量,并在训练过程中进行更新。

在一些具体实施方式中,所述双向lstm层的隐藏层维数设置为256维,最终将前向lstm和后向lstm拼接在一起得到512维的句子表示。

在一些具体实施方式中,将每个时间步的双向lstm输入到归一化指数函数层即softmax函数,得到一个0-1之间的数值,对应数值最大的标签为该位置的实体标签。

本发明可有效解决工业领域缺乏足够的结构化知识库的问题,通过文本相似度扩充训练数据集,可实现借用相似工业场景的现有知识库及通过同义词对基础数据进行补充的可能,同时,通过对两个来源的数据的筛选和整合,不仅显著增强了数据集的规模,同时有效克服了单一来源实体关联性过强带来的模型泛化能力低的问题,显著提升了模型准确性。

通过本发明的增强方法,对手动爬取的海洋产业新闻文本进行数据增强,其中使用的相近领域知识库为军工产业数据库,可将数据集由原来的1000条扩展为1300条,实体识别效果提升了3%。

附图说明

图1为本发明具体实施方式所述数据增强方法的流程示意图。

图2为本发明实施例1所用抽取模型的结构示意图。

具体实施方式

以下结合实施例和附图对本发明进行详细描述,但需要理解的是,所述实施例和附图仅用于对本发明进行示例性的描述,而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。

通过如附图1所示的流程进行知识元抽取。

具体的,首先进行文本数据增强,即在已存在的文本数据集的基础上进行数据扩充。

其中已存在的文本数据集,即基础数据集可通过对工业生产过程中产生的电子文本,如分散在工人的维修诊断表、互联网社区、工厂数据库当中的电子文本进行收集等方式获得。

本发明的方法在基础数据集中的实体词语的基础上进行,因此,对基础数据集中的样本需进行可识别出其中实体词语的标注,即先获得标注数据集。

基于标注数据集,通过以下过程进行数据增强:

s1选择补充数据来源之一的实体词语库

所述实体词语库可来自与基础数据集具有相似工业领域的现有知识库,应当含有不同实体类型下的多种实体词语,如选择某现有知识库,其在实体类型1,实体类型2,……实体类型k下分别包括实体词语10、实体词语11、……实体词语1n,实体词语20、实体词语21、……实体词语2m,实体词语k1、实体词语k2、……实体词语kl。所述实体词语库即为第一补充数据源。

s2选择标注数据集中待扩充实体词语

所述标注数据集为短文本的集合,其中每个文本中的非实体词语可标注为0,实体词语可标注为yn,其中n表示该实体词语所属的实体类型。

s1及s2中所述实体类型可根据情况不同进行确定或调整,如进行通用场景实体识别时,实体类型可分为时间、地点、人物、组织等,标注数据集样本较少时,可根据应用领域进一步微调。

选择标注数据集中待扩充的实体词语。

s3将所述待扩充实体词语进行词向量转换

所述转换可通过google在2013年提出的word2vec模型实现。

该模型在海量数据集上进行了大规模的预训练,可以快速有效的将一个词语表达成向量形式,并具有良好的词语聚类等功能。

经过word2vec模型的词嵌入操作获得的词向量可理解为一种分布式的低维稠密实数向量,其中,代表相近语义的词向量间彼此的余弦距离更加接近,通过词向量的比较可以计算出词语之间的相似度,

s3将所述待扩充实体词语进行同义词裂变

同义词裂变可通过word2vec模型的直接粗略的计算实现,生成多个与实体词相似的同义词,这些同义词组成的同义词库即第二补充数据源。

在同义词裂变过程中,每次裂变的同义词数目不能设置过大,否则会使实体词语之间的关联性消失,使裂变出来的词语失去和原有实体词语语义上的相关性。

其中,word2vec模型来自256g的百科、百度和微博语料的共同训练。

相似度阈值可设置为0.5,即通过word2vec模型对不同词向量的余弦相似度进行计算,当其大于0.5时,认为这些词语为相似词语。

在每次裂变中,优选取相似度最高的前3个相似词语。

经过同义词裂变获得的词语和原实体词语(即所述待扩充实体词语)常具有较强的关联性,将其作为补充数据源直接送入模型中进行训练会降低模型的泛化效果。

因此,本发明在获得同义词后,对产生自不同补充数据源的备选补充数据进一步进行了筛选,得到了更好的数据补充效果,并显著提升了模型的泛化能力,具体过程如下:

s4获得备选补充数据

其可进一步包括:

s41选择第二补充数据源中的一个实体词语,及第一补充数据源中的分属k个实体类型的k个实体词语,分别以单独的实体词语为基准进行网页文本爬取,所述网页优选为知识性内容较多的网页,如维基百科,爬取内容格式设定为短文本,所得短文本根据爬取的实体词语的来源分别组成第二补充数据库和第一补充数据库。

为了减少文本的噪声,增加识别效果,爬取的短文本的长度可根据待训练领域进行适当微调。

s42将第一补充数据库和第二补充数据库内的短文本分别进行分词、去除停用词和词性标注,减少文本噪声影响,该过程可通过如哈工大的ltp中文自然语言处理工具包实现,该工具包具有分词、词性标注、依存句法分析等功能。

s43:将第一补充数据库及第二补充数据库中的全部文本中出现过的词语存储至词表中,建立词表索引,并通过预训练的word2vec将词表中的每个词语转换为对应的词向量。

s5自所述备选补充数据中获得扩充数据,并加入标注数据集中

具体的,通过第一补充数据库对应的词表中的词向量与第二补充数据库对应的词表中的词向量计算其相互间的文本相似度,保留第一补充数据库与第二补充数据库中文本相似度最大的一些文本,将其加入标注数据集,使标注数据集得到扩充。

其中,文本相似度的计算可通过:

s51:将来自第一补充数据库中的短文本a与来自第二补充数据库中的短文本b进行实体词语分离,该过程也可通过直接从预训练的词向量中找到与实体词语对应的向量矩阵实现。其后计算分离出的实体词语的词向量余弦相似度,如下:

其中,ak表示短文本a中第k个备选实体词语,b表示源自裂变的同义词库的短文本b中的实体词语,t表示维度。

s52:将a、b文本中除实体词语之外的所有词提取出来,该过程可通过前述ltp工具包的分词工具实现。其后通过式(1)分别计算实体之外的其他所有词语的词向量余弦相似度,将其中相似度大于阈值的相同词性词语配对作为重叠词语列表,然后对其进行词性标注加权计算,该部分的词语相似度计算公式如下:

其中,w是表示两个文本中提取的重叠词语列表,m、n表示两个文本的长度,ai和bi表示两个文本进行余弦相似度计算之后得到的相同词性的关键词,pt.w表示词性标注加权值。

为了减少不相关词语对a、b文本相似度分数产生的影响,词语之间余弦相似度低于某个阈值的词语将不被计算加权分数。

步骤s52中的相似度阈值可设置为0.5。

s53:将通过s51得到的实体词语相似度与通过s52得到的重叠词语相似度分数进行加权平均,如下:

即为文本相似度。

通过迭代计算,具体可如:

固定第二补充数据库中的一个短文本,变换第一补充数据库中的不同短文本,依次进行文本相似度计算,保留其中相似度分数最大的文本。

再固定第二补充数据库中的另一个短文本,变换第一补充数据库中的不同短文本,依次进行文本相似度计算,保留其中相似度分数最大的文本。

以此类推。

将其中文本相似度分数最大的第一补充数据库文本和第二补充数据库文本归为同一类标注数据集,将它们全部添加到所述标注数据集中。

s6模型训练

在完成上述文本数据增强后,基于扩充的数据集建立训练模型如下:

s61

将扩充后的数据集输送至双向长短时记忆网络(bilstm)模型中,提取短文本的语义信息。

lstm是循环神经网络rnn的一个改进版本,可有效解决rnn在训练过程中由于序列长度所引起的信息缺失问题,可以提取输入序列的文本数据特征以及每个单词之间隐式的关联。

具体的,所述bilstm模型可包括输入层、词嵌入层、双向lstm层和归一化指数函数层。

其中,输入层为句子中每个词在词表中的索引,词表由遍历所有的数据获得。词嵌入层使用预训练的中文词向量,词向量的训练语料为中文百科和微博数据,词向量的维度为300维。在输入层之后,将词语的字符嵌入和词嵌入拼接在一起,其中字符嵌入由模型随机初始化得到,并在训练过程中进行更新。拼接后的向量矩阵作为词语的最终输入表示。字符嵌入维随机初始化的100维词向量,并在训练过程中进行更新。双向lstm层的隐藏层维数设置为256维,将前向lstm和后向lstm拼接在一起可得到512维的句子表示。每个时间步的双向lstm输入到归一化指数函数层后可得到一个0-1之间的数值,对应数值最大的标签即为该位置的实体标签。

其中双向lstm网络层包括遗忘门、记忆门和输出门三个控制开关,信息流之间通过控制开关得到处理。

具体的,其包括:

遗忘门控制:

遗忘门可对传入的信息结合当前输入进行选择性忘记,即忘记不重要的信息,留下重要的信息。其通过下式实现:

ft=σ(wf·[ht-1,xt]+bf),

其中,wf表示上一个时间步的隐藏状态,xt表示当前状态的输入,bf表示偏置矩阵。

记忆门控制:

记忆门可将当前时间步的输入xt中的信息有选择性的进行保留,即记忆当前输入中重要的信息,丢弃不重要的信息。其通过下式实现:

it=σ(wi·[ht-1,xt]+bi)

其中,wi,bi表示需要学习的权重参数,表示当前时间步的临时单元状态,用于更新当前的单元状态。

输出门控制:

输出门可决定当前时间步之前的信息有哪些被输出,其首先计算出当前时间步的单元状态,其后获得上一个时间步的单元状态和当前时间步的遗忘门ft乘积与当前时间步记忆门it与临时单元状态乘积的和,即当前时间步的单元状态ct,并在过程中不断调整,如下:

ot=σ(wo[ht-1,xt]+bo),

其中,wo,bo表示需要学习的权重参数。

上述过程中,当前步的隐藏状态计算如下:

ht=ot*tanh(ct)。

将经过双向lstm网络获得的每个单词的前向隐藏状态和后项隐藏状态拼接起来作为归一化指数函数层(softmax)的输入,经过softmax后,可对输入的短文本进行序列预测,输出对应位置的标签,即得到与输入序列对应的每个单词的标签,若单词是实体则输出实体类型,如果不是实体则输出0。

s7知识元抽取

通过经s6训练完成后的模型进行知识元抽取。

实施例1

基于以下进行过标注的数据集进行数据扩充:

表1:训练数据样例

从上述样本中选出实体词“变压器”,通过word2vec工具将其转化为词向量。

通过预训练的词向量找到与实体词语相对应的向量矩阵,并通过哈工大ltp工具利用余弦相似度算法获得词向量的相似词语,实现对实体词“变压器”的词裂变,其中相似度大于0.5的认定为同义词,每次裂变设置获得的同义词数量为3,在其中的一次裂变中,可获得如下的一些同义词:“三相变压器”、“变压器线圈”“油浸式变压器”。

选择电子器件数据库作为第三方实体库,在其中实体类型为“设备”的类型下,依次选择其中的实体词语“环形变压器”、“电压互感器”和“热继电器”作为备选词。

以同义词“三相变压器”和备选词“环形变压器”、“电压互感器”、“热继电器”为基准分别爬取维基百科网页,获得如下的一些短文本内容:

“我国电力供给系统大多采用三相电变压器来控制远距离传输过程中电压的变化需求,但是经常因为三相负荷的不对称导致三相变压器发生故障。”

“索尼公司采用最先进环形变压器来处理不同波频的音源,以防止出现不可预知的故障。”

“为了节约电压互感器的成本,因此通过一次、二次侧绕组将一次侧的的电压等级降下来,就可以实现强弱电的转换。”

“如果电器在使用过程中频繁更改启动状态,那么一般选用功率较大的热继电器,否则就容易引发故障。”

将爬取获得的短文本内容通过哈工大ltp工具包进行如下的词处理:分词、根据分词情况去除停用词、词性标注,将获得的全部词语存储至词表中,建立索引,如下:

[我国电力供给系统大多采用三相电变压器来控制远距离传输过程中电压的变化需求,但是经常因为三相负荷的不对称导致三相变压器发生故障。]

[index1,index2,……,indexn]

[索尼公司采用最先进环形变压器来处理不同波频的音源,以防止出现不可预知的故障]

[index1,index2,……,indexn]

如果电器在使用过程中频繁更改启动状态,那么一般选用功率较大的热继电器,否则就容易引发故障。

[index1,index2,……,indexn]

……。

将词表中的全部词语通过预训练后的word2vec对应地转换为词向量。

将通过同义词“三相变压器”爬取获得的文本与通过备选词“环形变压器”、“电压互感器”、“热继电器”爬取获得的文本进行文本相似度计算,保留相似度最大的文本,如:

“索尼公司采用最先进环形变压器来处理不同波频的音源,以防止出现不可预知的故障。”和“如果电器在使用过程中频繁更改启动状态,那么一般选用功率较大的热继电器,否则就容易引发故障。”

将其标注形式作为补充样本加入标注样本中,得到扩充后的数据集。

类似的,其后以同义词“变压器线圈”和备选词“特斯拉线圈”、“电感线圈”、“接触器线圈”进行处理,得到补充样本:

“变压器线圈对绕组的绝缘性能有很高的要求,最重要的一点就是有足够的电气强度”和“电感线圈的原理是电磁感应,对通过线圈的信号频率需要满足一定的要求,简称“通低频,阻高频”。”

类似地,依次完成全部同义词与全部备选词的爬取,通过上述迭代过程,共获得如以下的一些补充样本:

“我国电力供给系统大多采用三相电变压器来控制远距离传输过程中电压的变化需求,但是经常因为三相负荷的不对称导致三相变压器发生故障。”

“索尼公司采用最先进环形变压器来处理不同波频的音源,以防止出现不可预知的故障。”

“如果电器在使用过程中频繁更改启动状态,那么一般选用功率较大的热继电器,否则就容易引发故障。”

“变压器线圈对绕组的绝缘性能有很高的要求,最重要的一点就是有足够的电气强度。”

“电感线圈的原理是电磁感应,对通过线圈的信号频率需要满足一定的要求,简称“通低频,阻高频”。”

将包括原文本“夏天就快要到了变压器在高温的情况下会发生故障”及补充词语在内的扩充数据集输入如附图2所示的bilstm模型中进行训练,当输入原文本后,模型输出中将实体变压器标注为yn,其他词语标注为0,如表2,与实际情况相符。

表2:预测输出样例

向完成训练后的模型中输入“夏天就快要到了,变压器在高温的情况下会发生故障”,得到结果为0000yn00000000,其中yn在为实体类型定义”设备”,说明本发明的知识元抽取方法准确、有效。

进一步地,使用具体实施方式的过程对手动爬取的海洋产业新闻文本进行数据增强,并选择军工产业数据库为第三方实体库,结果显示,其可将数据集由原来的1000条扩展为1300条,使模型的实体识别效果提升了3%。

以上实施例仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下的改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1