一种基于深度学习的无监督地质实体提取方法与流程

文档序号:19156120发布日期:2019-11-16 00:48阅读:637来源:国知局
一种基于深度学习的无监督地质实体提取方法与流程

本发明涉及地质实体提取方法技术领域,具体为一种基于深度学习的无监督地质实体提取方法。



背景技术:

地质调查过程中积累了大量的成果资料,这些成果资料中不仅包含着普通的结构化数据和地理空间数据,同时还存在着规模巨大的基于文本表达的非结构化数据,在这些非结构化数据中,蕴含着丰富的地质领域信息和知识。地质成果报告及相关研究论文往往工作成本比较高,在该类文本中蕴含有丰富的领域知识,对这些知识进行精确的提取并构建合适的表示模型很有必要,从地质文本中识别、提取出有意义的各类地质命名实体并根据实体的类型和固有的关系构建关联网络是一种重要的信息提取方法,也是扩展现有知识库的重要途径。地质实体的识别与标注工作是地质知识的抽取任务的重要组成部分。在此背景下,如何有效地从大量的非结构化地质文本中提取有价值的实体成为一个亟需解决的问题。

早期的命名实体任务大多数都是基于规则的方法,但是这一类方法本身具有很强的局限性,需要事先定义大量的人工设定的规则,因此,大家开始逐渐转向基于统计的方法。目前主流的命名实体提取研究方法都是采用基于统计的方法,这种方法一般需要使用大量的人工标注预料来训练模型,然后利用训练好的模型来完成相关的任务。因此,基于统计的方法往往需要搜集大量人工标注的数据。然而,大规模的人工标注语料库需要花费很大的人力物力,导致现有的命名实体方法很难扩展到其他领域,很难在大范围内得到推广。

因此,针对专业领域语料标注不易获取的现象,如何最大限度的利用已有资源来提升模型在特定领域中实体识别的性能,具有很强的研究及利用价值。



技术实现要素:

本发明的目的在于提供一种基于深度学习的无监督地质实体提取方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于深度学习的无监督地质实体提取方法,其特征在于,该方法首先利用搜集的通用领域的词汇及词频和专业领域实体及词频信息采用随机抽取算法自动化构建训练语料库,然后将训练语料库输入到深度学习网络模型中得到训练模型。

优选的,该方法具体包括:

1)统计通用领域词汇及词频,从专业词典、地质报告中搜集专业领域实体及词频信息;

2)通过取整函数,对步骤1)中获取的词汇及词频信息进行向下取整操作;

3)对步骤2)中的所有词汇(包括通用领域及专业领域)按照词频信息进行分组;

4)计算步骤3)中每一组词汇在整个的词汇集合中占据的比例信息,具体方式为:其中f代表每一个分组中的词频,将整个比例信息作为后期的抽取概率;

5)根据步骤4)中获取的词汇集合采用随机抽取算法从通用领域集合和专业领域集合中随机抽取词汇进行组合,将组合形成的伪“句子”输入到深度学习模型中;

6)对步骤5)中的伪“句子”训练设定优化目标,其形式为:smax=argmaxθ1θ2...θn;

7)根据步骤6)设置的优化目标,选择smax最大的作为一条训练记录,根据设置的收敛条件得到所有的训练样本;

8)根据步骤7)中获取的训练样本,输入到深度学习网络模型中进行训练,得到训练模型。

优选的,步骤2)采用取整函数对所有词频信息进行预处理,能够加快算法的训练集收敛速度,提高算法效率。

优选的,步骤3)通过采用分组的方法将所有的词汇进行分类,然后计算每一组词频在整个词汇集合中的比例,可以提高训练效率。

优选的,步骤6)中是基于大数定律和一元文法模型(统计自然语言模型)来随机组合及挑选形成新的“句子”。

本发明提供了一种基于深度学习的无监督地质实体提取方法,具备以下有益效果:

1.不需要采用人工方式标注大量的训练语料库,节省大量人力和物力;

2、本发明采用深度学习模型来训练新生成的伪“句子”,能够通过微调手段直接扩展到其他专业领域。

附图说明

图1为本发明一种基于深度学习的无监督地质实体提取方法流程示意图;

图2为本发明一种基于深度学习的无监督地质实体提取方法的伪句子生成示意图;

图3为本发明一种基于深度学习的无监督地质实体提取方法的bilstm-crf网络模型示意图;

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1-3,本发明提供一种技术方案:一种基于深度学习的无监督地质实体提取方法,具体包括以下步骤:

1)统计通用领域词汇及词频,从专业词典、地质报告中搜集专业领域实体及词频信息;

2)通过取整函数,对步骤1)中获取的词汇及词频信息进行向下取整操作;

3)对步骤2)中的所有词汇(包括通用领域及专业领域)按照词频信息进行分组;

4)根据步骤3)中获取的词汇集合采用随机抽取算法从通用领域集合和专业领域集合中随机抽取词汇进行组合,将组合形成的伪“句子”输入到深度学习模型中;

5)根据设置的优化目标,选择形成的句子作为训练数据集,根据设置的收敛条件得到所有的训练样本;

6)根据步骤5)中获取的训练样本,输入到深度学习网络模型中进行训练,得到训练模型。

步骤1)中选取训练词汇的具体要求是:从人民日报、微信语料库、搜狗语料库中统计通用领域词汇及相关词频,再分别从专业词典、专业网站、地质报告、地质本体中统计实体及词频信息,尽可能确保足够的词汇训练集。

步骤2)中对词频信息进行取整是为了加快词汇抽取的效率及速度,通过取整方便进行下一步的按词频分组。

步骤3)中所述的随机抽取组合算法优化目标具体为:

smax=argmaxθ1θ2...θn,其中smax代表组成伪“句子”的概率,其中θ代表对应的词汇抽取的概率;

所述的抽取概率计算公式为:其中f代表每一个分组中的词频。

步骤6)中所述深度学习模型训练具体步骤为:

61)预处理。对语料进行处理,使模型更好地学习数据的内部结构信息。

62)分布式表示学习。将一个词表示成词级别、字符级别和词典特征的分布式表示。词向量需要通过word2vec进行预训练,词典向量的生成需要借助相应实体类型的词典。

63)训练bilstm-crf模型。获取训练后得到的参数信息。

64)后处理。对bilstm-crf分类器预测的分类结果进行微调,进一步提升预测性能。

以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1