一种基于深度学习的无监督地质实体提取方法与流程

文档序号:19156120发布日期:2019-11-16 00:48阅读:来源:国知局

技术特征:

1.一种基于深度学习的无监督地质实体提取方法,其特征在于,该方法首先利用搜集的通用领域的词汇及词频和专业领域实体及词频信息采用随机抽取算法自动化构建训练语料库,然后将训练语料库输入到深度学习网络模型中得到训练模型。

2.根据权利要求1所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,该方法具体包括:

1)统计通用领域词汇及词频,从专业词典、地质报告中搜集专业领域实体及词频信息;

2)通过取整函数,对步骤1)中获取的词汇及词频信息进行向下取整操作;

3)对步骤2)中的所有词汇(包括通用领域及专业领域)按照词频信息进行分组;

4)计算步骤3)中每一组词汇在整个的词汇集合中占据的比例信息,具体方式为:其中f代表每一个分组中的词频,将整个比例信息作为后期的抽取概率;

5)根据步骤4)中获取的词汇集合采用随机抽取算法从通用领域集合和专业领域集合中随机抽取词汇进行组合,将组合形成的伪“句子”输入到深度学习模型中;

6)对步骤5)中的伪“句子”训练设定优化目标,其形式为:smax=argmaxθ1θ2...θn;

7)根据步骤6)设置的优化目标,选择smax最大的作为一条训练记录,根据设置的收敛条件得到所有的训练样本;

8)根据步骤7)中获取的训练样本,输入到深度学习网络模型中进行训练,得到训练模型。

3.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,步骤2)采用取整函数对所有词频信息进行预处理,能够加快算法的训练集收敛速度,提高算法效率。

4.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,步骤3)通过采用分组的方法将所有的词汇进行分类,然后计算每一组词频在整个词汇集合中的比例,可以提高训练效率。

5.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,步骤6)中是基于大数定律和一元文法模型(统计自然语言模型)来随机组合及挑选形成新的“句子”。


技术总结
本发明公开了一种基于深度学习的无监督地质实体提取方法,该模型通过搜集专业领域词汇及词频信息和地质领域实体及词频信息,采用随机抽取及组合的方法利用深度学习模型自动化生成训练语料库;其次,针对自动化构建的语料库采用深度学习模型进行训练;最后通过训练得到的模型来对新输入的地质实体进行识别。与现有技术相比,本发明算法无需人工标注大量的专业领域语料库,能快速扩展到其他专业领域,节省大量人工标注成本。

技术研发人员:邱芹军;谢忠;吴亮;陶留峰
受保护的技术使用者:中国地质大学(武汉)
技术研发日:2019.07.11
技术公布日:2019.11.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1