1.一种基于深度学习的无监督地质实体提取方法,其特征在于,该方法首先利用搜集的通用领域的词汇及词频和专业领域实体及词频信息采用随机抽取算法自动化构建训练语料库,然后将训练语料库输入到深度学习网络模型中得到训练模型。
2.根据权利要求1所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,该方法具体包括:
1)统计通用领域词汇及词频,从专业词典、地质报告中搜集专业领域实体及词频信息;
2)通过取整函数,对步骤1)中获取的词汇及词频信息进行向下取整操作;
3)对步骤2)中的所有词汇(包括通用领域及专业领域)按照词频信息进行分组;
4)计算步骤3)中每一组词汇在整个的词汇集合中占据的比例信息,具体方式为:
5)根据步骤4)中获取的词汇集合采用随机抽取算法从通用领域集合和专业领域集合中随机抽取词汇进行组合,将组合形成的伪“句子”输入到深度学习模型中;
6)对步骤5)中的伪“句子”训练设定优化目标,其形式为:smax=argmaxθ1θ2...θn;
7)根据步骤6)设置的优化目标,选择smax最大的作为一条训练记录,根据设置的收敛条件得到所有的训练样本;
8)根据步骤7)中获取的训练样本,输入到深度学习网络模型中进行训练,得到训练模型。
3.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,步骤2)采用取整函数对所有词频信息进行预处理,能够加快算法的训练集收敛速度,提高算法效率。
4.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,步骤3)通过采用分组的方法将所有的词汇进行分类,然后计算每一组词频在整个词汇集合中的比例,可以提高训练效率。
5.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,步骤6)中是基于大数定律和一元文法模型(统计自然语言模型)来随机组合及挑选形成新的“句子”。