数据挖掘方法、装置、电子设备和计算机可读存储介质与流程

文档序号:37365626发布日期:2024-03-22 10:18阅读:8来源:国知局
数据挖掘方法、装置、电子设备和计算机可读存储介质与流程

本申请涉及数据挖掘,具体涉及一种数据挖掘方法、装置、电子设备和计算机可读存储介质。


背景技术:

1、目前,神经网络模型在生活中的应用越来越广泛,为训练得到一个神经网络模型,需通过数据挖掘的方法来挖掘出训练神经网络模型所需的相关样本数据,例如,在文本中挖掘出多个实体作为样本数据,但由于文本中并没有结构化的提供实体信息,所以无法准确识别文本中的不同实体间是否存在关系,对此,一般只能通过人工标注的方式来标注不同实体间的关系,从而导致在模型训练时需花费较大的人力资源用于挖掘数据。


技术实现思路

1、本申请实施例提供一种数据挖掘方法、装置、电子设备和计算机可读存储介质,可以减少在模型训练时挖掘数据所花费的人力资源。

2、第一方面,本申请实施例提供一种数据挖掘方法,上述方法包括:

3、获取待挖掘的文本信息,提取上述文本信息中的多个实体,并召回每个上述实体对应的候选实体;

4、基于多个上述实体对应的候选实体,从多个上述实体中确定出存在实体关系的至少一组正例实体,其中,每一组中各正例实体和正例实体对应的候选实体相互匹配;

5、从除上述正例实体之外的实体中,选取不存在实体关系的至少一组负例实体;

6、基于至少一组上述正例实体和至少一组上述负例实体得到样本数据集,根据上述样本数据集训练预设的实体关系模型,其中,上述实体关系模型用于识别输入到模型中的两个实体间的实体关系。

7、第二方面,本申请实施例还提供一种数据挖掘装置,上述装置包括:

8、信息获取模块,用于获取待挖掘的文本信息,提取上述文本信息中的多个实体,并召回每个上述实体对应的候选实体;

9、实体确定模块,用于基于多个上述实体对应的候选实体,从多个上述实体中确定出存在实体关系的至少一组正例实体,其中,每一组中各正例实体和正例实体对应的候选实体相互匹配;

10、实体选取模块,用于从除上述正例实体之外的实体中,选取不存在实体关系的至少一组负例实体;

11、模型训练模块,用于基于至少一组上述正例实体和至少一组上述负例实体得到样本数据集,根据上述样本数据集训练预设的实体关系模型,其中,上述实体关系模型用于识别输入到模型中的两个实体间的实体关系。

12、第三方面,本申请实施例还提供一种电子设备,包括存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本申请实施例所提供的任一种数据挖掘方法中的步骤。

13、第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种数据挖掘方法中的步骤。

14、本申请实施例中获取待挖掘的文本信息,提取上述文本信息中的多个实体,并召回每个上述实体对应的候选实体;基于多个上述实体对应的候选实体,从多个上述实体中确定出存在实体关系的至少一组正例实体,其中,每一组中各正例实体和正例实体对应的候选实体相互匹配;从除上述正例实体之外的实体中,选取不存在实体关系的至少一组负例实体;基于至少一组上述正例实体和至少一组上述负例实体得到样本数据集,根据上述样本数据集训练预设的实体关系模型,其中,上述实体关系模型用于识别输入到模型中的两个实体间的实体关系,从而通过文本中的实体对应的候选实体,挖掘出文本中存在实体关系的至少一组正例实体,还可以挖掘不存在实体关系的至少一组负例数据,以减少在模型训练时挖掘数据所花费的人力资源。



技术特征:

1.一种数据挖掘方法,其特征在于,所述方法包括:

2.如权利要求1所述的数据挖掘方法,其特征在于,在提取所述文本信息中的多个实体之前,还包括:

3.如权利要求1所述的数据挖掘方法,其特征在于,所述基于至少一组所述正例实体和至少一组所述负例实体得到样本数据集,包括:

4.如权利要求3所述的数据挖掘方法,其特征在于,所述基于每个测试样本对应的样本标签,以及每个测试样本在至少一个关系类别下的概率值,对所述测试数据集中的测试样本进行样本筛选,得到筛选后的测试数据集,包括:

5.如权利要求1所述的数据挖掘方法,其特征在于,所述基于多个所述实体对应的候选实体,从多个所述实体中确定出存在实体关系的至少一组正例实体,包括:

6.如权利要求1至5任一项所述的数据挖掘方法,其特征在于,所述从除所述正例实体之外的实体中,选取不存在实体关系的至少一组负例实体,包括:

7.如权利要求1至5任一项所述的数据挖掘方法,其特征在于,所述从除所述正例实体之外的实体中,选取不存在实体关系的至少一组负例实体,包括:

8.一种数据挖掘装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1至7任一项所述的数据挖掘方法中的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的数据挖掘方法中的步骤。


技术总结
本申请公开了一种数据挖掘方法、装置、电子设备和计算机可读存储介质,本申请实施例通过获取待挖掘的文本信息,提取文本信息中的多个实体,并召回每个实体对应的候选实体;基于多个实体对应的候选实体,从多个上述实体中确定出存在实体关系的至少一组正例实体,其中,每一组中各正例实体和正例实体对应的候选实体相互匹配;从除上述正例实体之外的实体中,选取不存在实体关系的至少一组负例实体;基于至少一组上述正例实体和至少一组上述负例实体得到样本数据集,根据上述样本数据集训练预设的实体关系模型,其中,上述实体关系模型用于识别输入到模型中的两个实体间的实体关系。本申请实施例可以减少在模型训练时挖掘数据所花费的人力资源。

技术研发人员:李浩
受保护的技术使用者:小红书科技有限公司
技术研发日:
技术公布日:2024/3/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1