本发明涉及人工智能,尤其涉及一种实体关系数据的降噪方法、装置、设备及存储介质。
背景技术:
1、目前关系分类模型为实体关系分类过程中常用的手段,该技术的思想是从自然语言文本中找到文本中实体对的关系,但目前实体关系分类的问题在于使用原始数据作为样本获取到的训练数据含有大量噪声,并非所有匹配到的句子都能表示两实体在之间的关系,如何挖掘对低噪声数据进行挖掘,得到去噪语料成为一个亟待解决的问题。
2、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供一种实体关系数据的降噪方法、装置、设备及存储介质,旨在解决现有技术原始语料样本噪声过大的技术问题。
2、为实现上述目的,本发明提供了一种实体关系数据的降噪方法,所述方法包括以下步骤:
3、查找与待处理自然语言文本信息对应的实体关系信息;
4、根据所述自然语言文本信息和实体关系信息确定实体关系样本和待降噪实体关系数据,所述实体关系样本用于为预设初始降噪模型进行训练并得到预设降噪模型;
5、通过预设降噪模型对所述待降噪实体关系数据进行降噪处理。
6、可选的,所述查找与待处理自然语言文本信息对应的实体关系信息,包括:
7、对待处理自然语言文本信息进行关键词解析,得到词条信息;
8、根据所述词条信息查询预设实体对数据集,得到实体关系信息。
9、可选的,所述根据所述词条信息查询预设实体对数据集,得到实体关系信息,包括:
10、根据所述词条信息匹配预设实体对数据集,得到第一实体对数据集,所述第一实体对数据集中的第一实体词条为词条信息中包含的词条;
11、根据所述词条信息匹配第一实体对数据集,得到第二实体对数据集,所述第二实体对数据集中的第二实体词条为词条信息中包含的词条;
12、根据所述第二实体对数据集确定对应的实体关系;
13、根据所述第二实体对数据集和实体关系确定实体关系信息。
14、可选的,所述根据所述自然语言文本信息和实体关系信息确定实体关系样本和待降噪实体关系数据,包括:
15、根据自然语言文本信息和实体关系信息确定待标注实体关系数据集和待降噪实体关系数据;
16、根据所述实体关系信息对待标注实体关系数据集进行标注,得到对应的标签信息;
17、根据所述标签信息生成实体关系样本。
18、可选的,所述根据所述实体关系信息对待标注实体关系数据集进行标注,得到对应的标签信息,包括:
19、根据所述实体关系信息确定对应的自然语言文本信息中是否包含实体关系;
20、在所述自然语言文本包含实体关系时,对所述自然语言文本信息进行标注,得到正样本标签;
21、在所述自然语言文本未包含实体关系时,对所述自然语言文本信息进行标注,得到负样本标签;
22、根据所述正样本标签和负样本标签生成标签信息。
23、可选的,所述在所述自然语言文本包含实体关系时,对所述自然语言文本进行标注,得到正样本标签,包括:
24、在所述自然语言文本包含实体关系时,确定所述自然语文本信息中所包含实体关系的数量;
25、在所述自然语文本信息中所包含实体关系的数量不为一时,根据所述实体关系的数量生成多个正样本标签。
26、可选的,所述通过预设降噪模型对所述待降噪实体关系数据进行降噪处理之前,还包括:
27、获取初始数据降噪模型;
28、根据所述实体关系样本对所述初始数据降噪模型进行训练,得到预设降噪模型。
29、可选的,所述通过预设降噪模型对所述待降噪实体关系数据进行降噪处理,包括:
30、将所述待降噪实体关系数据输入预设降噪模型,得到对应的判定结果,所述待降噪实体关系数据中包含多个文本包;
31、在所述文本包对应的判定结果为文本包中所有自然语言文本均为无实体关系文本时,判定所述文本包为噪声数据;
32、根据所述噪声数据完成待降噪实体关系数据的降噪。
33、可选的,所述将所述待降噪实体关系数据输入预设降噪模型,得到对应的判定结果之后,包括:
34、在所述文本包对应的判定结果为文本包关系权重小于预设权重阈值时,判定所述文本包围噪声数据。
35、可选的,所述查找与待处理自然语言文本信息对应的实体关系信息,包括:
36、获取原始自然语言本文数据;
37、根据所述预设字符串模版集对所述原始自然语言本文数据进行筛选,得到待处理自然语言文本信息。
38、此外,为实现上述目的,本发明还提出一种实体关系数据的降噪装置,所述实体关系数据的降噪装置包括:
39、获取模块,用于查找与待处理自然语言文本信息对应的实体关系信息;
40、处理模块,用于根据所述自然语言文本信息和实体关系信息确定实体关系样本和待降噪实体关系数据,所述实体关系样本用于为预设初始降噪模型进行训练并得到预设降噪模型;
41、控制模块,用于通过预设降噪模型对所述待降噪实体关系数据进行降噪处理。
42、可选的,所述获取模块,还用于对待处理自然语言文本信息进行关键词解析,得到词条信息;
43、根据所述词条信息查询预设实体对数据集,得到实体关系信息。
44、可选的,所述获取模块,还用于根据所述词条信息匹配预设实体对数据集,得到第一实体对数据集,所述第一实体对数据集中的第一实体词条为词条信息中包含的词条;
45、根据所述词条信息匹配第一实体对数据集,得到第二实体对数据集,所述第二实体对数据集中的第二实体词条为词条信息中包含的词条;
46、根据所述第二实体对数据集确定对应的实体关系;
47、根据所述第二实体对数据集和实体关系确定实体关系信息。
48、可选的,所述处理模块,还用于根据自然语言文本信息和实体关系信息确定待标注实体关系数据集和待降噪实体关系数据;
49、根据所述实体关系信息对待标注实体关系数据集进行标注,得到对应的标签信息;
50、根据所述标签信息生成实体关系样本。
51、可选的,所述处理模块,还用于根据所述实体关系信息确定对应的自然语言文本信息中是否包含实体关系;
52、在所述自然语言文本包含实体关系时,对所述自然语言文本信息进行标注,得到正样本标签;
53、在所述自然语言文本未包含实体关系时,对所述自然语言文本信息进行标注,得到负样本标签;
54、根据所述正样本标签和负样本标签生成标签信息。
55、可选的,所述处理模块,还用于在所述自然语言文本包含实体关系时,确定所述自然语文本信息中所包含实体关系的数量;
56、在所述自然语文本信息中所包含实体关系的数量不为一时,根据所述实体关系的数量生成多个正样本标签。
57、可选的,所述处理模块,还用于获取初始数据降噪模型;
58、根据所述实体关系样本对所述初始数据降噪模型进行训练,得到预设降噪模型。
59、可选的,所述控制模块,还用于将所述待降噪实体关系数据输入预设降噪模型,得到对应的判定结果,所述待降噪实体关系数据中包含多个文本包;
60、在所述文本包对应的判定结果为文本包中所有自然语言文本均为无实体关系文本时,判定所述文本包为噪声数据;
61、根据所述噪声数据完成待降噪实体关系数据的降噪。
62、此外,为实现上述目的,本发明还提出一种实体关系数据的降噪设备,所述实体关系数据的降噪设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的实体关系数据的降噪程序,所述实体关系数据的降噪程序配置为实现如上文所述的实体关系数据的降噪方法的步骤。
63、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有实体关系数据的降噪程序,所述实体关系数据的降噪程序被处理器执行时实现如上文所述的实体关系数据的降噪方法的步骤。
64、本发明查找与待处理自然语言文本信息对应的实体关系信息;根据所述自然语言文本信息和实体关系信息确定实体关系样本和待降噪实体关系数据,所述实体关系样本用于为预设初始降噪模型进行训练并得到预设降噪模型;通过预设降噪模型对所述待降噪实体关系数据进行降噪处理。通过上述方式实现了,对实体关系数据进行降噪,由于清除自然文本中不存在实体关系的数据,让实体关系数据噪声很少,为实体关系模型的训练提供了良好的数据基础,提高了实体关系分类模型的训练效果,进一步提高了用于实体关系分类模型训练的语料样本的质量。