一种行业知识图谱构建方法、计算机设备及存储介质与流程

文档序号:37601361发布日期:2024-04-18 12:44阅读:10来源:国知局
一种行业知识图谱构建方法、计算机设备及存储介质与流程

本公开涉及文本数据处理领域,并且更具体地,涉及一种行业知识图谱构建方法、计算机设备及存储介质。


背景技术:

1、知识图谱是一种基于概念图谱、本体论和语义网络的语义模型,具有根据知识组织、知识呈现、知识推理和知识应用等功能。知识图谱的应用情况非常广泛。首先,它可以应用于智能问答领域。通过建立领域内的知识图谱,智能问答系统能够更好地理解用户的提问,并给出更准确的答案。其次,知识图谱还可以应用于信息检索和推荐领域。通过将信息进行语义化表示,可以更好地理解用户的需求,从而给出更加精准的结果或推荐。此外,知识图谱还可以应用于自然语言处理、机器翻译、智能客服、人工智能等多个领域。构建行业知识图谱能够帮助行业信息沉淀,提高信息利用率。

2、行业知识图谱的构建是一个非常复杂和艰巨的任务。首先,需要对领域内的知识进行深入挖掘和理解。这包括了从结构化和非结构化数据中抽取实体、关系和属性等信息,以及对知识进行组织和分类等方面。其次,需要对知识进行语义化表示。这涉及到本体论、语义网络等方面的技术,并需要考虑如何将不同领域的知识进行统一表示。最后,需要对知识进行存储、查询和更新等操作。目标实体属性值提取是自然语言处理(nlp)领域的一个重要任务,在信息抽取任务中,从非结构化文本中提取有价值的结构化信息是至关重要的。目标实体属性值提取作为信息抽取的一个子任务,旨在从文本中识别出特定目标实体的属性和对应的属性值,这种信息提取对于构建知识图谱、智能问答系统和其他nlp应用具有重要意义。如何在目标文本中准确定位到目标命名实体属性对应的位置,是业内一致研究的技术课题。


技术实现思路

1、有鉴于此,本公开实施例至少提供一种行业知识图谱构建方法、计算机设备及存储介质。

2、根据本公开实施例的一个方面,提供了一种行业知识图谱构建方法,应用于计算机设备,所述方法包括:

3、获取目标行业知识文本,从所述目标行业知识文本中确定包含目标命名实体属性的感兴趣文本段落;

4、获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,其中,所述字符分布表征数组包括所述文本字符针对所述目标命名实体属性的字符分布表征单元;

5、通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组;

6、通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组,确定所述文本字符对应的预估文本段落,将所述文本字符对应的预估文本段落加入预估文本段落集合;

7、在所述预估文本段落集合中确定与所述目标命名实体属性在所述目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落;以便从所述目标文本段落中获取目标命名实体属性,基于所述目标命名实体属性构建行业知识图谱。

8、根据本公开实施例的一个示例,其中,所述字符分布表征数组包括句字符分布表征数组和段字符分布表征数组,所述字符分布表征单元包括所述文本字符对于对应的目标命名实体属性的句边际间隔单元和段边际间隔单元,所述句字符分布表征数组中的字符分布表征单元为所述句边际间隔单元,所述段字符分布表征数组中的字符分布表征单元为所述段边际间隔单元,所述显著性优化数组包括句显著性优化数组和段显著性优化数组,所述句显著性优化数组用于修正所述句字符分布表征数组中的句边际间隔单元,所述段显著性优化数组用于修正所述段字符分布表征数组中的段边际间隔单元;

9、所述通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组,确定所述文本字符对应的预估文本段落,包括:

10、基于所述句显著性优化数组对所述句字符分布表征数组中的句边际间隔单元进行显著性优化,获得优化后的句字符分布表征数组;

11、基于所述段显著性优化数组对所述段字符分布表征数组中的段边际间隔单元进行显著性优化,获得优化后的段字符分布表征数组;

12、通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落。

13、根据本公开实施例的一个示例,其中,所述通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落,包括:

14、通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落的段落字符覆盖区间;

15、通过所述文本字符对应的所述段落字符覆盖区间确定所述文本字符对应的预估文本段落。

16、根据本公开实施例的一个示例,其中,所述在所述预估文本段落集合中确定与所述目标命名实体属性在所述目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落,包括:

17、获取所述预估文本段落集合中的每个预估文本段落各自对应的可信概率,所述可信概率指示对应的预估文本段落为所述目标文本段落的可信程度;

18、将所述预估文本段落集合中所述可信概率小于预设可信概率的预估文本段落,在所述预估文本段落集合中进行丢弃,获得第一清理文本段落集合;

19、在所述第一清理文本段落集合中获取所述目标文本段落。

20、根据本公开实施例的一个示例,其中,所述第一清理文本段落集合包括第一预估文本段落和第二预估文本段落,所述在所述第一清理文本段落集合中获取所述目标文本段落,包括:

21、获取所述第一预估文本段落和所述第二预估文本段落在所述目标行业知识文本中的文本段落重叠率;

22、如果所述文本段落重叠率大于预设文本段落重叠率,且所述第一预估文本段落对应的可信概率大于所述第二预估文本段落对应的可信概率,将所述第二预估文本段落在所述第一清理文本段落集合中进行丢弃,获得第二清理文本段落集合;

23、将所述第二清理文本段落集合中的预估文本段落都确定为所述目标文本段落。

24、根据本公开实施例的一个示例,其中,所述方法依据目标识别算法实现,所述获取目标行业知识文本之前,所述方法还包括:

25、初始识别算法获取行业知识文本样本,依据所述初始识别算法从所述行业知识文本样本中确定包含目标命名实体属性的感兴趣文本段落;

26、获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,其中,所述字符分布表征数组中包括所述文本字符针对所述目标命名实体属性的字符分布表征单元;

27、通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组;

28、通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组确定所述文本字符对应的预估文本段落,将所述文本字符对应的预估文本段落加入预估文本段落集合;

29、在所述预估文本段落集合中确定与所述目标命名实体属性在目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落;

30、通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法。

31、根据本公开实施例的一个示例,其中,所述获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,包括:

32、检测所述文本段落中的文本字符的字符类别,通过检测结果为所述文本字符赋予检测类别标记,所述字符类别包括目标字符类别和上下文字符类别,所述目标字符类别的文本字符为所述感兴趣文本段落中所述目标命名实体属性包含的文本字符,所述上下文字符类别的文本字符为所述感兴趣文本段落中,除所述目标命名实体属性包含的文本字符以外的文本字符,所述检测类别标记包括所述目标字符类别对应的目标类别标记和所述上下文字符类别对应的上下文类别标记;

33、通过所述文本字符被赋予的检测类别标记构建所述感兴趣文本段落对应的文本段落特征数组;

34、通过所述文本段落特征数组构建所述感兴趣文本段落中的所述文本字符对应的所述字符分布表征数组。

35、根据本公开实施例的一个示例,其中,所述通过所述文本字符被赋予的检测类别标记构建所述感兴趣文本段落对应的文本段落特征数组,包括:

36、通过所述文本字符被赋予的检测类别标记和所述感兴趣文本段落中的所述目标命名实体属性的所述实体文本语义表征数组构建所述感兴趣文本段落对应的所述文本段落特征数组;

37、所述通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组,包括:

38、通过所述文本段落特征数组构建用于修正所述字符分布表征单元的所述显著性优化数组;所述感兴趣文本段落中的所述文本字符还被赋予实际类别标记;所述实际类别标记包括所述目标类别标记和所述上下文类别标记;所述通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法,包括:

39、通过所述文本字符对应的所述检测类别标记与所述实际类别标记之间的标记误差,确定第一算法代价函数;

40、通过所述目标文本段落与所述实际文本段落之间的文本段落损失,确定第二算法代价函数;

41、通过所述第一算法代价函数和所述第二算法代价函数,优化所述初始识别算法的算法参数,获得所述识别算法;

42、所述通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法,包括:

43、通过所述目标文本段落与所述实际文本段落之间的文本段落损失,确定第二算法代价函数;

44、获取所述感兴趣文本段落中被赋予所述目标类别标记的文本字符在所述目标行业知识文本中的分布段落;

45、通过所述分布段落和所述实际文本段落之间的文本段落损失,确定第三算法代价函数;

46、通过所述第二算法代价函数和所述第三算法代价函数,优化所述初始识别算法的算法参数,获得所述识别算法。

47、根据本公开实施例的另一方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上所述方法中的步骤。

48、根据本公开实施例的又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以上所述方法中的步骤。

49、本公开的有益效果至少包括:

50、本公开提供的行业知识图谱构建方法,通过在目标行业知识文本中确定包含目标命名实体属性的感兴趣文本段落,对该感兴趣文本段落中的目标命名实体属性的实体文本语义表征数组进行学习,获得感兴趣文本段落中的文本字符的字符分布表征数组和显著性优化数组,依据显著性优化数组对字符分布表征数组进行修正,再基于修正后的字符分布表征数组获得目标命名实体属性在目标行业知识文本中的文本段落。因此可以得知,本公开基于感兴趣文本段落中的目标命名实体属性的实体文本语义表征数组构建显著性优化数组,基于显著性优化数组对字符分布表征数组进行优化,让最后基于字符分布表征数组预测获得的感兴趣文本段落中的文本字符针对目标命名实体属性的预估文本段落更准确可靠,那么最后在预估文本段落集合中确定的对于针对目标命名实体属性的目标文本段落准确可靠。

51、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1