基于图模型的企业供应商库知识图谱构建方法及系统与流程

文档序号:37933860发布日期:2024-05-11 00:12阅读:7来源:国知局
基于图模型的企业供应商库知识图谱构建方法及系统与流程

本发明属于文本数据处理,具体涉及基于图模型的企业供应商库知识图谱构建方法及系统。


背景技术:

1、处理大规模知识库中的文本资源是一项费时费力的工程,基于图模型构建知识图谱可以形象地展示各个知识库的核心结构,以达到多领域知识库的融合,使得用户可以直观获取到更多有用的信息,知识图谱是当前各行业处理各类数据的一种新兴的、重要的智能方法。

2、例如中国专利申请“cn115292549b”公开了一种基于规则的树库自动转换方法及系统,涉及自然语言处理技术领域。包括:将输入的短语结构字符串进行多叉树数据结构构造;初始化xml存储根节点xml_root对象;对多叉树进行先序遍历;判断句子中是否存在小句,若不存在则进行规则转换流程;遍历每个子节点,判断子节点是否符合句法成分转换规则以及句式转换规则,新建xml_root的子节点;对终端节点进行词性规则的转换,根据词性转换规则表将其转换为句式结构树库的词性;将更新的xml_root转换为xml字符串,生成xml文件。充分利用短语结构树库和句式结构树库的标注体系的对应规律,为建立高质量的树库转换模型和句式结构句法分析器提供了有效的数据支持,对句式结构自动句法分析等研究具有重要意义。又例如中国专利申请“cn109408811b”公开的一种数据处理方法及服务器,在获得问题语句后,基于问题语句的句子成分确定问题语句所属的问句类别,并在问题语句属于预定问句类别的情况下,对问题语句进行依存句法分析,得到问题语句的各组成元素间的依存信息,进而基于问题语句的各组成元素间的依存信息以及问题语句的句子成分,对问题语句进行结构化解析,得到问题语句的结构化信息。通过利用问题语句的各组成元素间的依存信息以及问题语句的句子成分,对问题语句进行结构化解析,可达到较好的解析效果,进而可基于解析结果准确地识别用户问句意图。

3、然而,上述现有技术是对文本语句的结构分析和成分分析,基于提出问题的输入进行输出相关文本信息,缺少对知识库中文本信息全面且直观的具象描述,而且不便于提取相关联的文本信息。


技术实现思路

1、为解决上述问题,本发明提供了基于图模型的企业供应商库知识图谱构建方法及系统,以解决现有技术中的问题。

2、为了达到上述的发明目的,本发明提出基于图模型的企业供应商库知识图谱构建方法,包括:

3、步骤s1:获取第一文本,定位并提取所述第一文本中的第一词组、第二词组和第三词组,获取所述第一词组和所述第三词组的属性种类;

4、步骤s2:分别获取所述第二词组与所述第一词组和所述第三词组的连接关系,基于所述连接关系设置连接线,将所述第一词组、所述第二词组和所述第三词组分别设定为第一类节点、第二类节点和第三类节点,通过所述连接线将所述第一类节点、所述第二类节点和所述第三类节点进行连接,将所述属性种类设定为标签节点,所述标签节点与对应的所述第一类节点和所述第三类节点进行连接,获得第一关系图,重复所述步骤s1和所述步骤s2,以生成所有所述第一文本的所述第一关系图;

5、步骤s3:抽取包含相同所述标签节点的所述第一关系图,并聚合生成第一连接图,在所述第一连接图中判断与所述标签节点进行连接的所述第一类节点和所述第三类节点是否相同,若不同,则将所述第一连接图设定为第一知识图谱,若相同,则将所述第一类节点和所述第三类节点设定为第一关键节点,将包括所述第一关键节点的各个所述第一连接图聚合生成所述第一知识图谱;

6、步骤s4:组合所述第一知识图谱中包含所述第一关键节点的所述第一文本,生成第一扩展文本。

7、进一步的,所述步骤s1中,定位并提取所述第一文本包括以下步骤:

8、输入所述第一文本,将所述第一文本包含的各个字符进行拆分并设定为第一层节点,然后将各个所述第一层节点从首位开始依次进行组合成第二层节点,所述第二层节点包含所述字符组成的拼接词语,将所述第二层节点组合成第三层节点,其中所述第三层节点包含所述第一类节点、所述第二类节点和所述第三类节点。

9、进一步的,基于以下步骤将各个所述第一层节点进行组合成第二层节点:

10、设定特殊词汇,在所述第一层节点中抽取所述特殊词汇,获取所述特殊词汇在所述第一层节点的字符位置,基于所述字符位置将所述第一层节点中剩余的所述字符拆分为多个拼接子节点,从所述拼接子节点的首位所述字符开始依次与相邻的所述字符进行组合至生成所述拼接词语,在所述拼接词语的词性种类发生词性变化时停止组合,判断所述拼接子节点和所述拼接词语中所述字符的数量是否相等,若相等,则所述拼接子节点中的所述字符完全组合,若不相等,则基于所述拼接词语在所述拼接子节点中的所述字符位置继续以下一位所述字符为首位依次开始进行组合,重复执行此步骤至所述拼接子节点中所述字符完全组合,生成多个所述拼接词语,基于所述拼接词语和所述第一层节点中所述特殊词汇组合成所述第二层节点。

11、进一步的,基于以下步骤将所述第二层节点组合成第三层节点:

12、获取所述第二层节点的节点数量和所述第二层节点中所述特殊词汇的节点位置,将所述特殊词汇和位于所述节点位置前相邻的所述拼接词语设定为所述第二词组,将位于所述第二词组前的所述拼接词语设定为所述第一词组,将位于所述第二词组后的所述拼接词语设定为所述第三词组,所述第一词组、所述第二词组和所述第三词组组合成所述第三层节点。

13、进一步的,所述步骤s3中,基于以下步骤将所述第一类节点和所述第三类节点设定为第一关键节点:

14、分别获取所述第一类节点和所述第三类节点中所述第一词组和所述第三词组的词组数量和所述字符,在所述第一词组和所述第三词组中若存在所述字符相同且所述词组数量大于等于1,则将所述字符相同的所述第一词组和所述第三词组所在的节点设定为所述第一关键节点,将所述第一连接图中所述第一关键节点进行合并,生成所述第一知识图谱。

15、进一步的,所述步骤s4中,基于以下步骤生成第一扩展文本:

16、将所述第一关键节点包含的所述字符设定为关键词组,获取包含所述关键词组的所述第一文本的集合,并组合所述第一文本的文本信息以生成所述第一扩展文本。

17、本发明还提供了基于图模型的企业供应商库知识图谱构建系统,该系统用于实现上述所述的基于图模型的企业供应商库知识图谱构建方法,该系统主要包括:

18、文本获取模块,用于获取第一文本,定位并提取所述第一文本中的第一词组、第二词组和第三词组,获取所述第一词组和所述第三词组的属性种类;

19、文本处理模块,用于分别获取所述第二词组与所述第一词组和所述第三词组的连接关系,基于所述连接关系设置连接线,将所述第一词组、所述第二词组和所述第三词组分别设定为第一类节点、第二类节点和第三类节点,通过所述连接线将所述第一类节点、所述第二类节点和所述第三类节点进行连接,将所述属性种类设定为标签节点,所述标签节点与对应的所述第一类节点和所述第三类节点进行连接,获得第一关系图;

20、图谱生成模块,用于抽取包含相同所述标签节点的所述第一关系图,并聚合生成第一连接图,在所述第一连接图中判断与所述标签节点进行连接的所述第一类节点和所述第三类节点是否相同,若不同,则将所述第一连接图设定为第一知识图谱,若相同,则将所述第一类节点和所述第三类节点设定为第一关键节点,将包括所述第一关键节点的各个所述第一连接图聚合生成所述第一知识图谱;

21、文本生成模块,用于组合所述第一知识图谱中包含所述第一关键节点的所述第一文本,生成第一扩展文本。

22、与现有技术相比,本发明的有益效果至少如下所述:

23、本发明首先获取第一文本,通过分层节点和设定特殊词汇的方法定位并提取第一文本中的第一词组、第二词组和第三词组,将不同的词组设定为不同的节点,并获取各个词组之间的连接关系,基于不同的连接关系设定不同的连接线将第一文本中各个词组对应的节点进行连接,生成第一关系图,不仅保留了第一本文中的主语和宾语,同时也保留了连接各个主语和宾语的谓词,使得第一文本的内容更加全面的展示在第一关系图中,同时添加了第一文本中主语和宾语的属性种类,便于将第一文本进行分类写入和查询。

24、本发明还将多个第一文本中第一类节点和第三类节点具有相同词组的节点设置为第一关键节点,并基于第一关键节点将多个第一文本对应的第一关系图进行聚合,生成第一知识图谱,使得多个相关联的第一文本更加清晰的展示在同一个第一知识图谱中,同时,本发明还通过设定关键词组将第一知识图谱还原生成第一扩展文本,完成对多个相关联的第一文本进行扩展和补充,第一扩展文本更加全面的描述了多个第一文本的关联信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1