并购知识图谱基础图库数据采集及转换方法和装置与流程

文档序号:33498876发布日期:2023-03-17 21:38阅读:40来源:国知局
并购知识图谱基础图库数据采集及转换方法和装置与流程

1.本发明涉及计算机数据处理领域,具体涉及并购知识图谱基础图库数据采集及转换方法和装置。


背景技术:

2.对于许多投资方来说,在进行投资时往往需要了解相关企业的相关信息,目前大部分并购行业的投资人对于企业、公司的信息处理方式相对传统低效,系统缺乏扩展性,用户体验较差等问题,而随着知识图谱的出现,可以利用知识图谱这种数据结构进行可视化、数据挖掘和知识抽取,从海量的数据中通过信息(结构化数据)抽取的方式获取信息、知识。也可以通过对多个相关知识图谱的对齐、关联和合并,使其称为一个有机的整体,以及提供更全面直观的信息知识。在知识图谱中,实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量,所以实体的抽取要准确。因此,对于知识图谱的基础图谱数据的采集和转化过程的处理尤为重要。


技术实现要素:

3.本发明的目的在于提供并购知识图谱基础图库数据采集及转换和装置,对并购知识图谱的基础数据以结构化的方式存储和转换,保证基础数据的采集和转换时的准确性,使得到的知识图谱更加稳定和准确。
4.一方面,本技术提供并购知识图谱基础图库数据采集及转换方法,具体包括以下步骤:
5.从并购信息数据库中获取原始语料信息;
6.对原始语料信息进行数据清洗和信息提取,得到若干条具有三元组结构的语料文本;
7.将语料文本依次装填到事件数据表中;
8.将事件数据表中的数据按照基础图库数据模板转换为基础图库数据,根据基础图库数据构建并购知识图谱。
9.进一步地,并购信息数据库包括工商系统记录的文本信息和自建并购事件数据库文本信息,其中所述自建并购事件数据库文本信息为利用数据爬虫技术从网络新闻资讯中爬取的数据源中的文本信息。
10.进一步地,对原始语料信息进行数据清洗和信息提取包括:
11.将原始语料信息进行划分,以句号为划分依据,将原始语料信息划分为多条语句,将每条语句进行分词,并进行词性标注预处理,得到若干条具有主语-宾语-内容结构的初始文本;
12.对于每条初始文本:
13.抽取出初始文本中的主语作为实体一、宾语作为实体二;
14.抽取初始文本中的内容,组成实体一-内容-实体二的三元组结构的语料文本。
15.进一步地,所述基础图库数据模板包括主节点、子节点和边,每个基础图库数据的主节点、边和子节点分别对应于每条语料文本的实体一、内容和实体二。
16.进一步地,对基础图库数据进行知识计算,得到并购知识图谱,知识计算包括:
17.本体构建:从所有基础图库数据中筛选出主节点相同的所有基础图库数据作为一个本体;
18.数据筛选:在每个本体中,去除主节点、边和子节点均相同的基础图库数据;
19.本体连接:对于每个经过数据筛选的本体,合并主节点相同的所有基础图库数据,以主节点为中点,主节点-边-子节点的结构连接本体中的其他子节点;
20.知识推理:通过基于逻辑的推理、基于图的推理和基于深度学习的推理,对各个本体的主节点之间进行上下位关系抽取、关系缺失补齐;
21.图谱生成:将经过知识推理后的各个本体相互连接,形成知识图谱。
22.另一方面,本技术提供并购知识图谱基础图库数据采集及转换装置,包括:
23.一个或多个处理器;
24.存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器上述的并购知识图谱基础图库数据采集及转换方法。
25.本发明具有的有益效果:
26.本技术并购知识图谱基础图库数据采集及转换方法和装置,通过从海量数据中提取数据并以一定的数据结构进行存储,使采集到的数据具有统一的标准、规范、格式和数据字典等。这样在构建知识图谱时更加准确,在将数据转换为图数据时,也采用了统一的模板,即生成知识图谱的数据也具有统一的格式和标准,从数据的采集和转换均采用模板对数据进行规范,使得得到的知识图谱更加准确和稳定。
附图说明
27.图1为本发明的方法流程示意图;
28.图2为本发明一种实施例提供的并购知识图谱基础图库数据采集及转换装置;
29.图3为本发明一种实施方式的并购知识图谱基础图库数据采集及转换过程。
具体实施方式
30.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
31.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
32.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
33.另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领
域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
34.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
35.在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
36.实施例1
37.如图1所示,并购知识图谱基础图库数据采集及转换方法,具体包括以下步骤:
38.从并购信息数据库中获取原始语料信息;
39.对原始语料信息进行数据清洗和信息提取,得到若干条具有三元组结构的语料文本;
40.将语料文本依次装填到事件数据表中;
41.将事件数据表中的数据按照基础图库数据模板一一转换为基础图库数据,根据基础图库数据构建并购知识图谱。
42.在将事件数据表的数据转换为基础图库数据后,可以将基础图库数据导入到图数据库中,图数据库可以采用neo4j图数据库,导入方法有两种:
43.方式一:通过填写事件数据表的数据库名字和密码,将转换好的基础图库数据直接导入到neo4j图数据库中;
44.方式二:运用neo4j etl工具完成从关系数据库到图数据库的数据迁移。
45.进一步地,并购信息数据库包括工商系统记录的文本信息和自建并购事件数据库文本信息,其中所述自建并购事件数据库文本信息为利用数据爬虫技术从网络新闻资讯中爬取的数据源中的文本信息。网络新闻资讯涉及企业并购诱因分析相关信息(如财经类新闻报道,企业公开,政府新闻,国家政策规定等来源)从立项到验收各阶段不同来源、不同维度数据。
46.进一步地,对原始语料信息进行数据清洗和信息提取包括:
47.将原始语料信息进行划分,以句号为划分依据,将原始语料信息划分为多条语句,将每条语句进行分词,并进行词性标注预处理,得到若干条具有主语-宾语-内容结构的初始文本;
48.对于每条初始文本:
49.抽取出初始文本中的主语作为实体一、宾语作为实体二;
50.抽取初始文本中的内容,组成实体一-内容-实体二的三元组结构的语料文本。
51.一般并购事件中,新闻或一些专业数据库中描述时,一般按照xx公司以何种方式进行了并购了xx公司。这是一句完整的语义信息,因此可以根据并购事件主导公司和被并购公司的关系,从一句完整的语义信息中可以提取出并购主导公司作为实体一,被并购公司作为实体二,其他的相关并购内容为实体一和实体二的关系。如此,采用简单的词性标注,快速从数据库中的海量数据中提取出需要的三元组结构信息。
52.进一步地,所述基础图库数据模板包括主节点、子节点和边,每个基础图库数据的主节点、边和子节点分别对应于每条语料文本的实体一、内容和实体二。
53.进一步地,对基础图库数据进行知识计算,得到并购知识图谱,知识计算包括:
54.本体构建:从基础图库数据中筛选出主节点相同的所有基础图库数据作为一个本体;
55.数据筛选:在每个本体中,去除主节点、边和子节点均相同的基础图库数据;
56.本体连接:对于每个经过数据筛选的本体,合并主节点相同的所有基础图库数据,以主节点为中点,主节点-边-子节点的结构连接本体中的其他子节点;
57.知识推理:通过基于逻辑的推理、基于图的推理和基于深度学习的推理,对各个本体的主节点之间进行上下位关系抽取、关系缺失补齐;
58.图谱生成:将经过知识推理后的各个本体相互连接,形成并购知识图谱。
59.如图3所示,给出了从事件数据库到事件转换器到知识图谱的生成过程,事件数据库以数据表的形式对得到的语料文本进行存储,对于每个语料文本均按照将企业名称作为实体,并购关系作为内容,以实体一-实体二-内容的结构进行存储,如图所示,企业1对应的并购事件中,可能存在对企业2,3

等企业的并购情况,同样,企业2也能作为实体一作为并购主导企业,同样可能对企业3,4

等其他企业存在并购情况,接着,事件转换器将数据库表的信息全部分别转换为主节点-边-子节点的基础图库数据结构,转换方法为,将每条语料文本的实体一与主节点对应,实体二与子节点对应,内容与边对应。在所有基础图库数据中,对所有主节点相同的基础图库数据进行汇总,即对所有企业1相关的所有图谱基础数据进行合并,企业2相关的所有图谱基础数据进行合并,由于企业1对企业2具有并购情况,因此只需将企业1对应的本体1和企业2对应的本体2连接在一起,得到完整的知识图谱。本技术将基础图库数据事先存储在数据库表中,方便后期对知识图谱进行操作时,由于知识图谱与数据库表进行了关系对应和链接,若需要下载知识图谱数据时即可下载表格形式的相关数据方便查看、节约计算资源,无需对知识图谱进行转换,且后期对知识图谱进行更新时,只需在事件数据库表中加入按数据库表格式存储的数据即可,快速生成对应的基础图库数据,快速对并购知识图谱进行更新。
60.实施例2
61.另一方面,本技术提供并购知识图谱基础图库数据采集及转换装置,包括:
62.一个或多个处理器;
63.存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器上述的并购知识图谱基础图库数据采集及转换方法。
64.示例性地,如图2所示,装置包括数据采集器,用于从并购信息数据库中获取原始语料信息;
65.数据处理器,用于对原始语料信息进行数据清洗和信息提取,得到若干条具有三元组结构的语料文本;
66.事件数据库,用于将语料文本依次装填到事件数据表中;
67.数据转换器,用于将事件数据表中的数据按照基础图库数据模板一一转换为基础图库数据;
68.图数据库,用于存储基础图库数据;
69.知识图谱生成器,用于根据基础图库数据构建并购知识图谱。
70.以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依
据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1