基于多维度的知识图谱的融合方法、装置及计算机设备与流程

文档序号:25308505发布日期:2021-06-04 15:04阅读:241来源:国知局
基于多维度的知识图谱的融合方法、装置及计算机设备与流程

1.本发明涉及数据分析技术,尤其涉及一种基于多维度的知识图谱的融合方法、装置及计算机设备。


背景技术:

2.知识图谱(knowledge graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通常需要利用到多种不同的数据源进行知识图谱的构建,而在知识图谱的构建过程中,实体融合是一项重要的工作。现有技术中,采用多种不同的数据源构建企业知识图谱时,在进行实体融合过程中主要是针对企业实体的融合并基于相似度或基于企业实体结构组合的单一层面进行展开,但是在融合过程中不仅无法保证企业实体融合的准确性,而且无法实现对企业名称做了变更的企业进行融合、无法实现企业名称中特有词结构部分进行缩减的企业进行融合、无法实现企业名称中存在错别字的企业进行融合。


技术实现要素:

3.本发明实施例提供了一种基于多维度的知识图谱的融合方法、装置及计算机设备,旨在解决相关技术中采用多个数据源进行实体融合时无法提高实体融合的准确性的问题。
4.第一方面,本发明实施例提供了一种基于多维度的知识图谱的融合方法,其包括:
5.获取来自多个数据源的实体的数据并对所获取的数据进行数据清洗,得到清洗后的数据;
6.从所述清洗后的数据中抽取每一数据源中的实体、每一数据源中的实体属性以及每一数据源中的各实体之间的连接关系;
7.根据预设的实体融合规则对所述每一数据源中的实体进行融合,得到每一数据源中融合后的实体;
8.根据预设的属性相似度规则对所述每一数据源之间的实体属性进行融合,得到融合后的实体属性;
9.根据所述每一数据源中融合后的实体、所述融合后的实体属性、所述每一数据源中的各实体之间的连接关系构建每一数据源的知识图谱;
10.根据预设的图谱匹配规则对所述每一数据源的知识图谱进行融合,得到融合后的知识图谱。
11.第二方面,本发明实施例提供了一种基于多维度的知识图谱的融合装置,其包括:
12.第一获取单元,用于获取来自多个数据源的实体的数据并对所获取的数据进行数据清洗,得到清洗后的数据;
13.抽取单元,用于从所述清洗后的数据中抽取每一数据源中的实体、每一数据源中
的实体属性以及每一数据源中的各实体之间的连接关系;
14.第一融合单元,用于根据预设的实体融合规则对所述每一数据源中的实体进行融合,得到每一数据源中融合后的实体;
15.第二融合单元,用于根据预设的属性相似度规则对所述每一数据源之间的实体属性进行融合,得到融合后的实体属性;
16.构建单元,用于根据所述每一数据源中融合后的实体、所述融合后的实体属性、所述每一数据源中的各实体之间的连接关系构建每一数据源的知识图谱;
17.第三融合单元,用于根据预设的图谱匹配规则对所述每一数据源的知识图谱进行融合,得到融合后的知识图谱。
18.第三方面,本发明实施例又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于多维度的知识图谱的融合方法。
19.第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于多维度的知识图谱的融合方法。
20.本发明实施例提供了一种基于多维度的知识图谱的融合方法、装置及计算机设备,该方法通过获取来自多个数据源的实体的数据并进行数据清洗;从清洗后的数据中抽取每一数据源中的实体、实体属性以及各实体之间的连接关系;根据预设的实体融合规则对每一数据源中的实体进行融合;根据预设的属性相似度规则对每一数据源之间的实体的属性进行融合;根据每一数据源中融合后的实体、融合后的实体属性、各实体之间的连接关系构建每一数据源的知识图谱;根据预设的图谱匹配规则对每一数据源的知识图谱进行融合,得到融合后的知识图谱。通过该方法在对知识图谱进行融合的过程中,采用在实体、实体属性以及知识图谱不同维度上进行融合,实现了多数据源的实体的融合,提高了知识图谱中实体的准确性。
附图说明
21.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1为本发明实施例提供的基于多维度的知识图谱的融合方法的流程示意图;
23.图2为本发明实施例提供的基于多维度的知识图谱的融合方法的子流程示意图;
24.图3为本发明实施例提供的基于多维度的知识图谱的融合方法的另一子流程示意图;
25.图4为本发明实施例提供的基于多维度的知识图谱的融合方法的另一子流程示意图;
26.图5为本发明实施例提供的基于多维度的知识图谱的融合方法的另一子流程示意图;
27.图6为本发明实施例提供的基于多维度的知识图谱的融合方法的另一子流程示意图;
28.图7为本发明实施例提供的基于多维度的知识图谱的融合方法的另一子流程示意图;
29.图8为本发明实施例提供的基于多维度的知识图谱的融合装置的示意性框图;
30.图9为本发明实施例提供的基于多维度的知识图谱的融合装置的子单元示意性框图;
31.图10为本发明实施例提供的基于多维度的知识图谱的融合装置的另一子单元示意性框图;
32.图11为本发明实施例提供的基于多维度的知识图谱的融合装置的另一子单元示意性框图;
33.图12为本发明实施例提供的基于多维度的知识图谱的融合装置的另一子单元示意性框图;
34.图13为本发明实施例提供的基于多维度的知识图谱的融合装置的另一子单元示意性框图;
35.图14为本发明实施例提供的基于多维度的知识图谱的融合装置的另一子单元示意性框图;
36.图15为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
37.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
39.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
40.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
41.请参阅图1,图1为本发明实施例提供的基于多维度的知识图谱的融合方法的流程示意图。该基于多维度的知识图谱的融合方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。下面对所述的基于多维度的知识图谱的融合方法进行详细说明。
42.如图1所示,该方法包括以下步骤s110~s160。
43.s110、获取来自多个数据源的实体的数据并对所获取的数据进行数据清洗,得到清洗后的数据。
44.具体的,所述多个数据源为与所述实体的数据相关的任意网站组成,例如新闻网站、百科网站等,数据清洗为对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。在本实施例中,预先输入多个特定的网址信息至预置
的网络爬虫程序中,再通过该网络爬虫程序进行数据爬取,便可获得所述多个数据源的实体的数据,然后对该数据进行数据清洗,进而得到清洗后的数据。
45.在另一实施例中,如图2所示,步骤s110包括子步骤s111和s112。
46.s111、根据预置的繁简体转换工具对实体进行繁简体转换,得到繁简体转换后的实体。
47.具体的,繁简体转换为根据两种码表(简体字码表和繁体字码表)的编码规则,创建两者之间的字符对应关系表,通过程序读取这个映射表来自动查出另一种编码方式下对应字符的字节编码,从而进行逐字节的内容替换。在本实施例中,通过构建繁体字的字符和简体字的字符之间的对应关系表,在对所述企业名称进行繁简体转换的过程中,采用所述繁简体转换工具将实体的名称的字符串进行扫描识别以得到该字符串中是否存在繁体字,若存在繁体字,则根据对应关系表将该繁体字转换成简体字。在本实施例中,采用opencc繁简体转换工具对企业实体的名称进行繁简体转换。例如,若未处理前实体的名称为“中國平安保险(集團)有限1公司@”,通过opencc繁简体转换工具进行繁简体转换后,实体的名称变为“中国平安保险(集团)有限1公司@”。
48.s112、基于正则表达式将所述繁简体转换后的实体中的特殊符号进行剔除,得到所述清洗后的实体。
49.具体的,正则表达式(regular expression)又称规则表达式,是对字符串操作的一种逻辑公式,描述了一种字符串匹配的模式,即用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,该规则字符串用来表达对字符串的一种过滤逻辑。构造正则表达式的方法和创建数学表达式的方法一样,即用多种元字符与运算符可以将小的表达式结合在一起来创建更大的表达式,正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。在本实施例中,通过预先制定实体的名称的正则表达式组件,然后采用该正则表达式组件对所述繁简体转换后的实体的名称的字符串进行正则匹配识别,若识别出该名称中存在特殊符号,则将该名称中的特殊符号进行剔除,便可得到剔除后特殊字符的名称,即为所述清洗后的实体。例如,若所述繁简体转换后的实体的名称为“中国平安保险(集团)有限1公司@”,则通过预先制定实体的名称的正则表达式对该名称进行正则匹配识别以识别出该名称中存在“1”、“()”和“@”的特殊字符,在识别出特殊字符后,将该名称中的特殊字符进行剔除,便可得到该名称为“中国平安保险集团有限公司”。
50.s120、从所述清洗后的数据中抽取每一数据源中的实体、每一数据源中的实体属性以及每一数据源中的各实体之间的连接关系。
51.具体的,知识图谱本质上是一种语义网络并以图的形式描述客观事物,其中图指的是数据结构中的图,即知识图谱由节点和边组成。知识图谱中的节点表示概念和实体,概念是抽象出来的事物,实体是具体的事物;边表示事物的关系和实体属性,事物的内部特征用实体属性来表示,外部联系用关系来表示,即各实体之间的连接关系包括实体的内部特征和外部联系。通常将知识图谱中节点的概念和实体作为实体,将知识图谱中边的外部联系和实体属性作为连接关系。从所述清洗后的数据中抽取每一数据源中的实体、每一数据源中的实体属性以及每一数据源中的各实体之间的连接关系之后,将提取出的每一数据源中的实体、每一数据源中的实体属性以及每一数据源中的各实体之间的关系信息采用rdf
(resource description framework)三元组存储格式进行存储。例如,若所述多个数据源的实体的数据为企业知识图谱所需的数据时,所述清洗后的数据为:百度科技成立时间为2001年06月05日,注册地位于北京市海淀区上地十街10号百度大厦,其中百度科技、2001年06月05日、北京市海淀区上地十街10号百度大厦为在企业知识图谱中的实体,成立时间为百度科技、2001年06月05日两个实体之间的连接关系;注册地为百度科技、北京市海淀区上地十街10号百度大厦两个实体之间的连接关系。
52.s130、根据预设的实体融合规则对所述每一数据源中的实体进行融合,得到每一数据源中融合后的实体。
53.在本实施例中,通过在实体结构层面的实体融合对所述每一数据源中的实体的名称进行融合,进而得到每一数据源中融合后的实体的名称,其中实体结构层面的实体融合为在实体的组成结构的层面对所述多个数据源中的实体的名称进行融合的技术方案,所述实体融合规则为预先制定实体的名称的组成结构并根据该组合结构对从所述多个数据源中获取的企业名称进行融合的规则信息。例如,若实体的名称的组成结构为“地名+企业专属特有部分+企业通用部分”,则可参照该组成结构对所述多个数据源中的实体的名称进行融合。
54.在另一实施例中,如图3所示,步骤s130包括子步骤s131和s132。
55.s131、根据预设的提取规则对所述清洗后的实体的名称进行模式提取,得到多个词语。
56.具体的,所述提取规则为预先制定并用于在清洗后的实体的名称中进行模式提取的规则信息,所述模式提取为通过机器学习后的知识提取引擎将一组词性提取模式应用于所述清洗后的实体的名称的“堆栈”,以识别提取的字和短语,即所述清洗后的实体的名称的多个词语,其中词性提取模式由语法元素的名词、形容词、过去分词、限定词、介词、连词、名、缩写、虚词等构成。在本实施例中,所述词性提取模式由地名部分、企业专属特有部分、企业通用部分组成,所述清洗后的实体的名称在进行模式提取后,该实体的名称被拆分成地名部分、企业专属特有部分、企业通用部分三个部分。例如,中国平安保险集团有限公司在进行模式提取后,被拆分成中国、平安保险集团、有限公司。
57.s132、根据预设的重组规则对所述多个词语进行重组,得到重组后的名称。
58.具体的,所述重组规则为用于将每一数据源中清洗后的实体的名称进行模式提取而得到多个词语进行重组以形成新的名称的规则信息。在本实施例中,在对所述多个词语进行重组前,需将所述多个词语中的通用词进行剔除,然后再进行重组,进而得到重组后的名称,即完成每一数据源中的实体的融合。例如,若多个词语为深圳、市、平安科技、有限公司,将所述多个词语中的通用词“市”和“有限公司”剔除后,再进行重组,便可得到深圳平安科技,即所述重组后的名称。
59.s140、根据预设的属性相似度规则对所述每一数据源之间的实体属性进行融合,得到融合后的实体属性。
60.具体的,所述属性相似度规则为用于将每一数据源之间相同的实体属性进行融合以将所述多个数据源中的实体属性融合为单个数据源的实体属性的规则信息。通过将每一数据源之间相同的实体属性进行相似度计算,根据计算得到的相似度进行融合,便可得到所述融合后的实体属性。
61.在另一实施例中,如图4所示,步骤s140包括子步骤s141、s142和s143。
62.s141、对每一数据源中的实体属性进行特征选取,得到所述每一数据源中的实体属性的特征数据。
63.具体的,通过采用机器学习的方式对每一数据源中的实体属性进行特征选取,进而得到所述每一数据源中的实体属性的特征数据,该特征数据保持着实体属性的原始特征。在对每一数据源中的实体属性进行特征选取时,可通过过滤法、包装法或集成法进行特征选取,其中,过滤法根据每个特征的统计特性,或者特征与目标值的关联程度进行排序,去掉那些未达到设定阈值的特征,常用的过滤法包括方差过滤、基于统计相关性的过滤,以及基于互信息的过滤等;包装法通过一个个的判断x的统计特性,或者与y的关联性进行筛选;集成法通过例如决策树类的模型计算出一个综合的特征重要性排序以用于特征的选择。在本实施例中,通过采用过滤法中的基于统计相关性的过滤对每一数据源中的实体属性进行特征选取,便可得到每一数据源中的实体属性的特征数据。
64.s142、根据所述每一数据源中的实体属性的特征数据获取每一数据源之间实体属性的相似度。
65.具体的,通过将每一数据源之间相同的特征数据进行相似度计算,便可得到每一数据源之间相同的特征数据的相似度,即为每一数据源之间实体属性的相似度。在本实施例中,通过采用编辑距离算法计算每一数据源之间相同的特征数据的相似度,便可得到每一数据源之间实体属性的相似度。
66.在另一实施例中,如图5所示,步骤s142包括子步骤s1421和s1422。
67.s1421、对所述每一数据源中的实体属性的特征数据进行数值化处理,得到所述每一数据源中的实体属性的数值。
68.具体的,通过根据特征数据中的字符在预设的字典中的排序的序号来将特征数据中的每个字符转换成该字符在字典中的序号,通过特征数据中的字符的序号便可转换成该特征数据的数值,即为所述每一数据源中的实体属性的数值。例如,特征数据为北京,其中“北”和“京”在该字典中的排序分别为12、78,则该特征数据的数值为1278,即该数据源中的实体属性的数值为1278。
69.s1422、根据所述每一数据源中的实体属性的数值获取所述每一数据源之间的实体属性的相似度。
70.s143、根据所述每一数据源之间实体属性的相似度对所述每一数据源之间的实体属性进行融合,得到所述融合后的实体属性。
71.具体的,通过采用编辑距离算法对每一数据源之间相同的实体属性的数值进行计算,得到每一数据源之间的实体属性的相似度,若该相似度大于预设的阈值,则将该相似度对所述每一数据源之间的实体属性进行融合,便可得到所述融合后的实体属性。其中,编辑距离算法为用于对两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。具体的原理为:假设可以使用d[i,j]个步骤表示将串s[1

i]转换为串t[1

j]所需要的最少步骤个数,则在最基本的情况下,即在i等于0时,即串s为空,那么对应的d[0,j]为增加j个字符,使得s转化为t;在j等于0时,即串t为空,那么对应的d[i,0]就是减少i个字符,使得s转化为t。
[0072]
在另一实施例中,如图6所示,步骤s140包括子步骤s140a、s140b、s140c和s140d。
[0073]
s140a、对每一数据源中的实体属性进行同构处理,得到同构处理后的实体属性。
[0074]
具体的,所述同构处理为用于将每一数据源之间的实体属性处理为具有相同表格的数据,以便于后续对每一数据源中的实体属性进行融合。在本实施例中,在企业知识图谱的领域中,数据源a为表1、数据源b为表2时,若需要将数据源b转换为与数据源a相同的表格,则需将数据源b进行同构处理,以使得数据源b具有与数据源a相同表格,即对数据源b进行属性值提取并基于数据源a的表格模板生成与数据源a相同的表格。其中,表1和表2分别如下:
[0075]
表1
[0076][0077]
表2
[0078][0079][0080]
s140b、基于blocking技术构建所述来自多个数据源的实体的数据的分区索引并根据所述分区索引生成每一数据源的实体的匹配对。
[0081]
其中,blocking技术为知识融合里面分区的一个概念,即为从给定的知识库中的所有实体对中选出潜在匹配的记录对作为候选项,并将候选项的大小尽可能的缩小,通常blocking技术包括hash函数分区、邻近分区以及indexing分区。在本实施例中,若涉及到企业知识图谱领域时,所述匹配对为每一数据源中的实体属性组成,每一数据源中的实体属性包括:企业的注册地址、经营范围、传真、电子邮箱、企业网址、法人代表、总经理、企业简称、企业电话、省市。在构建多个数据源的实体的数据的分区时,可基于省市或基于电话号码前n位进行数据分区,进而生成实体的匹配对,然后采用blocking技术的indexing分区方法构建所述来自多个数据源的实体的数据的分区索引并从m^2对匹配对中筛选出符合的实体的候选匹配对,进而降低数据计算量。
[0082]
s140c、基于编辑距离算法对每一数据源之间的匹配对进行相似度计算,得到匹配
对的相似度。
[0083]
s140d、根据所述匹配对的相似度生成所述实体属性的融合规则并根据所述融合规则对所述每一数据源之间的实体属性进行融合,得到融合后的实体属性。
[0084]
具体的,所述融合规则为用于对每一数据源之间的实体属性进行融合的规则信息,在采用编辑距离算法对每一数据源之间相同的每一匹配对进行计算,得到每一数据源之间的每一匹配对的相似度,通过匹配对中的相似度来获取实体属性的融合规则,进而完成多个数据源中的实体属性的融合。例如,在涉及到企业知识图谱领域时,首先判断实体匹配对中的注册地址是否为空,若为空,则判断经营范围是否为空,若为空,则根据公司名称的相似度对所述每一数据源之间的实体属性进行融合,若不为空,根据经营范围的相似度来进行融合;若注册地址不为空,根据注册地址的相似度来进行融合。
[0085]
s150、根据所述每一数据源中融合后的实体、所述融合后的实体属性、所述每一数据源中的各实体之间的连接关系构建每一数据源的知识图谱。
[0086]
在本实施例中,在提取每一数据源中融合后的实体、融合后的实体属性、每一数据源中的各实体之间的连接关系之后,便可根据所提取的信息构建每一数据源的知识图谱。例如,在涉及到企业知识图谱领域时,企业知识图谱包括并表图谱以及广义图谱,并表图谱可以查看企业的上三代、下三代子公司列表(名称、持股占比等数据),主要是查看企业的组成结构,及企业的骨架组成。广义图谱:主要从参控股、担保关系、主要客户、竞争对手、高管、股东、热词、法律诉讼8个维度展开,对企业的信息全面掌控。其中,并表图谱以及广义图谱的逻辑结构分为两个层次,分别为数据层和模式层;对于数据层,知识以事实(fact)为单位存储在图数据库。如果以[实体

关系

实体]或者[实体

属性

值]三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成企业知识图谱。模式层在数据层之上,是知识图谱的核心,在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少。
[0087]
s160、根据预设的图谱匹配规则对所述每一数据源的知识图谱进行融合,得到融合后的知识图谱。
[0088]
具体的,所述图谱匹配规则为用于将每一数据源的知识图谱融合成一个知识图谱的规则信息,即将所述多个数据源中某一数据源的知识图谱作为基础知识图谱,将其与的知识图谱融合到该基础知识图谱中,进而得到所述融合后的知识图谱。
[0089]
在另一实施例中,如图7所示,步骤s160包括子步骤s161和s162。
[0090]
s161、基于编辑距离算法计算每个知识图谱之间的实体的相似度。
[0091]
s162、根据所述每个知识图谱之间的实体的相似度对所述每一数据源的知识图谱进行融合,得到融合后的知识图谱。
[0092]
在本实施例中,将所述多个数据源中某一数据源的知识图谱作为基础知识图谱并通过采用编辑距离算法计算每个知识图谱之间实体的相似度,然后统计实体的相似度高于预设的阈值的实体的个数,最后根据该实体的个数来进行知识图谱的融合。
[0093]
在本发明实施例所提供的基于多维度的知识图谱的融合方法中,通过获取来自多个数据源的实体的数据并对所获取的数据进行数据清洗,得到清洗后的数据;从所述清洗
后的数据中抽取每一数据源中的实体、每一数据源中的实体属性以及每一数据源中的各实体之间的连接关系;根据预设的实体融合规则对所述每一数据源中的实体进行融合,得到每一数据源中融合后的实体;根据预设的属性相似度规则对所述每一数据源之间的实体属性进行融合,得到融合后的实体属性;根据所述每一数据源中融合后的实体、所述融合后的实体属性、所述每一数据源中的各实体之间的连接关系构建每一数据源的知识图谱;根据预设的图谱匹配规则对所述每一数据源的知识图谱进行融合,得到融合后的知识图谱。通过该方法使得在对知识图谱的融合过程中,实现了多数据源的实体的融合,提高了知识图谱中的实体的准确性,尤其在企业知识图谱技术领域,解决了无法实现对企业名称做了变更的企业进行融合、无法实现企业名称中特有词结构部分进行缩减的企业进行融合、无法实现企业名称中存在错别字的企业进行融合等问题。
[0094]
本发明实施例还提供了一种基于多维度的知识图谱的融合装置100,该装置用于执行前述基于多维度的知识图谱的融合方法的任一实施例。
[0095]
具体地,请参阅图8,图8是本发明实施例提供的基于多维度的知识图谱的融合装置100的示意性框图。
[0096]
如图8所示,所述的基于多维度的知识图谱的融合装置100,该装置包括第一获取单元110、抽取单元120、第一融合单元130、第二融合单元140、构建单元150和第三融合单元160。
[0097]
第一获取单元110,用于获取来自多个数据源的实体的数据并对所获取的数据进行数据清洗,得到清洗后的数据。
[0098]
在其他发明实施例中,如图9所示,所述第一获取单元110包括转换单元111和剔除单元112。
[0099]
转换单元111,用于根据预置的繁简体转换工具对实体进行繁简体转换,得到繁简体转换后的实体;剔除单元112,用于基于正则表达式将所述繁简体转换后的实体中的特殊符号进行剔除,得到所述清洗后的实体。
[0100]
抽取单元120,抽取单元,用于从所述清洗后的数据中抽取每一数据源中的实体、每一数据源中的实体属性以及每一数据源中的各实体之间的连接关系。
[0101]
第一融合单元130,用于根据预设的实体融合规则对所述每一数据源中的实体进行融合,得到每一数据源中融合后的实体。
[0102]
在其他发明实施例中,如图10所示,所述第一融合单元130包括:模式提取单元131和重组单元132。
[0103]
模式提取单元131,用于根据预设的提取规则对所述清洗后的实体的名称进行模式提取,得到多个词语;重组单元132,用于根据预设的重组规则对所述多个词语进行重组,得到重组后的名称。
[0104]
第二融合单元140,用于根据预设的属性相似度规则对所述每一数据源之间的实体属性进行融合,得到融合后的实体属性。
[0105]
在其他发明实施例中,如图11所示,所述第二融合单元140包括:特征选取单元141、第二获取单元142和第四融合单元143。
[0106]
特征选取单元141,用于对每一数据源中的实体属性进行特征选取,得到所述每一数据源中的实体属性的特征数据;第二获取单元142,用于根据所述每一数据源中的实体属
性的特征数据获取每一数据源之间实体属性的相似度;第四融合单元143,用于根据所述每一数据源之间实体属性的相似度对所述每一数据源之间的实体属性进行融合,得到所述融合后的实体属性。
[0107]
在其他发明实施例中,如图12所示,所述第二获取单元142包括:数值化处理单元1421和第三获取单元1422。
[0108]
数值化处理单元1421,用于对所述每一数据源中的实体属性的特征数据进行数值化处理,得到所述每一数据源中的实体属性的数值;第三获取单元1422,用于根据所述每一数据源中的实体属性的数值获取所述每一数据源之间的实体属性的相似度。
[0109]
在其他发明实施例中,如图13所示,所述第二融合单元140还包括:同构处理单元140a、匹配对生成单元140b、第一计算单元140c和第五融合单元140d。
[0110]
同构处理单元140a,用于对每一数据源中的实体属性进行同构处理,得到同构处理后的实体属性;匹配对生成单元140b,用于基于blocking技术构建所述来自多个数据源的实体的数据的分区索引并根据所述分区索引生成每一数据源的实体的匹配对;第一计算单元140c,用于基于编辑距离算法对每一数据源之间的匹配对进行相似度计算,得到匹配对的相似度;第五融合单元140d,用于根据所述匹配对的相似度生成所述实体属性的融合规则并根据所述融合规则对所述每一数据源之间的实体属性进行融合,得到融合后的实体属性。
[0111]
构建单元150,用于根据所述每一数据源中融合后的实体、所述融合后的实体属性、所述每一数据源中的各实体之间的连接关系构建每一数据源的知识图谱。
[0112]
第三融合单元160,用于根据预设的图谱匹配规则对所述每一数据源的知识图谱进行融合,得到融合后的知识图谱。
[0113]
在其他发明实施例中,如图14所示,所述第三融合单元160包括:第二计算单元161和第六融合单元162。
[0114]
第二计算单元161,用于基于编辑距离算法计算每个知识图谱之间的实体的相似度;第六融合单元162,用于根据所述每个知识图谱之间的实体的相似度对所述每一数据源的知识图谱进行融合,得到融合后的知识图谱。
[0115]
本发明实施例所提供的基于多维度的知识图谱的融合装置100用于执行上述获取来自多个数据源的实体的数据并对所获取的数据进行数据清洗,得到清洗后的数据;从所述清洗后的数据中抽取每一数据源中的实体、每一数据源中的实体属性以及每一数据源中的各实体之间的连接关系;根据预设的实体融合规则对所述每一数据源中的实体进行融合,得到每一数据源中融合后的实体;根据预设的属性相似度规则对所述每一数据源之间的实体属性进行融合,得到融合后的实体属性;根据所述每一数据源中融合后的实体、所述融合后的实体属性、所述每一数据源中的各实体之间的连接关系构建每一数据源的知识图谱;根据预设的图谱匹配规则对所述每一数据源的知识图谱进行融合,得到融合后的知识图谱。
[0116]
请参阅图15,图15是本发明实施例提供的计算机设备的示意性框图。
[0117]
参阅图15,该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
[0118]
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执
行时,可使得处理器502执行基于多维度的知识图谱的融合方法。
[0119]
该处理器502用于提供计算和控制能力,支撑整个设备500的运行。
[0120]
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于多维度的知识图谱的融合方法。
[0121]
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图15中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的设备500的限定,具体的设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0122]
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:获取来自多个数据源的实体的数据并对所获取的数据进行数据清洗,得到清洗后的数据;从所述清洗后的数据中抽取每一数据源中的实体、每一数据源中的实体属性以及每一数据源中的各实体之间的连接关系;根据预设的实体融合规则对所述每一数据源中的实体进行融合,得到每一数据源中融合后的实体;根据预设的属性相似度规则对所述每一数据源之间的实体属性进行融合,得到融合后的实体属性;根据所述每一数据源中融合后的实体、所述融合后的实体属性、所述每一数据源中的各实体之间的连接关系构建每一数据源的知识图谱;根据预设的图谱匹配规则对所述每一数据源的知识图谱进行融合,得到融合后的知识图谱。
[0123]
本领域技术人员可以理解,图15中示出的设备500的实施例并不构成对设备500具体构成的限定,在其他实施例中,设备500可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,设备500可以仅包括存储器及处理器502,在这样的实施例中,存储器及处理器502的结构及功能与图15所示实施例一致,在此不再赘述。
[0124]
应当理解,在本发明实施例中,处理器502可以是中央处理单元(central processing unit,cpu),该处理器502还可以是其他通用处理器502、数字信号处理器502(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。
[0125]
在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质,也可以是易失性的存储介质。该存储介质存储有计算机程序5032,其中计算机程序5032被处理器502执行时实现以下步骤:获取来自多个数据源的实体的数据并对所获取的数据进行数据清洗,得到清洗后的数据;从所述清洗后的数据中抽取每一数据源中的实体、每一数据源中的实体属性以及每一数据源中的各实体之间的连接关系;根据预设的实体融合规则对所述每一数据源中的实体进行融合,得到每一数据源中融合后的实体;根据预设的属性相似度规则对所述每一数据源之间的实体属性进行融合,得到融合后的实体属性;根据所述每一数据源中融合后的实体、所述融合后的实体属性、所述每一数据源中的各实体之间的连接关系构建每一数据源的知识图谱;根据预设的图谱匹配规则对所述每一数据源的知识图谱进行融合,得到融合后的知识图谱。
[0126]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0127]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0128]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0129]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0130]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备500(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0131]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1