基于城市公共设施决策案例的知识图谱融合方法及系统与流程

文档序号:32626383发布日期:2022-12-20 23:54阅读:65来源:国知局
基于城市公共设施决策案例的知识图谱融合方法及系统与流程

1.本发明涉及知识图谱融合方法的技术领域,具体地,涉及基于城市公共设施决策案例的知识图谱融合方法及系统。


背景技术:

2.为了能够推进我国城市化的进程,在提出智慧城市的建设理念后,不同区域大力建设城市公共基础实施。城市基础设施是城市正常运行和健康发展的物质基础,对于改善人居环境、增强城市综合承载能力、提高城市运行效率具有重要作用。当前智慧城市发展正处于数字赋能与治理驱动的交汇点。城市运行过程中会产生各种各样的数据信息,为了更好的将数据信息进行对接和共享,以便提高信息系统的协同程度和统筹效率,需要将城市运行过程中的不同平台数据、不同业务部门数据相互融合贯通,包括市政、警务、交通、电力、商业等领域数据综合汇集。针对城市公共基础设施决策案例关联程度不高的问题,提出基于知识图谱融合城市公共基础设施知识库的方法、本体建模。提高对城市公共基础设施案例及其运行规律的认知能力。
3.知识图谱(knowledgegraph)以结构化的方式描述客观世界中概念、实体及其间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。其中,概念是指人们在认识世界过程中形成的对客观事物的概念化表示;实体是客观世界中的具体事物;关系描述概念、实体、事件之间客观存在的关联。
4.知识图谱提供了一种更好的组织、管理和理解互联网信息的能力,可用于语义搜索、智能问答、个性化推荐等。知识图谱技术的出现为解决信息检索问题提供了新的思路。知识图谱能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来。
5.由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
6.针对上述中的相关技术,发明人认为城市公共基础设施的运行中存在决策案例库数据源关联不明确的问题,且城市公共基础设施的运行中存在决策案例处置低效率的问题。因此,需要提出一种新的技术方案以改善上述技术问题。


技术实现要素:

7.针对现有技术中的缺陷,本发明的目的是提供一种基于城市公共设施决策案例的知识图谱融合方法及系统。
8.根据本发明提供的一种基于城市公共设施决策案例的知识图谱融合方法,所述方法包括如下步骤:
9.步骤s1:构建本体;本体是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义;
10.步骤s2:对齐实体;从顶层创建一个统一知识库,机器理解多源异质的数据,形成知识。
11.优选地,所述步骤s1包括如下步骤:
12.步骤s1.1:确定本体的领域和范围;
13.步骤s1.2:调研相关本体后直接导入;
14.步骤s1.3:列举本体中的重要术语;
15.步骤s1.4:定义类的属性及层次结构。
16.优选地,所述步骤s1中的本体采用人工编辑的方式手动构建,也能够采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。
17.优选地,所述步骤s2包括如下步骤:
18.步骤s2.1:从文本中通过实体抽取得到实体指称项;
19.步骤s2.2:进行实体消歧和共指消解;
20.步骤s2.3:确定实体对象,链接到知识库。
21.优选地,所述步骤s2.2中的实体消歧是用于解决同名实体产生歧义问题的技术;实体消歧采用聚类法;聚类法是指以实体对象为聚类中心,将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下。
22.本发明还提供一种基于城市公共设施决策案例的知识图谱融合系统,所述系统包括如下模块:
23.模块m1:构建本体;本体是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义;
24.模块m2:对齐实体;从顶层创建一个统一知识库,机器理解多源异质的数据,形成知识。
25.优选地,所述模块m1包括如下模块:
26.模块m1.1:确定本体的领域和范围;
27.模块m1.2:调研相关本体后直接导入;
28.模块m1.3:列举本体中的重要术语;
29.模块m1.4:定义类的属性及层次结构。
30.优选地,所述模块m1中的本体采用人工编辑的方式手动构建,也能够采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。
31.优选地,所述模块m2包括如下模块:
32.模块m2.1:从文本中通过实体抽取得到实体指称项;
33.模块m2.2:进行实体消歧和共指消解;
34.模块m2.3:确定实体对象,链接到知识库。
35.优选地,所述模块m2.2中的实体消歧是用于解决同名实体产生歧义问题的技术;实体消歧采用聚类法;聚类法是指以实体对象为聚类中心,将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下。
36.与现有技术相比,本发明具有如下的有益效果:
37.1、本发明有效提高各大行业各细分场景的公共设施运行决策案例解决效率,为智慧城市赋能;
38.2、本发明通过引入实体对齐的方法学习知识图谱中的关系信息,充分利用实体间的关系,辅助于学习到更加准确的实体向量表示,缓解了知识图谱异构性带来的影响,从而提高知识图谱实体对齐,以及知识图谱融合的效果。
附图说明
39.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
40.图1为本发明本体构建图;
41.图2为本发明实体对齐图。
具体实施方式
42.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
43.实施例1:
44.根据本发明提供的一种基于城市公共设施决策案例的知识图谱融合方法,方法包括如下步骤:
45.步骤s1:构建本体;本体是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义;
46.步骤s1.1:确定本体的领域和范围;
47.步骤s1.2:调研相关本体后直接导入;
48.步骤s1.3:列举本体中的重要术语;
49.步骤s1.4:定义类的属性及层次结构。
50.本体采用人工编辑的方式手动构建,也能够采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。
51.步骤s2:对齐实体;从顶层创建一个大规模的统一知识库,机器理解多源异质的数据,形成高质量的知识。
52.步骤s2.1:从文本中通过实体抽取得到实体指称项;
53.步骤s2.2:进行实体消歧和共指消解;
54.步骤s2.3:确定实体对象,链接到知识库。
55.实体消歧是用于解决同名实体产生歧义问题的技术;实体消歧采用聚类法;聚类法是指以实体对象为聚类中心,将所有指向同一目标实体对象的指称项聚集到以该对象为
中心的类别下。
56.实施例2:
57.实施例2为实施例1的优选例,以更为具体地对本发明进行说明。
58.本发明还提供一种基于城市公共设施决策案例的知识图谱融合系统,系统包括如下模块:
59.模块m1:构建本体;本体是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义;
60.模块m1.1:确定本体的领域和范围;
61.模块m1.2:调研相关本体后直接导入;
62.模块m1.3:列举本体中的重要术语;
63.模块m1.4:定义类的属性及层次结构。
64.本体采用人工编辑的方式手动构建,也能够采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。
65.模块m2:对齐实体;从顶层创建一个大规模的统一知识库,机器理解多源异质的数据,形成高质量的知识。
66.模块m2.1:从文本中通过实体抽取得到实体指称项;
67.模块m2.2:进行实体消歧和共指消解;
68.模块m2.3:确定实体对象,链接到知识库。
69.实体消歧是用于解决同名实体产生歧义问题的技术;实体消歧采用聚类法;聚类法是指以实体对象为聚类中心,将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下。
70.实施例3:
71.实施例3为实施例1的优选例,以更为具体地对本发明进行说明。
72.1.本体构建
73.本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义。本体的最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识。在知识图谱中,本体位于模式层,用于描述概念层次体系是知识库中知识的概念模板。
74.本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。对于特定领域而言,可以采用领域专家和众包的方式人工构建本体。对于跨领域的全局本体库而言,可以采用自动构建技术逐步扩展得到,如数据驱动的自动化构建方法,利用统计机器学习算法迭代地从网页文本数据中抽取出概念之间的“isa”关系,然后合并形成概念层次。
75.数据驱动的自动化本体构建过程包含三个阶段:实体并列关系相似度计算、实体上下位关系抽取以及本体的生成。1)实体并列关系相似度是用于考察任意给定的2个实体在多大程度上属于同一个概念分类的指标测度,相似度越高,表明这2个实体越有可能属于同一语义类别。2)实体上下位关系抽取是用于确定概念之间的隶属(isa)关系,这种关系也成为上下位关系。例如,词组(导弹,武器)构成上下位关系。3)本体生成阶段的主要任务是
对各层次得到的概念进行聚类,并对其进行语义类的标定(为该类中的实体指定1个或多个公共上位词)。
76.在本方案中,我们采用人工编辑的方式手动构建本体。第一步,确定本体的领域和范围(城市的精细化管理);第二步,调研面向城市的精细化管理相关本体,将其直接导入进来,以便于基于这些本体进行进一步的改进和扩展;第三步,列举本体中的重要术语,以停车场景为例,如车、车主、停车场和停车位等,这一阶段不需要考虑术语之间的关系或概念重叠等问题,需要保证列表的全面性;第四步,采用自顶向下的方式定义类及其层次结构,先定义城市精细化管理中宽泛的概念,如停车场,然后进行细化,如停车位、预约共享、长租等;最后定义类的属性丰富类,如停车场的属性有车场名称、泊位数等。
77.2.实体对齐
78.实体对齐(entity alignment)也称为实体匹配(entity matching)或实体解析(entity resolution),主要是用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。
79.实体对齐的一般流程是:1)从文本中通过实体抽取得到实体指称项;2)进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;3)在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。
80.1)实体消歧
81.实体消歧(entity disambiguation)是专门用于解决同名实体产生歧义问题的技术。在实际语言环境中,经常会遇到某个实体指称项对应于多个命名实体对象的问题,例如“李娜”这个名词(指称项)可以对应于作为歌手的李娜这个实体,也可以对应于,作为网球运动员的李娜这个实体,通过实体消歧,就可以根据当前的语境,准确建立实体链接。
82.实体消歧主要采用聚类法。聚类法是指以实体对象为聚类中心,将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下。聚类法消歧的关键问题是如何定义实体对象与指称项之间的相似度,常用方法有4种。
83.①
空间向量模型(词袋模型)。典型的方法是取当前语料中实体指称项周边的词构成特征向量,然后利用向量的余弦相似度进行比较,将该指称项聚类到与之最相近的实体指称项集合中。
84.②
语义模型。该模型与空间向量模型类似,区别在于特征向量的构造方法不同,语义模型的特征向量不仅包含词袋向量,而且包含一部分语义特征。
85.③
社会网络模型。该模型的基本假设是物以类聚,人以群分,在社会化语境中,实体指称项的意义在很大程度上是由与其相关联的实体所决定的。建模时,首先利用实体间的关系将与之相关的指称项链接起来构成网络,然后利用社会网络分析技术计算该网络中节点之间的拓扑距离(网络中的节点即实体的指称项),以此来判定指称项之间的相似度。
86.④
百科知识模型。百科类网站通常会为每个实体(指称项)分配一个单独页面,其中包括指向其他实体页面的超链接,百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度。
87.2)共指消解
88.共指消解(entity resolution)技术主要用于解决多个指称项对应于同一实体对象的问题。例如在一些文章中,“乔布斯”、“苹果创始人”、“苹果ceo”等指称项可能指向的是同一实体对象,其中的许多代词如“他”,也可能指向该实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象。共指消解问题的方法主要有基于自然语言处理的方法、基于统计机器学习方法、聚类法等。
89.基于自然语言处理的共指消解是以句法分析为基础的,代表性方法是hobbs算法和向心理论。hobbs算法的主要思路是基于句法分析树进行搜索,因此适用于实体与代词出现在同一句子中的场景,有一定的局限性。向心理论的基本思想是:将表达模式视为语篇的基本组成单元,通过识别表达模式中的实体,可以获得当前和后续语篇中的关注中心(实体),根据语义的局部连贯性和显著性,就可以在语篇中跟踪受关注的实体。基于统计机器学习方法利用现有的机器学习方法取得较好的效果,常见的算法模型有c4.5决策树算法、dempster-shafer概率模型;聚类法的基本思想是以实体指称项为中心,通过实体聚类实现指称项与实体对象的匹配。其关键问题是如何定义实体间的相似性测度。
90.在本方案中,待消歧的实体指称集合为o={o1,o2,

,ok},我们用聚类的方法进行消歧,具体步骤如下所示。
91.1)对每个实体指称项o,抽取其特征(上下文的词,实体,概念)组成特征向量o={w1,w2,

,wn}
92.2)利用基于表层特征的方法计算实体指称项之间的相似度。
93.3)采用k-means聚类算法对实体指称项聚类,使得聚类结果中每一个类别都对应于一个目标实体上。
94.在系统现有决策案例关联不够明确,与责任部门实际需求情况不符时,可通过引入相关知识,提升知识图谱的覆盖率及正确率,形成数据驱动城巿精细化管理。
95.本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
96.本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
97.以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本技术的实施例和实施例中的特征可以任意相互组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1