一种基于语义三角的领域知识图谱及查询方法与流程

文档序号:12719590阅读:577来源:国知局
一种基于语义三角的领域知识图谱及查询方法与流程

本发明属于人工智能领域,具体涉及一种基于语义三角的领域知识图谱及查询方法。



背景技术:

随着互联网技术的飞速发展,人类先后经历了以文档为主要特征的“Web 1.0”时代和以数据互联数据共享为特征的“Web 2.0”时代,并且正在走向基于知识互联的“Web3.0”时代。在大数据中表示一个可理解的知识网络,成为现代互联网时代的一大挑战。同样,人机交互的基础在于理解用户的言语信息、推断用户的意图进而由机器返回给用户结果。知识图谱以其强大的语义处理能力与开放互联的能力应运而生,能够将互联网中的海量、异构的数据聚集为可理解的知识网络,便于理解、应用。因此,如何表示某个特定领域的知识图谱并应用于特定的业务场景以解决相应的问题,具有十分重要的意义。

现有的知识图谱的表示大多描述的是实体之间的语义网络,每个实体(概念的外延)用一个全局唯一确定的ID来标识,采用主-谓-宾三元组的形式表示知识网络。但是这种表示方法会带来概念和实体的混淆,从而造成用户的理解障碍,并且不利于实体的理解。针对特定的问题,需要在存在海量数据和关系的知识图谱中查询,成本相对较高。传统的知识图谱还存在一词多义和一义多词的问题,使得语义网络混乱,不利于从互联网丰富的词语中整理出知识并进行快速查询。

语义三角是一种关于意义的理论,由英国学者奥格登(Ogden)和理查兹(Richards)在1923年出版的语义学重要著作《意义的意义》(The Meaning of Meaning)中提出,代表了传统语义学的典型观点。描述的是符号、概念(意义)和客观事物之间的一种相互制约、相互作用的关系,强调语言符号是对事物的指代,指代过程就是符号、概念(意义)和事物发生关系的过程。符号用来表示概念,概念是反映客观事物或者对象本质属性的思维形式,是词语的思想内容;概念反映现实世界中的客观事物即所指物。语义三角包括三方面的关系,分别是概念/意义和客观事物之间的直接关系,概念与符号/词之间的直接关系和符号或词与指称物/事物之间的非直接关系。

如何利用语义三角的思想,在特定领域为海量、异构的大数据表达、组织、管理和应用提供一种更为有效的方式,使得语义网络能够实现特定领域概念与实体的组织管理和快速查询的功能,是知识图谱当前亟待解决的问题之一。



技术实现要素:

本发明针对上述问题,提出了一种基于语义三角的领域知识图谱及查询方法。该图谱将概念与实体分离,并用一个代表词和多个候选词作为概念或者实体的表示,实体之间的关系通过基于概念结点的超边建立,从而实现了知识网络的有效管理和快速查询。

本发明采用的技术方案如下:

基于语义三角的领域知识图谱由概念层、实体层组成,具体表示为以下五部分:

1.根据领域相关的知识构建概念层,概念层由概念的集合组成,每个概念设有唯一标识,并由一个代表词项和候选词项集合表示。概念对应语义三角中的概念/意义,是在该领域的客观事物的基础上概括而成的。候选词项集合中的每个候选词可以理解为代表词项的同义词或近义词,并以一定概率表示该概念。另外,概念层可以不止一层,可根据不同的业务场景细化概念层,使其更准确地刻画领域知识,满足具体的任务。

2.根据领域相关的知识和概念层的概念集合,实例化每个概念对应的多个实体,构成实体层。实体是概念的外延,每个实体设有唯一标识,并由一个代表词项和候选词项集合表示。实体通过概念层中的概念实例化(instanceOf)得到,即根据领域知识将实体对应到相关概念上。候选词项集合中的每个候选词可以理解为代表词项的同义词,以一定概率表示该实体。这里的概率可通过经验设定,也可基于统计分析的方法学习出来。

3.根据领域相关知识,通过经验规则推理或者统计学习等方法,表示概念层相关概念之间的关联关系。概念之间存在以下几种关系:

(1)概念与其属性之间的包含关系(has)。如果概念的属性也在概念层中作为一个概念出现,那么这两者之间的关系即为包含关系(has)。

(2)概念之间的隶属关系(isA)。如果一个概念是另外一个概念涵义的子集,则两者之间的关系即为隶属关系(isA)。

(3)概念之间的关联关系。如果概念之间存在其他关联关系,可根据具体领域定义特定的关联关系,比如扩展关系等。

4.根据领域相关知识,表示概念层与实体层之间的关联关系。概念与实体最直接的关系是概念实例化(instanceOf),在实体层生成过程中已经记录。除此之外,还存在用超边表示的概念与实体的基于关系(basedOn),可判断实体之间的关系是基于概念层某个属性概念的时候,实体关系与属性概念就由一条超边连接,用来表示基于关系(basedOn)。

5.根据领域相关知识,构建独立于概念层的实体之间的关联关系。

以上知识图谱的表示方法适合于各个特定领域,具有普适性和通用性。但对于不同领域,其具体的构建方法和技术则有所不同,可能基于领域知识进行人工判断,也可能基于统计学习的方法自动完成,这就需要根据领域知识的积累程度,以及领域相关数据的规模和可获取程度等因素综合考虑和设计。本发明旨在提出一种通用的领域知识图谱表示方法,而具体的构建过程将针对不同领域的特点,分别进行研究和设计,也将在其它专利中体现。

基于上述知识图谱,可高效地对领域中的概念和实体进行查询,并反馈与查询对象相关联的查询结果。对于一待查询请求,查询过程分为以下几个步骤:

1.将用户给出的查询语句分词,并去掉其中的停用词之后将分词存储在集合S中。

2.将S中的每个词项和知识图谱概念层的概念和实体层中的实体进行匹配:

(1)当匹配到概念层的某概念时,将通过知识图谱关联到与该概念关联的属性概念,以及该概念实例化后得到的实体集合,并作为查询结果返回;

(2)当匹配到实体层的某实体时,将通过知识图谱关联到到与该实体关联的属性,以及该实体对应的概念,并作为查询结果返回;

(3)当匹配到实体层的多个实体时,查看它们在知识图谱的实体层中是否有边相连接,如果有边相连且该边构成了一条BasedOn超边,则将此超边连接的概念也归入查询结果,从而准确地理解查询语句中可能缺省的实体之间的关系类型;

(4)当匹配到概念层的一概念,且该概念与同时匹配到实体层的一实体之间存在BasedOn超边时,将此超边连接的另外一个实体也归入查询结果,从而完整地理解概念和实体之间的关联关系。

与现有技术相比,本发明的有益效果如下:

1)本方法实现了概念与实体的分离,用户在特定领域面对特定任务的时候,易于从抽象的概念入手寻找解决方案,相比传统的知识图谱中实体概念一起定义的方法,方便了知识的梳理,并区分了概念和实体在知识理解和运用中的不同作用。

2)本方法实现了知识图谱中知识的快速查询。概念和实体分离的表示方法将知识进行了层次化的整理,当用户进行某个特定知识查询的时候,可以遵循从概念到实体的步骤进行,降低了查询成本,提高了查询效率。

3)本方法解决了一义多词的问题。每个概念和实体均由一个代表词项和一个候选词项集合表示,可以很快地理解用户的意图,找到词语之间的同义关系。

4)本方法解决了一词多义的问题。无论是汉语中的“是”和“有”,还是英语中的“IsA”和“Has”都被频繁应用于表示实体之间或者概念之间的多种关系,本方法把几种重要的关系明确表示出来,消除了传统的知识图谱中的一些歧义现象。

5)本方法有助于计算机理解用户的意图,提高了用户的体验,帮助用户更加高效地完成特定领域的特定任务,进而提升自然人机交互的质量。

附图说明

图1为本方法的语义三角示意图;

图2为金融审计领域的知识图谱示意图;

图3为金融审计领域的知识图谱示意图;

图4为金融审计领域的知识图谱示意图;

图5为生态系统领域的知识图谱示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明,以下结合实例和附图进一步详细描述本发明,但不构成对本发明的限制。

图1为本方法的语义三角,概念与实体、概念与表示之间是紧密耦合关系,实体和表示之间是松散耦合关系。

图2为金融审计领域的知识图谱的示例,其结构可划分为概念网络和实体网络两层:

1.概念网络包含五个概念,分别是贷款、合同、不良贷款、合同编号和贷款金额。

(1)每个概念都用唯一的CID标识,并由一个代表词项和候选词项集合表示,合同号、合同档案号作为候选词项集合与合同编号具有相同的含义。同理,在审计领域,贷款金额、贷款结算余额也可以表达与贷款余额相同的含义。

(2)合同的一个属性为合同编号,合同编号用来标识一个合同,因此合同与合同编号之间是包含关系(has)。同理,不良贷款与贷款金额之间也是包含关系(has)。

(3)在审计领域,贷款的过程往往会涉及到合同的签订,审计人员在查看相关贷款信息的时候,通常也会查看该贷款涉及到的合同内容,因此合同与贷款之间有扩展(extend)关系。这种关系的建立简化了审计人员的操作。

(4)在审计领域,贷款其中有一部分为不良贷款,因此贷款与不良贷款之间是包含关系(include)。

2.实体网络包含4个实体,分别是合同实体1,XXXX100,贷款实体1,1000000元。这些实体均可由概念层中的概念实例化(InstanceOf)得到。实体之间的关系继承了概念层中概念之间的关系。比如,在概念层合同与不良贷款之间存在扩展关系,因此合同实体1与贷款实体之间也有对应的扩展关系。

3.概念层与实体层的关联最直接的是实例化。除此之外,合同实体1的属性之一是合同编号XXXX100,而这种关系是基于合同编号这一概念的,因此这一实例之间的属性关系与作为概念的合同编号之间存在BasedOn关系。

审计人员利用这种基于语义三角的知识图谱,可以更加快捷地解决相关的问题。传统的知识图谱将概念和实体混淆,造成用户在使用过程中出现分类不清晰、返回结果不明确等问题。例如,在金融审计领域知识图谱中(如图2所示),当用户查询“不良贷款有哪些”时,本发明首先将查询语句分词,存储在集合S={“不良贷款”,“哪些”}中,然后将S中的词项与概念层中的概念和实体层中的实体进行匹配,在概念层找到“不良贷款”,随后可以立即映射到实体层中属于不良贷款的实体集合,并作为查询结果返回。然而,在传统的知识图谱中则需要遍历所有实体结点找到相关的不良贷款实体,查询效率较低。

再比如,当用户查询“贷款实体1的不良贷款的贷款金额是多少?”时,首先将查询语句分词,存储在集合S={“贷款实体1”,“不良贷款”,“贷款金额”,“多少”},然后在概念层中找到“不良贷款”和“贷款金额”,在实体层中找到实体“贷款实体1”,进而通过“贷款实体1”与“贷款金额”所在的超边,扩展到实体层的实体“1000000元”,作为查询结果返回。

进一步地,本发明的图谱从抽象的概念概括了领域的知识,对于领域知识是一种分类整理,有利于用户从抽象的角度理解领域内的知识体系结构。例如,审计人员会设计不同的审计分析模型进行相关的任务,本方法设计的知识图谱可以帮助审计人员整理思路并设计相关模型。如图3所示的知识图谱,当识别的风险为“资金沉淀”,输出模型“贷款资金沉淀”;识别相关风险“化整为零、以贷还贷…”时,输出推荐模型“资金支付化整为零”、“以贷还贷”等。

在实例层方面,除了可以进行实体的查询功能,还可以通过本发明的知识图谱实现虚假信息识别和异常检测等任务。如图4所示,一致性检查可以用来监测虚假信息,比如不同企业存在相同的法人、通信地址、联系电话、营业许可证号时,审计人员就应该对这两家企业的信息进行核实;特别地,当联系电话和经营许可证号重复出现时,如果不是数据录入错误,那么就肯定有一家企业提供了虚假信息。

图5为针对新疆大数据生态中心构建的生态领域知识图谱,通过对生态环境中的基本要素和事实进行建模,梳理各类知识,形成了完整的系统。知识图谱分为三层,其中两层是概念层,一层是实体层。具体如下:

1)生态概念层。主要描述的是生态环境的重要概念,比如水、土壤和大气等。其中存在相应的隶属关系(isA),例如地下水、降水和河道水属于水这个概念。

2)度量概念层。主要描述了生态环境的各种度量指标,例如地下水这个概念中包含另外一个度量概念,地下水含量。

3)实体层。对概念层中的概念进行实例化,例如天山地区红土继承红土这个概念,20ml继承自土壤含水量这个概念。其中,20ml是天山地区红土的含水量,两者之间存在属性关系(attr),这种关系是基于土壤含水量这个概念的,因此与土壤含水量之间具有basedOn超边关系。

上述的知识图谱可应用于新疆地区生态环境的监测。通过对各类传感器的度量数据进行初步归类,并根据关联关系,对实时数据进行监控和推理。把传感器数据(结构化)和文本数据(非结构化)结合起来,将每个特定地区的监控结果动态地构建到实体层。由于概念层反映的是较为正常的生态循环系统,当发现实体层构建的循环系统和概念层的差异较大的时候,即图变化较大时,可以认为产生了异常的生态现象,相关人员需要根据变化的指标排查问题出现的原因,并进行相应处理。生态环境知识图谱还可以提供与操作人员自然交互的功能,通过对语句表示的查询和操作类型进行归类,针对提问语句中涉及到的关键属性,对缺失的部分进行自动填充或者与用户进行交互,逐步理解操作人员的意图,给予相应的反馈信息,提高操作人员的工作效率。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1