一种基于知识关联的主题图冲突检测方法及系统与流程

文档序号:16881068发布日期:2019-02-15 22:09阅读:385来源:国知局
一种基于知识关联的主题图冲突检测方法及系统与流程

本发明属于教育技术领域,尤其涉及一种基于知识关联的主题图冲突检测方法及系统。



背景技术:

目前,业内常用的现有技术是这样的:

主题图是有效的进行知识聚合方法之一,其最大的优点就在于可以充分发挥主题构建者对于知识组成和知识范围的自定义。以此让学习者在学习的过程中对于知识结构梳理以及知识所关联的资源有着较强的关联性,有助于学习者进行快速构建个性化的知识体系。但是局限于学习者学习的深度和认知广度对应实际构建知识体系存在不合理性,在此种情境下,会存在着两种情况,一是元组的名称和标识因为是由构建者所自定义,可能会是出现了定义的偏差;二是元组下所关联的知识元个别关联到错误的范围,从而导致此知识元组下所有关联的知识元间可能存在不一致性,可能会存在着大部分的知识元和小部分知识元所代表的知识所属范围不在同一个知识元组的描述范围之下。所以通过学习者构建的主题图,可能存在不合理性,容易让主题图所表示的知识领域范围存在不一致性。

综上所述,现有技术存在的问题是:

如果采用构建主题图的方式不同所采用冲突检测的方式便不一样,如如果采用基于知识图谱的方式来构建首先其数据结构的组成方式便不同,且知识图谱适用于大规模关系构建,对于构建个性化主题图从构建的实体数量和关系方面便不合适,其适用于大规模语义关系描述,且知识图谱的描述框架主要是由三元组构成,以及关系schema约束,需要有完整的语义网的解决方案,构建起来费时费力。

现有的主题图局限于学习者学习的深度和认知广度对应实际构建知识体系存在不合理性,在此种情境下,会存在着两种情况:

(1)元组的名称和标识因为是由构建者所自定义,可能会是出现了定义的偏差;

(2)元组下所关联的知识元个别关联到错误的范围,导致此知识元组下所有关联的知识元间可能存在不一致性,可能会存在着大部分的知识元和小部分知识元所代表的知识所属范围不在同一个知识元组的描述范围之下;

所以通过学习者构建的主题图,可能存在不合理性,容易让主题图所表示的知识领域范围存在不一致性。

解决上述技术问题的难度和意义:

本发明所提出的基于知识关联的主题图冲突检测方法难度在于对于主题图中每一个知识元和知识元组都需要构建基于向量的相似性,以及采用资源组描述信息来扩展对知识元组的表述。

而其意义在于能够实时快速的识别学习者构建知识元组与资源合理关系,及时的为学习者提供构建建议,使得其所构建的个性化主题图更具合理性更符合规范。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种基于知识关联的主题图冲突检测方法及系统。

本发明是这样实现的,一种基于知识关联的主题图冲突检测方法,包括:

采用基于路径和深度的知识元关联关系的方法计算主题图中知识元间的相关性rk;

计算主题图中的知识元所关联的资源组间的相关性rr,并结合知识元所关联的资源描述信息进行计算知识元间的相似性;

利用基于路径与深度的方式计算所得出的知识元之间的相关性rk与利用资源组多维描述信息标签所构建词向量计算得到的相关性rr计算rk与rr在偏差程度上的一致性。

进一步,基于路径和深度的知识元关联关系计算主题图中知识元间的相关性中,

从信息理论的角度用公式表示结构中的主题图公式

其中,common(k1,k2)表示的知识元k1与k2在主题图中的共同性,diff(k1,k2)表示k1与k2在主题图中的差异性;

common(k1,k2)和diff(k1,k2)的计算公式如下

common(k1,k2)=γ+depth(rcp(k1,k2))

diff(k1,k2)=β+p(k1,k2)

其中,p(k1,k2)=rk1+rk2,表示知识元k1和k2之间的最短路径,γ为深度调节参数,β为路径调节参数,depth(rcp(k1,k2))表示k1和k2的最近公共节点的深度;将公式common(k1,k2)=γ+depth(rcp(k1,k2))、diff(k1,k2)=β+p(k1,k2)带入到公式中所得

进一步,计算主题图中的知识元所关联的资源组间的相关性rr,并结合知识元所关联的资源描述信息进行计算知识元间的相似性,具体包括:

1)主题图kg=[c1,c2,...,ci]i∈n把表征某知识元的组织单元中ci的名称、描述标签、描述内容进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,构建一组描述知识元的词组,此类词组都是由名词、动词、形容词组成,这些词语已经存在,构成ci=[ti,1,ti,2,...,ti,n],其中ci表示的某个是由知识元和知识元所关联的所有标签信息表征的集合,其中ti,j是已经保留后的关键词;

2)构建候选关键词图g=(v,e),其中v为节点集,由1中生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当两个节点对应的词汇在长度为n的窗口中出现,n表示窗口大小,最多共现n个单词;

3)根据textrank算法迭代传播各个节点的权重,直至收敛;textrank算法为:

4)对节点权重进行倒叙排序,得到最重要的m个关键词,作为表征关键词;

通过提取表征知识元ki的关键词摘要后所得到的关键词集合tci=[ti,1,ti,2,...,ti,m];如果计算知识元ki与kj的相似性,则计算关键词集合tci、tcj的相似性;

单个关键词表示的相似性

进一步,计算rk与rr的的偏差一致性,包括:

通过两种不同方式方法即第一种采用基于路径和深度的方式计算知识元组间的相似性与第二种采用基于知识元所关联的资源组(含知识元)间的相似性,结合知识元所关联的资源描述信息来进行计算知识元间的相似性所计算得到的主题图中知识元ki与知识元kj之间相似性,如果此两个知识元在主题图中所处的结构中的相对位置偏差较大,则按照主题图构建的方式通过知识元和资源组表征所对比的相似性,得的最终两种相似性比值ψ趋于1附近的值;

rk和rr分别表示的是基于路径与深度的方式计算所得出的知识元之间的相关性和计算主题图中的知识元所关联的资源组间的相关性。ψ表示的是整体偏差系数。

本发明的另一目的在于提供一种实现所述基于知识关联的主题图冲突检测方法的计算机程序。

本发明的另一目的在于提供一种实现所述基于知识关联的主题图冲突检测方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于知识关联的主题图冲突检测方法。

本发明的另一目的在于提供一种基于知识关联的主题图冲突检测系统包括:

主题图中知识元间的相关性计算模块,采用基于路径和深度的知识元关联关系的方法计算主题图中知识元间的相关性rk;

资源组间的相关性计算模块,计算主题图中的知识元所关联的资源组间的相关性rr,并结合知识元所关联的资源描述信息进行计算知识元间的相似性;

偏差程度一致性计算模块,利用基于路径与深度的方式计算所得出的知识元之间的相关性rk与利用资源组多维描述信息标签所构建词向量计算得到的相关性rr计算rk与rr在偏差程度上的一致性。

本发明的另一目的在于提供一种搭载所述基于知识关联的主题图冲突检测系统的教育平台。

本发明的另一目的在于提供一种搭载所述基于知识关联的主题图冲突检测系统的计算机。

综上所述,本发明的优点及积极效果为:

本发明主要聚焦解决构建节点数相对较少的个性化主题图构建中关联关系的冲突检测。利用此种方法来对所构建的主题图进行检测可以很快速的识别其关系是否合理。且本发明中所指的主题图是基于树形的数据结构所构建的关联关系,相较于知识图谱图形数据结构所构建关系更有利于进行可视化的呈现,以及关联关系的维护。如下图是对比利用树形结构构建主题图和利用知识图谱schema约束来构建关联关系的呈现。

本发明提供的基于知识关联的主题图冲突检测方法,可以使学习者学习的深度和认知广度对应实际构建知识体系更为合理性,减少定义的偏差;知识元组下所有关联的知识元间的存在保持一致性;同时,使得大部分的知识元和小部分知识元所代表的知识所属范围保持在同一个知识元组的描述范围之下。有助于增强知识结构梳理以及知识所关联的资源的关联性,有助于学习者更好、更快的构建个性化的知识体系。

附图说明

图1是本发明实施例提供的基于知识关联的主题图冲突检测方法流程图。

图2是本发明实施例提供的主题图结构示意图。

图3是本发明实施例提供的主题图中单个知识元与其所关联资源的结构示意图。

图4是本发明实施例提供的主题图中计算相似性的组织单元结构示意图。

图5是本发明实施例提供的两个知识元k1和k2的关联关系示意图。

图6是本发明实施例提供的两个知识元在最近公共父节点中的分支间距示意图。

图7是本发明实施例提供的基于知识关联的主题图冲突检测系统示意图。

图中:1、主题图中知识元间的相关性计算模块;2、资源组间的相关性计算模块;3、偏差程度一致性计算模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

下面结合附图对本发明的应用做详细描述。

如图1所示,本发明提供的基于知识关联的主题图冲突检测方法包括:

s101:计算主题图中知识元间的相关性rk,采用的方法是基于路径和深度的知识元关联关系的计算;

s102:计算主题图中的知识元所关联的资源组(含知识元)间的相关性rr,结合知识元所关联的资源描述信息来进行计算知识元间的相似性;

s103:计算rk与rr的偏差一致性,利用基于路径与深度的方式计算所得出的知识元之间的相关性rk与利用资源组多维描述信息标签所构建词向量计算得到的相关性rr计算两者在偏差程度上的一致性。

步骤s101中,本发明提供的计算主题图中任意知识元的相关性rk,采用的方法是基于路径和深度的知识元关联关系的计算。在语义知识元库中,知识元是语义知识元库的叶子节点,知识元可能在同一层次深度,也可能不在同一层次深度。知识元关联关系的方式是无向的,从一个知识元a出发,通过路径可以找到另一个知识元b,同理,从一个知识元b出发,可以找到知识元a。这种方式从一个知识元到另一个知识元,可能不会只有一条路径,其深度也不一样。若知识元归属有公共知识元组的结点下,其必然可以依赖于主题图的路径和深度结构方式进行相似度的计算。基于以上的结构层次,本专利方法采用计算两个知识元之间的关联关系以及关联强度,采用的是基于知识元路径深度和共性的方式进行计算主题图树形结构中的靠近叶子节点层的知识元的相关性;

步骤s102中,本发明提供的计算主题图中的知识元所关联的资源组(含知识元)间的相关性rr,在主题图中还存在着一种可以利用语义的方式来计算某主题图kg中任意两个知识元ki,kj的相似性,在本发明中所提出的计算其相似性的方法陈述如下:在构建主题图之前,每个知识元都有关联过相应最相关性的某些资源,知识元ki就关联有r1,r2,r3...rm的资源。结合知识元所关联的资源描述信息来进行计算知识元间的相似性;

步骤s103中,本发明提供的计算rk与rr的偏差一致性,利用基于路径与深度的方式计算所得出的知识元之间的相关性rk与利用资源组多维描述信息标签所构建词向量计算得到的相关性rr计算两者在偏差程度上的一致性是表征的是作为共有一个公共父节点下的知识元与资源组,在所构建的知识结构中所表示应该是属于同一范围内的知识内容,因此即便是知识元之间存在有着较大的差异性与其所关联的资源组之间的差异性也存在着一致性的偏差。或许会因为资源描述信息标签所表征的内容和范围有着轻微的偏差,但整体上最终偏差的阈值应该是会在一定范围内的,如果超过设定的阈值,那么可以提示学习者所构建个性化的主题图存在着某些不合理性。

如图2所示,本发明提供的主题图结构示意图包括:主题图:主题图是由知识元组向上而抽象得到的有关于一类知识的树形结构的描述表示,具有个性化的特点,且包含至少三层关系构成,从低向上分别为资源层、知识元层、知识元组层(或主题图层);知识元:在主题图中不能再分割且独立的、可以完备表达知识的最小单元,具有原子性;语义知识元库:按照语义层面表征用来存储知识元的资源库。

主题图中的资源有着较完善的名称和描述信息的标签:资源描述的维度规范包括标题名称、关键词、资源内容概括(主要包括清晰概念、精练概括的名词标签)、资源属性信息(类型、大小等属性)。知识元或知识元组的描述维度包括领域、学科、等级范围、等位知识元或元组、知识意义五个维度来表征语义知识元和元组所代表的知识详情。

如图3所示,本发明提供的主题图中单个知识元与其所关联资源的结构示意图。

如图4所示,本发明提供的主题图中计算相似性的组织单元结构示意图。

本发明是实施例提供的在主题图中还存在着一种可以利用语义的方式来计算某主题图kg中任意两个知识元ki,kj的相似性,在本专利中所提出的计算其相似性的方法陈述如下:在构建主题图之前,每个知识元都有关联过相应最相关性的某些资源,如图4所示的关系中知识元ki就关联有r1,r2,r3...rm的资源。如果在计算如下两知识元ki,kj的相似性时的方法是,以知识元ki举例说明,1.整理ki的名称、描述标签信息、以及其关联的资源r1,r2,r3...rm的名称描述信息,2.利用textrank算法提取这些名称和描述的标签信息中最具有表征知识元ki的前m个关键词,构成表征知识元ki的描述集合tci=[ti,1,ti,2,...,ti,m],同理可以获得表征知识元kj的描述集合tcj=[tj,1,tj,2,...,tj,m];3.利用已经得到的描述集合的词向量来进行多对多的计算相似度后算整体描述集合关键词的相似度。以上就是结合知识元所关联的资源描述信息来进行计算知识元间的相似性。

下面结合实施例对本发明的应用作进一步描述。

本发明实施例提供的计算主题图中知识元间的相关性rk,包括:

基于路径和深度的知识元关联关系来计算主题图中知识元间的相关性。在构建主题图中知识元是知识的最小单元,通过不同的排列组合的方式,可以构成不同的知识单元。在语义知识元库中,知识元关联关系方式是无向的,从一个知识元a出发,通过路径可以找到知识元a。从一个知识元到另一个知识元,可能不会只有一条路径,其深度也不一样。若知识元之间有着一定的关联关系,通过利用基于路径和深度的知识元关联关系计算方法边可以通过路径和深度的共性来表征其中知识元之间的关联关系。同时基于语义知识元库中,知识元是语义知识元库中的叶子节点,知识元可能在同一层次深度,也可能不在同一层次深度。根据知识元的这种特点,对于知识元之间的关联关系本发明可以做出以下定义和推论:

定义一:在同一知识元组下的知识元,它们之间的关联权重是相等的;

推论一:一个知识元与知识元组下多个知识元进行关联,这些关联权重是相等的;

推论二:不同层次的知识元与同一层次的知识元之间的关联权重是不相等的。

在语义知识元库中,对任意两个知识元k1和k2,它们的关联关系可以抽象如图5所示。

如图5所示,结合主题图结构上的特点,采用基于路径和深度的方式计算认为两个对象之间的相似度,取决于这两个对象之间的共同性和差异性,从信息理论的角度用公式来表示结构中的主题图公式为

其中在公式1中的common(k1,k2)表示的知识元k1与k2在主题图中的共同性,diff(k1,k2)表示k1与k2在主题图中的差异性。

基于以上抽象路径的结构和公式1中所描述的common(k1,k2)和diff(k1,k2)的计算公式为如下公式2、3

common(k1,k2)=γ+depth(rcp(k1,k2))公式2

diff(k1,k2)=β+p(k1,k2)公式3

其中,p(k1,k2)=rk1+rk2,表示知识元k1和k2之间的最短路径,γ为深度调节参数,β为路径调节参数,depth(rcp(k1,k2))表示k1和k2的最近公共节点的深度。将以上公式2、3带入到公式1中所得到的结果是

在语义知识元库中,同一学科下不同大分类下的公共父节点为学科,而根节点的深度为0,为了避免不同大类下同一层次的知识关联权重为0。一般γ的取值区间为(0,1)。

如图6所示,在语义知识元库中,节点从上而下是遵循从抽象到一般的原则,且间距越近的两个节点意义越接近,故两个知识元的关联度与其在最近公共父节点中的分支间距线性负相关,即每个知识元组下的直接关联的知识元或知识元组的个数m差别都不大相同,因此本发明取两个知识元在分支层的相对间距作为路径调节参数β,并将其作为两个知识元之间路径的延伸。

β=k/m公式5

其中,m为两个知识元或元组最近公共父节点的直接孩子个数,k表示两个知识元在最近公共父节点中的分支间距,如下图所示,知识元k7和k8之间的k=2,m=5。

本发明实施例提供的计算主题图中的知识元所关联的资源组(含知识元)间的相关性rr,在计算主题图中的知识元所关联的资源组包含知识元所构成的组织单元,然后再计算其间的相似性主要依赖于语义的计算方法。存在这样的前提是知识元和资源都存在较为完善的描述信息标签体系。在以知识元与其关联的资源组所组成组织单元,在此单元中包含有两大类关于此知识元的描述信息,其一是知识元本身的描述标签,其二是此知识元所关联的资源组的资源信息描述标签,所以可以利用textrank算法思想按照以下步骤来得到用来表征知识元ki的关键词摘要:

1)主题图kg=[c1,c2,...,ci]i∈n把表征某知识元的组织单元中ci的名称、描述标签、描述内容进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,构建一组描述知识元的词组,此类词组都是由名词、动词、形容词组成,这些词语已经存在,即构成ci=[ti,1,ti,2,...ti,n],其中ci表示的某个是由知识元和知识元所关联的所有标签信息表征的集合,其中ti,j是已经保留后的关键词;

2)构建候选关键词图g=(v,e),其中v为节点集,由1中生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为n的窗口中出现,n表示窗口大小,即最多共现n个单词。

3)根据textrank算法即公式6迭代传播各个节点的权重,直至收敛,其中因为利用textrank算法来对众多信息标签来进行关键词提取,所以用来表示所有单词构成的边的权重的wji与wjk的值是一样的,没有交集,没有相似性;

4)对节点权重进行倒叙排序,从而得到最重要的m个关键词,作为表征关键词;

通过提取表征知识元ki的关键词摘要后所得到的关键词集合tci=[ti,1,ti,2,...ti,m];如果需要计算知识元ki与kj的相似性即计算其关键词集合tci、tcj的相似性。

单个关键词表示的相似性

本发明实施例提供的计算rk与rr的的偏差一致性;

通过两种不同方式方法所计算得到的主题图中知识元ki与知识元kj之间相似性,如果此两个知识元在主题图中所处的结构中的相对位置偏差较大那么按照主题图构建的方式通过知识元和资源组表征所对比的相似性其偏差也同样较大,如此可得的最终两种相似性比值ψ趋于1附近的值。

如图7所示,本发明实施例提供的基于知识关联的主题图冲突检测系统包括:

主题图中知识元间的相关性计算模块1,采用基于路径和深度的知识元关联关系的方法计算主题图中知识元间的相关性rk;

资源组间的相关性计算模块2,计算主题图中的知识元所关联的资源组间的相关性rr,并结合知识元所关联的资源描述信息进行计算知识元间的相似性;

偏差程度一致性计算模块3,利用基于路径与深度的方式计算所得出的知识元之间的相关性rk与利用资源组多维描述信息标签所构建词向量计算得到的相关性rr计算rk与rr在偏差程度上的一致性。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1