一种准确而高效的智能化教育知识图谱构建方法与流程

文档序号:27624190发布日期:2021-11-29 14:57阅读:418来源:国知局
一种准确而高效的智能化教育知识图谱构建方法与流程
一种准确而高效的智能化教育知识图谱构建方法
【技术领域】
1.本发明涉及智能教学的技术领域,特别是一种准确而高效的智能化教育知识图谱的构建方法。


背景技术:

2.人工智能技术已经广泛应用于教学领域中,贯穿了教、学、练、评、测这五大环节。比如教:智能备课系统、教师能力图谱;学:个性化学习内容,智能学习路径;练:个性化练习,语音练习;测:第三方测评;评:学习报告反馈和课堂行为监测等等。人工智能技术已经基本能够满足教学流程环节,帮助老师或者学生实现有针对性的和精准的教育知识数据加工以及高效的知识教授与学习。但是在教与学这两个环节中,相关的知识教育的数据量是巨大的并且数据结构较为复杂;虽然师生能够运用搜索引擎搜索知识点,但是耗费时间、效率低下,搜索结果质量参差不齐。为了提高教育知识学习的全面性,需要对教育知识数据进行准确的挖掘与关联,以此构建相应的教育知识图谱。
3.知识图谱的构建往往需要付出很大的代价。由于当前的自然语言处理方法还不够完善,完全自动化的构建方式难以得到较为准确的知识图谱,例如,dbpedia、yago等都存在有较多错误;而完全人工构建的方法虽然保证了准确性,但却需要花费巨大的人力和时间成本,完全人工构建较大规模的知识图谱几乎不可能。因此,如何协调准确率和效率、平衡自动化方法和人工参与,以最高效的方式构建出最准确的知识图谱,是目前构建知识图谱需要解决的一大难题。


技术实现要素:

4.针对现有技术存在的缺陷,本发明提供了一种准确而高效的智能化教育知识图谱的构建方法,该方法能够充分利用领域内高质量的专业资料和海量的互联网数据,高效地构建出准确率较高的实际可用的领域知识图谱。
5.为解决上述技术问题,本发明提供的准确而高效的教育知识图谱构建方法,包括如下步骤:
6.步骤s1.领域本体构建:基于学科权威的教材教辅资料,构建出知识图谱的本体结构,采用半自动构建本体的方法,使用统计方法和无监督方法得到本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了本体,并在众包半自动语义标注过程中进行了完善;
7.步骤s2.众包半自动语义标注:将文本页面众包给多个标注者,根据构建好的本体,利用语义标注工具标注得到高质量的标注数据;
8.步骤s3.外源数据补全:将其他来源的结构化程度较好的数据按照本体结构处理(即按照学科知识图谱的本体结构,对结构化的外部数据源进行相应的处理)后,与标注数据整合在一起;
9.步骤s4.信息抽取:利用标注数据中的数据作为训练数据,按照学科知识图谱的本
体结构,采用有监督、半监督和无监督的方法从互联网文本中抽取实体和关系,得到扩充数据。
10.进一步地,在所述步骤s1中,基于学科权威的教材教辅资料,构建出知识图谱的本体结构,具体步骤包括:
11.步骤s101.归纳领域核心概念:先利用相关统计学方法得到领域术语,和从领域术语中得到领域核心概念,再参考质量较高的知识图谱或数据源,并在众包半自动语义标注步骤中进行完善补充;以上方法得到的领域核心概念的归纳整理需要参照本体构建的两个基本原则,即:本体中类的设计应当秉承独立性和共享性原则;
12.步骤s102.定义领域关系及其约束:关系是本体的核心基本要素,是对领域中的概念、实例之间的相互作用的描述,关系直接决定了本体知识图谱的知识丰富程度以及基于知识图谱构建的其他应用系统的功能范围;
13.步骤s103.本体检查:在构建领域本体的过程中需要领域专家的参与和协作;根据专家的指导意见,修改和完善后得到最终的学科领域本体。
14.进一步地,步骤s101的本体中包含的类的数目应该尽可能地最小化,尽可能地去除冗余的类。
15.进一步地,步骤s102中还包括以下步骤:(1)利用openie方法对地理学科领域文本进行无监督的开放关系抽取,再从中找到有意义的关系;(2)参考质量较高的知识图谱或数据源;(3)根据领域核心概念和百科信息框来确定关系;每个领域核心概念下都有很多实例,大多数实例在百科中都有对应的信息框,通过整合同一概念下多个实例的信息框关系,便可以得到该概念下较为重要的关系;(4)众包半自动语义标注过程中补充新的关系;在众包半自动语义标注过程中,如果发现有新的关系无法用已有的关系表达时,便说明这是一个新的关系需要补充。
16.进一步地,在所述步骤s2中的“利用语义标注工具标注得到高质量的标注数据”,具体为,基于pundit开发的众包半自动语义标注工具,将学科教材教辅电子化后得到的html文本作为标注对象,并以学科领域本体为标注依据,使用语义标注系统进行半自动语义标注,形成标注数据,且在此过程中完善学科领域本体;基于领域本体的语义标注是指在领域本体的指导下,从文档中抽取出结构化知识的过程,即,将文档中的纯文本知识用rdf语言描述出来;其中,语义标注的过程通常包含两个步骤:(1)类型标注:将文档中与本体中概念相对应的词语标记出来,并将该词语作为概念所对应的实例;(2)关系标注:找出实例之间存在的与本体中关系相对应的关系,关系标注可以丰富实例的内在信息;而且在进行语义标注时,将实例及实例间的关系表示为三元组的形式(e1,r,e2),其中,r是实例e1和e2之间的关系。
17.进一步地,在将实例及实例间的关系表示为三元组时通过以下步骤得到高质量的三元组:
18.步骤s301.获取实例和关系名集合;对每个概念c用e={e1,

,en}表示它的实例集合,对每一个实例ei都爬取该实例对应的百度百科信息框,得到所有信息框中的关系名集合r={r1,

,rm},集合大小为m;
19.步骤s302.连边;如果实例ei的信息框中含有rj,则将ei与rj之间边的权重设置为1;如果不含,则设置为0;为了避免出现图稀疏现象,增加了实例和实例、关系名和关系名之
间的边;对于实例和实例连边的操作,首先为每一个实例设置一个关系名向量v,向量的维度等同于关系名集合的大小m;如果关系名rk存在于该实例的信息框中,则设置为1;若不存在,则将该位置设置为0;进而可以得到实例和实例关系名向量之间的余弦相似度,作为实例和实例之间边的权重;同理,可以给每个关系名设置一个实例向量,进而得到关系名和关系名之间的余弦相似度作为它们之间边的权重;
20.步骤s303.迭代计算;采用图强化算法进行迭代计算,得到每个概念下的实例和关系名典型度排序;
21.步骤s304.将典型度高的关系名及其值信息加入到知识图谱中。
22.进一步地,所述语义标注系统作为知识图谱构建的关键系统,主要包括以下需求:
23.(1)标注依据:语义标注系统是基于本体的语义标注功能,必须能够导入一个或多个本体描述文件或者采用包含本体信息的文件进行配置,作为语义标注系统的基本的标注依据;
24.(2)标注对象:基于目前大多数的教材教辅书籍数据都存放在静态网页文件中,所以语义标注系统需要支持对静态网页文件的标注功能;
25.(3)标注方式:语义标注系统必须能够提供基本的标注功能,包括类型标注和关系标注;同时,考虑到教材教辅书籍数据中存在着大量的图片也需要进行标注,所以语义标注系统还要能够支持图片标注的功能;
26.(4)本体语言:语义标注系统至少支持rdf(s)、daml+oil、xml、owl本体语言中的一种或多种。
27.进一步地,结合构建的地理学科知识图谱目标,所述语义标注系统还包括以下需求:
28.(1)协同式标注:语义标注系统是基于b/s模式的语义标注系统;
29.(2)标注审核:语义标注系统应该具有一定的用户权限控制;其中用户主要包括标注人员和审核人员,所述标注人员只能编辑和删除自己的标注记录,所述审核人员可以编辑和删除当前页面所有标注人员的标注记录;
30.(3)标注溯源:对于任何一条由页面标注而产生的知识,在生成对应知识的同时需要保存将来能够追溯到具体的标注来源这个元数据信息;通常,标注溯源都是采用xpointer技术来实现,所述xpointer是一种根据数据在xml文件中的位置、字符内容或者属性值等特性对数据进行定位的语言;
31.(4)标注数据存储:标注数据的存储选用rdf数据库,优选sesame数据库,以实现一个通用rdf数据管理框架,并提供相应的编程接口,便于集成不同的存储系统、推理和查询引擎等;
32.(5)共指消解:通过语义标注工具具有的实例查询的能力,可以在当遇到相同实例时选择已经存在的实例进行标注,以避免产生多个重复冗余的实例,从而避免重新生成新的实例造成的实例共指问题;
33.针对以上几点需求,结合当前要构建的地理学科知识图谱目标,我们提出相应的语义标注的架构,在地理学科本体和资源管理系统的基础上,利用语义标注系统,通过标注人员的标注产生标注数据库,最终清洗导出到标注数据中。
34.进一步地,所述步骤s4的信息抽取具体包括以下步骤:
35.步骤s401.实体集扩充;扩充数据指的是利用之前得到的标注数据和外源数据,运用机器学习等方法从文本中抽取的rdf三元组数据,并根据知识图谱中每个概念的实体集进行扩充,该扩充所使用的方法是词向量;所述词向量的主要作用是通过大量词语语料的训练,将每个词语映射到一个固定维度的向量,从而可以根据两个词语的向量之间的余弦距离来刻画两个词语的语义相关性;
36.步骤s402.关系抽取;采用了无监督、有监督和半监督方法来进行关系抽取;其中,在无监督的方法中,使用了基于规则的方法和lda模型;所述基于规则的方法中,先为想要抽取的关系定义正则模板,然后从文本中抽取相应关系的文本描述;所述lda模型是一种无监督的机器学习技术,它可以用于识别文本中隐藏的关系类别信息,并且用词袋的方式来表示每类关系的特征;在有监督的方法中,先将知识图谱中已有的关系数据作为训练数据,然后从文本中抽取出相应的三元组,同时使用了较为简单的多层感知机,以防止在已有的数据仍然不够多时出现过拟合;在半监督的方法中,采用了基于多语言注意力机制的远程监督方法,通过利用多种语言之间具有一致性的信息,实现了比单语言更好的抽取效果。
37.进一步地,在步骤s401中实体集扩充之后,还包括实体消歧的操作。
38.本发明主要具有以下有益效果:
39.本发明通过上述技术方案,即可充分利用领域内高质量的专业资料和海量的互联网数据,能够对教育知识点数据本身进行有针对性的文本转换和纠错规范,提高准确性和可靠性,协调准确率和效率、平衡自动化方法和人工参与,以最高效的方式构建出最准确的实际可用的领域知识图谱。
40.【说明书附图】
41.图1是本发明所述准确而高效的教育知识图谱构建方法的流程示意图;
42.图2是采用本发明所述准确而高效的教育知识图谱构建方法进行学科知识图谱的构建路线图;
43.图3是本发明所述准确而高效的教育知识图谱构建方法中语义标注的架构图。
【具体实施方式】
44.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
45.如图2中所示,以面向基础教育的地理学科知识图谱的构建为例对本发明的内容作进一步的说明,本发明所述的智能化教育知识图谱的构建方法提出了系统性的解决办法——“四步法”,分别是:步骤1.领域本体构建,步骤2.众包半自动语义标注,步骤3.外源数据补全,步骤4.信息抽取。
46.其中,步骤1.领域本体构建是指构建出知识图谱的本体结构,本体结构可以理解为知识图谱的框架。步骤2.众包半自动语义标注指的是将文本页面众包给多个标注者,根据步骤1构建好的本体,利用语义标注工具标注得到高质量的标注数据。步骤3.外源数据补全是指将其他来源的结构化程度较好的数据按照本体结构处理后,与标注数据整合在一起。步骤4.信息抽取则是针对知识图谱中较为稀疏的实体或者关系,从文本中进行大规模的抽取和补充。可见:所述步骤1和步骤2是知识图谱的骨架部分,是基础,也是核心,两个步
骤相互迭代,本体构建指导标注,标注中遇到的新的情况又可以反向改进本体结构,所述步骤1和步骤2保证了知识图谱的准确性,而且在步骤1和步骤2得到的高质量标注数据的基础上进行有针对性的、可控的扩充和补全,保证了知识图谱的覆盖率和构建的高效性;所述步骤3和步骤4是知识图谱的血肉部分,所述步骤3和步骤4也是相互迭代的关系,步骤4可以利用步骤3中得到的关系和实体从文本中进行信息抽取,步骤3也可以利用步骤4中抽取出的新的实体和关系,将其他来源的结构化数据中的相关知识补充到知识图谱中;详见图1使用“四步法”构建领域知识图谱的过程。
47.通过上述四个步骤能够充分利用领域内高质量的专业资料和海量的互联网数据,高效地构建出准确率较高的实际可用的领域知识图谱。
48.因此,如图1中所示,本发明所述的一种准确而高效的教育知识图谱构建方法,包括如下步骤:
49.步骤s1.领域本体构建。领域本体构建是基于学科权威的教材教辅资料,构建出知识图谱的本体结构(可以理解为构建知识图谱的框架),采用半自动构建本体的方法,使用统计方法和无监督方法得到本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了本体,并在众包半自动语义标注过程中进行了完善。(人工构建本体的方法通常是由大量的领域专家相互协作完成,自动构建本体通常也称为本体学习,其目标在于利用知识获取技术、机器学习技术以及统计技术等从数据资源中自动地获取本体知识,从而降低本体构建的成本半自动构建本体介于人工构建本体和自动构建本体之间,对于大多数领域而言,完全自动化地构建本体是难以实现的,所以在自动构建本体的过程中,通常还需要在用户的指导下进行。);
50.步骤s2.众包半自动语义标注。众包半自动语义标注指的是将文本页面众包给多个标注者,根据构建好的本体,利用语义标注工具标注得到高质量的标注数据;
51.步骤s3.外源数据补全。外源数据补全是指将其他来源的结构化程度较好的数据按照本体结构处理后,与标注数据整合在一起;
52.步骤s4.信息抽取。信息抽取利用标注数据中的数据作为训练数据,按照学科知识图谱的本体结构,采用有监督、半监督和无监督的方法从百度百科等互联网文本中抽取实体和关系,得到扩充数据。
53.其中,步骤s1和步骤s2是知识图谱的骨架部分,是基础,也是核心,两个步骤相互迭代,本体构建指导标注,标注中遇到的新的情况又可以反向改进本体结构,保证了知识图谱的准确性,在步骤s1和步骤s2得到的高质量标注数据的基础上进行有针对性的、可控的扩充和补全,保证了知识图谱的覆盖率和构建的高效性;所述步骤s3和步骤s4是知识图谱的血肉部分,步骤s3和步骤s4也是相互迭代的关系,而且步骤s4可以利用步骤s3中得到的关系和实体从文本中进行信息抽取,步骤s3也可以利用步骤s4中抽取出的新的实体和关系,将其他来源的结构化数据中的相关知识补充到知识图谱中。
54.本发明所述方法的步骤s1中,基于学科权威的教材教辅资料,构建出知识图谱的本体结构(可以理解为构建知识图谱的框架),具体步骤包括:
55.步骤s101,归纳领域核心概念。先利用相关统计学方法得到领域术语,再从领域术语中得到领域核心概念,再参考质量较高的知识图谱或数据源,并在众包半自动语义标注步骤中进行完善补充。以上方法得到的核心概念的归纳整理需要参照本体构建的两个基本
原则,即:本体中类的设计应当秉承独立性和共享性原则,前者指的是这个类可以独立存在,不依赖于特定的领域,后者指的是类是可以共享的,即有被复用的可能和必要;此外,本体中包含的类的数目应该尽可能地最小化,尽可能地去除冗余的类。
56.步骤s102,定义领域关系及其约束。关系是本体的核心基本要素,它是对领域中的概念、实例之间的相互作用的描述。关系直接决定了本体知识图谱的知识丰富程度以及基于知识图谱构建的其他应用系统的功能范围。进一步地,步骤s102中还包括以下步骤:(1)利用openie方法对地理学科领域文本进行无监督的开放关系抽取,再从中找到有意义的关系;(2)参考质量较高的知识图谱或数据源,如百度百科;(3)根据核心概念和百科信息框来确定关系。每个核心概念下都有很多实例,大多数实例在百科中都有对应的信息框,通过整合同一概念下多个实例的信息框关系,便可以得到该概念下较为重要的关系;(4)众包半自动语义标注过程中补充新的关系。在众包半自动语义标注过程中,如果发现有新的关系无法用已有的关系表达时,便说明这是一个新的关系需要补充。
57.步骤s103,本体检查。在构建领域本体的过程中需要领域专家的参与和协作。因此通过根据专家的指导意见,修改和完善后得到最终的学科领域本体。
58.在所述步骤s2中,众包半自动语义标注是基于pundit开发的众包半自动语义标注工具,将学科教材教辅电子化后得到的html文本作为标注对象,并以学科领域本体为标注依据,使用语义标注系统进行半自动语义标注,形成标注数据,且在此过程中完善学科领域本体。采用基于pundit开发的众包半自动语义标注工具,可以满足众包标注过程中的标注审核、标注溯源、共指消解、数据存储等需要,极大地提升了众包标注的效率。语义标注是指对原始数据做标记,使其包含一定的语义信息,这样不仅人可以理解,而且机器也能够理解;本发明的基于领域本体的语义标注是指在领域本体的指导下,从文档中抽取出结构化知识的过程,即:将文档中的纯文本知识用rdf语言描述出来,其中语义标注的过程通常包含两个步骤:(1)类型标注:将文档中与本体中概念相对应的词语标记出来,并将该词语作为概念所对应的实例;(2)关系标注:找出实例之间存在的与本体中关系相对应的关系,关系标注可以丰富实例的内在信息;而且标注时,通常将实例及实例间的关系表示为三元组的形式(e1,r,e2),其中r是实例e1和e2之间的关系。
59.从对比结果中,我们可以总结出语义标注系统作为知识图谱构建的关键系统,其主要需求包括以下几点:
60.(1)标注依据:语义标注系统提供的是基于本体的语义标注功能,所以它必须要能够导入一个或多个本体描述文件,或者采用包含本体信息的文件进行配置,这样,语义标注系统才有了基本的标注依据;
61.(2)标注对象:语义标注系统一般都支持对文本文件或者静态网页文件的标注,目前,大多数的教材教辅书籍数据都存放在静态网页文件中,所以语义标注系统需要支持对静态网页文件的标注功能;
62.(3)标注方式:语义标注系统必须能提供基本的标注功能,包括类型标注和关系标注;同时,考虑到教材教辅书籍数据中存在着大量的图片也需要进行标注,所以语义标注系统还要能够支持图片标注的功能;
63.(4)本体语言:目前大多数的语义标注工具都只支持rdf(s)、daml+oil、xml等本体语言中的某个或者某几个,而对w3c推荐的最新的本体描述语言owl支持较少,所以为了更
好地使用不同的本体语言,语义标注系统应该能够支持目前主流的本体语言,例如rdf(s)、daml+oil、xml和owl中的一种或多种。
64.除了上面4个基本需求之外,结合我们构建的地理学科知识图谱目标,我们认为,以下需求对于语义标注系统同样重要。(1)协同式标注:出现时间较早的语义标注系统一般都是c/s模式的,不仅需要标注人员安装客户端,而且软件配置和语义标注过程都不太方便;但是随着互联网的发展,基于b/s模式的语义标注系统逐渐出现,这种基于b/s模式的语义标注系统可以很方便地支持大量标注人员的协同式标注,显著地提高了标注速度;(2)标注审核:标注系统应该具有一定的用户权限控制,简单情况下,用户主要包括标注人员和审核人员两种,其中,标注人员只能编辑和删除自己的标注记录,而审核人员可以编辑和删除当前页面所有标注人员的标注记录;(3)标注溯源:对于任何一条由页面标注而产生的知识,在生成对应知识的同时需要保存将来能够追溯到具体的标注来源这个元数据信息,通常标注溯源都是采用xpointer技术来实现的,xpointer是一种根据数据在xml文件中的位置、字符内容或者属性值等特性对数据进行定位的语言;4)标注数据存储:标注数据的存储也是需要重点考虑的问题,目前已有不少出色的rdf数据库可供选择,其中sesame数据库是一个开源项目,它不仅架构简单易于部署,而且功能完善易于操作,它实现了一个通用的rdf数据管理框架,并提供了相应的编程接口,以便于集成不同的存储系统、推理和查询引擎等;(5)共指消解:实例的共指问题是标注网页数据的过程中经常出现的问题,它是指在不同的网页文档中出现了相同的实例,为了避免产生多个重复冗余的实例,标注工具应该具有实例查询的能力,这样,当遇到相同实例时,可以选择已经存在的实例进行标注,从而避免重新生成新的实例造成的实例共指问题。
65.针对以上几点需求,结合当前要构建的地理学科知识图谱目标,我们提出相应的语义标注的架构,如图3所示。在地理学科本体和资源管理系统的基础上,利用语义标注系统,通过标注人员的标注产生标注数据库,最终清洗导出到标注数据中。
66.在所述步骤s3中,按照学科知识图谱的本体结构,对结构化的外部数据源进行相应的处理之后,得到与标注数据结构一定的rdf外源数据,rdf外部数据源一般是互联网上公开的知识图谱或其他结构化程度较好的网站,特点是数据量大、结构较好;百度百科信息框是领域知识图谱扩充三元组事实较好的来源,在众包语义标注和实体集扩充步骤得到的实例的基础上,通过以下步骤能够得到高质量的三元组。
67.步骤s301.获取实例和关系名集合。对每个概念c,我们用e={e1,

,en}表示它的实例集合,对每一个实例ei,我们都爬取该实例对应的百度百科信息框,得到所有信息框中的关系名集合r={r1,

,rm},集合大小为m;
68.步骤s302.连边。如果实例ei的信息框中含有rj,则将ei与rj之间边的权重设置为1;如果不含,则设置为0。为了避免出现图稀疏现象,我们加上了实例和实例、关系名和关系名之间的边。对于实例和实例连边的操作,首先为每一个实例设置一个关系名向量v,向量的维度等同于关系名集合的大小m;如果关系名rk存在于该实例的信息框中,则设置为1;若不存在,则将该位置设置为0,进而可以得到实例和实例关系名向量之间的余弦相似度,作为实例和实例之间边的权重;同理,可以给每个关系名设置一个实例向量,进而得到关系名和关系名之间的余弦相似度作为它们之间边的权重;
69.步骤s303.迭代计算。我们采用了一种图强化算法进行迭代,迭代计算后,便可得
到每个概念下的实例和关系名典型度排序;
70.步骤s304.将典型度高的关系名及其值信息加入到知识图谱中。
71.值得一提的是:上述步骤还有检查知识图谱中实例分类错误的作用,如果步骤s303中得到某概念下的实例典型度较低,则很有可能是分类错误的实例。
72.在所述步骤s4中,信息抽取是利用标注数据中的数据作为训练数据,按照学科知识图谱的本体结构,采用有监督、半监督和无监督的方法从百度百科等互联网文本中抽取实体和关系,得到扩充数据。步骤包括:
73.步骤s401.实体集扩充。扩充数据指的是利用之前得到的标注数据和外源数据,运用机器学习等方法从文本中抽取的rdf三元组数据。我们想要根据知识图谱中每个概念的实体集进行扩充。使用的方法是词向量。词向量的主要作用是通过大量词语语料的训练,将每个词语映射到一个固定维度的向量,从而可以根据两个词语的向量之间的余弦距离来刻画两个词语的语义相关性。
74.事实上,实体集扩充之后,应该还有一步实体消歧的操作,但是通用知识图谱存在着较多的歧义,领域知识图谱的歧义较少。例如:“苹果”既是水果,又是科技公司,但是几乎不存在某个领域知识图谱会同时包括科技公司和水果这两个概念。
75.步骤s402.关系抽取。我们采用了无监督、有监督和半监督这3种方法来进行关系抽取。在无监督的方法中,我们使用了基于规则的方法和lda模型。基于规则的方法中,我们为想要抽取的关系定义正则模板,然后从文本中抽取相应关系的文本描述;lda模型是一种无监督的机器学习技术,它可以用于识别文本中隐藏的关系类别信息,并且用词袋的方式来表示每类关系的特征;在有监督的方法中,我们将知识图谱中已有的关系数据作为训练数据,从文本中抽取出相应的三元组。由于已有的数据仍然不够多,因此为防止过拟合,我们使用了较为简单的多层感知机;在半监督的方法中,我们采用了基于多语言注意力机制的远程监督方法,通过利用多种语言之间具有一致性的信息,实现了比单语言更好的抽取效果。
76.实施例:
77.本发明所述的准确而高效的教育知识图谱构建方法的4个步骤的具体内容如下:
78.步骤s1,领域本体构建。基于地理学科权威的教材教辅资料,利用无监督的openie方法和相关统计方法,参考其他知识图谱的本体结构,结合地理学科领域专家和一线教师的指导意见,完成面向基础教育领域的地理学科本体构建;
79.其中,在步骤s1中,对于基础教育领域的学科本体,覆盖率和准确率是非常重要的评价指标。在当前中文本体自动构建技术还不成熟的情况下,我们结合基础教育领域的特点,利用本体学习和统计学习等方法得到的本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出地理学科领域本体。
80.步骤s2,众包半自动语义标注。将地理学科教材教辅电子化后得到的文本作为标注对象,并以地理学科领域本体为标注依据,使用语义标注系统进行半自动语义标注,形成标注数据,且在此过程中完善地理学科领域本体;
81.其中,在步骤s2中,标注数据是地理学科知识图谱的基础和重点,我们采取的是众包半自动语义标注的方式来保证质量和效率。标注的数据来源是html格式的教材教辅文本。基于领域本体的语义标注是指在领域本体的指导下,从文档中抽取出结构化知识的过
程,即,将文档中的纯文本知识用rdf语言描述出来。语义标注的过程包含两个步骤:(1)类型标注:将文档中与本体中概念相对应的词语标记出来,并将该词语作为概念所对应的实例;(2)关系标注:找出实例之间存在的与本体中关系相对应的关系,关系标注可以丰富实例的内在信息。标注时,通常将实例及实例间的关系表示为三元组的形式(e1,r,e2),其中,r是实例e1和e2之间的关系。
82.步骤s3,外源数据补全。按照地理学科知识图谱的本体结构,对结构化的外部数据源进行相应的处理之后,得到外源数据,作为地理学科知识图谱的重要部分;
83.其中,在步骤s3中,外源数据指的是外部数据源按照地理学科领域本体结构处理后得到的与标注数据结构一致的rdf数据。外部数据源一般是互联网上公开的知识图谱或其他结构化程度较好的网站,特点是数据量大、结构较好。以下介绍地理学科知识图谱中的3个外部数据源。(1)geonames是地理信息领域较为权威的一个知识图谱,包含超过1 000万条的地理地名信息,数据准确率高。主要是英文数据,较重要的地名会有其他语言的名称(label),例如含有中文名称的地名有61万多个。每个地名信息有19个属性信息(部分属性可为空)。部分属性信息可以直接作为知识图谱中的三元组事实,例如经度(longitude);部分属性信息需要按照本体结构进行处理,例如我们将特征码(feature code)属性信息处理后作为实例和概念间关系;将一级行政区划码(admin1 code)、二级行政区划码(admin2 code)等属性信息处理后作为地名之间的上下位关系。(2)百度百科信息框是领域知识图谱扩充三元组事实较好的来源。(3)中国行政区划信息。中国行政区划在地理学科中较为重要,为此,我们从国家统计局网站(http://www。stats。gov。cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/)得到了中国行政区划精确到乡镇层级的信息,主要是行政区划之间的上下位关系。因为是完全结构化的呈现方式,因此,数据按照本体结构处理后直接加入知识图谱。
84.步骤s4,信息抽取。利用标注数据中的数据作为训练数据,按照地理学科知识图谱的本体结构,采用有监督、半监督和无监督的方法从百度百科等互联网文本中抽取实体和关系,得到扩充数据。
85.其中,在步骤s4中,扩充数据指的是利用之前得到的标注数据和外源数据,运用机器学习等方法从文本中抽取的rdf三元组数据。扩充数据是地理学科知识图谱的重要组成部分。我们使用的文本语料是《中国大百科全书》中的《世界地理》卷、《中国地理》卷、《地理学》卷(以下简称中国大百科文本)和百度百科维基百科文本(以下简称百度维基文本)。两部分语料各有特点,中国大百科文本数量虽少质量却很高,百度维基文本质量一般但数量却很大。我们采用了无监督、有监督和半监督这3种方法来进行关系抽取。在无监督的方法中,我们使用了基于规则的方法和lda模型。基于规则的方法中,我们为想要抽取的关系定义正则模板,然后从文本中抽取相应关系的文本描述;lda模型是一种无监督的机器学习技术,它可以用于识别文本中隐藏的关系类别信息,并且用词袋的方式来表示每类关系的特征;在有监督的方法中,我们将知识图谱中已有的关系数据作为训练数据,从文本中抽取出相应的三元组。由于已有的数据仍然不够多,因此为防止过拟合,我们使用了较为简单的多层感知机;在半监督的方法中,我们采用了基于多语言注意力机制的远程监督方法,通过利用多种语言之间具有一致性的信息,实现了比单语言更好的抽取效果。
86.以上所述实施例只是为本发明的较佳实施例,并非以此限制本发明的实施范围,
除了具体实施例中列举的情况外;凡依本发明之方法及原理所作的等效变化,均应涵盖于本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1