本申请涉及教育技术领域,更具体地说,涉及一种教材知识点的挖掘整理方法和系统。
背景技术:
随着计算机技术的飞速发展和电子设备的使用普及,人们的学习方式发生了深刻的变化,人们不仅从传统的纸质教材中获取知识,鉴于互联网上海量的教学资源,人们还开始借助互联网获取来满足自己的学习需求。相比于纸质教材,互联网能够避免纸张浪费,更加绿色环保。
对于学习者来说,学习新知识后往往会被要求参加一些考试来体现知识的掌握程度。由于考试不可能全部覆盖所有知识点,因此有些比较热门的知识点会在试题中的出现频率较高,学习者如果能熟练掌握这些知识点,就可以较为轻松地得到不错的成绩。
为了帮助学习者更好地掌握这些出现频率较高的热门学习点,需要对教学资源中的知识点进行挖掘。这些知识点不仅包括在试题中出现频率较高的考试知识点,还包括用于帮助学习者理解考试知识点的普通知识点,只有将这些知识点挖掘出来并形成知识点集合,才能帮助学习者在浩如烟海的教学资源中方便地获取到有用的信息,避免因为大量无关信息的干扰而降低学习效率。
技术实现要素:
有鉴于此,本申请提供一种教材知识点的挖掘整理方法和系统,用于从互联网上的教学资源中挖掘热门知识点并形成知识点集合,以帮助学习者在浩如烟海的教学资源中获取到有用的信息。
为了实现上述目的,现提出的方案如下:
一种教材知识点的挖掘整理方法,具体包括如下步骤:
以预设的关键词为切入点,从互联网上获取与所述关键词相关的教材资源;
对所述教材资源进行整理加工,去除其中的多余信息,得到与所述关键词相关的教材文本文件;
利用自然语言处理工具对所述教材文本文件进行词性分析;
利用术语抽取工具对所述教材文本文件进行知识点抽取,抽取到与所述关键词紧密相关的多个教材知识点;
从多个知识点中去除与所述关键词相关性不高的部分教材知识点,将剩余的部分教材知识点形成教材知识点合集。
可选的,所述以预设的关键词为切入点,从互联网上获取与所述关键词相关的教材资源的步骤,包括:
利用预设的网络爬虫从互联网上获取与所述关键词相关的教材资源;
或者,利用搜索引擎从互联网网上获取与所述关键词相关的教材资源。
可选的,所述对所述教材资源进行整理加工,去除其中的多余信息,得到与所述关键词相关的教材文本文件的步骤,包括:
去除所述教材资源中的网络标识,仅保留正文部分,形成所述教材文本文件;
或者,将非文本教材资源进行格式转换,得到所述教材文本文件。
可选的,所述自然语言处理工具为斯坦福分词工具和词性标注工具。
一种教材知识点的挖掘整理方法,具体包括如下步骤:
从互联网上获取预定范围的知识源,所述知识源包括教学领域知识源和其他领域知识源,所述其他领域知识源包括与所述教学领域知识源相关的教辅领域知识源;
对所述知识源进行相关词性分析;
根据所述知识源建立知识图谱,所述知识图谱中包括所述知识源中具有链接关系的多个知识点;
对所述知识图谱进行剪裁,去除未包含在上面所述的知识点合集中教材知识点的知识点;
从互联网中爬取与剩余的知识点相关的信息,并补充到所述知识图谱中;
对所述知识图谱中的知识点的热门程度进行评分。
可选的,所述从互联网上获取预定范围的知识源的步骤,包括:
利用预设的网络爬虫从互联网上获取预设范围内的所述知识源;
或者,利用搜索引擎从互联网网上获取预设范围内的所述知识源。
可选的,所述对所述知识源进行相关词性分析的步骤,包括:
对网页内容进行信息抽取,抽取知识点信息和三元组信息。
可选的,所述对所述知识图谱中的知识点的热门程度进行评分的步骤,包括:
利用PageRank算法对所述知识点进行打分;
利用迭代递归算法对所述知识点的最终得分进行统计。
一种教材知识点的挖掘整理方法,具体包括如下步骤:
从互联网上获取习题库资源;
整理所述习题库资源,去除所述习题库资源中的无用信息;
将所述习题库资源中的习题与上面所述的知识点合集中的所述教材知识点进行关联;
根据所述教材知识点所关联的习题数对所述教材知识点进行评分。
可选的,所述从互联网上获取习题库资源的步骤,包括:
利用预设的网络爬虫从互联网上获取所述习题库资源;
或者,利用搜索引擎从互联网网上获取所述习题库资源。
可选的,所述习题允许关联到多个教材知识点。
可选的,还包括步骤:
将根据所述教材知识点所关联的习题数对所述教材知识点进行评分得到的分值与利用知识图谱对知识点进行评分得到的分值进行加权求和;
根据加权求和的最终得分作为所述教材知识点的热度值。
一种教材知识点的挖掘整理系统,具体包括:
教材资源获取模块,用于以预设的关键词为切入点,从互联网上获取与所述关键词相关的教材资源;
教材资源加工模块,用于对所述教材资源进行整理加工,去除其中的多余信息,得到与所述关键词相关的教材文本文件;
第一整理模块,用于利用自然语言处理工具对所述教材文本文件进行词性分析;
知识点抽取模块,用于利用术语抽取工具对所述教材文本文件进行知识点抽取,抽取到与所述关键词紧密相关的多个教材知识点;
合集构建模块,用于从多个知识点中去除与所述关键词相关性不高的部分教材知识点,将剩余的部分教材知识点形成教材知识点合集。
可选的,所述教材资源获取模块包括:
第一获取单元,用于利用预设的网络爬虫从互联网上获取与所述关键词相关的教材资源;
第二获取单元,用于利用搜索引擎从互联网网上获取与所述关键词相关的教材资源。
可选的,所述教材资源加工模块包括:
内容修剪单元,用于去除所述教材资源中的网络标识,仅保留正文部分,形成所述教材文本文件;
格式转换单元将非文本教材资源进行格式转换,得到所述教材文本文件。
可选的,所述自然语言处理工具为斯坦福分词工具和词性标注工具。
一种教材知识点的挖掘整理系统,具体包括:
知识源获取模块,用于从互联网上获取预定范围的知识源,所述知识源包括教学领域知识源和其他领域知识源,所述其他领域知识源包括与所述教学领域知识源相关的教辅领域知识源;
第二整理模块,用于对所述知识源进行相关词性分析;
图谱构建模块,用于根据所述知识源建立知识图谱,所述知识图谱中包括所述知识源中具有链接关系的多个知识点;
知识点剪裁模块,用于对所述知识图谱进行剪裁,去除未包含在上面所述的知识点合集中教材知识点的知识点;
相关信息获取模块,用于从互联网中爬取与剩余的知识点相关的信息,并补充到所述知识图谱中;
第一评分模块,用于对所述知识图谱中的知识点的热门程度进行评分。
可选的,所述知识源获取模块包括:
第三获取单元,用于利用预设的网络爬虫从互联网上获取预设范围内的所述知识源;
第四获取单元,用于利用搜索引擎从互联网网上获取预设范围内的所述知识源。
可选的,所述第二整理模块包括:
信息抽取单元,用于对网页内容进行信息抽取,抽取知识点信息和三元组信息。
可选的,所述第一评分模块包括:
打分单元,用于利用PageRank算法对所述知识点进行打分;
得分统计单元,用于利用迭代递归算法统计得出所述知识点的最终得分。
一种教材知识点的挖掘整理系统,具体包括:
习题库获取模块,用于从互联网上获取习题库资源;
第三整理模块,用于整理所述习题库资源,去除所述习题库资源中的无用信息;
关联模块,用于将所述习题库资源中的习题与权利要求1~4中所述的知识点合集中的所述教材知识点进行关联;
第二评分模块,用于根据所述教材知识点所关联的习题数对所述教材知识点进行评分。
可选的,所述习题库获取模块包括:
第五获取单元,用于利用预设的网络爬虫从互联网上获取所述习题库资源;
第六获取单元,用于利用搜索引擎从互联网网上获取所述习题库资源。
可选的,所述习题允许关联到多个教材知识点。
可选的,还包括:
求和模块,用于将根据所述教材知识点所关联的习题数对所述教材知识点进行评分得到的分值与利用知识图谱对知识点进行评分得到的分值进行加权求和;
热度确定模块,用于根据加权求和的最终得分作为所述教材知识点的热度值。
从上述的技术方案可以看出,本申请公开了一种教材知识点的挖掘整理方法和系统,具体为以预设的关键词为切入点,从互联网上获取与所述关键词相关的教材资源;对所述教材资源进行整理加工,去除其中的多余信息,得到与所述关键词相关的教材文本文件;利用自然语言处理工具对所述教材文本文件进行词性分析;利用术语抽取工具对所述教材文本文件进行知识点抽取,抽取到与所述关键词紧密相关的多个教材知识点;从多个知识点中去除与所述关键词相关性不高的部分教材知识点,将剩余的部分教材知识点形成教材知识点合集。本技术方案使学习者无需从浩如烟海的教学资源中盲目地查找有用的信息,能够帮助学习者快速地获取到有用的教材知识点集合,避免因大量无关信息的干扰而降低学习效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种教材知识点的挖掘整理方法的步骤流程图;
图2为本申请另一实施例提供的一种教材知识点的挖掘整理方法的步骤流程图;
图3为本申请又一实施例提供的一种教材知识点的挖掘整理方法的步骤流程图;
图4为本申请提供的另一种教材知识点的挖掘整理方法的步骤流程图;
图5为本申请又一实施例提供的一种教材知识点的挖掘整理系统的结构框图;
图6为本申请又一实施例提供的一种教材知识点的挖掘整理系统的结构框图;
图7为本申请又一实施例提供的一种教材知识点的挖掘整理系统的结构框图;
图8为本申请实施例提供的另一种教材知识点的挖掘整理系统的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图1为本申请实施例提供的一种教材知识点的挖掘整理方法的步骤流程图。
如图1所示,本实施例提供的教材知识点的挖掘整理方法包括如下步骤:
S101:从互联网上获取与关键词有关的教材资源。
比如,当需要获取数学相关知识的教材资源时,可以以百度百科网站的页面为切入点,选择百度百科网站上的“数学名词”页面,抓取“数学名词”及其链接页面,然后再从这些页面中抓取新名词及其链接网页,层层迭代;或者人工定义少量知识点作为关键词,将关键词作为查询条件输入搜索引擎搜索资源,爬取满足查询条件的教材资源,提高爬取的精准度。
还可以人工编写规则爬取特定的教学辅导网站,对教学辅导网站采取人工观察网页制作格式的方式,编写符合网页格式的特定规则爬取其网站上的教材资源。除上述三种方法外,最理想的情况是,能有大量文本文档类型的教科书籍,可以直接读取文本中的内容,或者非扫描版的PDF格式的教科书籍等其他格式的资料,转换成文本格式的文档进行内容读取。
S102:对教材资源进行整理加工,得到教材文本文件。
对于从网页上爬取的教材资源,由于网页资源有其特有的格式,为了获取所需的正文文本,方便计算机读取和处理,需要对所爬取的教材资源进行初步加工,删除HTML标签等多余信息,得到教材文本文件。
还有,当教材资源为非文本文件时,将该非文本文件格式的教材资源进行格式转换,得到文本格式的教材文本文件。
S103:利用自然语言处理工具对教材文本文件进行词性分析。
针对教材文本文件需要进行相关的词法分析处理,为后续的知识点抽取做准备。互联网上有很多开源的自然语言处理工具可以选择,如FudanNLP,LTP,StanfordNLP等。本申请中的自然语言处理工具优选斯坦福分词工具和词性标注工具。
S104:对教材文本文件进行知识点抽取,得到与关键词紧密相关的多个教材知识点。
教材文本文件处理结束以后,可以使用开源的术语抽取工具(如Termolator等工具),对教材文本文件中的知识点进行抽取,得到多个教材知识点,即形成初步的教材知识点集合。
S105:去除与关键词相关性不高的部分教材知识点,得到教材知识点合集。
在得到多个教材知识点后,可以对初步获得的知识点集合进行相关的自动后处理策略或者人工检阅进行过滤,保留质量较高的知识点,形成精确的知识点集合。
从上述技术方案可以看出,本实施例提供了一种教材知识点的挖掘整理方法,具体包括以预设的关键词为切入点,从互联网上获取与所述关键词相关的教材资源;对所述教材资源进行整理加工,去除其中的多余信息,得到与所述关键词相关的教材文本文件;利用自然语言处理工具对所述教材文本文件进行词性分析;利用术语抽取工具对所述教材文本文件进行知识点抽取,抽取到与所述关键词紧密相关的多个教材知识点;从多个知识点中去除与所述关键词相关性不高的部分教材知识点,将剩余的部分教材知识点形成教材知识点合集。本技术方案使学习者无需从浩如烟海的教学资源中盲目地查找有用的信息,能够帮助学习者快速地获取到有用的教材知识点集合,避免因大量无关信息的干扰而降低学习效率。
实施例二
图2为本申请另一实施例提供的一种教材知识点的挖掘整理方法的步骤流程图。
如图2所示,本实施例提供的教材知识点的挖掘整理方法包括如下步骤:
S201:从互联网上获取预定范围的知识源。
获取百科资源中的教学领域资源和教学辅导网站等网站资源作为知识源,所谓百科资源包括维基百科和百度百科。利用百科资源时,对于维基百科,有官方下载地址提供所有完整内容的电子文件下载,例如中文的下载地址为“https://zh.wikipedia.org/wiki/Wikipedia:数据库下载”;
对于百度百科,可以利用预设的网络爬虫,将百度百科中的教学领域资源爬取下来。获取其他教材资源时,对于教辅网站等网站资源,同样利用网络爬虫将网站资源爬取下来。
S202:对知识源进行相关词性分析。
具体为针对爬取的网页资源,需要将超文本标记进行删除,仅保留其正文文本。针对其他格式文件,需要进行格式转换,形成文本文件。对于处理得到的文本文件,可以选择互联网上开源的自然语言处理工具(如FudanNLP,LTP,StanfordNLP等工具)进行分词与词性标注。
S203:根据知识源建立知识图谱。
建立知识图谱,即将知识源中的知识点作为基本单位进行存留,明确并建立知识点间的关系和知识点间的链接关系。知识点间的关系可以用知识点关系三元组进行表示。知识点间的链接关系可以用知识点间链接关系三元组进行表示。
知识点关系三元组表示为:
<source knowledge point,target knowledge point,relation>relation∈r
其中r表示知识点关系描述集合。知识点关系描述集合中包含的关系可以为“部分”、“特例”等等,三角函数和基本初等函数就是一种“部分”关系,真子集和子集就是一种“特例”关系。
知识点间链接关系三元组表示为:
<source knowledge point,target knowledge point,link>link∈l
其中l表示知识点间链接关系描述集合。例如,在百度百科中的“基本初等函数”词条介绍的页面中,存在具有超链接的词语“三角函数”等,点击这些词语,可以直接跳转到“三角函数”这些词语的百度百科词条介绍页面,那么“三角函数”这些知识点就与“基本初等函数”这个知识点具有知识点间链接关系。
S204:对知识图谱进行剪裁,去除未包含在实施例一中知识点合集中的知识点。
由于知识源中可能包含了与学科无关的内容,如艺术,需要进行筛除,仅获得一个与教材相关的知识图谱。在进行裁剪时,需要判断现有的知识点是否为实施例一中教材知识点集合中的知识点,若是则保留,不是则删除。例如,现有“锐角三角形”的知识点信息,若在教材知识点集合中也存在知识点“锐角三角形”,则保留该知识点;若教材知识点集合中不存在,则将该知识点进行删除。
S205:从互联网中获取与剩余的知识点相关的信息,补充到知识图谱中。
为了确保知识图谱的完整性,还需要从互联网中爬取与知识点相关的资源,丰富知识图谱中的信息。从互联网中爬取相关资源后进行信息抽取工作,抽取的内容包括:知识点信息,知识点关系三元组,知识点间链接关系三元组,将获取的信息增补至知识图谱中。
S206:对知识图谱中的知识点的热门程度进行评分。
具体讲,即根据知识图谱中的知识点,采用PageRank算法或其相关变种算法,综合知识点、知识点关系三元组和知识点间链接关系三元组等信息对图谱中的知识点进行热门程度打分。
打分时,将知识点信息视作网页节点,将关系三元组视作网页链接信息。采用PageRank算法,是因为直觉上有1)数量假设:如果一个知识点A与很多其他知识点有关系,说明这个知识点A比较热门;2)质量假设:如果一个热门程度很高的知识点B与其他知识点有关系,那么与知识点B有关的知识点其热门程度相应地因此而提高。此处有关系指的知识点关系和知识点间链接关系。
利用以上两种假设,PageRank算法刚开始赋予每个知识点相同的热门程度数值,通过迭代递归计算来更新每个知识点的PageRank得分,直到得分稳定为止。
PageRank的计算充分利用了以上两个假设,步骤如下:
1)在初始阶段:对于通过链接关系构建起的知识图谱,每个知识点设置相同的PageRank值,通过若干轮的计算,会得到每个知识点所获得的最终PageRank值。随着每一轮的计算进行,知识点当前的PageRank值会不断得到更新。
2)在每一轮更新知识点PageRank得分的计算中,每个知识点将其当前的PageRank值平均分配到本知识点包含的出链上,这样每个链接即获得了相应的权值。而每个知识点将所有指向本知识点的入链所传入的权值求和,即可得到新的PageRank得分。当每个知识点都获得了更新后的PageRank值,就完成了一轮PageRank计算。
PageRank算法的计算公式为:
其中,R(x)表示知识点x的PageRank得分,B(x)表示所有指向x的知识点,N(x)为知识点x的链接个数,C是为得到标准化计算结果增加的一个常数。
通过上述方法,能够对得到的知识点进行评分,从而能够为学习者提供学习的参考,避免在考察率较低的知识点上耗费过多的精力,而将有限的精力用在热门程度较高的知识点上,相应提高学习者的学习效率。
实施例三
图3为本申请又一实施例提供的一种教材知识点的挖掘整理方法的步骤流程图。
如图3所示,本实施例提供的教材知识点的挖掘整理方法包括如下步骤:
S301:从互联网上获取习题库资源。
利用网络爬虫爬取知识点习题库资源,可以定向从指定网站爬取或者启发式构造查询词从搜索引擎爬取资源。有时候为了提高爬取效率还可以将定向从指定网站爬取与启发式构造查询词从搜索引擎爬取资源结合起来。例如,可以定向爬取百度文库这一类的网站。但是百度文库这一类的网站内容涉及丰富,不仅仅包含教科知识的内容,所以爬取时还可以使用启发式构造查询词从百度文库爬取。查询词的构造为[知识点]+[检索关键词],检索关键词集合可以人工构造,例如“习题”“练习题”“练习”“课后练习”等。
通常情况下,如果知识点集合为“锐角三角形”“钝角三角形”,检索关键词集合为“习题”“课后练习”,则可构造如“锐角三角形习题”“锐角三角形课后练习”“钝角三角形习题”“钝角三角形课后练习”等查询词。构造查询词结束后,从百度文库爬取习题时,可以将查询词作为检索条件,符合条件则爬取下来,不符合就舍弃不要。
S302:整理习题库资源,去除习题库资源中的无用信息。
爬取资源结束后,如果爬取的是网页资源,需要将HTML标签这些多余信息筛除,只保留包含习题内容的正文部分,并且还需要进一步对习题资源进行词法分析,分析工具可以选择互联网上开源的自然语言处理工具,如FudanNLP,LTP,StanfordNLP等。
S303:将习题库资源中的习题与实施例一中的知识点合集中的教材知识点进行关联。
具体地,若该习题中的词语包含知识点词语,则将该习题链接至该教材知识点。这其中,允许一道习题链接至多个教材知识点。
S304:根据教材知识点所关联的系统数对教材知识点进行评分。
链接结束后,根据教材知识点所拥有的习题资源,对知识点热门程度进行打分。打分时需要考虑习题数量、习题类型、习题分数(如果有),并且对三个指标的权重进行设置,根据权重进行加权求和得出热度值。
通过以上方法,能够使学习者根据教材知识点与考试的关联程度进行有目的学习,从而有利于通过既定的考试,并取得较满意的成绩。
另外,本实施例还包括以下步骤,如图4所示:
S305:对教材知识点进行加权求和。
由于知识点在知识图谱中的热度值偏重于内在理解这一部分,而知识点在知识点习题库中的热度值偏重于外在应试这一部分,各有偏重,并不客观。为了得到一个知识点综合客观的热门程度数值结果,需要对本实施例的得分和上一实施例的得分进行加权求和,作为最终的热度值得分。
最终的热度值得分由下面的公式计算得出:
score=α*score1+β*score2
其中,score1指知识图谱中的知识点热度值,score2指知识点习题库中的知识点热度值,α,β指相应的权重。针对不同的用户群体可以对权重进行不同的分析设置。对于只想了解学科知识而不追求解题方法的用户群体,知识图谱中的得分权重α相应调高。对于不仅需要掌握知识还需要考试获得高分的用户群体,知识点习题库中的得分权重β相应调高。通过权重的调节,可以给出一个既客观又具有个性化的热门知识点推荐,帮助不同的人群进行学习。
S306:将最终的知识点热度值作为教材知识点最终得分。
从而使教材知识点的评分更加客观,对于学习者的帮助更加有效。
实施例四
图5为本申请又一实施例提供的一种教材知识点的挖掘整理系统的结构框图。
如图5所示,本实施例提供的教材知识点的挖掘整理系统包括教材资源获取模块10、教材资源加工模块20、第一整理模块30、知识点抽取模块40和合集构建模块50。
教材资源获取模块10用于从互联网上获取与关键词有关的教材资源。具体包括第一获取单元11和第二获取单元12。
第一获取单元11用于当需要获取数学相关知识的教材资源时,可以以百度百科网站的页面为切入点,选择百度百科网站上的“数学名词”页面,抓取“数学名词”及其链接页面,然后再从这些页面中抓取新名词及其链接网页,层层迭代。第二获取单元12则用于利用人工定义少量知识点作为关键词,将关键词作为查询条件输入搜索引擎搜索资源,爬取满足查询条件的教材资源,提高爬取的精准度。
还可以人工编写规则爬取特定的教学辅导网站,对教学辅导网站采取人工观察网页制作格式的方式,编写符合网页格式的特定规则爬取其网站上的教材资源。除上述三种方法外,最理想的情况是,能有大量文本文档类型的教科书籍,可以直接读取文本中的内容,或者非扫描版的PDF格式的教科书籍等其他格式的资料,转换成文本格式的文档进行内容读取。
教材资源加工模块20用于对教材资源进行整理加工,得到教材文本文件。具体包括内容修剪单元21和格式转换单元22。
对于从网页上爬取的教材资源,由于网页资源有其特有的格式,为了获取所需的正文文本,方便计算机读取和处理,可以利用内容修剪单元21对所爬取的教材资源进行初步加工,删除HTML标签等多余信息,得到教材文本文件。
格式转换单元22则用于当教材资源为非文本文件时,将该非文本文件格式的教材资源进行格式转换,得到文本格式的教材文本文件。
第一整理模块30用于利用自然语言处理工具对教材文本文件进行词性分析。
针对教材文本文件需要进行相关的词法分析处理,为后续的知识点抽取做准备。互联网上有很多开源的自然语言处理工具可以选择,如FudanNLP,LTP,StanfordNLP等。本申请中的自然语言处理工具优选斯坦福分词工具和词性标注工具。
知识点抽取模块40用于对教材文本文件进行知识点抽取,得到与关键词紧密相关的多个教材知识点。
教材文本文件处理结束以后,可以使用开源的术语抽取工具(如Termolator等工具),对教材文本文件中的知识点进行抽取,得到多个教材知识点,即形成初步的教材知识点集合。
合集构建模块50则用于去除与关键词相关性不高的部分教材知识点,得到教材知识点合集。
在得到多个教材知识点后,可以对初步获得的知识点集合进行相关的自动后处理策略或者人工检阅进行过滤,保留质量较高的知识点,形成精确的知识点集合。
从上述技术方案可以看出,本实施例提供了一种教材知识点的挖掘整理系统,具体包括以预设的关键词为切入点,从互联网上获取与所述关键词相关的教材资源;对所述教材资源进行整理加工,去除其中的多余信息,得到与所述关键词相关的教材文本文件;利用自然语言处理工具对所述教材文本文件进行词性分析;利用术语抽取工具对所述教材文本文件进行知识点抽取,抽取到与所述关键词紧密相关的多个教材知识点;从多个知识点中去除与所述关键词相关性不高的部分教材知识点,将剩余的部分教材知识点形成教材知识点合集。本技术方案使学习者无需从浩如烟海的教学资源中盲目地查找有用的信息,能够帮助学习者快速地获取到有用的教材知识点集合,避免因大量无关信息的干扰而降低学习效率。
实施例五
图6为本申请又一实施例提供的一种教材知识点的挖掘整理系统的结构框图。
如图6所示,本实施例提供的教材知识点的挖掘整理系统包括知识源获取模块60、第二整理模块70、图谱构建模块80、知识点剪裁模块90、相关信息获取模块100和第一评分模块110。
知识源获取模块60用于从互联网上获取预定范围的知识源。具体包括第三获取单元61和第四获取单元62。
百科资源中的教学领域资源和教学辅导网站等网站资源作为知识源,所谓百科资源包括维基百科和百度百科。利用百科资源时,可以通过第三获取单元61对于维基百科的官方下载地址提供的所有完整内容的电子文件进行下载,例如中文的下载地址为“https://zh.wikipedia.org/wiki/Wikipedia:数据库下载”;
对于百度百科,第四获取单元62利用预设的网络爬虫,将百度百科中的教学领域资源爬取下来。获取其他教材资源时,对于教辅网站等网站资源,同样利用网络爬虫将网站资源爬取下来。
第二整理模块70用于对知识源进行相关词性分析。
具体为针对爬取的网页资源,需要将超文本标记进行删除,仅保留其正文文本。针对其他格式文件,需要进行格式转换,形成文本文件。对于处理得到的文本文件,可以选择互联网上开源的自然语言处理工具(如FudanNLP,LTP,StanfordNLP等工具)进行分词与词性标注。其还包括信息抽取单元71,用于抽取知识点信息和三元组信息。
图谱构建单元80用于根据知识源建立知识图谱。
建立知识图谱,即将知识源中的知识点作为基本单位进行存留,明确并建立知识点间的关系和知识点间的链接关系。知识点间的关系可以用知识点关系三元组进行表示。知识点间的链接关系可以用知识点间链接关系三元组进行表示。
知识点关系三元组表示为:
<source knowledge point,target knowledge point,relation>relation∈r
其中r表示知识点关系描述集合。知识点关系描述集合中包含的关系可以为“部分”、“特例”等等,三角函数和基本初等函数就是一种“部分”关系,真子集和子集就是一种“特例”关系。
知识点间链接关系三元组表示为:
<source knowledge point,target knowledge point,link>link∈l
其中l表示知识点间链接关系描述集合。例如,在百度百科中的“基本初等函数”词条介绍的页面中,存在具有超链接的词语“三角函数”等,点击这些词语,可以直接跳转到“三角函数”这些词语的百度百科词条介绍页面,那么“三角函数”这些知识点就与“基本初等函数”这个知识点具有知识点间链接关系。
知识点剪裁模块90用于对知识图谱进行剪裁,去除未包含在实施例四中知识点合集中的知识点。
由于知识源中可能包含了与学科无关的内容,如艺术,需要进行筛除,仅获得一个与教材相关的知识图谱。在进行裁剪时,需要判断现有的知识点是否为实施例一中教材知识点集合中的知识点,若是则保留,不是则删除。例如,现有“锐角三角形”的知识点信息,若在教材知识点集合中也存在知识点“锐角三角形”,则保留该知识点;若教材知识点集合中不存在,则将该知识点进行删除。
相关信息获取模块100用于从互联网中获取与剩余的知识点相关的信息,补充到知识图谱中。
为了确保知识图谱的完整性,还需要从互联网中爬取与知识点相关的资源,丰富知识图谱中的信息。从互联网中爬取相关资源后进行信息抽取工作,抽取的内容包括:知识点信息,知识点关系三元组,知识点间链接关系三元组,将获取的信息增补至知识图谱中。
第一评分模块110用于对知识图谱中的知识点的热门程度进行评分,具体包括打分单元111和得分统计单元112。
具体讲,即根据知识图谱中的知识点,采用PageRank算法或其相关变种算法,综合知识点、知识点关系三元组和知识点间链接关系三元组等信息对图谱中的知识点进行热门程度打分。
打分时,将知识点信息视作网页节点,将关系三元组视作网页链接信息。采用PageRank算法,是因为直觉上有1)数量假设:如果一个知识点A与很多其他知识点有关系,说明这个知识点A比较热门;2)质量假设:如果一个热门程度很高的知识点B与其他知识点有关系,那么与知识点B有关的知识点其热门程度相应地因此而提高。此处有关系指的知识点关系和知识点间链接关系。
利用以上两种假设,PageRank算法刚开始赋予每个知识点相同的热门程度数值,通过迭代递归计算来更新每个知识点的PageRank得分,直到得分稳定为止。
第一打分单元111用于在初始阶段,对于通过链接关系构建起的知识图谱,每个知识点设置相同的PageRank值,通过若干轮的计算,会得到每个知识点所获得的最终PageRank值。随着每一轮的计算进行,知识点当前的PageRank值会不断得到更新。
第一得分统计单元112用于在每一轮更新知识点PageRank得分的计算中,每个知识点将其当前的PageRank值平均分配到本知识点包含的出链上,这样每个链接即获得了相应的权值。而每个知识点将所有指向本知识点的入链所传入的权值求和,即可得到新的PageRank得分。当每个知识点都获得了更新后的PageRank值,就完成了一轮PageRank计算。
PageRank算法的计算公式为:
其中,R(x)表示知识点x的PageRank得分,B(x)表示所有指向x的知识点,N(x)为知识点x的链接个数,C是为得到标准化计算结果增加的一个常数。
通过上述技术方案,能够对得到的知识点进行评分,从而能够为学习者提供学习的参考,避免在考察率较低的知识点上耗费过多的精力,而将有限的精力用在热门程度较高的知识点上,相应提高学习者的学习效率。
实施例六
图7为本申请又一实施例提供的一种教材知识点的挖掘整理系统的结构框图。
如图7所示,本实施例提供的教材知识点的挖掘整理系统包括习题库获取模块120、第三整理模块130、关联模块140和第二评分模块150。
习题库获取模块120用于从互联网上获取习题库资源。该模块包括第五获取单元121和六获取单元122。
第五获取单元121用于利用网络爬虫定向从指定网站爬取知识点习题库资源,第六获取单元122用于启发式构造查询词从搜索引擎爬取资源。有时候为了提高爬取效率还可以将定向从指定网站爬取与启发式构造查询词从搜索引擎爬取资源结合起来。例如,可以定向爬取百度文库这一类的网站。但是百度文库这一类的网站内容涉及丰富,不仅仅包含教科知识的内容,所以爬取时还可以使用启发式构造查询词从百度文库爬取。查询词的构造为[知识点]+[检索关键词],检索关键词集合可以人工构造,例如“习题”“练习题”“练习”“课后练习”等。
通常情况下,如果知识点集合为“锐角三角形”“钝角三角形”,检索关键词集合为“习题”“课后练习”,则可构造如“锐角三角形习题”“锐角三角形课后练习”“钝角三角形习题”“钝角三角形课后练习”等查询词。构造查询词结束后,从百度文库爬取习题时,可以将查询词作为检索条件,符合条件则爬取下来,不符合就舍弃不要。
第三整理模块130用于整理习题库资源,去除习题库资源中的无用信息。
爬取资源结束后,如果爬取的是网页资源,需要将HTML标签这些多余信息筛除,只保留包含习题内容的正文部分,并且还需要进一步对习题资源进行词法分析,分析工具可以选择互联网上开源的自然语言处理工具,如FudanNLP,LTP,StanfordNLP等。
关联模块140用于将习题库资源中的习题与实施例四中的知识点合集中的教材知识点进行关联。
具体地,若该习题中的词语包含知识点词语,则将该习题链接至该教材知识点。这其中,允许一道习题链接至多个教材知识点。
第二评分模块150用于根据教材知识点所关联的系统数对教材知识点进行评分。
在关联模块140链接结束后,第二评分模块150根据教材知识点所拥有的习题资源,对知识点热门程度进行打分。打分时需要考虑习题数量、习题类型、习题分数(如果有),并且对三个指标的权重进行设置,根据权重进行加权求和得出热度值。
通过以上方法,能够使学习者根据教材知识点与考试的关联程度进行有目的学习,从而有利于通过既定的考试,并取得较满意的成绩。
另外,本实施例还包括求和模块160和热度确定模块170,如图8所示:
求和模块160用于对教材知识点进行加权求和。
由于知识点在知识图谱中的热度值偏重于内在理解这一部分,而知识点在知识点习题库中的热度值偏重于外在应试这一部分,各有偏重,并不客观。为了得到一个知识点综合客观的热门程度数值结果,需要对本实施例的得分和上一实施例的得分进行加权求和,作为最终的热度值得分。
最终的热度值得分由下面的公式计算得出:
score=α*score1+β*score2
其中,score1指知识图谱中的知识点热度值,score2指知识点习题库中的知识点热度值,α,β指相应的权重。针对不同的用户群体可以对权重进行不同的分析设置。对于只想了解学科知识而不追求解题方法的用户群体,知识图谱中的得分权重α相应调高。对于不仅需要掌握知识还需要考试获得高分的用户群体,知识点习题库中的得分权重β相应调高。通过权重的调节,可以给出一个既客观又具有个性化的热门知识点推荐,帮助不同的人群进行学习。
热度确定模块170用于将最终的知识点热度值作为教材知识点最终得分。
从而使教材知识点的评分更加客观,对于学习者的帮助更加有效。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。