本发明涉及知识分类领域,具体地说,是一种数学题知识点发现与批量标签获取方法。
背景技术:
随着在线学习平台的推出,越来越多人的选择在线学习。但随着人们对学习资源的需求以及要求的不断增多,网络中的资源极度膨胀,这为学习者寻找合适的学习资源带来了不小的挑战。如何更好地依据学习者的需求从海量学习资源中寻找到合适的资源,从而有效地提高学习资源的利用率以及学习者的学习效率,一直是大家关注的热点问题。学习中,无论是课件还是试题,都有一定的针对性,一定的知识点和相适应的群体。采取合理的分类,简单的标记,即标签。标签与资源紧密连接,并在此基础上逐步形成标签的推荐机制,标签和学习内容相结。
教学领域,尤其是课件与试题标签化,标签可以更好地帮助挖掘数据库中实际内容,用户不再需要盲目的选择就可以捕获到实质内容;标签可以帮助海量内容的选择和过滤,也是自适应教学核心内容之一。
技术实现要素:
本发明的目的是提供一种数学题知识点发现与批量标签获取方法。本发明的目的是通过以下技术方案来实现:
本发明收集数学学科知识点以及学科词汇,形成学科知识图谱;将待获取标签的题干写成标准格式的文本;提取所述文本中的关键词,并根据所述关键词与所述知识图谱的关联关系确定所述数学题所属的学科词汇及知识点;建立对应所述题库的标签,人工检查待验证的标签,修改标签的信息,并定期校验可采纳标签,确保标签的准确性;该方法生成的标签为后续的自适应教学提供依据,筛选或过滤教学资源提供参考依据。
进一步的,待处理的数学题目题干,包含试题、答案、讲解以及一些注释信息,转换为标准格式的文本。
进一步的,采集数学知识点和数学词汇,形成数学学科知识图谱,数学词汇是满足于知识点扩展而逐步积累起来的,没有严格具体的标准和定义,其与知识点等同,起到进一步补充知识点的作用。
进一步的,提取所述文本中的句式、知识点、关键词,根据所述关键词与所述知识图谱的关联关系确定所述数学题目所属的学科词汇及知识点。
进一步的,标签推荐等级,分为三等级:完全可信,可采纳,待验证,人工只需要检查待验证的标签即可。
进一步的,统计用户对标签的选择次数,根据所述选择次数进行添加、删除或替换标签。
以下是本发明运行步骤:
采集数学知识点和数学词汇,形成数学学科知识图谱,这里要详细说明一下,数学词汇,是满足于数学学科知识点扩展而逐步积累丰富起来的,没有严格的标准和具体的界限,其与知识点相同作用,起到进一步补充知识点的作用,这种词汇知识点有别于概念上的知识点,更接近于学习过程中阶段性,有能力特征的知识点。
所述待处理的数学题目题干,包含试题、答案、讲解等内容,转换为标准格式文本。
提取所述文本中的句式、知识点、关键词,并根据所述关键词与所述知识图谱的关联关系确定所述数学题目所属的学科词汇及知识点。
建立对应所述数学题目的标签,所述标签包括:所述关键词以及所述数学题目所属的学科、知识点。
优选地,所述关键词有一个或者多个。
优选地,所述提取所述文本中的关键词包括:
对所述文本进行word2vec分词(word2vec是谷歌提出基于上下文语境来获取的词向量),得到各子词;
计算各子词,包括句式、知识点、关键词、学科词汇的tf-idf值;
所述tf-idf值,其中tf是词频,idf是逆文档频率;两个值相乘,就得到词的所述tf-idf值;一个词的重要性越高,其所述的tf-idf值就越大;关键词是所述tf-idf最大的前几个,进一步处理形成知识点。
所述分词语义处理,在word2vec中,试题中每一个词是一个向量,hash算法,word2vec,hash把词打散,同时定义成向量,词向量加起来确定其可信性;word2vec理解上下语义同时识别到上下语句顺序,实现语句分词以及语义的准确性。试题中每一个词有一个值,bow算法以及词权重,lda主题以及词语矩阵,两者有递进关系,bow进化到lda,实现分值的准确计算。本发明专利中获取标签提供推荐等级,分为三等级别:完全可信,可采纳,待验证。人工只需要检查待验证的标签即可。
将所述tf-idf值高于设定阈值的相关内容作为关键词,或者依照所述tf-idf值由高到低的顺序选取前面设定个数的相关内容作为关键词。
优选地,所述关键词与知识图谱的关联关系包括:所述关键词在所述知识图谱中出现的位置和次数。
优选地,所述方法还包括:
统计用户对标签的选择次数,根据所述选择次数进行添加、删除或替换标签。
一种数学题目标签自动提取方法,包括:
抓取模块,用于预先抓取各学科知识点和学科词汇;
图谱构建模块,用于构建对应所述学科知识点和学科词汇的学科知识图谱;
转写模块,用于将待标签化的数学题目提取出的试题内容转写成文本,转写时,以所述学科词汇作为标签关键词;
关键词提取模块,用于提取所述文本中的关键词;
信息确定模块,用于根据所述关键词与所述知识图谱的关联关系确定所述数学题目所属的学科词汇及知识点;
标签建立模块,用于建立对应所述数学题目的标签,所述标签中包括:所述关键词以及所述数学题目所属的学科、知识点。
优选地,所述关键词有一个或者多个。
优选地,所述关键词提取模块包括:
分词单元,用于对所述文本进行分词,得到各子词;
计算单元,用于计算所述相关内容tf-idf值;
提取单元,用于将所述tf-idf值高于设定阈值的相关内容提取为关键词,或者依照所述tf-idf值由高到低的顺序选取前面设定个数的相关内容提取为关键词。
优选地,所述关键词与知识图谱的关联关系包括:所述关键词在所述知识图谱中出现的位置和次数。
优选地,所述系统还包括:
优化模块,用于统计用户对标签的选择次数,根据所述选择次数进行添加、删除或替换标签。
本发明实施的数学题批量标签提取方法,利用语音转写技术和丰富的互联网数据,对数学题目进行标准化文本处理、关键词提取,并依据关键词及知识图谱确定试题所属的学科及知识点,实现标签自动标签化,减少了人工参与量,同时可以为后续的资源推送等服务提供很好的依据,更有利于教师、学生及时地发现优质教学资源。
附图说明
图1是本发明所述的推荐模块运行步骤示意图。
具体实施方式
下面结合图1对本发明的具体实施方式作进一步详细的说明。
如图1所示,本发明所设计一种数学题知识点发现与批量标签获取方法在实际应用过程当中,具体包括如下步骤:
步骤101,预先采集数学学科知识点和学科词汇,形成相应的学科知识图谱。
知识图谱,也可称为知识矢量图,是以科学知识点为结点的,以知识点与结构关系的一系列各种不同的连接,它可以用连接关系标示的知识点及其试题之间的相互联系。在本发明实施例中,所述学科知识图谱,包括具体到学科的各知识点及其相互关系。学科知识图谱的作用在于显示本学科中各词汇的相关性,试题的过滤或选择环节非常重要。
实际应用中,可以先通过工具采集学科知识点和学科词汇,例如,三角函数知识点,正角、负角、零角和象限角等等,都是三角函数的知识点。首先处理学科知识点,接下来,利用其他方式获取知识点关联的词汇列表。对每一个词汇,以判断该词汇是否是该学科词汇,不断地对词汇进行清洗,形成对应学科的知识图谱。
步骤102,将所述学科词汇作为标签的一种,将待试题提取出标准文本。
将待标签化的试题提取出标准文本。但是由于数学试题的复杂性,尤其对于包含大量专业词汇的处理上。为此,在本发明实施例中,以采集到的专业词汇作为标签资源之一,进行标签化识别,可以确保标签匹配的准确率得到大幅度的提高。
步骤103,提取所述文本中的关键词,并根据所述关键词与所述知识图谱的关联关系确定所述试题所属的学科词汇及知识点。
具体地,在提取所述文本中的关键词时,首先要对该文本进行分词,得到各子词,然后计算相关内容的tf-idf值,最后根据相关内容的tf-idf值来判断该词能否作为该文本的关键词。
本实施例中,根据相关内容tf-idf值确定文本的关键词时,可以有以下多种确定法,比如:
①设定阈值法:此方法首先设定tf-idf阈值,然后将文本中tf-idf值高于设定阈值的相关内容确定为关键词;对于不同的文本,在同一设定阈值下,提取到的关键词个数可能不同。
②设定个数法:此方法首先设定待提取的关键词个数,然后依照文本中相关内容tf-idf值由高到低的顺序选取设定个数的相关内容作为关键词。
使用tf-idf技术提取的关键词准确性对试题标准化处理的准确性的依赖很小,使用tf-idf技术仍然可以提取到准确的关键词信息。
需要说明的是,可以提取文本中的一个或者多个子词作为文本的关键词,关键词个数可以根据用户需求进行设定。
在确定了文本的关键词后,根据关键词与学科知识图谱的关联关系确定所述试题所属的学科及知识点。比如,如果提取到的关键词在数学学科知识图谱中方程求解这个知识点处出现的次数最高,则可以确定该关键词所对应的试题所属的学科及知识点为数学学科的方程求解。
步骤104,建立对应所述试题的标签,所述标签包括:所述关键词以及所述试题所属的学科、知识点。
在提取到试题的关键词,确定了该试题所对应的学科及知识点后,可以将所述关键词、所属学科、知识点作为该试题的标签进行自动标签化。比如:提取关键词个数为n,则该关键词对应的试题的标签包括:n个关键词、所属学科、知识点,共计n+2个标签。
本发明实施例数学题批量标签获取方法,利用自然语言处理技术,对试题内容进行文本标准化处理、关键词提取、依据知识图谱确定学科和知识点,可以充分挖掘试题的标签,及时发现优质的试题,也可以为后续的试题推送等服务提供很好的依据。
最后说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。