文本类教育资源知识点预测模型获得方法及模型应用方法

文档序号:8498732阅读:351来源:国知局
文本类教育资源知识点预测模型获得方法及模型应用方法
【技术领域】
[0001]本发明涉及文本类教育资源知识点预测模型获得方法及模型应用方法,属于智能知识点预测应用技术领域。
【背景技术】
[0002]在在线学习的互联网应用中,题库部分是资源核心部分,在线题库中文本类教育资源所包含的知识点是串通整个在线学习系统的基本单元,然而对题库中知识点的标注,需要比较高的知识门槛,需要专业的人员进行相关的培训才能完成,非常耗时,而且在准确性上经常出现问题,影响用户体验,在题库的收集、录入和使用中成为了很大的技术屏障。而且现有技术,没有针对题库类型文档进行制定化分析,并且现有成熟解决方案对该类型数据表现不佳,没有将公式和文字以及文字与文字之间的关系处理完全整合到系统中。

【发明内容】

[0003]针对上述技术问题,本发明所要解决的技术问题是提供一种文本类教育资源知识点预测模型获得方法,基于大数据分析方法,设计全新特征工程,能够获得稳定、有效的文本类教育资源知识点预测模型。
[0004]本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种文本类教育资源知识点预测模型获得方法,基于针对数据库中文本类教育资源的分析,获得知识点预测模型,包括如下步骤:
[0005]步骤001.将数据库中的各个文本类教育资源按照知识点进行分类,并将按知识点分类的各个文本类教育资源,分别导出为预设格式文本类教育资源,按知识点分类构成语料库;
[0006]步骤002.针对语料库中的各个预设格式文本类教育资源,分别提取各个预设格式文本类教育资源中的信息元,由分别对应于各个预设格式文本类教育资源的各个信息元,分别构成对应于各个预设格式文本类教育资源的词料,并且由分别对应于各个预设格式文本类教育资源的词料构成词料库;
[0007]步骤003.针对语料库中各个预设格式文本类教育资源,进行知识点分布统计,格式校验,合理度检验,更新语料库,并按语料库,针对词料库进行相应更新;
[0008]步骤004.根据预设的特定文本判别规则,获得词料库中的公式特定文本,并根据预设的公式字典和特殊词字典,针对词料库中的公式特定文本进行文字内容转换,更新词料库;
[0009]步骤005.根据预设分词分析法,针对词料库中的词料进行分词处理,获得分词结果,包括各个分词单元,以及分别对应于各个分词单元的分词数量,并针对分词结果进行存储;
[0010]步骤006.根据人为预设的中文停用词表,针对分词结果进行过滤,更新分词结果;
[0011]步骤007.根据预设加权统计算法,获得分词结果中各个分词分别对应的加权统计值,并按照加权统计值由高到低的顺序,针对分词结果中的分词进行排序,获得分词结果加权统计排序;
[0012]步骤008.根据预设的加权统计值阈值,获得分词结果加权统计排序中大于该加权统计值阈值的各个分词,构成待处理分词集;
[0013]步骤009.根据预设的聚类获取方法,获得待处理分词集中的各个聚类,根据预设聚类分析方法获得各个聚类的统计值,将各个聚类按其对应统计值由高到低顺序进行排序,并通过预设的统计值阈值,获得大于该统计值阈值的各个聚类,构成待处理聚类集;
[0014]步骤010.分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词,构成删减分词集,针对待处理分词集,删除其中属于删减分词集的分词,获得筛检分词集;
[0015]步骤011.根据预设的知识点分层结构和预设级数的数据层级整理规则,针对筛检分词集中各个分词所对应的知识点,进行分层级数据整理,获得预设级数的层级知识点数据;
[0016]步骤012.根据预设嵌套特征选择方法,分别针对各级知识点数据进行特征选取,分别获得各级知识点数据的特征结果,并分别通过预设的分类器组装进行机器学习,分别建立获得各级知识点数据的知识点预测模型;
[0017]步骤013.针对各级知识点数据的知识点预测模型,分别进行模型评估,并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和统计值阈值,直到达到预设的最优表现值,存储该最优表现值所对应的知识点预测模型,更新获得各级知识点数据的知识点预测模型。
[0018]作为本发明的一种优选技术方案:所述步骤001、步骤002和步骤003中,所述预设格式文本类教育资源为JSON格式文本类教育资源。
[0019]作为本发明的一种优选技术方案:所述步骤005中,所述预设分词分析法为NGRAM分词分析法。
[0020]作为本发明的一种优选技术方案:所述步骤007中,将针对分词结果中词料长度的正则处理,作为词频参数引入预设加权统计算法中之后,同时将反文档频率的光滑处理引入预设加权统计算法中,构成改进型加权统计算法;根据改进型加权统计算法,获得分词结果中各个分词分别对应的加权统计值,并按照加权统计值由高到低的顺序,针对分词结果中的分词进行排序,获得分词结果加权统计排序。
[0021]作为本发明的一种优选技术方案:所述步骤007、步骤008和步骤013中,所述预设加权统计算法为TF-1DF算法,所述改进型加权统计算法为改进型TF-1DF算法,所述加权统计值为TF-1DF值,所述分词结果加权统计排序为分词结果TF-1DF排序,所述加权统计值阈值为TF-1DF值阈值。
[0022]作为本发明的一种优选技术方案:所述步骤009中,根据两两聚类方法,获得待处理分词集中的各个聚类,根据PMI聚类分析方法获得各个聚类的PMI值,将各个聚类按其对应统计值由高到低顺序进行排序,并通过预设的PMI值阈值,获得大于该PMI值阈值的各个聚类,构成待处理聚类集;
[0023]所述步骤010中,分别获得待处理聚类集中各个聚类中对应加权统计值最小的分词,构成删减分词集,针对待处理分词集,删除其中属于删减分词集的分词,获得筛检分词集;
[0024]所述步骤013中,针对各级知识点数据的知识点预测模型,分别进行模型评估,并根据预设嵌套特征选择方法调整建模过程中的加权统计值阈值和PMI阈值,直到达到预设的最优表现值,存储该最优表现值所对应的知识点预测模型,更新获得各级知识点数据的知识点预测模型。
[0025]作为本发明的一种优选技术方案:所述步骤011中,根据预设的知识点分层结构和预设的数据四级整理规则,针对筛检分词集中各个分词所对应的知识点,进行分层级数据整理,获得四级知识点数据。
[0026]作为本发明的一种优选技术方案:所述步骤012和步骤013中,所述预设嵌套特征选择方法为Bagging嵌套特征选择方法。
[0027]本发明所述文本类教育资源知识点预测模型获得方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明设计的文本类教育资源知识点预测模型获得方法,基于大数据分析方法,设计全新特征工程,在收集了足够数量的文本类教育资源后,针对文本类教育资源内容和关联的知识点进行分析,形成学习模型,逐渐优化,完善预测,对于特征的选取和优化流程进行了新的定义,并整合了针对特定公式和相关内容间的转化,使得最终获得的文本类教育资源知识点预测模型;不仅如此,NGRAM分词分析法和改进型TF-1DF算法的引入,能够大大有效提高文本类教育资源知识点预测模型的预测准确率,还有采用Bagging嵌套特征选择方法,对样本进行小采样聚合,结合特征选取以及分类器对文本类教育资源数据的机器学习,在尝试了其他若干方法之后,证明该方法表现最佳。
[0028]与此相应,针对上述技术问题,本发明所要解决的技术问题是提供文本类教育资源知识点预测模型应用方法,基于本发明设计的文本类教育资源知识点预测模型,能够针对待预测文本类教育资源进行所属知识点的预测,并且预测过程稳定、有效,预测结果准确性高。
[0029]本发明为了解决上述技术问题采用以下技术方案:本发明设计了文本类教育资源知识点预测模型应用方法,包括如下步骤:
[0030]步骤a.根据预设分词分析法,针对待预测文本类教育资源进行分词处理,获得待预测文本类教育资源分词结果;
[0031
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1