一种在线教学资源库的自动构建方法与流程

文档序号:11677718阅读:1590来源:国知局

本发明涉及在线教学领域,尤其涉及一种在线教学资源库的自动构建方法。



背景技术:

随着互联网的逐渐普及,在线教育成为人们获取知识的新途径。2012年,美国的顶尖大学陆续设立网络学习平台,在网上提供免费课程,coursera(https://www.coursera.org/)、udacity(https://www.udacity.com/)、edx(https://www.edx.org/)三大课程提供商的兴起给更多学生提供了系统学习的可能。人们可以通过观看在线教学资源远程学习相关知识或技术,极大的方便了知识的传播。近几年国内也出现了很多在线教育平台,大型开放式网络课程,即mooc(massiveopenonlinecourses)的概念被越来越多的人熟知。2013年,果壳网旗下mooc学院(http://mooc.guokr.com/)上线。mooc学院是最大的中文mooc学习社区,收录了1500多门各大mooc平台上的课程。有50万学习者在这里点评课程、分享笔记、讨论交流。2014年5月,由网易云课堂承接教育部国家精品开放课程任务,与爱课程网合作推出的“中国大学mooc”项目正式上线。

在线教育资源的丰富给了人们更多机会学习知识,但从众多在线教育社区中如何定位和查找自己所需的资源是当前用户使用在线教育资源时面临的重要问题。不同社区中在线资源的组织方式各有不同,教育资源的描述、标签、分类等信息因其所在的社区而异。因此如何将海量的在线教学资源有效整合和分类排序成为当前的亟待解决的问题。

目前,各大在线教育社区中存在数十万的在线教育资源,资源的有效分类成为用户快速定位其所需资源的重要方式。虽然各大在线教学网站中都对教育资源进行了初步的分类,但各大网站对教育资源的分类程度不统一,分类标准也不尽相同。尤其是来自国外网站的在线教育资源的分类方式与国内网站存在很大差异。直接将资源原有社区的分类方式进行简单综合会导致最终分类的混乱。因此,在把来自多个社区的资源进行整合的过程中,需要对资源进行重新分类,通过合理有效的分类帮助用户查找其所需的资源。此外,如何对在线教育资源进行评价和排序也成为资源整合后另一重大问题。



技术实现要素:

本发明的目的在于针对在互联网中存在的大量在线教学资源,提出一种可以自动从不同的社区获取在线教学资源、并对资源进行统一分类和排序的在线教学资源库的自动构建方法。

为实现上述目的,本发明提供一种在线教学资源库的自动构建方法,包括如下步骤:

s1、构建在线教学资源数据库,所述在线教学资源数据库包含数据爬取表、教学资源数据表,教学资源分类表和教学资源评分表;

s2、对上述在线教学资源数据库的资源信息进行信息抽取和质量检测,并将在线教学资源详细数据存储在教学资源数据表中;

s3、使用机器学习中的svm算法,对在线教学资源进行自动分类;并将分类结果存储在教学资源分类表;

s4、根据在线教学资源库的浏览量、用户评价、参加人数对在线教学资源进行评分,根据评分从高到低对教学资源排序,并将评分结果存储于教学资源评分表。

步骤s1中,采用通用的web爬虫技术定时从互联网上公开的在线教学社区中获取在线教学资源数据库所需的资源信息,并以html文本的方式存储在爬取数据表中;通过web爬虫技术获取的在线教学资源信息以[url,页面html]的方式存储在数据爬取表中。若存在爬取错误的页面,对页面url进行标记,下次爬取时可再次爬取;所述错误的页面包括:html页面为404页面,或重要信息字段缺失的页面链接。

步骤s2中,抽取和质量检测的信息包括:在线教学资源的名称、描述、所属机构或学校、老师、课程起止时间、标签、语言、参加人数、评论、用户评价。

进行信息抽取和质量检测后的数据以[课程id,url,名称,描述,…]存储在教学资源数据表中。

步骤s3中,根据在线教学资源数据库的名称、描述、标签、发布机构、讲师信息对在线教学资源进行自动分类;且分类标准为教育部公布的学科分类。

步骤s4中,评分结果以[课程id,评分]的格式存储于教学资源评分表。所述评分结果score的计算方法为:score=α×v+β×p+γ×r,其中,v为在线教学资源的浏览量,p为参加人数,r为用户评价;

计算时,先将所述三个指标归一化到[0,100]的范围,然后设定三个系数以表示所述各个指标的权重,三个系数的值可根据实际排序需要进行调整。

进一步地,svm算法包括:

s301、机器学习的数据标注:首先选择若干爬取的在线教学资源作为样本,人工对样本的分类进行标注;选取的样本要尽量均匀的覆盖所有类别,并且每个资源只属于一类;

s302、分类器特征提取:通过对在线教学资源数据的分析,选取教学资源的典型属性,包括教学资源的名称、标签、发布机构、描述和授课教师,并对步骤301中标注的原始样本进行相应处理;

s303、训练分类器:输入已标注的样本数据训练svm分类器,具体实施时使用java语言的libsvm包进行训练;

s304、其他样本分类;分类器训练完成后,将未标注的教学资源数据输入分类器进行分类,最终的分类结果存储在课程分类数据表中,存储格式为[课程id,类别]。

与现有技术相比,本发明具有如下有益效果:

(1)整合性,本发明爬取了多个在线教育社区的教学资源,将分散的教学资源有效整合起来,使得用户不需要去分别浏览其他在线教育社区,可以直接从本发明构建的在线教学资源库中定位和查找其所需的资源,极大的方便了用户,为用户节约时间;

(2)持续性,本发明对教学资源定时增量爬取,持续不断地从其他社区获取最新的教学资源;

(2)统一分类,不同的社区具有不同的分类标准和分类方式,本发明以教育部的学科分类为标准使用机器学习的方式对在线教学资源进行了统一的分类;

(3)统一评价,本发明借助用户对教学资源的评价、用户的浏览次数、参与课程的人数等信息对在线教学资源进行了统一的评价和排序。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:

一种在线教学资源库的自动构建方法,包括如下步骤:

s1、构建在线教学资源数据库,所述在线教学资源数据库包含数据爬取表、教学资源数据表,教学资源分类表和教学资源评分表;

s2、对上述在线教学资源数据库的资源信息进行信息抽取和质量检测,并将在线教学资源详细数据存储在教学资源数据表中;

s3、使用机器学习中的svm算法,对在线教学资源进行自动分类;并将分类结果存储在教学资源分类表;

s4、根据在线教学资源库的浏览量、用户评价、参加人数对在线教学资源进行评分,根据评分从高到低对教学资源排序,并将评分结果存储于教学资源评分表。

步骤s1中,采用通用的web爬虫技术定时从互联网上公开的在线教学社区中获取在线教学资源数据库所需的资源信息,并以html文本的方式存储在爬取数据表中;通过web爬虫技术获取的在线教学资源信息以[url,页面html]的方式存储在数据爬取表中。若存在爬取错误的页面,对页面url进行标记,下次爬取时可再次爬取;所述错误的页面包括:html页面为404页面,或重要信息字段缺失的页面链接。

步骤s2中,抽取和质量检测的信息包括:在线教学资源的名称、描述、所属机构或学校、老师、课程起止时间、标签、语言、参加人数、评论、用户评价。

进行信息抽取和质量检测后的数据以[课程id,url,名称,描述,…]存储在教学资源数据表中。

步骤s3中,根据在线教学资源数据库的名称、描述、标签、发布机构、讲师信息对在线教学资源进行自动分类;且分类标准为教育部公布的学科分类。

步骤s4中,评分结果以[课程id,评分]的格式存储于教学资源评分表。所述评分结果score的计算方法为:score=α×v+β×p+γ×r,其中,v为在线教学资源的浏览量,p为参加人数,r为用户评价;

计算时,先将所述三个指标归一化到[0,100]的范围,然后设定三个系数以表示所述各个指标的权重,三个系数的值可根据实际排序需要进行调整。

步骤s3中,svm算法包括:

s301、机器学习的数据标注:首先选择若干爬取的在线教学资源作为样本,人工对样本的分类进行标注;选取的样本要尽量均匀的覆盖所有类别,并且每个资源只属于一类;

s302、分类器特征提取:通过对在线教学资源数据的分析,选取教学资源的典型属性,包括教学资源的名称、标签、发布机构、描述和授课教师,并对步骤301中标注的原始样本进行相应处理;

s303、训练分类器:输入已标注的样本数据训练svm分类器,具体实施时使用java语言的libsvm包进行训练;

s304、其他样本分类;分类器训练完成后,将未标注的教学资源数据输入分类器进行分类,最终的分类结果存储在课程分类数据表中,存储格式为[课程id,类别]。

综上,本发明爬取了多个在线教育社区的教学资源,将分散的教学资源有效整合起来,使得用户不需要去分别浏览其他在线教育社区,可以直接从本发明构建的在线教学资源库中定位和查找其所需的资源,极大的方便了用户,为用户节约时间,具有整合性;本发明对教学资源定时增量爬取,持续不断地从其他社区获取最新的教学资源,具有持续性;不同的社区具有不同的分类标准和分类方式,本发明以教育部的学科分类为标准使用机器学习的方式对在线教学资源进行了统一的分类;本发明借助用户对教学资源的评价、用户的浏览次数、参与课程的人数等信息对在线教学资源进行了统一的评价和排序。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1