基于集体注意力衡量在线学习环境下用户行为的度量方法与流程

文档序号:18623132发布日期:2019-09-06 22:41阅读:274来源:国知局
基于集体注意力衡量在线学习环境下用户行为的度量方法与流程

本发明涉及网络分析,学习分析和教育评估领域,主要致力于研究集体注意力在各个教育资源中的分配问题,帮助理解学习者的部分学习行为,探寻不同学习类型者的学习模式,从而衡量评估和设计更高效的学习资源平台。



背景技术:

在线开放课程(moocs)以及校园课程混合模式的大规模兴起,改变了教育者对于知识是如何产生,传播和消费的看法。我们已经进入到了一个由“丰富的信息创造出注意力极度匮乏”的时代。虽然在线学习开放灵活的特性能够让我们在任何时间,任何地点进行学习,但是未考虑注意力分配的成本问题将大大降低我们在其上的学习效益。当学习者面对的资源数量达到一定规模的时候,他们只能分配有限的精力学习特定数量的系列知识,而不是将所有的教学资源一网打尽。因此,尽管这种开放和灵活的特性通常被人们描述成无约束的人类注意力,并认为海量的资源以及低廉的学习成本能够让教育变得更加普及,但正如频繁报道的那样,这种营销口号必须接受来自教育研究者的质疑和验证。学生的有效学习取决于他们如何将注意力分配到有用的资源上,正如席梦思在连接主义中所提到的,在广阔的信息空间中,内容就像一个孤立的资源节点。学生需要设定自己的学习目标,指定和调整自己的学习策略,“在复杂的在线环境中理解信息并找到自己的方式”,学习和知识的本质已经改变。学习不再单独发生在个体内,它包括学生的寻路和意识。知识不再具有固定的结构,它是由学生基于信息联系的自我构建形成的信息网络结构,我们更应该了解集体注意力流是如何在丰富的知识中流通的。尤其是随着开放教育资源获取能力的不断增长,这将是未来设计出更好、更灵活的在线学习体验形式的关键。

集体注意力这一概念,最初由huberman和wufang提出,他们试图用一个新的模型来刻画用户上网的注意力动态演化,将其与信息(知识)的流行度和创新性联系起来。与传统心理学研究中的注意力类型不同,由于在线行为表现出与人类注意力相似的模式,例如短时性,选择性,流通性和消散性。这一概念强调大量个体行为数据产生的集体涌现效益,从而衡量整体注意力水平的重要性,有助于我们更好地模拟其随时间演变的在线行为的动态。

得益于在线学习的大规模盛行,大量的学习者浏览点击学习行为数据为学习分析研究提供了一个前所未有的机会。先前的学习分析利用各种技术来理解点击流数据,如通过聚类算法对学习者进行分类,并使用日志序列分析来预测成绩。这些点击流研究倾向于欠概念化(under-conceptualized)和过方法化(over-methodologized)。如果点击流数据仅被视为关于人类行为的海量数据池,作为复杂的算法输入,以对学习者进行聚类或预测未来,那么其价值就会大打折扣。近段时间以来,生态系统观点已被公认为在线学习的有效手段,在本发明将网络生态系统的概念引入到评价体系中,试图从其开放与平衡的系统观解释学习者中存在的高流失率和急剧不平等的参与规模,强调在集体层面描述学习行为动态特征的重要性,包括表现好(或失败)的学习者,以及可能辍学的学习者。



技术实现要素:

过去的学习分析缺少概念化和过方法化,单纯从数据挖掘的角度分析学生的点击流数据,没从系统的角度,大尺度的考量系统中教学和教学之间的相互作用以及和学生群体集体行为的相互影响。针对上述问题,本发明结合流网络理论,设计出了一套对在线学习环境下用户行为的度量方法,利用点击流数据,从集体注意力的角度构建开放流网络,通过流网络理论中的流距离、空间嵌入等指标分析注意力流的积累、循环、耗散模式,从而更为动态和直观的揭示在线学习数据中的客观规律,使得度量结果更客观、更具有现实指导意义。

技术问题

本发明从大量用户在线学习产生的点击流数据出发,构建基于集体注意力的开放流网络,运用网络科学中相关理论和方法,去探究在线学习中,不同学生群体的集体注意力分配规律。本发明分别从网络流量、流距离、空间嵌入等方面,通过分析整个开放流网络流量的累积和耗散、每个网络节点到源和汇节点的流距离以及二维学习空间的可视化嵌入以及特征分布等规律,帮助在线教育工作者解决以下问题:

第一、不同用户群体集体注意力的累积、循环、耗散呈现何种特征和差异?

第二、不同用户群体集体注意力的在课程当中的沉浸水平如何?

第三、不同用户群体在不同课程单元中的学习规律如何?

技术方案

相比于传统的学习分析方法,对用户点击流数据的粗暴使用,本发明则从系统的角度出发,利用用户点击流数据,构建以点击流为边,课程为节点的基于用户集体注意力的开放流网络,并运用流网络理论中的流量、流距离和空间嵌入,以完成在线学习系统的分析和度量。具体方法如下:

步骤1)用户点击流数据预处理

1-4)数据来源:点击流数据以来源于学堂在线(xuetangx),是清华大学在2013年推出的首个中文大规模开放在线课程平台为例;

1-5)数据格式:点击流数据是用户在在线学习网站的行为日志,记录了用户在当前课程学习空间中的点击行为。其中每行记录包括了:用户id、时间戳(页面打开和关闭时间)、urls、页面标题、页面停留时间、页面类型等。

1-6)数据过滤:点击流数据包含了移动端和web端的行为数据,由于页面跳转逻辑、储存的数据格式存在差异,仅保留web端的用户数据。同时,也剔除了用户浏览时间长度为0秒的页面;

步骤2)构建开放流网络

2-4)集体注意力流网络:在本发明中流网络节点是不同章节课程,连边则是用户集体注意力的流转;

2-5)网络构建:为方便处理数据,在本发明中,根据经验,使用30分钟作为会话分割依据。在每一个会话中,每个用户的点击(或访问)序列都被认为是一次从一个课程资源到另一个课程资源的注意力转移行为,我们把这种转移定义为这两个课程节点间的连边。据此,我们可以构建以课程资源为节点,用户点击行为为连边的点击流网络。

2-6)网络平衡:根据开放流网络理论,整个网络需要保持流量平衡。为此,我们在步骤2-2)构建的流网络中添加两类特殊的节点——源节点和汇节点,分别代表注意力流的源头和尽头;

步骤3)流网络流距离、流量耗散律、和教育空间嵌入

3-4)流距离:基于构建好的平衡开放流网络,得到集体注意力流矩阵f,然后得到马尔科夫转移概率矩阵m。矩阵中个元素,表示集体注意力在资源间的转移概率,其计算公式如下所示:

公式中,mij表示的是从节点i到节点j的转移概率。基于该马尔科夫转移概率矩阵m,进而计算流距离矩阵l,最终得到网络中两点间的流距离lij,计算公式如下所示:

其中,u=m+m2+…=(i-m)-1,被称为基本矩阵,是m的拉普拉斯算子的逆矩阵。而i则是大小为(n+1)*(n+1)的单位矩阵;

3-5)流量积累、循环和耗散律:利用步骤3-1)中的流距离矩阵l可以计算所有课程资源到源和汇节点的平均流距离。通过观察不同用户群体型构建的流网络这些平均流距离的规律,可以了解到不同用户群体集体注意力的累积、循环、耗散特征和差异;同样,通过观察不同课程资源到源和汇节点的流距离分布规律,研究不同用户群体中,每个课程资源在整个流网络中的生态位,这即代表用户对于不同课程资源的沉浸水平;

3-6)教育空间嵌入:我们采用mds(multidimensionalscaling)方法将流距离矩阵做嵌入,将网络节点(即课程资源)嵌入到二维空间中。通过观察不同用不群体中,课程资源不同的嵌入规律,得知不同用户群体在学习规律和差异。

有益效果

文中将利用来自mooc的点击流数据建立一个集体注意力开放流网络来解答这些问题。在这种方法中,本发明从开放系统角度映射个体灵活学习者的学习路径的理想模型。同关于开放系统和网络动态的理论,将点击流数据作为持续注意力流的一个体现,可以理解人类行为在动态大范围上的变化情况。注意力流的隐喻或表示作为解释点击流的代理,这提高了我们对不断变化的理解各种学习者群体的学习行为。这对于设计满足个体学习者需求的教育资源具有重要意义。具体的好处如下:

第一、本发明基于开放流网络理论,可以有效的捕捉在线学习的多样性行为模式;

第二、在本发明中,开发流网络是以课程资源为节点,课程资源间注意力流动为边构建的,所以用户的学习行为能够得到充分的展示。不仅为分析在线学习行为提供了诸如流距离等手段,而且也能够为我们揭示有效学习某课程所蕴含的概念地图等;

第三、本发明以开放系统的视角看待在线学习分析,将在线学习系统视为一个吸收、循环、耗散注意力流的生态空间,通过分析不同课程资源在这一空间中的生态位,我们可以制定和分配合理的学习顺序和资源。

附图说明

图1学堂在线(xuetangx)网站实例;

图2社交网络、点击流数据会话分割及流网络构建;

图3开放流网络示意图。

具体实施方式

以下将结合附图和基于集体注意力衡量在线学习环境下用户行为的度量的具体实施方式,对本发明做详细描述。

本发明从开放流网络理论出发设计了一套对在线学习环境下用户行为的度量方法,主要分为两个部分,一部分是利用用户点击流数据构建集体注意力开放流网络,另一部分则是利用开放流网络理论中方法——流距离、耗散律和空间嵌入分析用户的行为模式,具体的操作如下:

步骤1)用户点击流数据预处理

数据来源:点击流数据来源于学堂在线(xuetangx),是清华大学在2013年推出的首个中文大规模开放在线课程平台。作为国内最大的moocs平台之一,学堂在线容纳超过了800万的注册用户。截止到2018年3月,平台上统计到提供的课程共有1500多门,课程来自国内外知名高校,涵盖了包括计算机、经管、艺术、数学、物理、化学、社科在内等13大学科门类;在课程学习空间,以《心理学概论》为例,为学生提供了多种不同的功能模块,如:课件、课程信息、讨论区等,见图1所示。在课件模块中,课程提供了多个章节的教学内容,包括:视频课件、习题,供学生进行自主学习和检验学习效果;在讨论区模块中,包含了不同主题的交互帖子,供学生进行交流互动。除此之外,还有记录学生个人学习进度的课程进度模块、描述课程整体结构的课程大纲模块等;《心理学概论》是学堂在线从2015年起,对外开放的一门隶属于哲学学科分类下的心理学基础课程。自2015年开设以来,到2017年已经连续开设了6个轮次。对该门课程在2015年到2017年间开设的所有轮次进分析发现2015年秋季开设的轮次中报名并拥有行为记录的学生人数、学生的行为记录数量最多,数据量也是最为丰富的,见表2。因此选取该轮次作为案例分析;

数据格式:点击流数据是用户在在线学习网站的行为日志,记录了用户在当前课程学习空间中的点击行为,见表1为用户在《心理学概论》行为日志示例。其中每行记录包括了:用户id、时间戳(页面打开和关闭时间)、urls、页面标题、页面停留时间、页面类型等。用户id用于对用户进行唯一标识,时间戳用于对用户点击流数据进行排序和会话切分,urls用于对学习空间中的页面进行唯一识别,页面停留时间用于对无效的点击访问进行过滤,而页面标题和类型,则是对当前页面的信息描述;对于《心理学概论》这门课程而言,页面标题主要分为13类,和13个章节一一对应,具体章节结构将表3所示;

数据过滤:点击流数据包含了移动端和web端的行为数据,由于移动端和web端上的页面跳转逻辑、储存的数据格式存在差异,为了数据统一方便研究,剔除掉移动端的所有用户数据,仅保留web端的用户数据。同时,在用户行为日志数据中,存在一部分浏览时间长度为0秒的页面,这些访问记录并不能说明用户参与到课程的学习上,因此也剔除了这部分数据;在最终的数据样本的选择上,本研究匿名获取了《心理学概论》2015年秋轮次中,实际学习的7397名学生,及其这批学生在web端的116356条行为日志数据。这批数据记录了从2015年5月到2016年12月期间,学生在课程内不同页面间的点击跳转行为,共涉及带229个页面,包括:视频课件页面、论坛帖子页面、课程大纲等。同时,本研究还对应地获取了当前7397名学生的学业成绩数据。下文将基于学业成绩数据对学生群体进行分组(如非常好、一般、失败、退出),利用学生的行为日志数据去构建集体注意力流网络,并基于此开展数据分析和研究;

步骤2)构建开放流网络

集体注意力流网络:不同传统的以用户为核心构建网络,如社交网络,节点是用户,连边则是用户间的交互;在本发明中集体注意力开放流网络节点是不同章节课程,连边则是用户集体注意力的流转;

网络构建:根据经验,平均而言发生在25.5分钟内的在线行为被认为是一个完整的会话,超过此时间则是另一个会话。为方便处理,我们在本发明中,使用30分钟作为会话分割依据。在每一个会话中,每个用户的点击(或访问)序列表示一次从一个页面跳转到另一个页面,即一次从一个课程资源到另一个课程资源的注意力转移行为,我们把这种转移定义为这两个课程节点间的连边。据此,我们可以构建以课程资源为节点,用户点击行为为连边的点击流网络,如图2。

网络平衡:根据开放流网络理论,整个网络需要保持流量平衡。为此,我们在步骤2-2)构建的流网络中添加两类特殊的节点——源节点和汇节点,分别代表从外部环境进入课程资源网络中的的集体注意力流的源头和从课程资源网络耗散到外部学习环境的尽头,如图2、3;

步骤3)流网络流距离、流量耗散律、和空间嵌入

流距离:由于流网络存在源和汇节点,整个网络成为了一个开放系统。因此过去仅能用于计算封闭网络中节点距离的传统算法并不适用。为了衡量集体注意力流网络中节点间的距离,本发明采用了一种基于用户浏览行为来计算的距离度量,称为流距离,其代表从流网络中节点a达到节点b的平均首达距离。具体的计算过程是首先基于构建好的平衡开放流网络,得到集体注意力流矩阵f,然后得到马尔科夫转移概率矩阵m。矩阵中个元素,表示集体注意力在资源间的转移概率,其计算公式如下所示:

公式中,mij表示的是从节点i到节点j的转移概率。在平衡的注意力流网络中,由于汇节点不存在注意力的流出,因此汇节点到任一节点的转移概率恒为0。除此以外,对于其余所有的节点i,其转移概率之和恒等于1,即说明流入到当前节点的集体注意力,最终都会以不同的概率分布流出到其他节点中,这也是封闭流网络和开放流网络的一个主要差别体现。基于该马尔科夫概率矩阵矩阵m,进而计算流距离矩阵l,最终得到网络中两点间的流距离lij,其计算公式如下所示:

其中,u=m+m2+…=(i-m)-1,被称为基本矩阵,是m的拉普拉斯算子的逆矩阵。而i则是大小为(n+1)*(n+1)的单位矩阵;

基于以上的矩阵转换计算,我们便得到了用于一个描述注意力流网络中每一对节点间流距离矩阵。但通常情况下,由于页面间的点击跳转是有方向性的,节点i到节点j的流距离并不等于节点j到节点i的流距离。为了后续能使用mds算法,将流距离矩阵中的节点嵌入到欧几里得空间中可视化,我们需要获得一个对称的流距离矩阵c。本发明中则是简单的将矩阵l与其转置后的矩阵l.t相加。相加后的流距离,可以直观地理解为两点间的平均往返首达距离。其计算公式如下所示:cij=lij+lji。

流量积累、循环和耗散律:利用步骤3-1)中的流距离矩阵l可以计算所有课程资源到源和汇节点的平均流距离。到源节点的距离表明用户进入在线学习系统后获取课程资源速度多样性。即我们认为注意力已经积累到这些课程资源中。到汇节点的流距离则暗示注意力流在学习过程中消散的可能性;针对不同的用户类型,分别计算各自流网络中所有课程资源到源和汇节点的平均流距离,可以得到不同用户群体集体注意力的累积、循环、耗散呈现何种特征和差异;同样,也可以利用流距离矩阵l计算不同课程资源到源和汇节点的流距离,研究不同用户群体中,课程资源吸引和耗散注意力流的生态位,即不同用户群体对于课程资源的沉浸水平;

教育空间嵌入:鉴于流距离矩阵的几何距离特性,我们采用mds(multidimensionalscaling)嵌入,在能保持原有相对位置关系的情况下,将网络节点嵌入到二维空间中。针对不同的用户类型,我们分别计算所有课程资源的二维嵌入,研究它们的分布规律,由此我们可以得知不同用户群体在不同课程单元中的学习规律。

表1《心理学概论》用户行为日志数据格式

表2《心理学概论》不同轮次上学生人数统计

表3《心理学概论》课程章节结构

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1