基于CWK-means的在线学习资源质量分析方法与流程

文档序号：20949122发布日期：2020-06-02 20:02阅读：来源：国知局

技术特征：

1.一种基于cwk-means的在线学习资源质量分析方法，包括以下步骤：

1)从在线学习平台采集日志数据和数据库数据，构建特征向量；所述日志数据包括视频学习行为数据、文本学习行为数据和论坛学习行为数据，所述数据库数据包括测试学习行为数据和反馈数据；所述特征向量包括视频学习行为数据特征向量、文本学习行为数据特征向量和论坛学习行为数据特征向量、测试学习行为数据特征向量和反馈数据特征向量；所述视频学习行为数据的特征向量表示为：

video＝{slv,pn,pt,an,at,rn,rt}

其中，slv、pn、pt、an、at、rn、rt分别代表学习时长、暂停次数、暂停时长、前进次数、前进时长、后退次数、后退时长；所述文本学习行为数据的特征向量表示为：

text＝{slt,fs,bs,ma,dl,cp,crt}

其中，slt、fs、bs、ma、dl、cp、crt分别代表学习时长、前进滚动、后退滚动、标记、下载、复制、收藏；所述论坛学习行为数据的特征向量表示为：

forum＝{slf,wr,pr,rr,crf}

其中，slf、wr、pr、rr、crf分别代表学习时长、看帖记录、发帖记录、回帖记录、收藏记录；所述测试学习行为数据的特征向量表示为：

examinate＝{sle,es,wq}

其中，sle、es、wq分别代表测试时长、测试成绩、错题；所述反馈数据的特征向量表示为：

feedback＝{ur,fs,ft,fr}

其中，ur、fs、ft、fr分别代表用户、反馈分数、反馈时间和反馈资源；

2)数据预处理，构建数据集x，记为：x＝{x1,x2,…,xn}，xi表示数据集x中第i个数据对象，每个数据对象包含m个特征，表示为xi＝{xi1,xi2,…,xim}，xij为第i个数据对象的第j个特征属性；

3)采用主客观相结合的方法计算各个特征属性的权重，第m个特征xim的权重记为

4)利用权重计算初始聚类中心；

5)利用步骤3)和步骤4)中计算出的权重和初始聚类中心，通过k-means算法对学习资源聚类即cwk-means算法对学习资源聚类，每个聚类对应一个质量等级。

2.如权利要求1所述的基于cwk-means的在线学习资源质量分析方法，其特征在于所述步骤2)中，数据预处理包括数据清洗、数据集成、数据归约、数据变换；所述数据清洗包括分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理；所述数据集成采用模式集成方法；所述数据变换包括平方根转换、对数转换、倒数变换。

3.如权利要求1所述的基于cwk-means的在线学习资源质量分析方法，其特征在于所述步骤3)中第m个特征xim的权重的计算方法包括如下步骤：

3.1)建立系统的递阶层次结构模型，层次结构模型包括目标层、准则层、方案层；

3.2)根据系统的递阶层次结构模型构造判断矩阵a＝(aij)n*n，记为：

其中，aij为同一层次中关于某一准则重要性的两两比较的结果，取值方法如下：特征i与特征j相比较，具有相同重要性取值为1，前者比后者稍重要取值为3，前者比后者明显重要取值为5，前者比后者强烈重要取值为7，前者比后者极端重要取值为9；取值2、4、6、8表示上面相邻判断的中间值；i与j之比为aij则j与i之比为aji＝1/aij；

3.3)检验各判断矩阵是否满足一致性要求，如果满足一致性要求转步骤3.4)，否则转步骤3.2)修改判断矩阵；

3.4)计算主观权重w，计算公式如下：

aw＝λmaxw

3.5)利用资源质量分析结构模型构建原始数列矩阵r，记为：

其中，rij表示评价对象i在评价指标j下的评价值；

3.6)对原始数列矩阵r中的数据进行无钢化处理，使各个指标具有可比性，其中，选取的指标包括越大越优型指标和越小越优型指标，所述越大越优型指标计算公式如下：

所述越小越优型指标计算公式如下：

其中，vij表示rij经过无钢化处理之后的数值，max(rj)和min(rj)分别表示第j个指标的最大值和最小值；

3.7)计算第j个指标下第i个对象指标值所占比重pij，计算公式如下：

3.8)计算第j个指标的熵值，计算公式如下：

3.9)计算客观权重w，计算公式如下：

其中，dj为差异系数，dj＝1-ej，dj越大表示该指标包含的信息量越大，应该赋予越大的权重；

3.10)使用拉格朗日乘子法组合计算出来的两种权重，计算最终的权重计算公式如下：

其中，wi为层次分析法计算出来的权重，wi为熵权法计算出来的权重。

4.如权利要求1所述的基于cwk-means的在线学习资源质量分析方法，其特征在于所述步骤4)中初始聚类中心的计算方法包括如下步骤：

4.1)计算两两数据对象之间基于权重的欧式距离，任意对象xi，xj(1≤i≠j≤n)之间基于权重的欧式距离公式如下：

其中，为属性m的权重，xim为对象i的第m个特征；

4.2)计算数据集中的数据对象xi(i∈[1,n])对应的距离密度，计算公式如下；

4.3)计算数据集中数据对象xi(i∈[1,n])的邻域半径ri；

其中，cr(cr∈(0,1))为邻域半径调节系数，当cr＝0.13时有较好的聚类效果；

4.4)依次计算数据对象xi的点密度d(xi)，即以xi为圆心，邻域半径ri为半径的球形域内包含的数据对象个数；

d(xi)＝|{p|d(xi,p)≤ri,p∈x}|

4.5)把数据集中的数据对象按照点密度d(xi)降序排放；

4.6)使用分离系数函数确定k的值，分离系数函数表示为：

其中，uij是xi在第j个类中的隶属度，k的最优选择公式为：

其中，ω为所有聚类结果；

4.7)取点密度最大的数据对象作为第一个初始聚类中心c1；

4.8)选择一个和c1距离超过r1的且密度仅次于c1的数据对象作为第二个初始聚类中心；

4.9)判断是否找到k个聚类中心，如果找到转步骤5)，否则转步骤4.8)。

5.如权利要求3所述的基于cwk-means的在线学习资源质量分析方法，其特征在于所述步骤3.3)中检验各判断矩阵一致性的方法为：计算出判断矩阵的最大的特征根λmax，计算一致性指标ci，计算一致性比例cr，当cr<0.10时，满足一致性要求，其中一致性指标计算公式如下：

一致性比例计算公式如下：

ri是同阶随机判断矩阵的一致性指标的平均值。

技术总结
本发明属于数据分析领域，具体涉及一种基于CWK‑means的在线学习资源质量分析方法；利用学习者在网络学习平台的学习数据，采用一种基于权重的初始中心优化K‑means算法，通过学习者的学习行为对学习资源进行聚类分析，结合学习者的学习行为与成绩之间的关系，通过学习者学习行为反馈出学习资源的质量、存在的问题，便于改进，提供更优质的学习资源。

技术研发人员：马汉达;钱玉婷;刘相涛
受保护的技术使用者：江苏大学
技术研发日：2019.04.18
技术公布日：2020.06.02

完整全部详细技术资料下载

当前第2页1 2