本技术涉及大数据,特别涉及一种基于大数据挖掘的知识点生成方法及系统。
背景技术:
1、离线学习平台是指可以在没有网络连接的情况下使用的教育或学习应用程序。这些平台通常提供下载或安装到设备上,以便用户可以在无需互联网连接的情况下访问课程内容、学习材料、练习题和其他学习资源。离线学习平台允许用户根据自己的时间和地点进行学习,并且不受网络访问的限制。它们可以在个人电脑、平板电脑和智能手机等设备上使用。
2、随着离线学习平台的逐渐普及,一些针对离线学习的课程资源文本优化需求越来越多,比如涉及课程资源文本的知识点生成需求。然而传统的知识点生成技术存在资源开销大、精度和灵活性低下的缺点。
技术实现思路
1、为改善相关技术中存在的技术问题,本技术提供了一种基于大数据挖掘的知识点生成方法及系统。
2、第一方面,本技术实施例提供了一种基于大数据挖掘的知识点生成方法,应用于大数据挖掘系统,所述方法包括:
3、在对目标离线学习用户进行学习行为分析得到拟处理课程资源文本时,获得所述目标离线学习用户在所述拟处理课程资源文本中的初始编辑文本块分布数据;
4、基于所述初始编辑文本块分布数据,通过课程知识点生成网络的文本描述挖掘组件进行文本描述挖掘,得到目标文本描述量化语义;
5、基于所述目标文本描述量化语义,通过所述课程知识点生成网络的行为意向解析组件进行行为意向解析,得到所述目标离线学习用户的每个学习内容编辑文本块的编辑行为意向特征和编辑行为轨迹特征;
6、基于所述编辑行为意向特征和所述编辑行为轨迹特征,通过所述课程知识点生成网络的课程知识点生成组件进行课程知识点生成,得到对应的学习内容编辑文本块的课程知识点标注文本块。
7、在一些方案下,所述文本描述挖掘组件包括第一文本描述挖掘分支和第一文本描述拼接分支,所述基于所述初始编辑文本块分布数据,通过课程知识点生成网络的文本描述挖掘组件进行文本描述挖掘,得到目标文本描述量化语义,包括:
8、获得所述初始编辑文本块分布数据的文本描述挖掘信息;
9、基于所述初始编辑文本块分布数据的文本描述挖掘信息,通过所述第一文本描述挖掘分支生成所述拟处理课程资源文本对应的第一文本描述量化语义;
10、通过所述第一文本描述拼接分支将所述拟处理课程资源文本对应的第一文本描述量化语义与上一课程资源文本对应的第一文本描述量化语义进行文本描述拼接,得到所述目标文本描述量化语义,所述上一课程资源文本和所述拟处理课程资源文本处于相同课程资源文本集,在所述课程资源文本集中所述上一课程资源文本在所述拟处理课程资源文本之前且与所述拟处理课程资源文本存在关联。
11、在一些方案下,所述文本描述挖掘组件还包括第二文本描述挖掘分支和第二文本描述拼接分支,在所述课程知识点生成网络中所述第二文本描述挖掘分支和所述第二文本描述拼接分支处于所述第一文本描述挖掘分支之前,所述获得所述初始编辑文本块分布数据的文本描述挖掘信息,包括:
12、通过所述第二文本描述挖掘分支对所述初始编辑文本块分布数据进行文本描述挖掘,得到所述拟处理课程资源文本对应的第二文本描述量化语义;
13、将所述拟处理课程资源文本对应的第二文本描述量化语义确定为所述文本描述挖掘信息;
14、所述基于所述初始编辑文本块分布数据的文本描述挖掘信息,通过所述第一文本描述挖掘分支生成所述拟处理课程资源文本对应的第一文本描述量化语义,包括:
15、通过所述第二文本描述拼接分支将所述拟处理课程资源文本对应的第二文本描述量化语义与所述上一课程资源文本对应的第二文本描述量化语义进行语义拼接,得到文本描述量化拼接语义;
16、通过所述第一文本描述挖掘分支对所述文本描述量化拼接语义进行特征量化处理得到所述第一文本描述量化语义。
17、在一些方案下,所述方法还包括:
18、依据所述课程知识点标注文本块,生成所述目标离线学习用户的课程知识关系网。
19、在一些方案下,所述课程知识点生成网络对应的原始决策树算法包括基础文本描述挖掘组件、基础行为意向解析组件和基础课程知识点生成组件,所述方法还包括:
20、获得过往离线学习用户在过往课程资源文本中的过往初始编辑文本块分布数据;
21、基于所述过往初始编辑文本块分布数据,通过所述基础文本描述挖掘组件进行文本描述挖掘,得到目标过往文本描述量化语义;
22、基于所述目标过往文本描述量化语义,通过所述基础行为意向解析组件进行行为意向解析,得到所述过往离线学习用户的每个学习内容编辑文本块的过往编辑行为意向特征和过往编辑行为轨迹特征;
23、基于所述过往编辑行为意向特征和所述过往编辑行为轨迹特征,通过所述基础课程知识点生成组件进行课程知识点生成,得到对应的学习内容编辑文本块的过往课程知识点标注文本块;
24、基于所述过往课程知识点标注文本块生成目标算法网络调试评价指标;
25、基于所述目标算法网络调试评价指标对所述原始决策树算法的算法变量进行更新改进,得到所述课程知识点生成网络。
26、在一些方案下,所述基于所述过往课程知识点标注文本块生成目标算法网络调试评价指标,包括:
27、基于所述过往课程知识点标注文本块分别生成意向挖掘算法网络调试评价指标、意向更新算法网络调试评价指标和扰动算法网络调试评价指标,所述意向挖掘算法网络调试评价指标用于表征编辑意向挖掘的精度,所述意向更新算法网络调试评价指标用于表征不同课程资源文本之间编辑行为调整的变化系数,所述扰动算法网络调试评价指标用于表征编辑意向挖掘的置信度;
28、基于所述意向挖掘算法网络调试评价指标、所述意向更新算法网络调试评价指标和所述扰动算法网络调试评价指标中至少一种,生成所述目标算法网络调试评价指标。
29、在一些方案下,所述原始决策树算法还包括第一多层感知机单元,基于所述过往课程知识点标注文本块生成所述扰动算法网络调试评价指标的步骤包括:
30、通过所述第一多层感知机单元对所述过往课程知识点标注文本块进行知识检测,得到第一知识检测结果;
31、基于所述过往课程知识点标注文本块和所述第一知识检测结果生成所述扰动算法网络调试评价指标。
32、在一些方案下,所述原始决策树算法还包括第二多层感知机单元,所述方法还包括;
33、基于所述第二多层感知机单元对所述过往编辑行为意向特征进行知识检测,得到第二知识检测结果;
34、所述基于所述过往课程知识点标注文本块和所述第一知识检测结果生成所述扰动算法网络调试评价指标,包括:
35、基于所述过往课程知识点标注文本块、所述第一知识检测结果和所述第二知识检测结果生成所述扰动算法网络调试评价指标。
36、在一些方案下,基于所述过往课程知识点标注文本块生成所述意向挖掘算法网络调试评价指标的步骤包括:
37、基于所述过往课程知识点标注文本块和先验课程知识点标注文本块,确定算法网络调试评价指标loss1;
38、基于所述过往课程知识点标注文本块对应的过往编辑行为意向特征和先验编辑行为意向特征,确定算法网络调试评价指标loss2;
39、基于所述过往课程知识点标注文本块对应的过往编辑行为轨迹特征和先验编辑行为轨迹特征,确定算法网络调试评价指标loss3;
40、对所述算法网络调试评价指标loss1、所述算法网络调试评价指标loss2和所述算法网络调试评价指标loss3进行全局融合,得到所述意向挖掘算法网络调试评价指标。
41、在一些方案下,基于所述过往课程知识点标注文本块生成所述意向更新算法网络调试评价指标的步骤包括:
42、根据连续两个过往课程资源文本对应的过往课程知识点标注文本块之间的区别系数和第一先验区别系数,确定算法网络调试评价指标loss4;
43、基于所述连续两个过往课程资源文本对应的过往编辑行为意向特征之间的区别系数和第二先验区别系数,确定算法网络调试评价指标loss5;
44、基于所述连续两个过往课程资源文本对应的过往编辑行为轨迹特征之间的区别系数和第三先验区别系数,确定算法网络调试评价指标loss6;
45、对所述算法网络调试评价指标loss4、所述算法网络调试评价指标loss5和所述算法网络调试评价指标loss6进行全局融合,得到所述意向更新算法网络调试评价指标。
46、第二方面,本技术还提供了一种大数据挖掘系统,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
47、第三方面,本技术还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
48、应用本技术实施例,通过综合考虑编辑行为意向和轨迹,能够灵活地生成适应不同学习者需求的课程知识点标注文本块,提供个性化的学习支持。这种基于量化语义表示、编辑行为意向特征和编辑行为轨迹特征的知识点生成方法具有资源节约优势。通过量化语义表示,可以有效地压缩和存储大量的文本信息,减少了对存储资源的需求。同时,利用编辑行为意向特征和编辑行为轨迹特征进行知识点生成,能够精确地针对学习者的需求和行为进行响应,避免了不必要的冗余生成,提高了生成结果的精度和灵活性。