面向维基百科的概念先决条件关系挖掘方法及相关设备

文档序号:36014303发布日期:2023-11-17 09:49阅读:27来源:国知局
面向维基百科的概念先决条件关系挖掘方法及相关设备

本发明涉及数据处理,更具体地,涉及一种面向维基百科的概念先决条件关系挖掘方法、一种面向维基百科的概念先决条件关系挖掘装置、一种电子设备以及一种存储介质。


背景技术:

1、随着信息技术的飞速发展,网络学习作为一种新常态的学习方式得到了长足发展。利用互联网进行在线学习已成为年轻一代获取知识的重要途径,然而相比于传统的面授方式,网络课堂所存在的一个最大问题是如何保证学习者能够充分理解网络课程所学知识。那些出现在电子文档或者课程视频中的各种知识概念,如果可以搞清楚之间的语义关系,将帮助学习者更好进行理解和学习。例如当谈到“人工智能”话题时,不可避免会介绍“机器学习”和“深度学习”等相关概念。对于一个刚刚入门人工智能的学生而言可能还不完全清楚“机器学习”与“深度学习”之间的关系,但是如果通过某种方式让其知道概念“深度学习”与“机器学习”的相关学习顺序,就会帮助学生更快理解和掌握与“人工智能”的相关概念。这种类似于课程之间的“先修关系”落实到概念层面就是所述的“先决条件关系”。概念间先决条件关系是建立先决条件关系网络的基础,这种先决条件关系网络其实就代表了这些概念知识的学习路径和学习顺序。而对概念先决条件关系的识别能够为构建领域知识网络,学习对象排序、学习路径设计、课程计划的安排提供有效支持。

2、目前,在现有技术中存在运用维基百科来挖掘概念之间的先决条件关系的技术方案。①使用随机游走random walk以及pagerank算法来计算概念在网络中的重要程度值,最后通过最大熵分类器进行分类,找到熵值最大的条件,但其平均正确率只达到60%左右。②通过concept graph learning(cgl)构建通用的概念空间(universal concepts space),使得任何的先决条件关系都可以使用该通用概念空间得出,落脚点依然在识别概念之间的关系层面上。因此,现有技术方案均存在所挖掘的概念之间的先决条件关系准确率较低的问题。

3、由此,亟需一种新的技术方案以解决上述技术问题。


技术实现思路

1、在
技术实现要素:
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。

2、第一方面,本发明提出一种面向维基百科的概念先决条件关系挖掘方法,包括:

3、基于概念的属性,构建多组特征,其中,多组特征包括:基于链接的特征、基于类别的特征、基于内容的特征以及基于时间的特征;

4、利用多组特征,预测概念对之间的先决条件关系。

5、可选地,方法还包括:

6、自维基百科中收集概念对并构建数据集;

7、利用数据集,评估预测得到的概念对之间的先决条件关系。

8、可选地,在构建多组特征之前,方法还包括:

9、定义特征的相关元素,其中,元素包括概念的摘要部分,概念的同义词,概念的创建时间,摘要部分中指向其他概念的链接集,概念的类别集。

10、可选地,链接包括:概念到概念的链接、集合到概念的链接以及集合到集合的链接;

11、利用多组特征,预测概念对之间的先决条件关系,包括:

12、利用概念到概念的链接特征公式,预测概念对之间的先决条件关系,其中,概念到概念的链接特征公式为:a和b表示一个概念对,表示概念a的摘要部分指向其他概念的链接集,refc(a,b)表示基于概念到概念的链接特征确定的概念a和概念b之间的依赖程度;

13、利用集合到概念的链接特征公式,预测概念对之间的先决条件关系,其中,集合到概念的链接特征公式为:refs(a,b)表示基于集合到概念的链接特征确定的概念a和概念b之间的依赖程度;

14、利用集合到集合的链接特征公式,预测概念对之间的先决条件关系,其中,集合到集合的链接特征公式为:refs+(a,b)表示基于集合到集合的链接特征确定的概念a和概念b之间的依赖程度,r(c,a)表示概念c是指概念a的相关文章之一。

15、可选地,类别包括:概念到概念的类别重叠、集合到概念的类别重叠以及集合到集合的类别重叠;

16、利用多组特征,预测概念对之间的先决条件关系,包括:

17、利用概念到概念的类别重叠特征公式,预测概念对之间的先决条件关系,其中,概念到概念的类别重叠特征公式为:catc(a,b)=super(a,b)-sub(a,b),super(a,b)=|k↑(a)∩fk(b)|,sub(a,b)=|k↓(a)∩fk(b)|,k↑(a)表示k的直接父类的集合,k↓(a)表示k的直接子类的集合,其中k属于概念a的类别集,catc(a,b)表示基于概念到概念的类别特征确定的概念a和概念b之间的依赖程度;

18、利用集合到概念的类别重叠特征公式,预测概念对之间的先决条件关系,其中,集合到概念的类别重叠特征公式为:cats(a,b)=super*(a,b)-sub*(a,b),cats(a,b)表示基于集合到概念的类别特征确定的概念a和概念b之间的依赖程度,l表示中的每一篇文章;

19、利用集合到集合的类别重叠特征公式,预测概念对之间的先决条件关系,其中,集合到集合的类别重叠特征公式为:cats+(a,b)=super**(a,b)-sub**(a,b),la表示中的每一篇文章,lb表示中的每一篇文章。

20、可选地,内容包括:概念到概念的内容重叠、集合到概念的内容重叠以及集合到集合的内容重叠;

21、利用多组特征,预测概念对之间的先决条件关系,包括:

22、利用概念到概念的内容重叠公式,预测概念对之间的先决条件关系,其中,概念到概念的内容重叠公式为:

23、bsym表示概念b的同义词,asum表示概念a的摘要部分,contc(a,b)表示基于概念到概念的内容特征确定的概念a和概念b之间的依赖程度;

24、利用集合到概念的内容重叠公式,预测概念对之间的先决条件关系,其中,集合到概念的内容重叠公式为:conts(a,b)=contain(a,b)-contain(b,a):l表示或中的每一篇文章,conts(a,b)表示基于集合到概念的内容特征确定的概念a和概念b之间的依赖程度;

25、利用集合到集合的内容重叠公式,预测概念对之间的先决条件关系,其中,集合到集合的内容重叠公式为:conts+(a,b)=contain+(a,b)-contain+(b,a),

26、可选地,利用多组特征,预测概念对之间的先决条件关系,包括:

27、利用基于时间的特征公式,预测概念对之间的先决条件关系,其中,基于时间的特征公式为:

28、atm表示概念a在维基百科中的创建时间,btm表示概念b在维基百科中的创建时间,tms(a,b)表示基于时间的特征确定的概念a和概念b之间的依赖程度。

29、第二方面,还提出了一种面向维基百科的概念先决条件关系挖掘装置,包括:

30、构建模块,用于基于概念的属性,构建多组特征,其中,多组特征包括:基于链接的特征、基于类别的特征、基于内容的特征以及基于时间的特征;

31、预测模块,用于利用多组特征,预测概念对之间的先决条件关系。

32、第三方面,还提出了一种电子设备,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行如上所述的面向维基百科的概念先决条件关系挖掘方法。

33、第四方面,还提出了一种存储介质,在存储介质上存储了程序指令,程序指令在运行时用于执行如上所述的面向维基百科的概念先决条件关系挖掘方法。

34、根据上述技术方案,基于概念的属性,构建多组特征,其中,多组特征包括:基于链接的特征、基于类别的特征、基于内容的特征以及基于时间的特征。利用多组特征,预测概念对之间的先决条件关系。由此,利用概念相关性构建多个特征进而识别概念之间的先决条件关系具有较高的准确率,有效发现概念之间的先决条件关系,具有一定的有效性和鲁棒性。

35、本发明的面向维基百科的概念先决条件关系挖掘方法,本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1