维基百科条目质量评价方法

文档序号:9217326阅读:523来源:国知局
维基百科条目质量评价方法
【技术领域】
[0001] 本发明涉及计算机应用技术的技术领域,具体地涉及维基百科条目质量评价方 法。
【背景技术】
[0002] 自创建以来,维基百科已发展成为世界上最知名的互联网百科全书。截至2014 年底,维基百科里包含了 288种语言撰写的三千多万个条目,同时拥有分布在世界各地的 五千多万名编辑者。其中,规模最大的英语维基百科包含四百多万个条目,编辑者人数超过 两千万。
[0003] 虽然维基百科条目数量要远远的超过《大英百科全书》等传统的百科全书,但是条 目内容的质量却无法与专家编纂的传统百科全书相提并论。为了帮助用户辨别高质量的条 目,同时促进编辑者改进低质量的条目,维基百科把条目按照质量的优劣分为七个等级:特 色、甲级、优良、乙级、丙级、初级与小作品。同时采用同行评审的方式确定条目属于哪个质 量等级。但是,由于维基百科的条目数量增长过快,人工评价条目质量的方法无法跟上维基 百科快速增长的节奏。实际上,在维基百科里仅有少数条目通过同行评审的方式确定了质 量,大多数条目的质量处于未知状态。
[0004] 现在已有一些自动评价维基百科条目质量的方法。这些方法大多数是基于分类的 方法,即把样本里的条目简单的分为高质量条目与低质量条目两类。但是,维基百科里的条 目质量千差万别,简单的分类无法反应条目质量的真实情况。
[0005] 因此,目前亟需一种自动化程度高、评价结果准确的维基百科条目质量评价方法, 能够与同行评审的结果吻合,并自动评价未分等级的条目。

【发明内容】

[0006] 本发明的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优 点。
[0007] 本发明还有一个目的是提供一种筛选维基百科的有意义的分类的方法,其能够筛 选条目之间相互关联度强的分类认定为有意义的分类并作为领域,提高条目质量评价的效 率。
[0008] 本发明还有一个目的是提供一种维基百科条目质量评价方法,根据数据量化的方 式高效评价条目的质量值和编辑者的信誉度值,解决维基百科知识质量评价问题,更加准 确、直观。
[0009] 为了实现根据本发明的这些目的和其它优点,提供了一种维基百科条目质量评价 方法,包括:
[0010] 步骤一、在维基百科选择一个分类,读取所述分类的全部的直接隶属页面,分析所 述直接隶属页面对应的条目的链接关系网络的相互性系数,根据所述相互性系数筛选有意 义的分类作为领域;
[0011] 步骤二、采用迭代的方式计算所述领域里各条目的质量值,以及编辑者在所述领 域的信誉度值。
[0012] 优选的是,所述的维基百科条目质量评价方法,在所述步骤一之前,还包括对维基 百科的原始数据预处理,包括:
[0013] S1、在维基百科的原始数据里的分类隶属关系表categorylinks、条目链接关系 表pagelinks与条目重定向关系表redirect读取包含的条目或分类的名称title、名称空 间namespace,并在维基百科的页面基本信息数据表page查询所述条目或分类相应的编号 id,并将分类隶属关系表categorylinks、条目链接关系表pagelinks和条目重定向关系表 redirect中的条目或分类的名称title、名称空间namespace更换为查询到的条目或分类 相应的编号id;
[0014] S2、在S1步骤得到的条目重定向关系表redirect里查询更换后的条目的正式名 称相应的编号id后,把维基百科的原始数据里的条目链接关系表pagelinks、条目编辑历 史记录pagemetahistory包含的条目别名更换为条目正式名称相应的编号id,并去除冗余 只保留一个编号id。
[0015] 优选的是,所述的维基百科条目质量评价方法,所述步骤一具体包括:
[0016] 步骤a、在维基百科选择一个分类,读取所述分类的全部的直接隶属页面,建立所 述直接隶属页面对应的条目的链接关系网络有向图G= (V,E),V为所述分类里的全部条目 集合,E为条目之间的链接关系的集合;
[0017] 步骤b、计算条目之间的相互性系数:
,Lbd表示条目之间双向链接的 数目;L表示全部链接的数目;6表示链接关系的密度,即6 =Z/_-l),N表示条目的数 目;
[0018] 步骤c、将步骤b计算得到的相互性系数与代表条目关联度的阈值0进行比较,若 相互性系数大于0,则判定条目之间相互关联度较强,该分类可以作为领域;若相互性系数 小于0,则判定条目之间相互关联度较弱,该分类不可以作为领域。
[0019] 优选的是,所述的维基百科条目质量评价方法,所述步骤a中在维基百科选择一 个分类,可以通过查询所述页面基本信息数据表page,读取所述分类的编号id,然后通过 读取的编号id在所述分类的分类隶属关系表categorylinks查询全部的直接隶属条目。
[0020] 优选的是,所述的维基百科条目质量评价方法,所述步骤b中的1^和L可以通过 统计所述分类的条目链接关系表pagelinks的超链接关系得到。
[0021] 优选的是,所述的维基百科条目质量评价方法,统计所述分类的条目链接关系表 pagelinks的超链接关系可以通过编写SQL语句得到。
[0022] 优选的是,所述的维基百科条目质量评价方法,所述步骤二中:采用HITS算法和 向量标准化迭代计算所述领域里各条目的质量值,以及编辑者在所述领域量的信誉度值。
[0023] 优选的是,所述的维基百科条目质量评价方法,所述步骤二具体包括:
[0024] 步骤d、构建所述领域的全部的直接隶属条目的集合Sa和所述领域的全部的编辑 者的集合预设迭代次数;
[0025] 步骤e、对于Sa*的条目a,其质量值
,对\里的每个编 辑者设置相同的初始信誉度值,按照这种方法计算出sa中的每个条目的质量值;其中,n为 条目a的编辑者人数,ei为条目a的第i个编辑者,Authority(eJ为第i个编辑者的信誉 度值;
[0026] 步骤f、将步骤e得到的&里的每个条目的质量值作标准化处理
*其中,m为&里条目的数目;
[0027] 步骤g、对中的编辑者e,其信誉度值
,按照这种方法 计算出\中的每个编辑者的信誉度值;其中,n为编辑者e在所述领域里编辑的条目的数 目,%为编辑者e在所述领域里编辑的第i个条目,Quality(a)为步骤f?计算得到的编辑 者e编辑的第i个条目的质量值;
[0028] 步骤h、将步骤g得到的Se里的每个编辑者的信誉度值做标准化处理
^其中,111为\里编辑者的数目;
[0029] 步骤i、把步骤h得到的\里的每个编辑者的信誉度值代入步骤e并重复步骤e 至步骤h至预设的迭代次数,得到收敛的每个直接隶属条目的质量值Quality(a)和每一个 编辑者在所述领域的信誉度值Authority(e)。
[0030] 优选的是,所述的维基百科条目质量评价方法,所述步骤e中,对里的每个编辑 者设置相同的初始信誉度值为1。
[0031] 优选的是,所述的维基百科条目质量评价方法,在对维基百科的原始数据预处理 之前,还包括:下载任一语言版本维基百科数据,即页面基本信息数据表page、条目重定向 关系表redirect、分类隶属关系表categorylinks、条目链接关系表pagelinks和条目编辑 历史记录pagemetahistory。
[0032] 本发明至少包括以下有益效果:
[0033] 第一、本发明在限定的领域范围内,迭代的计算领域里的条目的质量值以及编辑 者的信誉度值,能够实现条目质量的自动评价,该技术简单高效;
[0034] 第二、本发明应用复杂网络技术分析维基百科里的分类的有效性,筛选有意义的 分类作为领域,限定迭代计算的范围,提高条目质量评价的效率;
[0035] 第三、引入编辑者与条目的关系计算条目的质量,并把条目的质量以精确的数值 表示出来,与其它条目质量评价方法相比准确度更高。
[0036] 本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本 发明的研宄和实践而为本领域的技术人员所理解。
【附图说明】
[0037] 图1为本发明所述的分类与所述的条目的关系的简单示意图;
[0038] 图2为本发明英文维基百科数据下载页面的示意图;
[0039] 图3为本发明中文维基百科数据下载页面的示意图;
[0040] 图4为本发明所述的页面基本信息数据表page的示意图;
[0041] 图5为本发明所述的条目重定向关系表redirect的示意图;
[0042] 图6为本发明所述的分类隶属关系
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1