基于证据理论的网络质量评价方法

文档序号:10613298阅读:477来源:国知局
基于证据理论的网络质量评价方法
【专利摘要】本发明涉及一种基于证据理论的网络质量评价方法,给出了清晰、明确、可计算的网页质量评价指标体系,能够针对任何类别的网页进行质量评价,以综合可信度质量为重点,结合了网页内容质量和网站内容质量的各种评价角度,可以保证相当的客观性和真实性,同时实现了自动化的指标采集量化。
【专利说明】
基于证据理论的网络质量评价方法
技术领域
[0001] 本发明涉及一种网络质量评价方法,更确切地说,本发明涉及一种基于证据理论 的网络质量评价方法,属于网络管理技术领域。
【背景技术】
[0002] 现今,通过搜索引擎检索Web已成为获取信息的重要方式,然而网页质量良莠不 齐,部分含有虚假信息,给用户带来了额外的筛选、查证开销,甚至会造成经济损失,对社会 生活产生恶劣影响。同时,网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务 压力,大量冗余、过时乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费。因此,网 络质量评价工作势在必行。
[0003] 当前对网页质量的评价主要集中在以下四个方面:内容质量、权威程度、链接质 量、结构界面。针对网页质量评价的研究方法主要可以分为两类:
[0004] 1.针对不同类型的网站,使用不同的评价指标,通过评价网站的质量来推定网页 质量。网站可分为四种类型:商业网站、教育网站、金融网站、政府网站。
[0005] 2.通过挖掘网页内容中蕴含的词法、语义、社会关系及群体作用等信息来评价网 页质量和可信度。
[0006] 由于网页信息具有的多样性、多维性、复杂性、不精确性和不完备性等特征,现有 的网页质量评价的指标较多,评价的角度也各不相同,但对于如何自动获取基础指标数据 并根据单项指标数据计算总体评价指标尚未建立理论模型,更未发现实用的评价系统。当 前研究主要存在以下问题:
[0007] 1.网页分类方面:直接采用文本分类算法的网页分类,由于主要针对纯文本内容, 忽略了网页自身的结构性特征,其网页分类准确率并不高。现有的网页分类技术主要是基 于统计理论和机器学习方法的,但各自有着一定的缺点:Naive Bayes模型在实际应用中的 效果并不稳定;KNN方法分类时间为非线性,且随训练文档数增加,其分类时间急剧增加;自 组织神经网络也需要较长的学习训练时间,因而效率上不能满足要求。一些网页分类研究 已经从传统的基于网页内容的方法转向利用网页的内部结构和外部链接关系,单纯引入链 接文本往往带来了更多的噪声数据。另外,现有的网页分类体系不能够满足网页质量评价 的需求,所以需要建立一种以网页质量评价为目标的分类体系。
[0008] 2.指标搜索方面:国内外相关的专家学者对此做了大量的研究和探索,但所提出 的指标体系都不够完善,依旧存在着一定的问题。主要包括:指标体系不完整;指标设计不 合理;指标适用对象模糊;指标的可操作性差;量化方法不确定。
[0009] 建立合理、完整、可自动量化的指标体系是当前亟待解决的一个重要问题。通过长 期关注与仔细分析该领域研究,认为证据理论具有描述不知道、不确定的特点,特别适合对 网页质量评价问题建模,从而给出网页质量的定性和定量描述,本文采用证据理论建立一 个层次化的一般性网页质量评价体系。

【发明内容】

[0010] 本发明提供了一种基于证据理论的网络质量评价方法,目的旨在解决现有技术存 在精准度不够、智能性缺失、灵活性不足等问题。
[0011] 本发明所述的1)面向网页质量评价的网页分类
[0012] 步骤1,制定网页分类体系,共包含九种网页类别:①社会网络,②观点论述,③电 子商务,④新闻报道,⑤知识文化,⑥机构信息,⑦功能服务,⑧媒体互动,⑨链接导航;
[0013] 步骤2,构建训练样本集,依据以上制定的网页分类体系,选择具有类别特征的词 语构建查询,获得候选训练样本集CTSet= {(pi,ci),(p2,C2),…,(pn,cn)},其中pi为网页,Ci 为网页所属类别;
[0014]步骤3,特征抽取,生成合理有效的网页特征集:
[0015] 步骤3.1,网页去噪,构建D0M树,依据容器标签将网页划分为内容区域,…, Al。并依据如下公式计算其LinkWordRatioi值:
[0016]
[0017] 其中,WordNunu是Ai的内容字数,LinkNunu是链接数;
[0018] 在此基础上识别出满足WordNunu>N且LinkWordRati〇i〈R的内容区域Ai,即为主体 内容区域SAj,使用TF/IDF选择并构建URL特征词集合;
[0019] 步骤3.2,特征抽取,抽取网页特征;
[0020] 步骤3.3,特征项处理,采用如下公式进行数据预处理:
[0021]
[0022] 其中,Xlj是第i
个训练样本的第j个特征项取值,η为样本总数;
[0023] 步骤4,训练网页分类器,通过以上步骤获取合适的样本向量集后,利用"一对多" SVM分类器进行训练和处理,采用如下公式得到的一个t阶多项分类器:
[0024] K(x,y) = (x · 7+1)*^=1,2,···
[0025] 一对多分类方法中的每一个SVM优化后都得到一个决策树,对于第j个支持向量 机,其决策函数为如下公式:
[0026]
[0027]最终决策函数定义为如下公式:
[0028] F(x) =argmaxj-i,2,...9(gj(x))
[0029] 其中,b为分类阈值。
[0030] 2)指标的自动获取与量化,若干个指标融合为一条证据
[0031] 步骤1,指标体系,包括网页质量、网站质量和综合可信度;
[0032] 步骤2,依据指标体系进行指标分层;
[0033] 步骤3,对网页的参数类型、网站的安全性以及网站的备案信息等简单指标进行量 化;
[0034] 步骤4,复杂指标获取:
[0035] 步骤4.1,网页主体提取,针对主题明确的网页(如新闻、博客、论坛等),采用D0M树 和VIPS算法,结合主体模板库中的XPath模板对网页进行初步分块,得到主体语义段落的集 合;
[0036] 步骤4.2,网页主题词挖掘:
[0037]①主题向量构建:借助WordNet,获取网页类别的同义词集及其下位概念的同义词 集,构成同义词集B,对所有meB,统计仏中各词在网页主体内容中的出现次数,取和作为m 的权重VTi,组成网页主题向量VT;
[0038] ②权重修正:综合分析HTML代码标签与主题词出现位置,修正网页主题向量VT。标 签权重参数PM(m),基于DM0Z分类目录,采用统计手段,计算标签m中包含主题词的次数与该 标签出现次数之比;位置权重参数PL(1 ),定义词语i在正文中出现的位置U如下:
[0039]
[0040]其中,Di为词语i距正文开头的距离(以字数计),Num为正文总字数,Len是正文中 长度。基于DM0Z分类目录,获取位置权重分段函数PLF,从而词语i的位置权重参数PU = PLF (U);结合标签权重参数和位置权重参数修正网页主题向量,修正系数如下:
[0041]
[0042] 其中,Μ为集合m中所有词语每次出现时所属标签的集合,L为集合m中所有词语每 次出现位置的集合;
[0043] 修正后的网页主题向量元素为VT1'=VT1XE(VT 1),则最终的网页主题向量为 (VTi,,VT2,,··.,VTn,) ;
[0044] ③主题词抽取:给定一个阈值β,从修正后的主题向量中选取出值大于邱勺分量,这 些分量对应同义词集中的元素为网页主题词;
[0045] 步骤4.3,网页Κ-相关性判别:
[0046] ①获取主题概念集:对网页Ρ与Ρ',利用前述主题词挖掘技术,获得相应主题词集 TW(P)与TW(P')。若TW(P)与TW(P')有一者为空集,则认为Ρ'与Ρ不具有Κ-相关性;否则,依据 网页内容,结合通用本体和自然语言处理技术,对TW(P)与TW(P')中的主题词进行词义标 注,生成主题概念集TC(P)与TC(P');
[0047] ②构建主题概念链集:对TC(P)中的每一概念tci,利用通用本体构建以tci为头结 点、长度至多为K的上位概念链uli =〈tCi,Cil,ci2,…,cin>(n〈K),组成主题概念链集UL(P);
[0048] ③主题概念匹配:对于主题概念链集UL(P)和主题概念集TC(P'),若存在uleUL (P)和化£!'以?'),使得^或^至多1(-1级的上位概念为111中的项,则网页?'与?具有1(-相关 性;否则,网页P '与P不具有K-相关性;
[0049] 步骤4.3,构建基于搜索引擎点击日志的动态网页库,首先通过对当前点击日志的 分析和抽样,建立初始网页库,然后定期根据新的点击日志随机抽取一定数量的样本加入 网页库,替换旧网页库中最旧且最不被频繁使用的样本集;
[0050] 3)BPA 生成
[0051] 步骤1,神经网络输入预处理,对于上述采集到的指标向量使用在线的零-均值标 准化方法进行预处理,产生具有全局一致性的输出向量;将每个输入样本记为一个η维行向 量,假定待处理的一条输入数据仍是η维行向量,将其加入矩阵Ρ得到新的(m+1)行η列矩阵 Ρ ',对Ρ '应用零-均值标准化方法,各列的均值和标准差公式如下:
[0052]
[0053]
[0054] 其中μ,'和〇1'是Ρ'第i列属性的均值和标准差;
[0055] 步骤2,制定训练样本集,通过拟定模糊评语集合、指标质量评语集合及其各评语 对应模糊评价集合的隶属度,使用D-S证据理论计算BPA;
[0056] 步骤3,采用具有偏差单元的BP网络,构建神经网络拓扑;
[0057]步骤4,神经网络训练,在步骤3BP网络的基础上,使用冲量信息改进传统的反向传 播算法,并引入神经网络熵的概念以计算BPA中的不确定焦元信度;
[0058] 输出层的输出向量公式如下:
[0059]
[0060]其中Hid(n)为第η次迭代过程中隐层的输出向量,WtQUT为隐层到输出层的权值, WtBIAS(C)UT)为偏差节点到输出层的权值;
[0061] 隐层的输出向量计算公式如下:
[0062] Hidj(n) = f (Sj(n))
[0063]
[0064] 其中f和Sj为辅助函数,WtMT为隐层到自身的权值,WtIN为输入层到隐层的权值,In U)为第η次迭代过程中的输入向量,WtBIAS(HID)为偏差节点到隐层的权值,α是一个调整系 数;
[0065] 基于神经网络的输出,利用可信度BeliefFactor,经归一化产生指标融合ΒΡΑ; BeliefFactor计算公式如下:
[0066]
[0067]最终的BPA计算公式为:
[0068]
[0069]其中,识别框架Θ = {很好,好,一般,差,很差};
[0070] 4)证据合成
[0071] 步骤1,相关证据处理,已知证据EdPE2相关,其相关度为R,基本信任分配函数分别 为mi和m2,则证据Ει和E2的BPA调整为如下公式:
[0072]
[0073]其中,T是焦元,s为1或2;
[0074]步骤2,证据重要度分配,已知证据集S= {Si,S2, ···ju},相应权重矩阵为Δ = [δ"]9χ14,其中,δ,谦示证据&对第i类网页的重要度,δ,遣化公式如下:
[0075]
[0076] 其中,Ρ,为第i类网页的神经网络训练样本集,向量vkl为Ρ冲第k个网页的评价向 量,向量vk2为第k个证据缺失时,Pi中第k个网页经证据合成后所得评价结果向量;
[0077]证据&对第i类网页的相对重要度为:
[0078]
[0079] 其中,η是对证据权重偏好的修正系数,与专家的知识、经验有关,0.9fn兰1;
[0080] 步骤3,冲突证据处理:
[0081] 步骤3.1,采用命题稀释度衡量证据间的冲突,命题稀释度为各证据对同一命题支 持度的标准差。已知证据集S={Si,S2,···,St},相应基本信任分配函数集M={mi,m2,···,m t}, 贝1JS中各证据对命题A的命题稀释度为:
[0082]
[0083]步骤3.2,冲突证据信任调整,S中各证据对命题集合U的命题稀释度子集UR= {Ra | Ae U,Ra彡β}。若I UR I彡1,不做处理;否则,补充命题G= U RAeUR A,表示结论必是G中的一个 命题,但不能确定是哪一个命题;当G等于识别框架Θ时,表示命题损失的信度被分配给了 识别框架,结论完全不确定。生成新的基本信任分配函数集M' = {mi',m2',···,mt'}:
[0084]
[0085] 步骤4,BPA合成,对步骤3.2生成的基本信任分配函数集Μ做如下调整:
[0086]
[0087] 最后对调整后的Μ使用D-S合成规则,实现证据的合成:
[0088]
[0089] 本发明与现有技术相比本发明的有益效果是:
[0090] 1.本发明首次提出基于证据理论研究网页质量评价问题。尽管证据理论在自动控 制领域被成功应用,但是尚未有将其应用到网页质量评价方面,针对网页内容的不确定性、 不精确性、不完备性,本发明使用证据处理、证据重要度分配、冲突证据处理对各证据焦元 的BPA进行合理的调整,建立智能化的BPA生成策略、合理有效的证据合成方案;
[0091] 2.本发明首次提出面向网页质量评价的网页分类问题。与传统的百科全书分类不 同,不能直接用TF/IDF向量进行分类,需要以网页质量评价为目标,定义网页特征并实现特 征抽取,在此基础上利用"一对多" SVM多类分类方法对网页进行分类,从而得到高效的面向 网页质量评价的网页分类体系;
[0092] 3.本发明给出了清晰、明确、可计算的网页质量评价指标体系。能够针对任何类别 的网页进行质量评价,以综合可信度质量为重点,结合了网页内容质量和网站内容质量的 各种评价角度。可以保证相当的客观性和真实性,同时实现了自动化的指标采集量化。
【附图说明】
[0093] 图1是本发明实施例的各组成模块的功能、连接关系示意框图;
[0094] 图2是本发明实施例的评价指标分层方案示意图;
[0095] 图3是本发明实施例的基于D0M树的网页分块模型示意图;
[0096] 图4是本发明实施例的神经网络拓扑示意图;
[0097]图5是本发明实施例1中网址为 http://weibo.com/jietangthu的新浪微博网页截 图。
[0098]
[0099]
[0100]
【具体实施方式】
[0101] 具体实施时,本发明所提供技术方案可由本领域技术人员采用计算机软件技术实 现自动运行流程。
[0102] 实施例1
[0103] 根据图1所示,本发明实施例的实施方案分为以下四个过程:首先训练样本分类 器,构建网页分类体系;然后,获取评价指标、简单指标以及复杂指标量化;其次,通过训练 神经网络,生成BPA;最后,使用证据理论逐级合成各证据BPA得到全局BPA;
[0104] 具体实施步骤如下:
[0105] 1.面向网页质量评价的网页分类
[0106] 步骤1,制定网页分类体系;
[0107] 步骤2,构建训练样本集,依据以上制定的网页分类体系,选择具有类别特征的词 语构建查询,获得候选训练样本集CTSet= {(pi,ci),(p2,C2),…,(pn,cn)},其中pi为网页,Ci 为网页所属类别;
[0108] 实施例1:以网址为http://weibo .com/jietangthu的新浪微博网页为例,网页如 图5所示。以用户最近一周发表的微博集合为例,应用NLPIR汉语分词系统,其分词结果如下 所示:
[0109] {赞梅/nr2老板/n !/wt密/a歇/v根/q大学/η梅/ng俏/a竹/ng教授/η ,/wd北大/η计算机/η系/v 99/m级/q大/a才子/η的/udel佳作/n 〇/wj科普/b性/ ng、/wn技术性/n、/wn趣味性/n并重/vi,/wd文笔/n优美/a,/wd娓娓道来/vl,/ wd值得/v推荐/v
[0110] 今年/t我们/rr和/cc微/ag软/a学术/n搜索/v -/m起/q组织/n 了/ule KDD/n CUP/n 2016/m,/Vd 〃/wyz measuring/vi the/rzt impact/n of/p research/n institutions/n 〃/wyy-/wp 预测/v 某个/rz 会上/t 哪个/ry 机构/n 被/pbei 录取/v 的/udel论文/n最/d多/a 〇/wj欢迎/v大家/rr积极/ad参加 /v !/wt
[0111] 赞/vg !/wt 好/a -个/mq 狗/n 胜/v 节/n !/wt 欣赏/v 小川/nr2 的/udel 情怀/n !/wt 这/rzv 件/q 事/n 可谓/v 应/v 了/ule 〃/wyz 随/p 人/n 黄/nrl 犬/ng 搀/v前/f去/vf,/wd走/v到/v溪边/nr忽/d自/p回/v 〃/wyy的/udel意境/n 啊/y问/v 世间/n 智/ng 为/v 何物/r,/wd 直/d 教/v 人/n ./wj ./wj ./wj ./ wj ./wj ./wj 征集/v 接续/v 四/m 字/n
[0112] 在/p WSDM/n 2016/m 上/f 给/v 了/ule -个/mq invited/vd talk/v D/wj 主 要/d 介绍/v 了/ule 我们/rr 的/udel AMiner/n 系统/n,/wd 主要/d 是/vshi 从/p 理念/n 上/f 介绍/v 了/ule -下/mq,/wd 这里/rzs 是/vshi 相关/vi 的/udel ppt/n D/wj希望/v对/p大家/rr有/vyou用/v
[0113] 步骤3,特征抽取,生成合理有效的网页特征集:
[0114] 步骤3.1,网页去噪,构建D0M树,依据容器标签将网页划分为内容区域,…, Al。并依据如下公式计算其LinkWordRatioi值:
[0115]
[0116] 其中,WordNunu是Ai的内容字数,LinkNunu是链接数。在此基础上识别出满足 WordNumi>P^EiLinkWordRati〇i〈R的内容区域Ai,即为主体内容区域SAj;
[0117] 使用TF/IDF选择并构建URL特征词集合,生成内容区域Ai的文本向量表示Wi = (Wii,Wi2,···,Wit),Wi为第i个特征项的权值;计算非主体内容区域Ak与主体内容区域SAj的余 弦相似度Sim(Ak,SAj),在此基础上识别出与主体内容相关的内容区域Ak,当且仅当存在j使 得Sim(Ak,SAj)大于阈值H;
[0118] 步骤3.2,特征抽取,利用如下公式选取分类特征项:
[0119]
[0120] 其中,Fci(t)表示特征项t在类别Ci中出现的频率,Ut)为集中度,D'ci(t)为分 散度,d cl(t),D'cl(t)计算公式如下:
[0121]
[0122]
[0123] 其中,m为类别数,p为类别Q中的网页数,fk(t)为在类别匕里的网页k中特征t的频 率,为频率均值。
[0124] 步骤3.3,特征项处理,采用如下公式进行数据预处理:
[0125]
[0126] 其中,Xlj是第i个训练样本的第j个特征项取值,η为样本总数;
[0127] 步骤4,训练网页分类器,通过以上步骤获取合适的样本向量集后,利用"一对多" SVM分类器进行训练和处理,采用如下公式得到的一个t阶多项分类器:
[0128] K(x,y) = (x · 7+1)*^=1,2,···
[0129] -对多分类方法中的每一个SVM优化后都得到一个决策树,因此,共有九个决策函 数,对于第j个支持向量机,其决策函数为如下公式:
[0130]
[0131] 最终决策函数定义为如下公式:
[0132] F(x) =argmaxj-i,2,...9( gj(x))
[0133] 其中,b为分类阈值。对于待测样本x,分别计算各个g (x)的值,其中取得最大值的 函数所对应的类别即为X的类别。本方法中每一个SVM的训练过程可以并行进行,提高效率, 而且由于使用的二类分类SVM数目明显少于"一对一" SVM多类分类方法,分类判断速度较 快。
[0134] 2.指标的自动获取与量化,若干个指标融合为一条证据
[0135] 步骤1,指标体系,包括网页质量、网站质量和综合可信度;
[0136]步骤2,依据指标体系进行指标分层,分成三层,具体方案见图2;
[0137] 步骤3,对网页的参数类型、网站的安全性以及网站的备案信息等简单指标,使用 网页获取技术直接进行量化;
[0138] 步骤4,复杂指标获取:
[0139] 步骤4.1,如图3,网页主体提取:
[0140]①采用D0M数对网页进行初始分块:首先,根据输入网页的HTML源码,建立对应的 D0M树结构;然后,利用主体模板库中的XPath模板对D0M树进行剪枝,XPath模板按照其成功 匹配网页的次数由大至小试用;最后,依据本课题规定的D0M树节点分类,对剪枝后的D0M树 探测文本类和容器类节点,获得结构分散的网页文本区域集。将D0M树节点按其标签分为文 本类(如9>、〈8口3]1>)、容器类(如〈130(17>、〈(1;^>)、多媒体类(如〈;[11^>)和噪声类(如〈丨;1^^1116 >、〈%4?0)。001树探测完成后,若成功探测到文本类节点,则将当前的乂?&也作为乂?&也模 板加入相应网页分类的主体模板库。模板库最多保留前K优的XPath,但新加入的XPath在一 段时间内会被优先使用且不被淘汰,以保证模板库能够较灵活地更新;
[0141 ]②基于VIPS算法进行语义分块:如果D0M树探测失败,则主体初步提取失败,将直 接对网页的初始D0M树表示应用VIPS算法,得到网页主体语义段落集合;若D0M树探测成功, 将使用VIPS算法对前述算法返回的D0M节点集合中的元素进行处理,进行视觉块抽取、视觉 分隔符探测、内容结构建立,直到全部元素均被成功分块,最终返回主体语义段落的集合;
[0142] 步骤4.2,网页主题词挖掘:
[0143] ①主题向量构建:借助WordNet,获取网页类别的同义词集及其下位概念的同义词 集,构成同义词集B,对所有meB,统计仏中各词在网页主体内容中的出现次数,取和作为m 的权重VTi,组成网页主题向量VT;
[0144] ②权重修正:综合分析HTML代码标签与主题词出现位置,修正网页主题向量VT。标 签权重参数PM(m),基于DM0Z分类目录,采用统计手段,计算标签m中包含主题词的次数与该 标签出现次数之比;位置权重参数PL(1 ),定义词语i在正文中出现的位置U如下:
[0145]
[0146] 其中,Di为词语i距正文开头的距离(以字数计),Num为正文总字数,Len是正文中 长度。基于DM0Z分类目录,获取位置权重分段函数PLF,从而词语i的位置权重参数PU = PLF (U)。最后,结合标签权重参数和位置权重参数修正网页主题向量,修正系数如下:
[0147]
[0148] 其中,Μ为集合m中所有词语每次出现时所属标签的集合,L为集合m中所有词语每 次出现位置的集合。修正后的网页主题向量元素为VlViVTiXEaTO,则最终的网页主题 向量为(VTVjlVyJIn');
[0149] ③主题词抽取:给定一个阈值β,从修正后的主题向量中选取出值大于邱勺分量,这 些分量对应同义词集中的元素为网页主题词;
[0150] 步骤4.3,网页Κ-相关性判别:
[0151] ①获取主题概念集:对网页Ρ与Ρ',利用前述主题词挖掘技术,获得相应主题词集 TW(P)与TW(P')。若TW(P)与TW(P')有一者为空集,则认为Ρ'与Ρ不具有Κ-相关性;否则,依据 网页内容,结合通用本体和自然语言处理技术,对TW(P)与TW(P')中的主题词进行词义标 注,生成主题概念集TC(P)与TC(P');
[0152] ②构建主题概念链集:对TC(P)中的每一概念tci,利用通用本体构建以tci为头结 点、长度至多为K的上位概念链uli =〈tCi,Cil,ci2,…,cin>(n〈K),组成主题概念链集UL(P);
[0153] ③主题概念匹配:对于主题概念链集UL(P)和主题概念集TC(P'),若存在uleUL (P)和化£!'以?'),使得^或^至多1(-1级的上位概念为111中的项,则网页?'与?具有1(-相关 性;否则,网页P '与P不具有K-相关性;
[0154] 步骤4.3,构建基于搜索引擎点击日志的动态网页库,首先通过对当前点击日志的 分析和抽样,建立初始网页库,然后定期根据新的点击日志随机抽取一定数量的样本加入 网页库,替换旧网页库中最旧且最不被频繁使用的样本集。
[0155] 3.BPA 生成
[0156] 步骤1,神经网络输入预处理,对于上述采集到的指标向量使用在线的零-均值标 准化方法进行预处理,产生具有全局一致性的输出向量。将每个输入样本记为一个η维行向 量,假定待处理的一条输入数据仍是η维行向量,将其加入矩阵Ρ得到新的(m+1)行η列矩阵 Ρ ',对Ρ '应用零-均值标准化方法,各列的均值和标准差公式如下:
[0157]
[0158]
[0159] 步骤2,制定训练样本集,通过拟定模糊评语集合、指标质量评语集合及其各评语 对应模糊评价集合的隶属度,使用D-S证据理论计算ΒΡΑ;
[0160] 记训练集中的训练样本为Traininglnstance = (InputVector,TargetVector),其 中InputVector为η个量化指标取值组成的输入向量,TargetVector则是输出的BPA( 即目标 向量);定义标注人员用于评价网页质量的模糊评语集合为s= {:高,较高,一般,较低,低}; 对S中的评语s,定义模糊集SSets;构造五元组Q= {qi(s),q2(s),q3(s),q4(s),q5(s)}(其中 91在[0,1]上取值),表示具有S中评语s的页面在SSetdieS)中的隶属度,如下表所示:
[0161] 表1:模糊评语在各模糊集中的隶属度
[0162]
[0163] 识别框架(确定评价集合)Θ = {很好,好,一般,差,很差丨,对Θ中的评语u,使 用五元组R= {ri(u),r2(u),r3(u),r4(u),r5(u)}(其中ri在[0,1]上取值)表示一个具有Θ中 的确定评价u的页面,其在SSeti(i es)中的隶属度估计,如下表所示:
[0164] 表2:确定评价在各模糊集中的隶属度
[0165]
[0166] 对指标E,从标注者为其标注的模糊评语8到识别框架Θ中每个元素 uk的隶属度函 数RawMassE'计算公式如下:
[0167]
[0168] 按照各标注人员的标注结果与标准结果的差异,评定其信度,用[0,1]上的系数lu 度量。在评定了标注人员信度的基础上,单一的BPA表示如下:
[0169]
[0170]此后,使用D-S方法合成全部Mas Sl(A)即得到了训练样本的目标向量 TargetVector;
[0171] 步骤3,如图4,采用具有偏差单元的BP网络,构建神经网络拓扑,BP网络在输出层 和隐层上各附加一个偏差节点,隐层节点除了接受输入层的输入向量之外,还接受上一次 迭代产生权值的冲量信息。偏差单元的加入,有利于调整网络对输出信息的修改,同时加快 网络的学习速度;隐层的冲量信息则用于存储过去的输入信息,使前一阶段的学习成果和 当前的输入共同影响当前的学习过程,避免打乱现有的连接权;同时,冲量信息的引入有助 于训练过程向全局最小值收敛,同时加快恒定梯度区域中的学习速度;
[0172] 步骤4,在步骤3BP网络的基础上,进行神经网络训练,使用冲量信息改进传统的反 向传播算法,并引入神经网络熵的概念以计算BPA中的不确定焦元信度;
[0173] 输出层的输出向量公式如下:
[0174]
[0175] 其中Hid(n)为第η次迭代过程中隐层的输出向量,WtQUT为隐层到输出层的权值, WtBIAS(C)UT)为偏差节点到输出层的权值;
[0176] 隐层的输出向量计算公式如下:
[0177] Hidj(n) = f (Sj(n))
[0178]
[0179] 其中,f和Sj为辅助函数,WtMT为隐层到自身的权值,WtIN为输入层到隐层的权值,In U)为第η次迭代过程中的输入向量,WtBIAS(HID)为偏差节点到隐层的权值,α是一个调整系 数;
[0180] 基于神经网络的输出,归一化产生指标融合ΒΡΑ,利用如下公式计算可信度 BeliefFactor:
[0181]
[0182]最终的BPA计算公式为:
[0183]
[0184] 4 ·证据合成
[0185] 步骤1,相关证据处理,已知证据EjPE2相关,其相关度为R,基本信任分配函数分别 为mi和m2,则证据Ει和E2的BPA调整为如下公式:
[0186]
[0187]其中,T是焦元,s为1或2,无论相关性表现为正相关还是负相关,都应当对相关证 据的BPA进行衰减,以避免合成时产生的极化或冲突现象进一步扩大相关证据所蕴含的相 同信息源的影响力;
[0188]步骤2,证据重要度分配,已知证据集S= {Si,S2, ···ju},相应权重矩阵为Δ = [δ"]9χ14,其中,δ,谦示证据&对第i类网页的重要度,δ,遣化公式如下:
[0189]
[0190] 其中,Pi为第i类网页的神经网络训练样本集,向量vwSPi中第k个网页的评价向 量,向量vk2为第k个证据缺失时,Pi中第k个网页经证据合成后所得评价结果向量,证据 第i类网页的相对重要度为:
[0191]
[0192] 其中,η是对证据权重偏好的修正系数,与专家的知识、经验有关,0.9fn兰1;
[0193] 步骤3,冲突证据处理:
[0194] 步骤3.1,采用命题稀释度衡量证据间的冲突,命题稀释度为各证据对同一命题支 持度的标准差。已知证据集S={Si,S2,···,S t},相应基本信任分配函数集M={mi,m2,···,mt}, 贝1JS中各证据对命题A的命题稀释度为:
[0195]
[0196] 命题稀释度可体现不同证据间的相互影响,一方面表示命题支持度的损失,另一 方面表示命题未知度的增加;
[0197] 步骤3.2,冲突证据信任调整,S中各证据对命题集合U的命题稀释度子集UR={Ra| Ae U,Ra彡β}。若| UR |彡1,不做处理;否则,补充命题G= U RAeUR A,表示结论必是G中的一个 命题,但不能确定是哪一个命题;当G等于识别框架B时,表示命题损失的信度被分配给了 识别框架,结论完全不确定。生成新的基本信任分配函数集M' = {mi',m2',···,mt'}:
[0198]
[0199] 步骤4,BPA合成,对步骤3.2生成的基本信任分配函数集Μ进行调整,用D-S合成规 贝1J,实现证据的合成:
[0200]
[0201]网页质量评价分定量和定性两个层次,单元素焦元代表了对网页质量的确定评 价,可以直接采用;多元素焦元则代表了对网页质量的倾向性评价,对其处理方式如下,多 元素焦元定义为MFE = {mfei,mfe2,···,mfen}(其中,.l〈n〈5),查询表2获取R(mfei)= (m,r i2,…,ri5),对各模糊集的隶属度求和V(SSetj):
[0202]
[0203]设VSSet* = max{VSSetj},R* = {x | x=max{rij}},本发明制定如下规则处理 | R* | >1 和|lf |=1两种情况:①若|lf |=1,选择If中元素对应的mfei作为网页质量评价的评语;② 若I If I >1,采用最保守估计方法,选择If中对应评价最低的rij对应的mfei作为网页质量评价 的评语。
[0204]实施例11R* | >1,网页质量评价选择最低的评语是{好}。
[0205] 实施例2:
[0206] 1.面向网页质量评价的网页分类
[0207]步骤1,制定网页分类体系与实施例1 一样;
[0208]步骤2,使用网络爬虫(Crawler)采集网页并存入网页数据库,构建训练样本集; [0209] 以网址http: //news. 163 . com网易新闻网页为例,应用NLPIR汉语分词系统,其分 词结果如下所示:
[0210] {XXX/nr为/p党员/n干部/n做人/ vi做事/vi划/V出/vf四/m条/q底线/n
[0211 ] 从/ρ政治/η高度/d认识/V绿色/η发展/νη理念/η重大/a意义/η这/rzv三/m年/qt 漫/v评/v XXX/nr会见/V德国/nsf外长/η
[0212] XXX/nr:/wp把/pba降/ν药价/η当/ρ深化/ν医/ng改/ν突破口/n XXX/nr会/V四川/ ns代表/η全国政协/nt召开/v座谈会/η
[0213] 央/vg视/vg调查/v :/wp黑客/n 5/m分钟/qt到/ν手/η上千/m银行/η 卡/η密码/η
[0214] 近乎/ν全部/m正确/a卡/η主/ag身份证/η和/cc电话/η号码/η也/d可/ ν查出/ν黑客/n :/wp小菜/η -/m碟/q很/d容易/ad搞/ν到/ν
[0215] 已/d形成/v 〃/wyz盗/vg刷/〇 〃/wyy产业链/η男子/η手机/η中/f未/d 装/v网/n银/ng支付宝/nz仍/d被盗/v揭秘/v常见/a 〃/wyz盗/vg刷/〇 〃/wyy手 段/η
[0216] 湖南/ns娄底市/ns财政局/nt副/b局长/η黄祥/nr刚/d坠/ν楼/η身亡/ vi
[0217] 兼任/ν当地/s市政协/η副/b XXX/n坠/ν楼/η地/ude2系/ν该/rz市/η财政局/nt 老/a家属院/n送/v医/ng抢救/v无效/vi后/f身亡/vi
[0218] 今年/t 3月/t仍/d正常/a履/vg职/ng 3月/t 17日/t最后/f 一/m次/qv 出现/v在/p公开/ad报道/v中/f官方/n :/wp原因/n正在/d调查/ν
[0219] 阿富汗/nsf发生/v 7.1/m级/q地震/η震源/η深度/n 200/m千/m米/q
[0220] 震源/η在/p首都/η附近/f中国/ns南疆/η有/vyou震感/η巴基斯坦/nsf 同日/d发生/v 7.1/m级/q强震/η}
[0221] 步骤3,特征抽取;
[0222] 步骤4,训练网页分类器。
[0223] 2.指标的自动获取与量化,若干个指标融合为一条证据
[0224] 步骤1,指标体系,包括网页质量、网站质量和综合可信度;
[0225] 步骤2,依据指标体系进行指标分层,分成三层,具体方案见图2;
[0226] 步骤3,对网页的参数类型、网站的安全性以及网站的备案信息等简单指标,使用 网页获取技术直接进行量化;
[0227] 步骤4,复杂指标获取。
[0228] 3.ΒΡΑ 生成
[0229] 步骤1,神经网络输入预处理;
[0230] 步骤2,制定训练样本集;
[0231] 步骤3,如图4,采用具有偏差单元的ΒΡ网络,构建神经网络拓扑;
[0232] 步骤4,在步骤3ΒΡ网络的基础上,进行神经网络训练,使用如下公式计算ΒΡΑ中的 不确定焦元信度: 1234567 \ 戸1
2 4.证据合成 3 步骤1,相关证据处理,证据EjPEd^BPA调整为如下公式: 4
[0236]
5 其中,T是焦元,s为1或2; 6
[0238]步骤2,证据重要度分配; 7 步骤3,冲突证据处理:
[0240]步骤3.1,采用命题稀释度衡量证据间的冲突,生成新的基本信任分配函数集M' = {mi',m2',···,mt'}:
[0241]
[0242] 步骤4,BPA合成,对步骤3.2生成的基本信任分配函数集Μ进行调整,用D-S合成规 贝1J,实现证据的合成:
[0243]
[0244]对各模糊集的隶属度求和V(SSetj):
[0245]
[0246] vsSet^maxiVSSetj},lT={x|x=max{;rij}},|R*| =1,网页质量评语是{很好}〇
【主权项】
1. 一种基于证据理论的网络质量评价方法,其技术方案包括如下步骤: 1) 面向网页质量评价的网页分类 步骤1,制定网页分类体系; 步骤2,构建训练样本集,依据W上制定的网页分类体系,选择具有类别特征的词语构 建查询,获得候选训练样本集押56*={徊向),如,02)^'',如心)},其中口功网页向为网 页所属类别; 步骤3,特征抽取,生成合理有效的网页特征集: 步骤3.1,网页去噪,构建DOM树,依据容器标签将网页划分为内容区域Ai,A2,…,Al。并 依据如下公式计算其LinkWordRatioi值:其中,WordNumi是Ai的内容字数,Li址Numi是链接数; 在此基础上识别出满足WordNumi〉N且LinkWordRati〇i<R的内容区域Ai,即为主体内容 区域SAj,使用TF/IDF选择并构建URL特征词集合; 步骤3.2,特征抽取,抽取网页特征; 步骤3.3,特征项处理,采用如下公式进行数据预处理:其中,XU是第i个训练样本的第j个特征项取值,η为样本总数; 步骤4,训练网页分类器,通过W上步骤获取合适的样本向量集后,利用"一对多"SVM分 类器进行训练和处理,采用如下公式得到的一个t阶多项分类器: K(x,y) = (x · y+l)t,t = l,2,… 一对多分类方法中的每一个SVM优化后都得到一个决策树,对于第j个支持向量机,其 决策函数为如下公式:最终决策函数定义为如下公式: F(x) =argmaxj=i'2''.'9(gj(x)) 其中,b为分类阔值。 2) 指标的自动获取与量化,若干个指标融合为一条证据 步骤1,指标体系,包括网页质量、网站质量和综合可信度; 步骤2,依据指标体系进行指标分层; 步骤3,对网页的参数类型、网站的安全性W及网站的备案信息等简单指标进行量化; 步骤4,复杂指标获取: 步骤4.1,网页主体提取,针对主题明确的网页(如新闻、博客、论坛等),采用D0M树和 VIPS算法,结合主体模板库中的XPath模板对网页进行初步分块,得到主体语义段落的集 合; 步骤4.2,网页主题词挖掘: ① 主题向量构建:借助WordNet,获取网页类别的同义词集及其下位概念的同义词集, 构成同义词集B,对所有BiGB,统计Bi中各词在网页主体内容中的出现次数,取和作为Bi的 权重VTi,组成网页主题向量VT; ② 权重修正:综合分析HTML代码标签与主题词出现位置,修正网页主题向量VT。标签权 重参数PM(m),基于DM0Z分类目录,采用统计手段,计算标签m中包含主题词的次数与该标签 出现次数之比;位置权重参数化(1 ),定义词语i在正文中出现的位置k如下:其中,Di为词语i距正文开头的距离字数计),Num为正文总字数,Len是正文中长度。 基于DM0Z分类目录,获取位置权重分段函数PLF,从而词语i的位置权重参数化1 =化FaO; 结合标签权重参数和位置权重参数修正网页主题向量,修正系数如下:其中,Μ为集合Bi中所有词语每次出现时所属标签的集合,L为集合Bi中所有词语每次出 现位置的集合; 修正后的网页主题向量元素为VTi' =VTi XE(VTi),则最终的网页主题向量为(VTi', νΤ2',...,νΤη'); ③ 主题词抽取:给定一个阔值β,从修正后的主题向量中选取出值大于β的分量,运些分 量对应同义词集中的元素为网页主题词; 步骤4.3,网页Κ-相关性判别: ① 获取主题概念集:对网页Ρ与Ρ ',利用前述主题词挖掘技术,获得相应主题词集TW(P) 与TW(P')。若TW(P)与TW(P')有一者为空集,则认为P'与P不具有K-相关性;否则,依据网页 内容,结合通用本体和自然语言处理技术,对TW(P)与TW(P')中的主题词进行词义标注,生 成主题概念集TC(P)与TC(P'); ② 构建主题概念链集:对TC(P)中的每一概念tci,利用通用本体构建Wtci为头结点、长 度至多为K的上位概念链uli = <tci,Cil,Ci2,…,Cin〉(η<Κ),组成主题概念链集化(P); ③ 主题概念匹配:对于主题概念链集化(Ρ)和主题概念集TC(P'),若存在ule化(Ρ)和 tce TC(P'),使得tc或tc至多K-1级的上位概念为ul中的项,则网页P'与P具有K-相关性;否 贝1J,网页P '与P不具有K-相关性; 步骤4.3,构建基于捜索引擎点击日志的动态网页库,首先通过对当前点击日志的分析 和抽样,建立初始网页库,然后定期根据新的点击日志随机抽取一定数量的样本加入网页 库,替换旧网页库中最旧且最不被频繁使用的样本集; 3)BPA生成 步骤1,神经网络输入预处理,对于上述采集到的指标向量使用在线的零-均值标准化 方法进行预处理,产生具有全局一致性的输出向量;将每个输入样本记为一个η维行向量, 假定待处理的一条输入数据仍是η维行向量,将其加入矩阵Ρ得到新的(m+1)行η列矩阵Ρ', 对Ρ '应用零-均值标准化方法,各列的均值和标准差公式如下:其中μι'和〇1'是P'第i列属性的均值和标准差; 步骤2,制定训练样本集,通过拟定模糊评语集合、指标质量评语集合及其各评语对应 模糊评价集合的隶属度,使用D-S证据理论计算BPA; 步骤3,采用具有偏差单元的BP网络,构建神经网络拓扑; 步骤4,神经网络训练,在步骤3BP网络的基础上,使用冲量信息改进传统的反向传播算 法,并引入神经网络赌的概念W计算BPA中的不确定焦元信度; 输出层的输出向量公式如下:其中化d(n)为第η次迭代过程中隐层的输出向量,WtouT为隐层到输出层的权值,WtBiAs wun为偏差节点到输出层的权值; 隐层的输出向量计算公式如下: Hidj(n)=f(Sj(n))其中巧日&为辅助函数,WtMT为隐层到自身的权值,WtiN为输入层到隐层的权值,In(n)为 第η次迭代过程中的输入向量,WtBiAs<?>为偏差节点到隐层的权值,α是一个调整系数; 基于神经网络的输出,利用可信度BeliefFactor,经归一化产生指标融合ΒΡΑ; BeliefF'actor计算公式如下:最终的BPA计算公式为:其中,识别框架Θ = {很好,好,一般,差,很差}; 4)证据合成 步骤1,相关证据处理,已知证据El和Ε2相关,其相关度为R,基本信任分配函数分别为mi 和m2,则证据El和E2的BPA调整为如下公式:其中,Τ是焦兀,s为1或2; 步骤2,证据重要度分配,已知证据集S={ Si,S2, 一,5141,相应权重矩阵为Δ = [δυ]9Χ14,其中,δι康示证据S拥第i类网页的重要度,δι逼化公式如下:其中,Pi为第i类网页的神经网络训练样本集,向量Vk功Pi中第k个网页的评价向量,向 量Vk2为第k个证据缺失时,Pi中第k个网页经证据合成后所得评价结果向量; 证据S拥第i类网页的相对重要度λι功:其中,η是对证据权重偏好的修正系数,与专家的知识、经验有关,0.9兰η兰1; 步骤3,冲突证据处理: 步骤3.1,采用命题稀释度衡量证据间的冲突,命题稀释度为各证据对同一命题支持度 的标准差。已知证据集8=阳诚,一而},相应基本信任分配函数集1={1111,1112,一,111山则8 中各证据对命题A的命题稀释度为:步骤3.2,冲突证据信任调整,S中各证据对命题集合U的命题稀释度子集UR= { Ra IA e U, RA>m。若I UR I《1,不做处理;否则,补充命题G= U raeurA,表示结论必是G中的一个命题,但 不能确定是哪一个命题;当G等于识别框架Θ时,表示命题损失的信度被分配给了识别框 架,结论完全不确定。生成新的基本信任分配函数集M' = {mi',m2',···,mt'}:步骤4,ΒΡΑ合成,对步骤3.2生成的基本信任分配函数集Μ做如下调整:最后对调整后的Μ使用D-S合成规则,实现证据的合成:
【文档编号】G06K9/62GK105975984SQ201610280055
【公开日】2016年9月28日
【申请日】2016年4月29日
【发明人】左祥麟, 杨博, 范利云, 左万利, 王俊华, 王英, 王泊, 郑慧中
【申请人】吉林大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1