一种改进HMM模型聚类策略的方法与流程

文档序号:11952073阅读:566来源:国知局
本发明涉及一种网络存储方法,尤其涉及一种改进HMM模型聚类策略的方法。
背景技术
:搜索引擎的处理对象是互联网网页。随着计算机网络设备性能提升和Internet规模的发展,目前网页数量以千亿计算,并且每天更新和新产生的网页数量也非常惊人。因此,面对如此庞大的网页数量,当用户向搜索引擎系统提交查询的时候,系统并不是立刻在Web上搜索,而是在系统本地存储的网页数据中搜索,这些网页是网络爬虫(WebCrawlers)事先从网络上爬取下来,传送到本地存储服务器,并形成镜像备份,和在实际互联网上的链接地址对应起来,当系统在本地存储找到与用户查询词相关度高的页面后,通过储存的对应链接地址,也就找到了其在互联网上的地址。性能卓越的搜索引擎必须具备执行效率高的网络爬虫和读写能力强的网页存储系统。并且要利用网络爬虫对互联网进行实时爬取,来更新本地服务器中存储的页面内容,让用户能够检索到有关查询请求的最新Web内容。因此如何改进传统网络爬虫的性能,并优化网页存储方法是迫切需要研究的重点。技术实现要素:本发明的目的就在于为了解决上述问题而提供一种改进HMM模型聚类策略的方法。本发明通过以下技术方案来实现上述目的:本发明包括以下步骤:(1)输入训练集和候选页(P);(2)输出权重值分配给候选页面P;(3)采用K-Means训练集的簇(K值自动获得);(4)计算π、A、Bπ、A、B矩阵和相关页面的质心CrCr;(5)采用K-NearestNeighbor算法,将候选页面P分类到簇CtCt;(6)给出当前计算隐状态概率:a(Lj,t)=bjetΣi-0states(a(Li,t-1)·aij);]]>(7)计算下一步隐状态概率估计:a(Lj,t+1)=Σi-0states(a(Li,t)·aij);]]>(8)计算权重priorityHMM(p)=a(L0,t+1)priorityHMM(p)=a(L0,t+1);(9)采用VSM计算页面内容和相关页面的质心CrCr之间的similarity(p,c);(10)分配权重给网页:PrioritylearningHMM(p,cr)=similarity(p,cr)+priorityHMM(p))/2prioritylearningHMM(p,cr)=(similarity(p,cr)+priorityHMM(p))/2。本发明的有益效果在于:本发明是一种改进HMM模型聚类策略的方法,与现有技术相比,本发明对HMM爬虫的页面采集方法做出了改进。针对HMM爬虫相关度低,容易丢失相关页面的问题,改进了相关度判别方法。针对其中存在的主控服务器瓶颈问题和心跳数据包信息不完整问题,提出了基于自适应反馈算法的网页云存储系统构建方法。并通过实验证明了改进的HMM爬虫模型在查准率方面均优于传统HMM爬虫;网页云存储系统在磁盘利用率及均匀度和服务阻塞率及均匀度方面均优于HDFS。附图说明图1是爬虫查准率的对比曲线图。具体实施方式下面对本发明作进一步说明:本发明包括以下步骤:(1)输入训练集和候选页(P);(2)输出权重值分配给候选页面P;(3)采用K-Means训练集的簇(K值自动获得);(4)计算π、A、Bπ、A、B矩阵和相关页面的质心CrCr;(5)采用K-NearestNeighbor算法,将候选页面P分类到簇CtCt;(6)给出当前计算隐状态概率:a(Lj,t)=bjetΣi-0states(a(Li,t-1)·aij);]]>(7)计算下一步隐状态概率估计:a(Lj,t+1)=Σi-0states(a(Li,t)·aij);]]>(8)计算权重priorityHMM(p)=a(L0,t+1)priorityHMM(p)=a(L0,t+1);(9)采用VSM计算页面内容和相关页面的质心CrCr之间的similarity(p,c);(10)分配权重给网页:prioritylearningHMM(p,cr)=(similarity(p,cr)+priorityHMM(p))/2prioritylearningHMM(p,cr)=(similarity(p,cr)+priorityHMM(p))/2。实验分析为了验证本文提出的方法的有效性,试验中我们主要是在参考DMOZ数据集的基础上,选择性地对C-H-I-P(Children’sHealthInsuranceProgram)和L-S-A-T(LawschoolAdmissionTest)两个主题以及它们对应的一系列URL进行相关信息资源的采集实验,并对数据结果进行分析和讨论。同时为了能够体现系统的优越性,我们将与改进前的隐马尔科夫模型主题爬虫和传统的HMM爬虫(TraditionalHMM)以及经典的BestFirst爬虫:内容策略BF爬虫(ContentBF)、复合策略BF爬虫(ComplexBF)进行对比试验,对于两种不同的爬行策略而言,我们将均采用同等数量的种子URL,并且对相同的采集网页数以及状态进行比较。针对于我们的主题爬虫系统而言,在准备主题上下文图训练集时,为了解决外围图层数量密集,内部图层数量稀疏的问题,首先需要对上下文图的层数、每个图层中的页面数量等相关属性进行限定。在随后训练集的获取过程中,我们主要借助通用搜索引擎以及开放式分类目录服务等手段实现,同时也可以由人工辅助完成。在准备好训练数据集后,再次提取相关的特征向量,运用HMM学习算法,便可以建立HMM路径识别模型。将本发明的改进HMM爬虫和传统的HMM爬虫(TraditionalHMM)以及经典的BestFirst爬虫:内容策略BF爬虫(ContentBF)、复合策略BF爬虫(ComplexBF)进行对比试验,结果如图1所示。复合策略的BestFirst爬虫的查准率为15.5%,内容策略的BestFirst爬虫的查准率为12.8%,AHMM爬虫的查准率为15.2%,传统HMM爬虫的查准率为3.3%。表1表示这些爬虫抓取10000个网页的平均爬行时间和查准率。结果表明本文设计的改进HMM爬虫的性能明显优于传统HMM爬虫,但与复合策略的BestFirst爬虫不分上下,并没达到很好的效果,分析得到其主要原因是所给的种子URL中存在大量AJAX页面,无论是本文的改进HMM爬虫还是经典的BestFirst爬虫多难以爬取到AJAX页面中的动态信息,导致查准率不理想。表1爬虫运行时间和查准率统计表爬虫时间(min)查准率(%)复合策略BF1271.915.5内容策略BF738.712.8AHMM1387.415.2传统HMM1404.23.3以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1