一种结合差异特征分布与链接特征的网页排序方法

文档序号：6371743阅读：366来源：国知局

专利名称：一种结合差异特征分布与链接特征的网页排序方法
技术领域：
本发明涉及一种结合差异特征分布与链接特征的网页排序方法，属于互联网信息检索领域。
背景技术：
搜索引擎是用户查找有用信息的主要途径之一，根据2009年的一项调查显不[CNNIC(China Internet Network Information Center)[R]. the 23rd report indevelopment of Internet in China, 2009 :1-3], 68 的人经常使用搜索引擎,84. 5的人把搜索引擎作为获取新信息的主要方法。据研究表明[SILVERSTEIN C，MARAIS H，HENZINGER M, MORICZ M. Analysis of a very large Web search engine query log[C].Proceedings of the 22nd Annual International ACM SIGIR Conference on Researchand Development in Information Retrieval, ACM Press, California,1999,33(1) 6-12]，在搜索引擎返回结果中，多数用户只查看前三页，因此排序越靠前的网页点击量越高，带来的利润越大。为了在搜索引擎结果中获得更高排序，网站管理者会努力提高网页质量。而在商业利益的驱使下，有些网站采用作弊手段欺骗搜索引擎，提高垃圾网页排序，严重干扰了用户获取有用信息，检测垃圾网页是搜索引擎面临重大挑战之一 [HENZINGER MR, MOTffANI R, SILVERSTEIN C. Challenges in web search engines[C]. Proceedings ofACM Special Interest Group on Information Retrieval (SIGIR) Forum,2002,36 (2)11-22]。目前，搜索引擎主要依靠内容相关度和网页重要程度确定网页排序。内容相关度可以由 TF/IDF算法[BAEZA-YATES，RIBEIR0-NET0B B. Modern information retrieval [M].Addison Wesley Longman 1999]等信息检索方法计算，而网页重要程度由HIST[KLEINBERGJ M.Authoritative sources in a hyperlinked environment [J]. Journal of theACM, 1999, 46 (5) :604-632]、PageRank 算法[BIANCHINI M，GORI M, SCARSELLI F. InsidePageRank[J]. Journal of the ACM, 2005, 5 (I) :92-128]和 TrustRank 算法[GY0NGYI Z,GARCIA-MOLINA H,PEDERSEN J. Combating web spam with TrustRank[C]. Proceedings ofthe 30th VLDB Conference, ACM Press, 2004 :576-587]等基于链接分析的算法得出。PageRank算法利用网页链接特征对网页进行排序，网页重要程度越高，得分越高，排序越靠前。PageRank算法中，网页p的得分定义为Hp) = a- X 宇^ + (卜a).士⑴
qtq.p)e,,o(g)N其中a为衰减系数，o(q)为网页q的出链接数量，即网页q内有多少个超链接指向其他网页。q:(q，P) G e表示指向网页P的任意一个网页，(q，P) G e表示网页q有出链接指向网页P，￡表示所有指向网页P的出链接集合，N表示网页个数。网页p的得分由两部分组成一部分来源于那些指向网页P的网页，另一部分是全部网页对P所做的贡献。所有网页的PageRank值计算为
权利要求
1.一种结合差异特征分布与链接特征的网页排序方法，其特征是，首先通过TrustRank算法计算网页信任值；分析已标记为正常与垃圾网页的特征分布，选择正常网页与垃圾网页特征分布有明显差异的特征，称为差异特征；然后根据差异特征分布，计算网页差异特征信任贡献值；结合网页信任值与网页内容特征值计算网页信任度；根据网页信任度对网页排序。
2.如权利要求I所述的结合差异特征分布与链接特征的网页排序方法，其特征是，具体步骤如下步骤I.利用TrustRank算法计算web图中每个网页的信任值；步骤2.统计web图中已经标记为正常及垃圾的网页内容特征，根据统计信息分析正常网页特征分布与垃圾网页特征分布的不同，确定正常网页与垃圾网页特征分布有明显差异的特征，称为差异特征，同时确定正常页面各差异特征的近似分布函数；步骤3.根据差异特征分布计算网页p差异特征的信任贡献值；步骤4.利用步骤I得到的网页p信任值与步骤3得到的网页p的差异特征信任贡献值，计算web图中网页p的信任度；步骤5.根据步骤4得到的网页信任度对web图中的网页进行排序，信任度大的排序靠前，信任度小的排序靠后；网页信任度越高表示网页是正常网页的概率越大，网页信任度越小,表示网页是垃圾网页的概率越大。
3.权利要求2所述的结合差异特征分布与链接特征的网页排序方法，其特征是，所述步骤2中的差异特征选择为网页字数、网页标题字数、网页锚文本字数占网页内容的比例、网页可视内容占网页内容的比例、网页内容的压缩率。正常页面上述5种特征基本服从正态分布，而垃圾网页上述5种特征的分布没有较为明显的分布规律。所述步骤2中，正常页面各差异特征的近似分布函数以正态分布函数近似，统计己标记的正常页面各差异特征的均值及方差，得到各差异特征对应的正态分布函数。
4.权利要求2所述的结合差异特征分布与链接特征的网页排序方法，其特征是，所述步骤3中，网页p的内容特征信任贡献值计算公式为
5.权利要求2所述的结合差异特征分布与链接特征的网页排序方法，其特征是，所述步骤4，网页p的信任度计算为
全文摘要
本发明涉及一种结合差异特征分布与链接特征的网页排序方法。首先通过TrustRank算法计算网页信任值；分析已标记为正常与垃圾网页的差异特征分布，选择正常网页与垃圾网页差异特征分布有明显差异的特征，称为差异特征；根据网页差异特征分布，计算网页差异特征的信任贡献值；结合网页信任值与网页差异特征的信任贡献值计算网页信任度；根据网页信任度对网页排序。本发明利用正常网页与垃圾网页在分布上存在差异的内容特征，结合网页链接特征，更好地提高好网页的排序，降低垃圾网页的排序。
文档编号G06F17/30GK102750380SQ201210215860
公开日2012年10月24日申请日期2012年6月27日优先权日2012年6月27日
发明者刘阳, 张化祥, 张悦童申请人:山东师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张化祥;张悦童;刘阳
技术所有人：山东师范大学
我是此专利的发明人

上一篇：一种面向网页内容无障碍访问的页内导航生成方法
上一篇：一种基于手掌特征提取身份识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。