基于动态贝叶斯模型的网页垃圾检测方法

文档序号：6428713阅读：177来源：国知局

专利名称：基于动态贝叶斯模型的网页垃圾检测方法
技术领域：
本发明涉及一种作弊网页检测的方法，主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模，对作弊网页进行判断和识别，属于信息安全领域。
背景技术：
搜索引擎是通向当今互联网的一座桥梁，是网民在海量的网页中找到自己感兴趣信息的工具。由于网络存在巨大的用户流量，这为广告提供了一个巨大的潜在市场。而网络广告高达3%以上的点击率可以使得这种潜在对象转变为现实的广告目标对象，进而导致直接或者间接的商品购买行为。相对于传统广告，这类广告的费用相对较低。于是，一大批急于打开市场而又苦于无法提供巨额广告费的中小厂商便成了网络广告的第一批客户。而大量研究结果显示，用户在使用搜索引擎时只会浏览前几页的返回结果[1，2，3]，对于商业网站而言，就某些查询占据靠前的排序，会给网站带来流量的大幅增加，流量的变大意味着更多的交易。因为强大的利润诱惑，搜索引擎优化行业犹如雨后春笋般在快速地发展。搜索引擎优化，是针对搜索引擎对网页的检索特点，让网站建设各项基本要素适合搜索引擎的检索原则，从而使搜索引擎收录尽可能多的网页，并在搜索引擎自然检索结果中排名靠前，最终达到网站推广的目的。追求高排名是搜索引擎优化师们的目标。通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术，来对网页内容进行相关的优化，使其符合用户浏览习惯，提高网站访问量，最终提升网站的销售能力或宣传能力。商业网站都希望通过各种形式来干扰搜索引擎的排序，当中尤以各种依靠广告为生的网站为甚。然而，短期内大幅提高网站排名是一件困难的事情，一个页面一般需要经过长期的发展过程，才能变得“知名”。因而目前搜索引擎优化技术被很多目光短浅的人，用一些搜索引擎优化作弊的不正当手段，牺牲用户体验，一味迎合搜索引擎的缺陷来提高排名，这种搜索引擎优化方法是不可取的，最终也会受到用户的唾弃。在建立网站或设计网页时使用一些不道德的方法来操控搜索引擎的排名算法，让自己的网页获得较高排名，这种做法就是搜索引擎作弊。这样的网页就叫做网页垃圾。[1]Craig Silverstein, Hannes Marais, Monika Henzinger, and Michael Moricz. Analysis of a Very Large Web Search Engine Query Log. SIGIR Forum,33 (1) 6-12，1999.[2]Allan Borodin, Gareth 0. Roberts, Jerrey S. Rosenthal, and Panayiotis Tsaparas. Link Analysis Ranking :Algorithms，Theory, and Experiments. ACM Trans. Inter. Tech.，5(1) :231-297,2005.[3]Bernard J Jansen and Amanda Spink.An Analysis of Web Documents Retrieved and Viewed. In The 4th International Conference on Internet Computing， pages 65-69. Las Vegas, Nevada,2003.

发明内容
技术问题本发明的目的是提供一种基于动态贝叶斯的垃圾网页检测方法，解决传统的动态贝叶斯模型存在以下几点缺点1、全部信息需求总能在某一个网址对应的网页就能满足，然后结束本次会话。但从实际的用户搜索经验就可以知道，尤其是在信息类型的查询中，用户点击了某个网址后可能只满足了部分的需要，然后继续往下查找。2、如果上一个网址的摘要没有被查看，下一个网址的摘要就不会被查看，这也与实际情况不符。本发明是一种改进的动态贝叶斯模型，其更符合搜索引擎用户的行为习惯。技术方案本发明的基于动态贝叶斯模型的网页垃圾检测方法分为三大部分一.日志分析步骤11)收集网页点击日志；步骤12)对日志内容进行分析，提取其中的用户身份标识号码、查询词、结果排名、是否被点击、网址等信息；步骤1 按照每个查询词下所有的用户身份标识号码的个数进行降序排列，编号为0，1，2……；步骤14)对于每个查询词，以其对应的网址编号和是否被点击建立会话文件，二 .采用期望最大化算法计算吸引度％和满意度\步骤21)初始化吸引度知和满意度\ ；步骤22)由条件独立性可推导出事件Ai, Si的后验概率，
Σ Σ Σ=,E^ =e)P{A^a4y.= ^m±m-γ Mfl^-
2. aAe) βAe)
ee{0,l}公式7
Σ Σ 和)扣=一\smsi\c{)P{c^, =e)^):= ^lM---ζ.公式8其中，ai(e)，)表示前项后项公式；^7表示用户是否检查返回结果列表中第j个会话的第i个网址的摘要；变量CT表示用户是否点击返回结果列表中第j个会话的第i个网址；次表示第j个会话的第i个网址的满意度的二值变量；4表示第j个会话的第i个网址的吸引度的二值变量-’p、Em =…《)表示满意的情况下点击与否的概率； P识=^7/)表示点击情况下，满意与否的概率JfSfi,Eji = O表示在条件4/和< =€下
发生6'/的条件概率=刁表示浏览摘要与否Ei = e的情况下点击发生的概率；步骤2 通过最大化后验概率更新吸引度知和满意度\
N Mau = argmax^Z7^ =权撒4 = 0)log(l-^) + ^/ = l)log⑷)+/^)公式 9
a /=I '=1
su = arg max Σ Σ7(《=祖R = 0)log(l-s)= 1)log⑶)+Λ力公式 10
s /=1 '=I其中，<表示第j个会话的第i个位置的网址；U表示网页地址；I为示性函数，即满足括号内的等式为1，不满足括号内的等式为O ；P (a)和P (s)表示3和s的先验贝塔分布；a = P(Ci = i|Ei = 1)，表示用户检查了第i个网址的摘要的条件下点击的概率 ’ s = P(Si = IlCi = 1)，表示用户点击了第i个网址，阅读内容后满意的概率；步骤24)以步骤23)得到的吸引度％和满意度\重复步骤22)、步骤23)；步骤25)迭代20次后，对网页是否为作弊网页进行预测，即迭代后的吸引度％、满意度^大于等于选定的阈值为正常网页，小于选定的阈值为作弊网页；三.进行验证步骤31)让10个志愿者根据自己的判断在返回列表的网址中前10个网址找出作弊的网页，认为作弊的打分为1，不是作弊为-1，无法判断为0;得分最高的3个网页作为查询的作弊网页；步骤3 通过提出的评价指标中的查准率、召全率、作弊度，来验证本发明提出的方法。有益效果由于改进的动态贝叶斯模型假设只有用户查看了网址并且被该网址吸引后才会产生一个点击，本发明具有以下一些特殊优点和有益成果在改进的动态贝叶斯中提出了一个简单有效的方法，认为用户放弃查看下一个位置的概率与前一次点击位置的距离有关。也就是说，随着没有找到能吸取注意力的网址的时间越长，则越有可能放弃本次查询。改进的动态贝叶斯是根据用户浏览搜索引擎结果返回列表的特点来建立，因而与其它点击模型相比，它也更能体现浏览行为的本质，表明用户的喜好。也正因为这点，根据改进的动态贝叶斯中实际的相关性对网页进行排名的结果反映了用户的需求。

图1是本发明方案的流程图，rui表示用户角度的文档-查询对的相关性，λ是一个与排名位置有关的全局参数，Y表示浏览返回列表的持续度。图2是展开两个时间帧的动态贝叶斯网络。AiG {0,1}一个会话中处于位置i的二值吸引变量,Ei e {0,1}一个会话中处于位置i的二值检查变量，Ci e {0,1}一个会话中处于位置i的二值点击变量，Si e {0，1}一个会话中处于位置i的二值满意变量。
具体实施例方式假设只有用户查看了网址的摘要并且被这个网址吸引后才会产生一个点击，(见图2)。用户是否被网页吸引的概率仅依赖于网页本身(公式1)。用户点击了网址后，可能会满意找到的网页，也可能认为这是一个不相关的网页，此时的满意度确实是查询与网页真实的相关度，可以根据该满意度对网页进行排名，它是一个与位置无关的满意度；如果用户没有点击该网址，那么可以认为网址对应的网页是没有满意度的(公式2)。P(Ci = IlEi = O) =0Λ(;=1Κ=1) = (公式 1)P{S, = 116； = 1) = Sui P(Si = OjCi = 0) = 1(公式 2)
6
其中，Ei表示用户是否检查返回结果列表中第i个网址的摘要，变量Ci表示用户是否点击返回结果列表中第i个网址，Sui表示用户是否满意点击的第Ui个网址中的内容， Ui表示第i个位置的网页地址。在动态贝叶斯模型中，用户对某个网址对应的网页满意后，规定用户将停止本次查询，认为一个网页已经完全满足了用户的需求。但是在实际中，用户的需求往往会由多个网页共同提供，多个网页的信息集合才是用户的最终所求。因此，在改进的动态贝叶斯模型中，用户对本次网页可能获得一定的满意度；用户决定是否查看下一个网页时，要参考从第一个网页到现在为止所获得的满意度之和来决定(公式3)。其中，7, = lf^，y表示浏览返回列表的持续度。另外在动态贝叶斯模型中，假设用户从上往下浏览网页，直到用户找到满意的网页，或者放弃本次查询；是否放弃仅与一个常数相关，文中并没有给出有效的方法求取。在改进的动态贝叶斯中提出了一个简单有效的方法，认为用户放弃查看下一个位置的概率与前一次点击位置的距离有关。也就是说，随着没有找到能吸取注意力的网页的时间越长，则越有可能放弃本次查询(见公式4)。P (Ei = 11 Sh = 0) =I-Ai (公式 4)其中Λ =^，ri = arg^^ax^ = 1)，表示用户角度的文档-查询对的相关性， M表示网址的总个数。建立动态贝叶斯模型需要以下步骤1.收集网页点击日志2.对日志内容进行分析处理步骤1)对日志内容进行分析，提取其中的用户身份标识号码、查询词、结果排名、是否被点击、网址等信息；步骤2、按照每个查询词下所有的用户身份标识号码的个数进行降序排列，编号为0，1，2……；步骤幻对于每个查询词，以其对应的网址编号和是否被点击建立会话文件，文件中一行表示一个会话；会话实例如下(网址编号，是否被点击)011021002130002131会话实例的第一行表示第一个会话，返回3个结果，分别是011021。每两个数字为一组，每一组的第一个数字表示网址的编号，第二个数字表示对应的网址是否被点击，“0” 表示没有被点击，“ 1，，表示被点击。第二行表示第二个会话，第三行表示第三个会话，表示方式同上。3.基于会话文件和本发明提出的动态贝叶斯模型计算吸引度和满意度
7CN 102243659 A
说明书
5/6页步骤1)由会话文件计算公式1-4 ；步骤2~)计算前项后项公式5、6 ；
权利要求
1. 一种基于动态贝叶斯模型的网页垃圾检测方法，其特征在于该方法分为三大部分一.日志分析步骤11)收集网页点击日志；步骤12)对日志内容进行分析，提取其中的用户身份标识号码、查询词、结果排名、是否被点击、网址等信息；步骤13)按照每个查询词下所有的用户身份标识号码的个数进行降序排列，编号为0， 1,2……；步骤14)对于每个查询词，以其对应的网址编号和是否被点击建立会话文件，二.采用期望最大化算法计算吸引度％和满意度^ 步骤21)初始化吸引度％和满意度\ ；步骤22)由条件独立性可推导出事件Ai, Si的后验概率，“Σ…碼⑷^{0,1}公式7Σ Σ a,{e)^)I\EM = 一jS/MS/jC/MC/^ =e)Σ 尋)公式8其中，ai(e)，)表示前项后项公式；^7表示用户是否检查返回结果列表中第j 个会话的第i个网址的摘要；变量cy表示用户是否点击返回结果列表中第j个会话的第i 个网址；次表示第j个会话的第i个网址的满意度的二值变量;4表示第j个会话的第i个网址的吸引度的二值变量;p、Em = <《)表示满意的情况下点击与否的概率；/^y 表示点击情况下，满意与否的概率；AG |4，E1 = 4表示在条件<和< =e下发生《的条件概率；Λ^ 為=刁表示浏览摘要与否Ei = e的情况下点击67发生的概率；步骤2 通过最大化后验概率更新吸引度％和满意度^N Mau = argmax^Z7^ = u){Q{A] = 0)log(l-^) + ^ = l)log(^)) +巧“)公式 9a /=1 /=1N Msu = arg max Σ Σ7(《=敞⑶=0)log(l-s) +^f = 1)log⑶)+Λ力公式 10^ y-i '-ι其中，<表示第j个会话的第i个位置的网址；u表示网页地址；I为示性函数，即满足括号内的等式为1，不满足括号内的等式为0 ;P(a)和P (s)表示3和s的先验贝塔分布；a =P (Ci = IEi = 1)，表示用户检查了第i个网址的摘要的条件下点击的概率；s = P(Si = 11Ci = ι)，表示用户点击了第i个网址，阅读内容后满意的概率；步骤以步骤2 得到的吸引度％和满意度^重复步骤22)、步骤23)；步骤25)迭代20次后，对网页是否为作弊网页进行预测，即迭代后的吸引度％、满意度 Su大于等于选定的阈值为正常网页，小于选定的阈值为作弊网页；三.进行验证步骤31)让10个志愿者根据自己的判断在返回列表的网址中前10个网址找出作弊的网页，认为作弊的打分为1，不是作弊为-1，无法判断为0 ；得分最高的3个网页作为查询的作弊网页；步骤3 通过提出的评价指标中的查准率、召全率、作弊度，来验证本发明提出的方法。
全文摘要
基于动态贝叶斯模型的网页垃圾检测方法涉及一种作弊网页检测的方法，主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模，对作弊网页进行判断和识别，搜索引擎查询日志记录了用户与搜索引擎的交互信息。它的内容包括查询词、搜索引擎返回的网址、用户点击的网址以及时间戳等信息。日志中被点击的网址及其点击顺序等信息反映了用户的喜好。本发明为日志点击行为建模，挖掘搜索引擎返回列表序列中网址之间的点击因果关系，从用户的角度说明了哪些网址是用户认为和查询词相关联的，得到从用户角度出发的网页与查询的相关性，它是一种隐含的回馈，从而使作弊网页的排名位置靠后，而相关网页的排名则靠前了。
文档编号G06F17/30GK102243659SQ20111020027
公开日2011年11月16日申请日期2011年7月18日优先权日2011年7月18日
发明者周国强, 常成成, 张卫丰, 张迎周, 田先桃, 许碧欢, 陆柳敏申请人:南京邮电大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张卫丰;常成成;田先桃;张迎周;周国强;许碧欢;陆柳敏
技术所有人：南京邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。