一种网络页面的质量获取方法、系统及服务器的制作方法

文档序号:6337383阅读:182来源:国知局
专利名称:一种网络页面的质量获取方法、系统及服务器的制作方法
技术领域
本发明属于互联网领域,尤其涉及一种网络页面的质量获取方法、系统及服务器。
背景技术
随着互联网技术的发展,越来越多的用户通过互联网的页面获取信息,例如通过在搜索网站输入搜索关键字查询该关键字对应的网络页面,通过搜索网站搜索出的网络页面的排列也不是无序排列的,通常根据网络页面质量的好坏来排序。为了评价网络页面的质量,采用的网络页面的质量获取方法有=Pagerank, Pagerank是一种基于页面之间的超链接关系分析页面质量的方法。它的思想是如果一个质量较好的页面中存在一条链接指向另一个页面,那么被指向的页面质量也应该是较好的。该方法在实施过程中指定了页面的初始分值,让这些分值沿着页面的出链向外传播,每传播一次都是一次打分的过程。每个页面收到的分值的总和,就是本轮传播对该页面的打分。不断重复这样的打分过程,直到每个页面的分数都趋于稳定,此时的分数就是页面的最终的分数。最后获得分值越高的网络页面就被认为是质量越高的网络页面。现有技术提供的技术方案的方法是通过页面中链接页面的质量来确定该页面的质量的,采用提高链接页面质量的方法都能有效提高页面质量,例如采用交换链接或者链接工厂等方法都能有效提高页面质量,链接网页的页面质量并不是用户需要的信息,所以根据链接页面质量的高低评价网络页面的质量导致评价的网络页面质量不准确。

发明内容
本发明实施例提供一种网络页面的质量获取方法,旨在解决现有技术中页面质量评价不准确的问题。本发明实施例是这样实现的,本发明提供一种网络页面的质量获取方法,所述方法包括从搜索引擎中的用户点击日志中提取用户操作信息;根据用户操作信息评价该用户操作信息对应的网络页面的质量。本发明实施例还提供一种网络页面的质量获取系统,所述系统包括提取单元,用于从搜索引擎中的用户点击日志中提取用户操作信息;操作评价单元,用于根据用户操作信息评价该用户操作信息对应的网络页面的质量。本发明还提供一种服务器,该服务器包括上述网络页面的质量获取系统。本发明实施例与现有技术相比,有益效果在于本发明的技术方案通过用户操作信息来评价网络页面的质量,由于用户操作信息更贴近用户的需求,所以采用上述技术方案评价的网络页面的质量的准确性更高,所以其具有提高网络页面评价质量准确性的优
点ο


图1是本发明提供的网络页面的质量获取方法的流程图;图2是本发明提供的网络页面的质量获取系统的结构图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明提供的技术方案根据用户操作信息来评价网络页面的质量,以达到贴近用户需求,提高页面质量评价准确性的效果。本发明提供一种网络页面的质量获取方法,该方法如图1所示,该方法由服务器完成,该方法具体包括如下步骤S11、从搜索引擎中的用户点击日志中提取用户操作信息;S12、根据用户操作信息评价该用户操作信息对应的网络页面的质量。需要说明的是,上述Sll中的用户操作信息具体可以包括用户点击信息或用户查询信息。其中用户点击信息可以包括时间特征和/或点击序列特征。时间特征可以包括用户访问一个页面的持续时间,页面相对持续时间(持续时间与所属的查询内所有点击平均持续时间的比值),持续时间占检索总时间的百分比中的任意组合;点击序列特征可以包括本次点击在当前查询中的次序,本次点击是否为当前查询的第一次点击,是否为当前查询的最后一次点击,是否为当前查询的唯一一次点击,本次点击是否为当前查询的第一次点击,是否为当前查询的最后一次点击,是否为当前查询的唯一一次点击,当前排序在当前页面之前与之后的页面是否被点击中的任意组合。用户查询信息可以包括查询持续时间信息和/或阅读特征信息;其中查询持续时间信息可以包括整个查询的持续时间。阅读特征信息具体可以包括本次查询中用户点击阅读的网络页面的个数和/或从查询开始到第一次点击的时间间隔。可选的,实现Sll的方法具体可以为聚合搜索引擎所有用户对相同查询词的用户点击日志,在相同查询词的用户点击日志中聚合同一网络页面的所有用户操作信息。需要说明的是,上述用户操作信息具体包括用户点击信息和用户查询信息,其中用户查询信息除了包括上述描述的信息外,还可以包括下述信息中的一种或多种。用户查询信息还可以包括查询的次数、未点击的查询的比例、查询中用户点击的总次数、查询的平均持续时间、平均每次点击的持续时间、平均查询距离第一次点击的时间间隔、查询中点击过的页面数、该查询中平均每个页面的点击数、点击次数最多的页面的点击数或查询的点击熵中的一种或任意组合。其中点击熵反映了一个查询中所有点击的发散程度,如果点击熵越大,说明点击越发散,表现在该查询中点击过的页面数多,或者对于每个页面的点击数都比较平均;相对的点击熵越小,说明点击越集中,表现为该查询中点击过的页面数少,或者针对少数个别页面的点击数远大于针对其他页面点击数。点击熵使用下面的公式计算,假设在当前的查询中,总共有η个页面被点击,第i
η
个页面被点击的概率为Pi -ClickEntropy = -J]Iog(^i)
i=0在聚合时,页面被点击的概率pi使用下面的公示近似计算,其中clicki表示第i
Clickj Pi = —---
个页面被点击的次数 & dick
7=0
ο另外,实现S12的方法具体可以为利用训练后的机器学习机根据用户操作信息评价该用户操作信息对应的网络页面的质量。需要说明的是,上述机器学习机具体可以为支持向量机,当然也可以为其它的学习机。上述训练后的机器学习机可以为预先训练好的机器学习机,该训练机器学习机的具体方法可以为从网络页面中任意选择一定量的页面进行人工评价,得到人工评价的页面质量,聚合人工评价的网页的所有用户操作信息得到聚合结果,将该人工评价质量、页面和该聚合结果作为机器学习机的训练样本对机器学习机进行训练。其中对机器学习机进行训练的方法可以为从样本提取2/3 (也可以为其它比例) 的数据用来训练,另外1/3用来评测。当然在实际情况中,还可以检测学习机预测的结果, 其检测的方法可以为在训练完成后,使用训练后的机器学习机对人工评价的页面进行预测,得到预测结果,比对预测结果与人工评价质量,以评价机器学习机的预测效果。需要说明的是,还可以采用其它方式实现S12,例如,直接通过用户操作信息的高低来获取网络页面质量,当然还可以为其它的方法,本发明并不局限该方法的具体实现方式。下面通过本发明的工作原理来说明本发明提供的技术方案的技术效果。网络页面的质量的好坏一般分为三类,第一类高质量页面,与查询关键字关联度高,这种高质量页面用户对其操作的可能性也大,对应的用户操作信息也高 ’第二类中质量页面,与查询关键字关联度普通,这种中质量页面用户对其操作的可能性也一般,对应的用户操作信息也一般;第三类,低质量页面,与查询关键字关联度低,这种低质量页面用户对其操作的可能性小,对应的用户操作信息也低,该页面一般可以为查询不相关或作弊页面等。所以网络页面的质量的好坏均和用户操作信息直接相关,本发明提供的技术方案就是基于这点提出了一种新的网络页面的获取方法来评价页面质量,提高页面质量评价的准确性,由于该方法对网页进行质量评价时并不需要考虑该网页的链接,所以采用提高链接页面质量的方法是不能有效提高页面质量,也不会影响页面质量评价的准确性。另外,本发明提供的方法采用机器学习机来评价网页质量,提高了工作效率。本发明还提供一种网络页面的质量获取系统,该系统如图2所示,包括提取单元21,用于从搜索引擎中的用户点击日志中提取用户操作信息;操作评价单元22,用于根据用户操作信息评价该用户操作信息对应的网络页面的质量。上述用户操作信息的具体表现形式可以参见方法实施例中的说明,这里不再赘述。可选的,提取单元21具体可以包括日志聚合模块211,用于聚合搜索引擎所有用户对相同查询词的用户点击日志;信息聚合单元212,用于在相同查询词的用户点击日志中聚合同一网络页面的所有用户操作信息。可选的,上述操作评价22,具体还可以用于利用预先训练好的机器学习机根据用户操作信息评价该用户操作信息对应的网络页面的质量。本发明提供的系统基于用户操作信息来评价网络页面的质量,所以其评价网络页面的质量更加贴近用户的需求,所以其具有提高网络页面的质量评价准确性的优点。本发明还提供一种服务器,该服务器包括上述网络页面的质量获取系统。值得注意的是,上述实施例中的系统,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。综上所述,本发明提供的技术方案具有提高网络页面的质量评价准确性的优点。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种网络页面的质量获取方法,其特征在于,所述方法包括 从搜索引擎中的用户点击日志中提取用户操作信息;根据用户操作信息评价该用户操作信息对应的网络页面的质量。
2.根据权利要求1所述的方法,其特征在于,所述用户操作信息具体包括用户点击信息;其中,所述用户点击信息包括时间特征或点击序列特征中的至少一个; 所述时间特征具体包括访问页面的持续时间、页面相对持续时间、持续时间占检索总时间的百分比中的任意组合;所述点击序列特征具体包括本次点击在当前查询中的次序、本次点击是否为当前查询的第一次点击、是否为当前查询的最后一次点击、是否为当前查询的唯一一次点击、本次点击是否为当前查询的第一次点击、是否为当前查询的最后一次点击、是否为当前查询的唯一一次点击、当前排序在当前页面之前与之后的页面是否被点击的任意组合。
3.根据权利要求1所述的方法,其特征在于,所述用户操作信息具体包括用户查询信息所述用户查询信息包括查询持续时间信息或阅读特征信息中的至少一个; 所述查询持续时间信息包括整个查询的持续时间;所述阅读特征信息包括本次查询中用户点击阅读的网络页面的个数或从查询开始到第一次点击的时间间隔中的至少一个;所述用户查询信息还包括查询的次数、未点击的查询的比例、查询中用户点击的总次数、查询的平均持续时间、平均每次点击的持续时间、平均查询距离第一次点击的时间间隔、查询中点击过的页面数、该查询中平均每个页面的点击数、点击次数最多的页面的点击数或查询的点击熵中的任意组合。
4.根据权利要求1所述的方法,其特征在于,所述从搜索引擎中的用户点击日志中提取用户操作信息的步骤具体包括聚合搜索引擎所有用户对相同查询词的用户点击日志,在相同查询词的用户点击日志中聚合同一网络页面的所有用户操作信息。
5.根据权利要求1所述的方法,其特征在于,所述根据用户操作信息评价该用户操作信息对应的网络页面的质量的步骤具体包括利用预先训练好的机器学习机根据用户操作信息评价该用户操作信息对应的网络页面的质量。
6.一种网络页面的质量获取系统,其特征在于,所述系统包括 提取单元,用于从搜索引擎中的用户点击日志中提取用户操作信息;操作评价单元,用于根据用户操作信息评价该用户操作信息对应的网络页面的质量。
7.根据权利要求6所述的系统,其特征在于,所述用户操作信息具体包括用户点击信息;其中,所述用户点击信息包括时间特征或点击序列特征中的至少一个; 所述时间特性具体包括访问页面的持续时间、页面相对持续时间、持续时间占检索总时间的百分比中的任意组合;所述点击序列特征具体包括本次点击在当前查询中的次序、本次点击是否为当前查询的第一次点击、是否为当前查询的最后一次点击、是否为当前查询的唯一一次点击、本次点击是否为当前查询的第一次点击、是否为当前查询的最后一次点击、是否为当前查询的唯一一次点击、当前排序在当前页面之前与之后的页面是否被点击的任意组合。
8.根据权利要求6所述的系统,其特征在于,所述用户操作信息具体包括用户查询信息;所述用户查询信息包括查询持续时间信息或阅读特征信息中的至少一个; 所述查询持续时间信息包括整个查询的持续时间;所述阅读特征信息包括本次查询中用户点击阅读的网络页面的个数或从查询开始到第一次点击的时间间隔中的至少一个;所述用户查询信息还包括查询的次数、未点击的查询的比例、查询中用户点击的总次数、查询的平均持续时间、平均每次点击的持续时间、平均查询距离第一次点击的时间间隔、查询中点击过的页面数、该查询中平均每个页面的点击数、点击次数最多的页面的点击数或查询的点击熵中的任意组合。
9.根据权利要求6所述的系统,其特征在于,所述提取单元具体包括 日志聚合模块,用于聚合搜索引擎所有用户对相同查询词的用户点击日志;信息聚合单元,用于在相同查询词的用户点击日志中聚合同一网络页面的所有用户操作fe息。
10.根据权利要求6所述的系统,其特征在于,所述操作评价具体用于利用预先训练好的机器学习机根据用户操作信息评价该用户操作信息对应的网络页面的质量。
11.一种服务器,其特征在于,所述服务器包括如权利要求6-10任一所述的网络页面的质量获取系统。
全文摘要
本发明适用于互联网领域,本发明提供了一种网络页面的质量获取方法、系统及服务器,该方法包括从搜索引擎中的用户点击日志中提取用户操作信息;根据用户操作信息评价该用户操作信息对应的网络页面的质量。本发明提供的技术方案具有提高网络页面评价质量准确性的优点。
文档编号G06F17/30GK102486774SQ20101056855
公开日2012年6月6日 申请日期2010年12月1日 优先权日2010年12月1日
发明者冯超, 张锋, 贺海军 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1