在因特网搜索引擎上检测无效点击的方法和设备的制作方法

文档序号:6466844阅读:134来源:国知局
专利名称:在因特网搜索引擎上检测无效点击的方法和设备的制作方法
技术领域
本发明涉及因特网搜索引擎服务器。更明确地说,本发明涉及用于检 测搜索项的无效点击的方法和设备,搜索项被包括在一个由因特网搜索引 擎服务器提供的搜索结果网页内。此外,本发明涉及用于检测无效点击的 方法和设备,其可以检测不公平地增加搜索项点击量的各种尝试并可以立 即应付这些尝试。
背景技术
随着因特网的使用越来越广泛,诸如可经由因特网访问的网页之类的 信息源的数量已经以算术级数增长。此外,为了在大量信息源之中发现信
息,搜索器访问诸如NAVER、 Yahoo和Lycos之类的因特网搜索引擎服务
器以请求搜索。因特网搜索服务提供商产生一个包括搜索项在内的搜索结 果网页,其包括与搜索器输入的搜索字有关的信息,然后向搜索器提供生 成的搜索结果网页。例如,当搜索器访问NAVER搜索引擎服务器然后输 入搜索字"Digital Camera (数码相机)"时,搜索结果网页如图2所示。包 括在搜索结果网页内的每一项都与URL(统一资源定位符)有关。
因为与单一搜索字有关的搜索项的数量不计其数,然而,这类不计其
数的搜索项如何在搜索结果网页上显示和以什么顺序显示对因特网搜索 服务提供商来说是一个非常重要的问题。因特网搜索服务提供商通过结合 几个标准来确定搜索项的列出顺序。已被广泛使用的其中一个标准是用户 对特殊搜索项的点击量。例如,如果用户对一个搜索项的点击量很大,则 该搜索项被显示在搜索结果网页相对靠上的部分。甚至在因特网搜索服务 提供商通过结合多个参数来确定搜索项的列出顺序的情况中,如果其中一 个参数是用户点击量,则具有很高点击量的搜索项被显示在搜索结果网页 的相对靠上的部分。
此外,因特网搜索服务器产生的搜索结果网页被显示得越高,用户可
能点击和访问该网页的可能性就越大。从而,web服务器的网络信息提供 商想要把与他(她)自己有关的搜索项显示在搜索结果网页的顶端。因为这 个原因,为了将他(她)的网页搜索项显示在搜索结果网页的顶端,网络信 息提供商可以故意地访问因特网搜索服务器来多次点击他(她)自己网页 的搜索项。有时,网络信息提供商可以用一个专门的程序不断地点击他(她) 的网页的搜索项。因为这类不公平的搜索项点击并不反映真实的用户搜索 结果,所以因特网搜索服务提供商必须检测这类无效的点击。
先有技术中存在这类服务,其中,与搜索项有关的网络信息提供商基 于搜索结果网页中的每个搜索项的点击量被收费。因特网搜索服务提供商 Overture Services ,lnc.(U.S.A)提供这类服务,其中,当搜索器点击与网 络信息提供商有关的搜索结果网页中的搜索项时,网络信息提供商支付每 次点击。在这种情况下,如果搜索器故意多次点击一个特殊的搜索项,则 与搜索项有关的网络信息提供商必须支付额外的费用。因此,甚至在这种 情况下也必须要检测无效点击,其意图是只增加点击量而实际上没有对搜 索项进行搜索。

发明内容
本发明被提供来解决上述的先有技术中的问题。本发明的一个目的是 提供用于检测搜索项的无效点击的方法和设备,搜索项包括在一个由因特 网搜索引擎服务器提供的搜索结果网页内。
本发明的另一个目的是提供用于检测无效点击的方法和设备,其可以 检测不正当增加搜索项的点击量的各种尝试,并且可以立即应付这些尝
试o
本发明的另一个目的是提供一个用于检测无效点击的方法和设备,其 中,为了检测无效点击而提供的几个标识符很难被仿造或伪造。 为了达到上述目的并解决先有技术中的上述问题,本发明提供了一个
在因特网搜索引擎中检测无效点击的方法,包括下列步骤响应于来自搜 索器的搜索请求产生一个搜索结果网页,获取一个对应于被产生网页的页 面标识符,从搜索器接收包括在搜索结果网页内的搜索项的点击,获取一 个对应于被点击搜索项的站点标识符,并且如果页面标识符和站点标识符
与在预定时段内的其它点击有关的页面标识符和站点标识符一致,则确定 该点击是无效的。
根据本发明的方面提供了一个用于在因特网搜索引擎中检测无效点 击的方法,包括下列步骤响应于来自搜索器的搜索请求产生一个搜索结
果网页,获取一个包括在搜索器终端存储的会话cookie文件内的会话标识 符,从搜索器接收一个包括在搜索结果网页内的搜索项点击,获取一个对
应于被点击搜索项的站点标识符,并且如果会话标识符和站点标识符与预 定时段内与其它点击有关的会话标识符和站点标识符一致,则确定该点击
是无效的。
根据本发明的方面提供了一个用于在因特网搜索引擎中检测无效点
击的方法,包括下列步骤从搜索器接收包括在搜索结果网页内的搜索项
的点击,获取一个对应于搜索器终端的客户机IP地址,获取一个对应于被 点击的搜索项的站点标识符,并且如果客户机IP地址和站点标识符与预定 时段内的其它点击有关的客户机IP地址和站点标识符一致,则确定该点击 是无效的。
根据本发明的方面提供了一个用于在因特网搜索引擎中检测无效点
击的方法,包括下列步骤响应于来自搜索器的搜索请求产生一个搜索结 果网页,获取一个对应于搜索器终端的终端标识符,产生一个包括终端标
识符的用户cookie文件然后把用户cookie文件存储在搜索器终端中,从搜
索器接收一个包括在搜索结果网页内的搜索项点击,获取一个对应于被点 击搜索项的站点标识符,并且如果终端标识符和站点标识符与预定时段内 的其它点击有关的终端标识符和站点标识符一致,则确定该点击是无效 的。
根据本发明的另一个方面提供了一个用于检测无效点击的设备,其 中,如果搜索器点击包括在由因特网搜索引擎提供的搜索结果网页内的搜 索项,则至少搜索器终端的IP地址、搜索器终端所属的网络地址、与搜索 结果网页有关的搜索字、搜索器的web浏览器的相关信息、与存储在搜索 器终端中的点击和cookie文件信息有关的点击时间、与搜索项有关的URL 信息的其中一个被接收,并且基于一个根据被接收信息预定的标准 (reference)来确定该点击是否无效。
根据本发明的另一个方面提供了一个用于检测无效点击的设备,包括 (1)一个日志存储单元,其响应于搜索器点击包括在由因特网搜索引擎提 供的搜索结果网页内的搜索项,来存储一个至少与下列两项有关的日志 搜索器终端的IP地址,搜索器终端所属的网络地址,与搜索结果网页有关
的搜索字,搜索器的web浏览器的相关信息,与点击有关的点击时间、存 储在搜索器终端中cookie文件信息和与搜索项有关的URL信息,(2)—个无 效点击模型存储单元,其存储与至少下列中两个有关的无效点击模型搜 索器终端的IP地址、搜索器终端所属的网络地址、与搜索结果网页有关的 搜索字、搜索器的web浏览器的相关信息、与点击有关的点击时间、存储 在搜索器终端中的cookie文件信息、和与搜索项有关的URL信息,和(3) 一个无效点击决定单元,其基于日志存储单元中存储的日志和无效点击模 型存储单元中存储的无效点击模型来确定搜索点击是否是一个无效点击。
根据本发明的另一个方面提供了一个用于检测无效点击的设备,包括 一个点击计数器装置,用于针对包括在由因特网搜索引擎提供的搜索结果 网页内的搜索项,计数预定时段内每个搜索项的搜索器点击量, 一个平均 点击量计算装置,用于在预定时段内计算属于搜索项所属类别的搜索项的 平均点击量,和一个决定装置,用于确定每个搜索项的点击量是否比平均 点击量大一个预定的差。
根据本发明的另一个方面提供了一个用于检测无效点击的设备,包括 一个点击计数器装置,用于针对包括在由因特网搜索引擎提供的搜索结果 网页内的搜索项,计数预定时段内每个搜索项的搜索器点击量, 一个平均 点击量计算装置,用于在搜索结果网页中在预定时段内计算位于搜索项较 高端的搜索项的预定第一数量和位于搜索项较低端的搜索结果的预定第 二数量的平均点击量,和决定装置,用于确定每个搜索项的点击量是否比 平均点击量大一个预定的差。
无效点击很难精确地定义,并且无效点击的范围应该取决于实施例和 应用来不同地定义。然而,无效点击可能指的是以只增加点击量而不以实 际搜索为目的而做出的点击。


图1是一个示意图,说明因特网搜索服务器的一个网络连接,包括用 于检测无效点击的设备和根据本发明的客户机终端。
图2是一个说明由因特网搜索引擎产生的搜索结果网页的示意图。 图3是一个说明根据本发明实施例来检测无效点击的设备结构的框图。
图4是一个根据本发明实施例来检测无效点击的方法流程图。 图5显示了根据本发明实施例的示例的日志文件。 图6a和6b是一个根据本发明实施例来检测无效点击的方法流程图。 图7显示了 一个根据本发明实施例的示例的日志文件。 图8是一个根据本发明实施例来产生会话标识符的方法流程图。 图9是一个根据本发明实施例来检测无效点击的方法流程图。 图10显示了 一个根据本发明实施例的示例的日志文件。 图11是一个根据本发明实施例来检测无效点击的方法流程图。 图12是一个说明通用计算机系统的结构的框图,该系统可用于创立一 个搜索引擎服务器和一个用于根据本发明检测无效点击的设备。
具体实施例方式
在下文中,本发明的优选实施例将参考附图被详细描述。 图1是一个示意图,说明包括用于检测无效点击的设备和根据本发明 的客户机终端的因特网搜索服务器的网络连接。
尝试不公平点击的搜索器或作弊器经由连接到因特网103的客户机 终端101来访问因特网搜索服务器104。作弊器通过多次点击由因特网搜 索服务器104提供的搜索结果网页中的搜索项来增加点击量。例如在图2 中,假定搜索项202是一个与http:〃www.invalidclick.com有关的搜索项, 并且作弊器不断地点击搜索项202以便于搜索项202被显示在搜索结果网 页的顶端。
当客户机终端101被连接到搜索引擎服务器104或其它网络站点时, cookie文件102是一个由搜索引擎服务器104或其它网络站点存储在客户 机终端101的硬盘中的特殊的文本文件。在用于连接网络站点的HTTP协 议中,每个对网页的请求都与其它请求无关。因此,网络服务器不具这样
的信息,即哪个页面先前已经被发送到客户机终端101或者客户机终端
101先前己经执行了什么工作。因此,为了关联像这样独立处理的各个请
求, 一个cookie文件被提供。这类cookie文件服务允许网络服务器把用户 信息存储在用户的计算机中。为了在本发明中检测无效点击,甚至可以使 用几个cookie文件。这将在后面被详细描述。
日志文件105是一个用于存储与用户点击模型相关的几个日志的文 件。在本发明中,为了检测无效点击而使用几个参数。在与各个点击有关 的参数被存储在日志文件中之后,基于预定的规则和模型来确定输入点击 是否无效。
根据本发明实施例的日志文件的例子如图5、 7和10中所示。 图3是一个说明根据本发明实施例来检测无效点击的设备结构的框图。
根据本发明实施例来检测无效点击301的设备包括参数输入单元 304、日志存储单元305、无效点击模型存储单元306、无效点击验证单元 307、无效点击报告单元308和无效点击决定单元309。
如果搜索器点击包括在由因特网搜索引擎提供的搜索结果网页内的 搜索项,则与该点击有关的几个参数302被输入到参数输入单元304。这 些参数是用于确定无效点击的基本信息,并且包括搜索器终端的IP地址、 搜索器终端所属的网络地址、与搜索结果网页有关的搜索字、搜索器的 web浏览器的相关信息、与点击有关的点击时间、存储在搜索器终端中的 cookie文件信息、与搜索项有关的URL信息等等。
如果搜索器向因特网搜索引擎服务器104请求一个搜索,则搜索请求 分组从客户机终端101被传递到因特网搜索引擎服务器104。搜索请求分 组包括一个根据HTTP协议的分组配置并且还被包含在因特网(IP:网际协 议)分组内。因为源IP地址字段被包括在因特网协议分组的配置内,所以 因特网搜索引擎服务器104从点击所请求的搜索请求分组提取一个源IP地 址,从而提取搜索器终端的IP地址。
源IP地址的前部分是搜索器终端所属的网络地址。IP地址由4个字节 组成。IP地址的前部分是一个用于识别搜索器终端所属网络的网络地址, 而其剩余部分是用于识别网络内的搜索器终端的地址。因此,网络地址从
源IP地址中被提取。根据本发明的实施例,IP地址前部分的3个字节被认 为是一个网络地址并且该网络地址从源IP地址被获得。例如,如果源IP地 址是123.45.67.89,贝!J123.45.67被提取为一个网络地址。
与搜索结果网页有关的搜索字是一个由搜索器输入因特网搜索服务 器104的值。
搜索器的web浏览器的相关信息是web浏览器上的信息,所述web浏 览器被装载在搜索器的客户机终端101中并被用来访问因特网搜索服务 器104。 web浏览器的相关信息包括web浏览器的类型、web浏览器的版 本、web浏览器的产品ID等等。特别地,即使当多个搜索器具有相同类型 和相同版本的web浏览器时,它们的web浏览器的产品ID也可能不同。从 而,它变成了用于识别一个搜索器终端的有用信息。
根据被用于连接到网络的HTTP协议,客户机的一部分环境参数被包 括在HTTP分组内来传送到网络服务器。网络服务器的程序(搜索弓I擎程序) 可以接收环境参数并且可以使用这些参数来检测无效点击。
这类环境参数包括下列信息
REMOTE—HOST:被连接者的域名
REMOTE—ADDR:被连接客户机主机的IP地址
REMOTE—USER:被连接者的名字(在网络服务器设置了用户验证的 情况下显示)
REMOTE—USER:被连接者的ID(在网络服务器设置了用户验证的 情况下被显示)
HTTP—USER—AGENT:被连接者驱动的程序的相关注册信息, 一般 来说是浏览器的名称
HTTP—ACCEPT—LANGUAGE:被连接者使用的语言 HTTP—REFERER:呼叫对应CGI程序的文档名称 REQUEST—METHOD:向服务器传输数据的方法(GET,POST) QUERY—STRING:当数据以GET模式发送时,发送数据的被存储
参数
CONTENT—LENGTH:当数据以POST模式被发送时,被发射数据 的总长度(字节数)
CONTENT—TYPE:当数据以POST模式被发射时,数据的MIME
类型
AUTH_TYPE:用于确认用户授权的参数 SERVER—NAME:当前服务器的域名
SERVER_SOFTWARE:当前安装在服务器上的网络服务器程序的
名称
SERVER—PROTOCOL:服务器当前使用的网络协议的名称和版本 SERVER—PORT:服务器当前所使用的端口数(在HTTP的情况下一 般是80)
PATHJNFO:被呼叫的CGI程序的当前路径的信息 PATH—TRANSLATED:网络要求的网络服务器中的当前资源路径的 相关信息
SCRIPT—NAME:当前正在被呼叫的CGI程序的名称 HTTP—ACCEPT:当前可以以HTTP接收的资源的类型 与搜索器的点击有关的点击时间是来自搜索器的点击输入被接收的 时间。根据本发明的另一个实施例,与搜索器的点击时间有关的其它时间 可以被使用。例如,可以使用搜索器实际上将点击输入客户机的时间。
存储在搜索器终端中的cookie文件上的信息被因特网搜索服务器104 获得,其中因特网搜索服务器104访问存储在客户机终端101中的cookie 文件102。在本发明中,cookie文件102可以被用于多种用途。这将参考 其它实施例被详细描述。
与搜索器点击的搜索项有关的URL信息可以通过查阅搜索数据库而 获得,因为它被存储在与搜索引擎服务器104有关的搜索数据库(未示出) 中。URL信息可以是网络服务器的域名或包括域名、目录和文件名的信息。 例如,http:〃www.naver.com禾卩http:〃www.naver.com/download是相同 的,因为它们是鉴于域名的www.naver.com,但是具有不同的URL。在本 发明中,使用URL及至域名的实施例己经为了解释起见进行了说明。然而, 本发明覆盖了所有的实施例,其中,如果URL尽管其域名相同但是具有不 同的目录(因为它们包括了域名、目录和文件名全部),则URL被认为是不 同的搜索项。此外应当理解,在本发明中,URL信息包括根据这个说明书的所有实施例。
此外,除了上述的参数之外,在本发明的精神内,被用于检测无效点 击的其它参数也可以被用来检测无效点击。
上述种类的参数302被输入到参数输入单元304。这些参数又被存储 在日志存储单元305中。根据本发明,存储在日志存储单元中的日志的例 子如图5、 7和10中所示。在这些附图中,只包括一部分参数的日志被显 示以用于解释。然而,根据本发明的另一个实施例,包括全部或一部分参 数302的日志可以被存储在日志存储单元305中。
根据本发明的一个实施例,日志存储单元305在其中存储关于至少下 列两项的日志搜索器终端的IP地址、搜索器终端所属的网络地址、与搜 索结果网页有关的搜索字、搜索器的web浏览器的相关信息、与点击有关 的点击时间、存储在搜索器终端中的cookie文件信息和与搜索项有关的 URL信息。根据本发明的一个优选实施例,日志存储单元305在其中存储 一个关于至少下列一项的日志搜索器终端的IP地址、搜索器终端所属的 网络地址、与搜索结果网页有关的搜索字、搜索器的web浏览器的相关信 息、与点击有关的点击时间、存储在搜索器终端中的cookie文件信息和与 搜索项有关的URL信息。
无效点击型式存储单元306在其中存储一个与至少下列两项的一对 有关的无效点击模型或规则搜索器终端的IP地址、搜索器终端所属的网 络地址、与搜索结果网页有关的搜索字、搜索器的web浏览器的相关信息、 与点击有关的点击时间、存储在搜索器终端中的cookie文件信息和与搜索 项有关的URL信息。例如,搜索器终端的IP地址和与搜索项有关的URL 信息型在10分钟内的点击输入中彼此一致的规则或模型可以被存储在无 效点击模型存储单元306中。同样地,用于确定无效点击的被存储在无效 点击模型存储单元306中的规则等等可以用文件的形式存储,该文件使用 根据预定规则的预定语言。或者,在上述规则或模型的情况下,它可以用 程序的形式被存储以便于它被确定是一无效点击。
无效点击决定单元309基于日志存储单元305中存储的日志和无效点 击模型存储单元306中存储的无效点击模型来确定搜索器点击是否是无 效点击。 无效点击报告单元308向因特网搜索引擎的管理员303报告与点击中 的预定标准一致的点击,其被无效点击决定单元309确定无效。根据本发 明的一个实施例,无效点击报告单元308向因特网搜索引擎的管理员报告 所有被无效点击决定单元309确定为无效的点击。在这种情况下,预定标 准是己经被无效点击决定单元309确定为无效的所有点击。根据本发明的 另一个实施例,指示是否向管理员303报告对应于规则或模型的情况的字 段被存储在无效点击模型存储单元306中储存的每个规则或者模型中。在 这种情况下,在对应于管理员303必须被通知的规则的情况下,无效点击 报告单元308将其报告给管理员303。
无效点击验证单元307允许管理员303把已经被无效点击决定单元 309确定为无效的点击改变成有效点击。因为无效点击验证单元307可以 把误定为无效点击的点击改变成有效点击,所以无效点击可以被更精确地 确定。
图4是一个根据本发明实施例来检测无效点击的方法流程图。
因特网搜索服务器104从搜索器接收一个搜索请求(步骤401)。如果搜 索器访问因特网搜索服务器104然后输入搜索字,则该搜索字作为搜索请 求分组被传送到因特网搜索服务器104。
因特网搜索服务器104响应于该搜索请求产生一个搜索结果网页(步 骤402)。例如图2中所示,包括多个对应于搜索器输入搜索字的搜索项的 搜索结果网页被提供给搜索器。
对应于产生的搜索结果网页的页面标识符被获取(步骤403)。每当产 生搜索结果网页的时候就产生一个页面标识符。页面标识符是一个用于识 别搜索结果网页的标识符。因此,如果相同的搜索器通过重复地向因特网 搜索服务器104的搜索窗中输入相同的搜索字,则每次都分配一个新的页 面标识符。同样地,如果搜索器点击显示搜索结果网页的web浏览器中的 "reload (重新加载)",则因特网搜索服务器104向搜索结果网页分配一 个新的页面标识符,因为搜索请求分组从客户机终端101传送到因特网搜 索服务器104。不同的页面标识符被分配给乍一看相同的搜索结果网页是 可能的。然而,如果新的搜索请求从客户机终端101被接收,则搜索结果 网页在那时被重新产生。不同于先前的搜索结果网页的搜索结果网页从而
可以被提供。
在步骤404中,因特网搜索服务器104从搜索器接收一个包括在搜索 结果网页内的搜索项的点击。如果点击被接收,则因特网搜索服务器104 允许用于搜索项的超链接来连接因特网搜索服务器104,允许因特网搜索 服务器104执行必要的处理,然后允许客户机终端访问对应于该搜索项的 网络站点。 例如, 在
http:〃www.naver.com/abc/女http:〃www.invalidclick.com/被准备作为对应 于"http〃www.invalidclick.com/"的搜索项超链接的情况下,如果搜索器点 击该搜索项,则搜索被允许以访问称作http:Z/www.naver.com的搜索服务 器。搜索服务器允许客户机终端根据位于超链接后侧的URL来访问 http:〃www. invalidclick.com。
因特网搜索服务器104获取一个对应于被点击搜索项的站点标识符 (步骤405)。站点标识符是一个用于识别搜索项的标识符,并且基于对应 于搜索项的URL信息来产生。根据本发明的另一个实施例,站点标识符使 用对应于搜索项的原URL信息。用作产生站点标识符的基本信息的URL 信息可以是网络服务器的域名或包括域名、目录和文件名在内的信息。例 如,http:〃www.naver.com禾卩http:〃www.naver.com/download是相同的, 因为它们从域名的观点来看都是www.naver.com,但是从URL的观点来看 则不相同。在本发明中, 一个使用URL及至域名的实施例已经为了解释方 便起见而进行了说明。然而,本发明覆盖了所有的实施例,其中,如果 URL尽管其域名相同但是具有不同的目录(因为它们不仅包括了域名,而 且还包括了目录和文件名),则URL被认为是不同的搜索项。此外应当理 解,在本发明中,URL信息包括根据这个说明书的所有实施例。
在步骤406中,如果页面标识符和站点标识符与预定时段内的其它点 击相关的页面标识符和站点标识符一致,则用于检测无效点击的设备确定 点击是无效的。
图5显示了根据本发明实施例的示例的日志文件。图4的实施例将参考 图5来说明。
根据本发明,每当从用户接收一个搜索项的点击,页面标识符509和 站点标识符510就被存储在日志文件500中。附图标记501到508指出被存
储的各个点击输入的日志。
作弊器访问因特网搜索服务器104以请求一搜索。因特网搜索服务器 104产生搜索结果网页并产生一个对应于搜索结果网页的页面标识符 "nCe249sisnO"。作弊器不断地点击包括在搜索结果网页内的一个特定的 搜索项。即使一旦所产生的搜索结果网页中的特定搜索项被不断地点击, 页面标识符也不会被重新产生。从而,页面标识符保留了相同的值。
从而在预定时段内的点击输入日志中,确定具有相同的页面标识符和 相同的站点标识符的日志501、日志502和日志504是无效点击。根据本发 明的一个实施例,确定一致的日志中的一个是无效点击,则剩余的日志是 无效点击。
作弊器可以通过点击web浏览器中的"reload"来更新搜索结果网页。 在这种情况下,页面标识符被重新分配并且关于页面标识符的日志是日志 505。其后,作弊器点击相同搜索项的情况对应于日志506。
因此,根据这个实施例,如果作弊器点击"reloads"然后点击相同的搜 索项(在日志506的情况下),则它不被确定是一个无效点击。同样地,用 于确定"reload"是无效点击的情况的方法将参考图6在下列实施例中被说 明。
图6a和6b是一个根据本发明实施例来检测无效点击的方法流程图。 因特网搜索服务器104从搜索器接收搜索请求(步骤601)。因特网搜索
服务器104响应于该搜索请求产生一搜索结果网页(步骤602)。
用于确定无效点击的设备确定会话cookie文件是否被存储在请求搜
索的客户机终端101中(步骤603)。步骤603到步骤611被处理以获得一个
会话标识符。
如果确定会话cookie文件没有存储在客户机终端101中,则用于确定 无效点击的设备产生一个新的会话标识符(步骤604)。在步骤605中,包括 会话标识符在内的会话cookie文件被存储在客户机终端101中。会话标识 符的更新时间还被存储在会话cookie文件中。更新时间被存储在会话 cookie文件中(步骤609)。
如果确定会话cookie文件在步骤602中存储在客户机终端101中,则 用于确定无效点击的设备确定包括会话cookie文件在内的会话标识符的 最后更新时间是否在预定时段内(步骤606)。
作为步骤606中的确定结果,如果包括在会话cookie文件内的会话标 识符的最后更新时间在预定时段内,则用于确定无效点击的设备提取一个 包括在会话cookie文件内的会话标识符(步骤607)。
作为步骤606中的确定结果,如果包括没有会话cookie文件内的会话 标识符的最后更新时间不在预定时段内,则用于确定无效点击的设备产生 一个新的会话标识符(步骤608)。包括在会话cookie文件内的会话标识符 用重新创建的会话标识符来更新(步骤610)。会话标识符的更新时间被存 储在会话cookie文件中(步骤611 )。
因特网搜索服务器104从搜索器接收一个包括在搜索结果网页内的 搜索项的点击(步骤612)。
因特网搜索服务器104获取一个对应于被点击搜索项的站点标识符 (步骤613)。
如果会话标识符和站点标识符与在预定时段内与其它点击有关的会 话标识符和站点标识符一致,则用于检测无效点击的设备确定该点击是无 效点击(步骤614)。
图7显示了根据本发明实施例的示例的日志文件。
在这个实施例中,每当从用户接收一个搜索项的点击,点击时间710、 会话标识符的更新时间711 、会话标识符712和站点标识符713被存储在日 志文件700中。附图标记701到708指出对应于各个点击输入存储的日志。
作弊器访问因特网搜索服务器104以请求一个搜索请求。因特网搜索 服务器104产生一个搜索结果网页。因特网搜索服务器104接收一个包括 在搜索结果网页内包括在内搜索项的点击。
因特网搜索服务器104确定会话cookie文件是否被存储在客户机终端 101中。如果确定会话cookie文件没有存储在客户机终端101中,则因特 网搜索服务器104产生一个新的会话标识符,并且将其更新时间和包括会 话标识符在内的会话cookie文件存储在客户机终端101中。在这个实施例 中,会话标识符"xigw9492"和更新时间"10:50:14"被记录。此外,对应于 搜索项的点击时间、更新时间、会话标识符和站点标识符作为日志701被 存储在日志文件700中。在第一次产生会话cookie文件的情况中,只要在
那时还产生点击和会话标识符,会话cookie文件就被产生。从而,点击时 间和会话标识符更新时间是相同的。
作弊器在相同的搜索结果页面中点击相同的搜索项。因特网搜索服务 器104确定会话cookie文件是否被存储在客户机终端101中。因为上述产 生的会话cookie文件已经被存储在客户机终端101中,因特网搜索服务器 104访问存储在客户机终端101中的会话cookie文件。会话cookie文件在其
中存储一个会话标识符和会话标识符的最后更新时间。在这个实施例中, 会话标识符"xigw9492"和更新时间"10:50:14"被存储在会话cookie文件中。
因特网搜索服务器104确定来自搜索器的搜索项的点击时间是否在 从与会话标识符有关的最后更新时间开始的预定时段内。在这个实施例 中,第二点击的点击时间是"10:50:18"。如果预定时段是5秒,则点击时 间"10:50:18"在从最后更新时间"10:50:14"开始的预定时段内。同样地, 在这种情况下,存储在会话cookie文件中的会话标识符被用作一个当前的 会话标识符并且该会话cookie文件的会话标识符没有被更新。从而在这种 情况下,例如日志702被记录。
从而,确定日志702是一个无效点击,因为它具有与日志701相同的 会话标识符和站点标识符。
日志704对应于其中作弊器请求"reload"的情况。同样地,结果作弊 器请求"reload",制定出存储在客户机终端101中的会话cookie文件的标 准,并且会话标识符没有被更新,因为存储在会话cookie文件中的最后更 新时间在预定时段内。因此,例如日志704被记录。因为它和日志701 — 样,所以确定日志704是一个无效点击。g卩,根据这个实施例,有可能检 测作弊器在短时间间隔内在点击"reload"之后点击相同的搜索项的情况。
日志705对应于这种情况,即相同搜索项的点击从不同于日志701、 日志702和日志704的搜索器被接收。在这种情况下,因为新的会话标识 符被分配,所以它不被确定为一个无效点击。
日志709对应于这种情况,即与日志701相同的搜索器在相当多时间 之后点击相同的搜索项。在这种情况下,因为点击在相当长时间之后才被 接收,所以它不被确定为一个无效点击。
根据这个实施例,作弊器在预定时段之后点击相同的搜索项的情况, 因为一个会话标识符被产生,所以它被确定是一个无效点击。
同样地,根据本发明的另一个实施例基于无效点击决定来确定这样的 情况可能是一个无效点击,即在从相同搜索项的最后点击时间开始的预定 时段内做出点击。这将被简单地说明。
如果点击从搜索器被接收,则确定会话cookie文件是否被存储在终端 中。如果确定会话cookie文件被存储在终端中,则确定来自搜索器的搜索 项的点击时间是否在从与会话标识符有关的最后点击时间开始的预定时 段内。
如果确定搜索项的点击时间在预定时段内,则包括在会话cookie文件 内的会话标识符被获取并且最后点击时间用搜索项的点击时间来更新。
如果确定搜索项的点击时间不在预定时段内,则新的会话标识符被产 生以更新包括在会话cookie文件内的会话标识符。此外,最后点击时间用 搜索项的点击时间来更新。
例如在图7中,在存在来自于相同客户机终端的相同搜索项的多个点 击的情况下,如果确定从最后的点击已经过去了5秒的情况是有效的,则 与日志704有关的点击被确定是有效的,因为它在先前的最后点击时间 "10:50:18"的13秒后被做出"10:50:31"。
根据本发明的优选实施例,时间参考根据无效点击的检测目的来决定。
图8是一个根据本发明实施例来产生会话标识符的方法流程图。 会话标识符必须被唯一地分配以便它能与其它的会话标识符区分并 且必须很难被仿造或伪造。在会话标识符只被唯一地分配的情况下,存在 一个可能性,即作弊器实际上可能产生一个会话标识符然后把会话标识符 存储在会话cookie中,或者可能用一个程序不正当地增加点击量,这个程 序被驱动来不断地点击搜索项而同时改变会话标识符。
源数据801是用于产生会话标识符805的基本数据。源数据可以是当 前的时间信息、搜索字、搜索器的web浏览器的产品ID等等。源数据可以 是随机选择的数量。散列函数802被应用到源数据801以产生一个编码串 803。然后,校验和被添加到编码串803以产生会话标识符805。校验和用 来防止作弊器伪造会话标识符。
用于根据这个实施例产生会话标识符的方法可以被应用来产生一个 随后将被说明的页面标识符、站点标识符、终端标识符等等。
图9是一个根据本发明实施例来检测无效点击的方法流程图。 因特网搜索服务器104从搜索器接收一个包括在搜索结果网页内的
搜索项的点击(步骤901)。因特网搜索服务器104获取一个对应于搜索器的
终端101的客户机IP地址(步骤902)。客户机的IP地址可以从被接收的IP分
组的源IP地址字段中提取。
因特网搜索服务器104获取对应于被点击搜索项的站点标识符(步骤
903)。
在步骤904中,如果客户机IP地址和站点标识符与预定时段内其它点 击相关的客户机IP地址和站点客户机IP地址一致,则用于搜索无效点击的 设备确定该点击无效。
图10显示了根据本发明实施例的示例的日志文件。
在这个实施例中,每当从用户接收一个搜索项的点击,点击时间
中。附图标记1001到1009指:对应于各个点击输入的所存储的日志。
如果相同的客户机终端不断地点击相同的搜索项,则如果点击在预定 时段内被重复,则该点击无效的可能性很高。然而,往往是这样的情况, 即相同客户机终端的用户在相当长时间之后点击相同的搜索项。换言之, 存在一个趋势,即用户往往访问一个它很感兴趣的网络站点。如果用户在 短时间内不断地访问一个网络站点,则很难把它看作是一个普通的点击。 从而,这个情况被确定是一个无效点击。例如,如果时间标准是5分钟, 则具有与日志1001相同的客户机IP地址和相同的站点标识符的日志 1002、日志1004和日志1005被确定是无效点击。确定在大约20分钟中与 被点击日志1009相关的点击是有效点击。
如果基于客户机IP地址来确定无效点击,那么存在一些需要谨慎的 点。在客户机终端使用代理服务器或IP网关的情况中,存在一个危险,即 使作弊器点击与其它的客户机终端相同的搜索项,它也可能被确定为一个 无效点击。因此,优选地,这个实施例与使用诸如会话标识符之类的其它
参数的一个实施例一起联合构造。
相反地,存在这样一种情况,即点击相同搜索项的客户机终端的客户 机lP地址是不同的,而它们的网络地址是相同的。这对应于这样一种情况, 即几个人不断地尝试用一个程序来不公平的点击一处或点击相同的搜索 项,而同时改变它们的源IP地址。在这种情况下,如果点击相同搜索项的 客户机终端的网络地址是相同的并且其它情况(例如,在搜索项所属的目 录内,点击量大于平均点击量的情况)被满足,则这可以被确定是一个无 效点击。
图11是一个根据本发明实施例来检测无效点击的方法流程图。
因特网搜索服务器104从搜索器接收搜索请求(步骤1101)并且产生一 个搜索结果网页(步骤1102)。
因特网搜索服务器104确定包括终端标识符在内的用户cookie文件是 否被存储在终端中(步骤1103)。
由于步骤1103中的确定结果,如果包括终端标识符在内的用户cookie 文件没有被存储在终端中,则因特网搜索服务器104产生一个终端标识符 (步骤1104)。
因特网搜索服务器104产生包括终端标识符在内的用户cookie文件并 把它存储在搜索器终端中(步骤1105)。
由于步骤1103中的确定结果,如果包括终端标识符在内的用户cookie 文件被存储在终端中,则因特网搜索服务器104从用户cookie文件中提取 终端标识符(步骤1106)。
因特网搜索服务器104从搜索器接收包括在搜索结果网页内的搜索 项的点击(步骤1107),然后获取一个对应于被点击搜索项的站点标识符 (步骤1108)。
最后,在步骤1109中,用于确定如果无效点击的设备确定终端标识 符和站点标识符与与预定时段内其它点击有关的终端标识符和站点标识 符一致,则该点击是无效的。
根据这个实施例,即使客户机终端使用一个代理服务器或IP网关,也 有可能用终端标识符来判别客户机的终端。从而,即使不同的客户机终端 使用代理服务器或IP网关,也可能正确地识别来自于不同客户机的点击。
在本发明的另一个实施例中,如果对于包括在由因特网搜索引擎提供 的搜索结果网页内的搜索项,预定时段内每个搜索项的搜索器的点击量大 于属于搜索项所属类别的搜索项的平均点击量,则它被认为是一个无效点 击并从而将其报告给管理员。
根据本实施例的用于检测无效点击的设备包括点击计数器装置,用于 针对包括在由因特网搜索引擎提供的搜索结果网页内的搜索项计数预定 时段内每个搜索项的搜索器点击量,,平均点击量计算装置,用于计算预 定时段内属于搜索项所属类别的搜索项的平均点击量,和决定装置,用于 确定每个搜索项的点击量是否比平均点击量大一个预定的差。如果每个搜 索项的点击量比平均点击量大一个预定的差,则这个事实经由无效点击报
告单元308被报告给管理员。
根据本发明的另一个实施例,针对包括在由因特网搜索引擎提供的搜 索结果网页内的搜索项,在预定时间段内,将每个搜索项的搜索器的点击 量与预定时段内在搜索结果网页中的位于搜索项上端的搜索项预定第一 数量和位于搜索项下端的搜索项的预定第二数量的平均点击量相比较。例 如,在相同的周期中,特殊的搜索项的点击量与紧接位于特殊搜索项上的 两个搜索项和紧接位于特殊搜索项下的两个搜索项的点击量相比较。作为 比较的结果,如果特殊搜索项的点击量比围绕其它搜索项的点击量大5倍, 则它是无效点击的可能性很高并且从而同样地被报告给管理员。
用于确定无效点击的各种方法已经在上面被说明。用于确定无效点击 的方法可以被独立地使用或者可以与用于确定无效点击的方法联合使用。 例如, 一个规则可以被存储在无效点击模型存储单元306中,其中,对应 于搜索项的客户机IP地址、页面标识符和站点标识符在从搜索项的最后点 击开始的5分钟内被重复的情况是无效的。
在本发明中,因特网搜索服务器和用于识别不公平点击的设备已经被 混乱地描述为单个单元。然而,根据本发明的另一个实施例,应当注意它 们可以根据它们的功能被分开执行并且可以由不同的管理员来管理。
此外,在本发明中,被显示并被描述为分开元件的元件可以物理上被 创建在单个系统中并且可以物理上被创建在一个单独的系统中-。
此外,尽管几个实施例已经在本发明中被说明,对于所属领域技术人
员来说显而易见的是,多个实施例的一部分或剩余的实施例也属于本发明 的精神。
另外,本发明的实施例还涉及包括用于执行不同的计算机执行操作的 程序指令的计算机可读媒介。该媒介还可以单独(或与程序指令相结合)包 括数据文件、数据结构、数据表等等。媒介和程序指令可以被特别地设计 并构造以用于本发明目的,或它们可能是众所周知的类型并是计算机软件 领域的技术人员可用的。计算机可读媒介的例子包括诸如硬盘、软盘和磁
带之类的磁性媒介;诸如CD-ROM磁盘之类的光媒介;诸如可光读磁盘之 类的磁光媒介;和被特别配置来存储和执行程序指令的硬件装置,比如只 读存储器装置(ROM)和随机存取存储器(RAM)。媒介还可能是诸如光或金 属线路、导波器等等之类的传输媒介,包括发射规定程序指令、数据结构 等等的信号的载波。程序指令的例子包括两个诸如由编译器产生的之类的 机器代码,和包括可以由计算机使用解释器来执行的高级代码在内的文 件。
图12是一个说明通用计算机系统的结构的框图,该系统可用于创立搜 索引擎服务器和用于根据本发明检测无效点击的设备。
计算机系统包括任意数量的处理器1240(也被称为中央处理器或 CPUs),它们被耦合到包括主存储器1260(—般来说是随机存取存储器或 "RAM")、主存储器1270(—般来说是只读存储器或"ROM")的存储装置。 在本领域中众所周知的是,主存储器1260把数据和指令单向传送到CPU, 并且主存储器1260—般被用来以双向方式传送数据和指令。这两个主存 储器装置都可以包括如上所述的任何适当的类型的计算机可读媒介。大容 量存储装置1210还被双向耦合到CPU1240和提供附加的数据存储量并且 可以包括如上所述的任何计算机可读媒介。大容量存储装置1210可以被 用来存储程序、数据等等,并且一般是一个诸如比主存储器慢的硬盘之类 的辅助存储器媒介。诸如光盘1220之类的特殊大容量存储装置还可以把 数据单向传递给CPU。处理器1240还被耦合到一个接口1230,其包括一 个或多个输入输出设备,比如视频监视器、跟踪球、鼠标、键盘、扩音器、 触控式显示器、换能器读卡机、磁或纸带读取器、写字板、触针〔音频或 手写识别器或诸如当然包括其它计算机之类的其它众所周知的输入装置。
最后,如通常在1250所示,处理器1240可以选择性地使用网络连接被耦 合到计算机或电信网。有了这类网络连接,CPU可以在执行上述方法步骤 的过程中从网络接收信息或者可以向网络输出信息是可期望的。上述装置 和材料对于计算机硬件和软件领域中的技术人员来说是很熟悉的。
如上所述的硬件元件可以被配置(一般暂时)来充当一个或多个执行 本发明操作的软件模块。 工业实用性
根据上述的本发明, 一个用于检测包括在由因特网搜索引擎服务器提 供的搜索结果网页内的搜索项的无效点击的方法和设备被提供。
根据本发明, 一个用于检测无效点击的方法和设备,其可以检测各种 不正当地增加搜索项点击量的尝试,并且立即处理这些尝试。g卩,如果新 模型的不公平的点击尝试被发现,则该模型或规则被存储在一个根据本发 明的无效点击模型存储单元中。从而,立即处理这个遵循新模型的不公平 点击尝试是可能的。
此外,根据本发明提供了一个用于检测无效点击的方法和设备,其可 以防止为了检测无效点击而提供的几个标识符被仿造或伪造。
尽管本发明已经关于附图中说明的本发明实施例而被说明,然而它并 没有被限制在其中,因为对于所属领域技术人员来说,显然可以在其中做 出不同的置换、修改和改变。本发明的范围由附加的权利要求来定义。所 有在权利要求的意义和范围内做出的改变或修改或其等效物应该被看作 是属于本发明的范围。
权利要求
1. 一种用于检测无效点击的设备,包括点击计数器装置,用于针对包括在由因特网搜索引擎提供的搜索结果网页内的搜索项,计数预定时段内每个搜索项的搜索器点击量;平均点击量计算装置,用于在预定时段内计算属于搜索项所属类别的搜索项的平均点击量;和决定装置,用于确定每个搜索项的点击量是否比平均点击量大一个预定的差。
2. —种用于检测无效点击的设备,包括点击计数器装置,用于针对包括在由因特网搜索引擎提供的搜索结果 网页内的搜索项,计数预定时段内每个搜索项的搜索器点击量;平均点击量的计算装置,用于在预定时段内在搜索结果网页中,计算 位于搜索项上端的搜索项的预定第一数量和位于搜索项下端的搜索项的 预定第二数量的平均点击量;和决定装置,用于确定每个搜索项的点击量是否比平均点击量大一个预 定的差。
全文摘要
本发明涉及一种因特网搜索引擎服务器。更明确地说,本发明涉及用于检测搜索项的无效点击的方法和设备,搜索项被包括在一个由因特网搜索引擎服务器提供的搜索结果网页内。本发明涉及一种用于在因特网搜索引擎中检测无效点击的方法,包括下列步骤响应于来自于搜索器的搜索请求产搜索结果网页;获取一对应于被产生网页的页面标识符;从搜索器接收一包括在搜索结果网页内的搜索项的点击;获取一对应于被点击的搜索项的站点标识符;并且如果页面标识符和站点标识符与预定时段内的其它点击有关的页面标识符和站点标识符一致,则确定该点击无效。根据本发明提供了一个用于检测无效点击的方法和设备,其检测各种不正当地增加搜索项点击量的尝试,并且立即处理这些尝试。
文档编号G06F17/30GK101388035SQ20081016103
公开日2009年3月18日 申请日期2004年2月27日 优先权日2003年3月19日
发明者姜锡昊, 李宇晟, 河定秀 申请人:Nhn株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1