网站的流量预测的制作方法

文档序号:6569678阅读:190来源:国知局
专利名称:网站的流量预测的制作方法
技术领域
本文中所描述的实施方案一般地涉及对在线站点的用户流量的预
测。
背景技术
在日益增长的网络世界中,消费者常常使用在线资源来访问信息。 例如,搜索引擎是一种流行的工具,用户通过搜索引擎输入用以描述 感兴趣的信息的搜索查询,并接收与搜索查询相关的文档或到文档的 链接。搜索引擎可适合于特定的兴趣领域,例如通用网页搜索引擎、 新闻搜索引擎或购物搜索引擎。
对于在线资源(例如搜索引擎)的操作者期望能够智能地预测关 于可能参观特定网站的用户类型的信息。例如,当搜索引擎显示与特 定网站链接的广告时,可使用这种类型的"流量预测"。如果搜索引 擎的提供商知晓用于表征可能点击特定广告或参观由广告引用的网站
的流量的一般概况(profile),则搜索引擎提供商能够侦查出不能反映 真实用户兴趣的无效或非真正用户行为。例如,当搜索引擎提供商基 于与广告主的网站相关的流量向广告主收费时,从真实用户行为辨别 出无效用户行为(即,流量)就特别重要。在这种情况下,搜索引擎 提供商希望能够从真实用户行为辨别出无效用户行为,并且仅向广告 主收取真实用户行为的费用。
除了广告显示和搜索引擎的情形之外,预测用户行为在多种在线 情形中都是有用的。例如,网站设计者希望预测对网站的建议修改将 如何影响在网站或对网站的用户行为。

发明内容
本发明一方面涉及一种预测在网站的用户流量概况的计算机实现 方法。该方法包括基于所述网站的至少一个特征表征所述网站;基 于所述网站的表征结果选择初始流量概况;和基于所述网站的表征结 果和所述初始流量概况生成预测的用户流量概况。
本发明另一方面涉及一种对网站建立模型的计算机实现的方法。 该方法包括基于所述网站的特征向所述模型分配一组初始标签,所 述标签中的每一个描述所述网站的至少一个特征。该方法还包括基 于所分配的所述一组初始标签确定所述网站的初始流量概况;和递归 地更新所述一组标签和所述流量概况,以获得所述网站的最终预测流 量概况。


结合并构成本申请一部分的附图与说明书一起示出本发明的实施 例,并解释本发明。在附图中,
图l是从总体上概念性示出根据本发明的多个方面的示例性实施 方案的示图2是可实施与本发明原理一致的概念的示意性系统的示图; 图3是图2中示出的计算装置中的一个的示例性示图4是示出在产生网站的流量预测模型时的图2中所示的流量预测 组件的示例性操作的流程图5是概念性示出网站的示例性模型的产生的示图;和 图6是示出站点的预测流量概况的示例性使用的流程图。
具体实施例方式
本发明的以下详细说明引用附图。该详细说明不限制本发明。 概述
根据本发明原理的实施方案基于站点的特征在网站预测流量模型。
图1是从总体上概念性示出根据本发明的多个方面的示例性实施 方案的示图。其中,考虑了将用户连接到网站的网络,例如互联网110。 示出3个示例性网站在线购物站点120、通用新闻站点125、和评论
新消费者计算机硬件的站点130。在多个方面中,站点120、 125和130 彼此不同。例如,站点120是购物性站点,而站点125和130是信息 性站点。作为新闻站点的站点125可能具有比定向为计算机爱好者的 站点130更广泛的访问者。站点120、 125和130可能在多个附加方面 彼此不同,例如在站点的布局、站点使用的颜色方案和每一站点使用 的文字类型。
根据不同网站的不同特征(例如,站点120、 125和130的不同特 征),网页浏览者可表现出完全不同的行为。即,参观购物站点120 的人的行为可能与在参观新闻站点125时不同。例如,新闻站点130 可能包含更长的文章,用户读取文章的时间可能比阅读购物站点120 上的产品描述的时间更长。
根据本发明的一方面,可基于与站点120、 125和130相关的特征 分别为站点120、 125和130预测用户流量概况121、 126和131。流量 概况121、 126和131中的每一个可从总体描述对站点的一般参观者所 期望的行为。
系统描述
图2是可实施与本发明原理一致的概念的示意性系统200的示图。 系统200可包括多个客户端210,这些客户端可经由网络240连接到服 务器220和230。服务器220和230可包括向客户端210提供服务的装 置,例如网页服务器、电子邮件服务器等。在一个实施方案中, 一个 或多个服务器220和230包括流量预测组件235。如将在下文中更详细 描述的,流量预测组件235产生网站的用户流量概况。流量预测组件225并不是在与网络240连接的服务器上实施,而是更一般地在与网络 连接或不与网络连接的任意计算装置上实施。
网络240可包括局域网(LAN)、广域网(WAN)、电话网络, 例如公共交换电话网(PSTN)、企业网、互联网或这些网络的组合。 为了简单,3个客户端210和2个服务器220和230示出为与网络240 连接。在实践中,可存在更多客户端和/或服务器。此外,在某些情况 下,客户端可执行服务器的一个或多个功能,服务器可执行客户端的 一个或多个功能。
客户端210可包括一种装置(例如个人计算机、无线电话、个人 数字助理(PDA)、笔记本电脑、或其它类型的计算或通信装置)、 在这些装置之一上运行的线程或处理、和/或由这些装置之一可执行的 对象。客户端210的用户可访问服务器220和230,或从其接收信息。
示例性计算装置构架 图3是计算装置300(例如,客户端210、服务器220和服务器230 中之一)的示例性示图。计算装置300可包括总线310、处理器320、 主存储器330、只读存储器(ROM) 340、存储装置350、输入装置360、 输出装置370和通信接口 380。总线310可包括允许在计算装置300的 组件之间通信的路径。
处理器320可包括任意类型处理器、微处理器或能解译和执行指 令的处理逻辑。主存储器330可包括随机访问存储器(RAM)或能够 存储由处理器320执行的信息和指令的其它类型动态存储装置。ROM 340可包括ROM装置或能存储由处理器320所使用的静态信息和质量 的其它类型静态存储装置。存储装置350可包括磁记录介质和/或光学 记录介质,及其对应的驱动器。
输入装置360可包括允许用户向计算装置300输入信息的机构,例如键盘、鼠标、电子笔、语音识别和/或生物机构等。输出装置370 可包括向用户输出信息的机构,包括显示器、打印机、扬声器等。通
信接口 380可包括能使得计算装置300与其它装置和/或系统通信的任 意类似收发器的机构。例如,通信接口 380可包括经由网络(例如网 络240)与其它装置或系统通信的机构。
流量预测组件235可以在软件中实施,并且可存储在计算机可读 介质(例如存储器330)中。计算机可读介质可定义为一个或多个物理 或逻辑存储器装置和/或载波。
可经由通信接口 380,可从其它计算机可读介质(例如数据存储装 置350)或其它装置向存储器330中写入用以定义流量预测组件235的 软件指令。在存储器330中包含的软件指令使得处理器320能够执行 随后将描述的处理。或者,可使用硬连接电路来代替软件指令或与软 件指令组合,以实现根据本发明的处理。因此,根据本发明原理的实 施方案不限于硬件电路和软件的任意特定组合。
流量预测组件235
流量预测组件235 —般地可用于以根据网站的不同的方式对网站 分类,其中这些网站的不同可导致或涉及站点的不同流量概况。作为 这里所使用的短语,站点的流量概况指的是趋向于表征网站的用户的 任意一组数据,或用户在站点所趋向的行为的任意一组数据。可包括 在流量概况中的要素实例包括典型用户将在站点花费多长时间、典 型用户将在站点中点击多"深"或多少链接、典型用户的屏幕大小、 典型用户的浏览器类型、或用户人口统计信息。
图4是示出在产生网站的流量预测模型时的流量预测组件235的 示例性操作的流程图。可通过用以描述站点各方面的多个标记或标签 来描述网站(即,分类)。可为网站探试式(heuristically)确定用以 描述站点的一组初始标签(操作401)。例如,可使用一组预定规则来产生这组初始标签。
基于用以描述网站的初始标签,可确定站点的初始流量概况(操
作402)。初始流量概况可基于在与被建立模型的站点类似的站点所观
察的流量概况。初始标签可用于确定哪个站点与被建立模型的站点类 似。
然后,网站标签和流量概况可递归修改,直到流量概况和站点标
签稳定(操作403)。最后的一组站点标签和最后的流量概况可看作由 流量预测组件235产生的站点模型。由该模型所描述的流量概况代表 网站的所预测流量概况。
图5是概念性示出网站的模型500 (例如,如图4中所示的操作产 生的模型)的产生的示图。模型500可包括用以描述或分类站点的一 组描述性标签510。 一般地,为了分类网站的目的而产生描述性标签 510,因此不同网站涉及不同的流量概况。可能有许多不同标签。可使 用的实例性标签包括用以指示由站点所使用的主要语言(例如英语、 法语等)的标签;用以按类型或意图来分类站点(例如购物站点或新 闻站点)的标签;用以按行业类别来分类站点(例如以计算机爱好者 为目标的站点或以房屋承包者为目标的站点)的标签;涉及站点的主 机的地理位置的标签;用以指示(购物站点的)待售产品的平均价格 的标签;或用以表征站点的超文本标记语言(HTML)布局的标签,例 如涉及作为文本或图像的站点视觉布局的一部分的标签。本领域普通 技术人员将认可,可以使用额外标签。
可基于探试式信号515设置站点的初始描述性标签。 一般地,探 试式信号515可包括用于设定在这组描述性标签510中的一个或多个 标签的预定规则。探试式信号515可包括例如目录信息信号516,其可 基于网站的已知目录设置用以反映网站的类别的标签。可使用的一个 这样的网站的已知目录是The Open Directory Project(http:〃dmoz.org/),其是使用分级目录结构对网站分类的网页人工编译目录。探试式信号
515可额外地包括基于网页的词汇分析的信号517。信号517例如可用 于设置用以表征由站点所使用的主要语言,或由站点所使用的文字类 型的标签(例如,站点是否使用许多技术术语的指示)。探试式信号 515可额外地包括基于网站的地理特征的信号518,例如由网站的IP 地址所确定的网站主机的位置。可设置一个或多个标签,以定义网站 的地理位置。探试式信号515的上述实例是示例性的,本领域普通技 术人员将认可,其它探试式信号也可用于产生标签。例如,基于来自 与被建立模型的站点链接的站点的文本的探试式信号可用于产生标 签。例如,如果一个站点与许多已知购物站点(或其它类型站点)链 接,则可设置标签。作为探试式信号515的另一实例,网页的设计可 以与网页是否为示例性特定类型站点匹配。例如,具有包含图像、描 述和价格的许多网页的网站可能是在线商店。
模型500可额外地包括用以描述或分类站点的流量概况520。流量 概况520可包括用以表征在站点的(包含流量行为的)期望流量的值 或标签。流量概况520可包括例如以下值典型用户将在站点花费多 长时间、典型用户将在站点中点击多"深"或多少链接、典型用户的 屏幕大小、典型用户的浏览器类型、或典型用户统计信息。
可初始设置流量概况520,以反映所估测的流量概况521。可基于 在具有与一组初始的描述性标签510类似的一组描述性标签的另一站 点的流量的己知流量概况来设置初始流量概况521。例如,如果被建立 模型的站点是购物站点,则初始估测的流量概况521可以是来自另一 购物站点的己知(即,观察的)流量概况。
可执行操作403的递归分析,以更新所述一组描述性标签510和 流量概括520。在一实施方案中,描述性标签510可被随机更新。例如, 可潜在应用于网站的(基于流量概况520)的标签的出现被跟踪,并且 如果标签出现的足够频繁,则可认为,所述标签从统计方面可能应用于网站。相反,不频繁出现的标签可认为是不应用于网站的虚假标签。
作为实践模型500的实例,考虑用以比较不同汽油卖家的优点的 网站。该站点是产品比较站点,尽管在该站点上的用户行为可能与在 对用户可能直接在线购买的产品相比较的产品比较站点上的用户行为 明显不同。即,用户不浏览用于寻找要卖产品的汽油卖家比较站点, 而是浏览在该站点上可用的信息。在这一实例中,站点的流量概况可 能与用以比较或提供除了其它产品比较站点之外的不同公司的相关信
息类似的站点。当在该站点实践时,模型500趋向于产生与用以比较
或提供不同公司的相关信息的站点一致的流量概况。
作为训练模型500的另一实例,考虑新闻网站。对新闻网站的参
观者趋向于将他们的焦点放在特定文章上,并通读这些特定文章,直 到他们完成了文章的文本的阅读为止。这种行为可以与产品比较站点 的流量形成对比,在该站点, 一旦用户找到了满足他们需要的产品,
则他们很可能停止阅读特定产品页面。在新闻站点上训练时,模型500 将倾向于产生与例如这种行为差异一致的流量概况。
通过流量预测组件235产生的模型的示例性使用 现在将描述模型500的特定使用实例。如先前所述,流量预测组 件235可用于自动训练模型500,以获得站点的期望流量概况,而不需 要在站点进行流量的物理测量或观察。可以以多种方式使用站点的所 预测流量概况。
图6是示出站点的预测流量概况的示例性使用的流程图。如图所 示,例如可通过接收或识别站点的URL来识别所关心的站点(操作 601) 。 URL可用于查询站点的预测流量概况(操作602),例如由流 量预测组件235先前产生的流量概况。然后,在预定时间帧观察站点 的实际流量概况(操作603)。可将实际流量概况与所观察的流量概况 相比较,并根据多个阈值作出关于实际流量概况是否与预测流量概况不同的判断(操作604)。如果是,则这可能是站点的实际流量不真实
的指示(操作605)。
期望检测不真实流量的一个实例出现在在线广告的情况下。广告 主可基于"点进"广告主的网站的广告的用户个数来付费,以显示他 们的广告。广告主期望仅为真实的点进(即,由真实地对该广告感兴 趣的人类用户的点进)付费。由自动程序或由不是实际上对广告感兴 趣的恶意用户的广告点进将趋向于产生与预测流量概况不匹配的流量 概况。
如流量预测组件235所判定的,使用预测流量概况520的另一方 式是通过使用与用户可能在该站点花费的时间相关的预测信息来优化 向用户显示的广告。例如,可基于用户期望浏览该站点的时间的量, 向用户循环不同的广告。
网页设计者可使用浏览预测组件235来预测用户如何与不同网页 布局交互。预测用户可能如何与页面交互可有助于设计者在页面中部 署单元。
流量预测组件235的另一用途是在网页服务器负载平衡的领域中。 预测用户将如何与网站交互可用于智能管理站点的负载平衡,例如通 过智能预提取或延迟图像负载,直到用户期望请求为止。
结论
如上所述的流量预测组件235可用于基于用以表征站点的标签来 自动产生预测流量概况。所述标签可包括例如用以指示与该站点相关 的行业以及站点的期望用途的标签。可基于预定探试式方式自动发送 这些标签。
本发明示例性实施例的以上描述提供了示例和描述,但并没有穷
14尽或将本发明限制在所公开的精确形式。可以根据以上教导或可以从 本发明实践获得修改和改变。
例如,尽管参照图4和图6描述了一系列操作,但是这些操作的 顺序在根据本发明的其它实施方案中可以改变。此外,可以并行实现 非依赖性的操作。
本领域普通技术人员清楚的是,如上所述的本发明的多个方面可 以以如在附图中所示的实施方案中的许多不同形式的软件、固件和硬 件来实现。用于实施根据本发明原理的多个方面的实际软件编码或专 用控制硬件不限制本发明。因此,在没有引用专用软件代码的情况下 描述了本发明的多个方面的操作和行为一一本领域普通技术人员可以 理解,能够设计软件和控制硬件,以实施基于这里描述的多个方面。
此外,本发明的某些部分可以作为用以执行一个或多个功能的"逻 辑"或"组件"来实现。这种逻辑或组件可包括硬件(例如专用集成 电路或场可编程栅极阵列)、软件或硬件和软件的组合。
本发明的说明书中所使用的单元、操作或指令不应理解为对本发 明的重要的或基本的,除非这里清楚的描述。并且,如此处所使用的, 不加数量限制的项旨在包括一个或者多个项。在仅仅指一个项的地方, 使用了术语"一个"或者类似表述。此外,短语"基于"指的是"至少部 分地基于",除非清楚说明。
权利要求
1.一种预测在网站上的用户流量概况的计算机实现的方法,所述方法包括以下步骤基于所述网站的至少一个特征表征所述网站;基于对所述网站的表征选择初始流量概况;以及基于对所述网站的表征和所述初始流量概况生成预测的用户流量概况。
2. 根据权利要求l所述的方法,其中使用多个标签来描述所述网 站的所述至少一个特征以表征所述网站。
3. 根据权利要求2所述的方法,其中选择所述初始流量概况的步 骤包括基于与另一网站相关联的所观察到的流量概况选择所述初始 流量概况。
4. 根据权利要求3所述的方法,其中基于与另一网站相关联的所 观察到的流量概况选择所述初始流量概况的步骤包括选择与另一网站相关联的初始流量概况,其中所述另一网站与类似于所述多个标签 的第二多个标签相关联。
5. 根据权利要求2所述的方法,其中生成预测的流量概况的步骤 包括递归更新所述多个标签和所预测的流量概况。
6. 根据权利要求2所述的方法,其中所述多个标签包括涉及所述站点的期望用途的标签。
7. 根据权利要求2所述的方法,其中所述多个标签包括涉及所 述站点的行业类别的标签。
8. 根据权利要求2所述的方法,其中所述多个标签包括以下标签中的至少一个指示由所述站点使用的主要语言的标签; 涉及所述站点的主机的地理位置的标签;或 涉及所述站点的视觉布局的标签。
9. 根据权利要求l所述的方法,其中所述流量概况包括涉及典 型用户将在所述站点花费多长时间的值。
10. 根据权利要求l所述的方法,其中所述流量概况包括涉及典 型用户将在所述站点选择多少链接的值。
11. 根据权利要求l所述的方法,其中所述流量概况包括涉及典 型用户的屏幕大小或典型用户的浏览器类型的值。
12. 根据权利要求2所述的方法,还包括探试式确定用于所述多个标签的初始值。
13. —种对网站建立模型的计算机实现的方法,包括以下步骤-基于所述网站的特征向所述模型分配一组初始标签,所述标签中的每一个描述所述网站的至少一个特征;基于所分配的所述一组初始标签确定所述网站的初始流量概况;以及递归更新所述一组标签和所述流量概况,以获得所述网站的最终 预测的流量概况。
14,根据权利要求13所述的方法,其中确定所述网站的初始流量 概况的步骤包括基于所观察到的来自另一网站的流量概况确定所述 初始流量概况。
15. 根据权利要求13所述的方法,其中确定所述初始流量概况的 步骤包括从另一网站选择所述初始流量概况,其中所述另一网站与 类似于所述一组初始标签的第二组标签相关联。
16. 根据权利要求13所述的方法,其中所述一组初始标签包括 涉及所述站点的期望用途的标签。
17. 根据权利要求13所述的方法,其中所述一组初始标签包括 涉及所述站点的行业类别的标签。
18. 根据权利要求13所述的方法,其中所述一组初始标签包括以下标签中的至少一个指示由所述站点使用的主要语言的标签; 涉及所述站点的主机的地理位置的标签;或 涉及所述站点的视觉布局的标签。
19. 根据权利要求13所述的方法,其中所述初始流量概况包括 涉及典型用户将在所述站点花费多长时间的值。
20. 根据权利要求13所述的方法,其中所述初始流量概况包括涉及典型用户将在所述站点选择多少链接的值。
21. 根据权利要求13所述的方法,其中所述初始流量概况包括涉及典型用户的屏幕大小或典型用户的浏览器类型的值。
22. —种含有由处理逻辑执行的指令的计算机可读介质,所述计 算机可读介质包括基于所述网站的至少一个特征表征所述网站的指令; 基于对所述网站的表征选择初始流量概况的指令;以及 基于对所述网站的表征和所述初始流量概况生成预测在所述网站上的用户流量的概况的指令。
23. 根据权利要求22所述的计算机可读介质,其中使用多个标签 来描述所述网站的至少一个特征以表征所述网站,并且所述计算机可读介质存储涉及所述站点的期望用途的标签;或 涉及所述站点的行业类别的标签。
24. —种设备,包括基于所述网站的特征向模型分配一组初始标签的装置,所述标签中的每一个描述所述网站的至少一个特征;基于所分配的所述一组初始标签确定所述网站的初始流量概况的装置;和递归更新所述一组标签和所述流量概况,以获得所述网站的最终 预测的流量概况的装置。
25. —种预测在网站上的用户流量概况的计算机实现的方法,所 述方法包括基于一组预定规则确定用以表征所述网站的至少一个特征的一组 初始标签,所述一组初始标签包括涉及所述站点的期望用途的标签 或涉及所述站点的行业类别的标签;基于所述一组初始标签与为其它网站确定的标签的比较结果来选 择初始流量概况,以定位类似于所述网站的其它网站的初始流量概况;递归更新所述流量概况和所述一组标签,以生成所述网站的模型;使用所述模型,以预测在所述网站上的流量;比较所预测的流量与观察到的流量;以及当所观察到的流量与所预测的流量不相匹配时,输出信号。
全文摘要
流量预测组件可基于用以表征站点的标签自动产生网站的预测流量概况。可基于一组预定规则为网站选择一组初始标签。可基于一组初始标签选择初始流量概况。然后,基于一组初始标签和基于初始流量概况产生预测用户流量。
文档编号G06F15/173GK101517967SQ200680043084
公开日2009年8月26日 申请日期2006年9月18日 优先权日2005年9月19日
发明者维克托·班尼特 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1