一种基于骨干网的用户上网数据处理方法和系统的制作方法

文档序号:7764821阅读:397来源:国知局
专利名称:一种基于骨干网的用户上网数据处理方法和系统的制作方法
技术领域
本发明涉及网络数据处理技术,尤其涉及一种基于骨干网的用户上网数据处理方 法和系统。
背景技术
电信运营商通常拥有数百万的互联网宽带用户,相应骨干网的数据流总带宽在TB 级别。多种应用需要在网络数据链路层面上采集宽带用户的上网数据,刻画用户的上网行 为特征。为了实现在电信运营商的骨干网络上覆盖全范围内的宽带用户的上网行为,需要 在电信运营商骨干网络上合理地部署数据采集点以尽量有效获得全体宽带用户的上网数 据,并尽量获得用户上网行为的全面描述信息。目前业界还没有基于电信运营商骨干网络的用户上网行为数据采集解决方案。

发明内容
本发明要解决的一个技术问题是提供一种用户上网数据处理方法,能够在骨干网 上对个体用户上网行为进行描述。本发明提供一种基于骨干网的用户上网数据处理方法,包括在骨干网上通过数据采集点采集用户上网数据;根据从用户上网数据中提取的用户IP信息获得用户标识;按照用户标识对用户上网数据进行存储;从按照用户标识存储的用户上网数据获得用户的上网行为描述信息。进一步,用户的上网行为描述信息包括访问时间、网站IP地址、网站URL、页面文 本标题、关键词、网站cookie、和页面Referrer中的至少一个。进一步,根据网络拓扑层次结构和网络路由策略在骨干网上的部署数据采集点。进一步,对于采用静态路由策略决定数据转发路径的路由器,在路由器的输出端 口采集用户上网数据;禾口/ 或对于采用动态路由策略决定数据转发路径的路由器,根据metric信息选择路由 器输出端口网络链路以部署数据采集点;禾口/ 或在传输距离短或链路状态好的路由器输出端口网络链路部署数据采集点;禾口/ 或对于路由器将数据按照负载均衡原则转发到多条网络链路上,每条链路以均等机 会获得并传输数据的情况,从多条网络链路上选择任意一条链路部署数据采集点;和/ 或在拓扑结构上层的数据链路上部署数据采集点。
进一步,该方法还包括数据采集点部署在数据流分散之前和/或数据流汇聚之 后的网络路由设备的输入端口或输出端口上。本发明要解决的一个技术问题是提供一种用户上网数据处理系统,能够在骨干网 上对个体用户上网行为进行描述。本发明提供一种基于骨干网的用户上网数据处理系统,包括多个数据采集设备,用于在骨干网上采集用户上网数据;用户标识获取设备,用于根据从用户上网数据中提取的用户IP信息获得用户标 识;上网数据存储设备,用于按照用户标识对用户上网数据进行存储;描述信息提取设备,用于从按照用户标识存储的用户上网数据获得用户的上网行 为描述信息。进一步,用户的上网行为描述信息包括访问时间、网站IP地址、网站URL、页面文 本标题、关键词、网站cookie、和页面Referrer中的至少一个。进一步,对于采用动态路由策略决定数据转发路径的路由器数据采集设备部署在骨干网根据metric信息选择的路由器输出端口网络链路 上;和/ 或数据采集设备部署在骨干网的传输距离短或链路状态好的路由器输出端口网络 链路上;和/ 或对于路由器将数据按照负载均衡原则转发到多条网络链路上,每条链路以均等机 会获得并传输数据的情况,数据采集设备部署在从多条网络链路上选择任意一条链路。进一步,数据采集点部署在数据流分散之前和/或数据流汇聚之后的网络路由设 备的输入端口或输出端口上。通过本发明实施例的用户上网数据处理方法和系统,在骨干网中采集用户上网数 据,将用户的上网数据按照用户进行存储,并分析获得各个用户的上网行为描述信息,能够 较好地获得个体用户上网行为描述。


图1示出本发明的基于骨干网的用户上网数据处理方法的一个实施例的流程图;图2示出路由器输入输出链路示意图;图3示出本发明的基于骨干网的用户上网数据处理系统的一个实施例的结构图;图4示出宽带用户群体对互联网网站的访问事件的集合在由时间、用户、和网站 组成的三维空间中的示意图;图5示出部署在网络链路上的采集点对用户访问网站事件在时间上进行均勻的 随机采样所观察到的用户对网站的访问事件的集合;图6示出部署在网络链路上的采集点对用户访问网站事件在时间上进行非均勻 的随机采样所观察到的用户对网站的访问事件的集合;图7示出特定用户的互联网访问数据由特定网络链路来传输的路由策略相对固定的情况下所观察到的用户对网站的访问事件的集合;图8示出在特定的电信运营商IDC机房部署采集点所观察到的用户对网站的访问 事件的集合;图9示出三个宽带用户对多个网站的访问行为在由时间和网站组成的二维空间 中的示意图;图10示出部署在固定网络链路上的采集点将对个体用户访问网站事件在时间上 进行均勻的随机采样所观察到的个体用户对网站的访问事件的集合;图11示出部署在固定网络链路上的采集点将对个体用户访问网站事件在时间上 进行非均勻的随机采样所观察到的个体用户对网站的访问事件的集合;图12示出部署在特定的电信运营商IDC机房的采集点所观察到的个体用户对网 站的访问事件的集合;图13示出一个电信网络链路上数据采样点例子的示意图;以及图14示出一个电信运营商省级中心的骨干网络结构及其采集点部署示意图。
具体实施例方式下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。图1示出本发明的基于骨干网的用户上网数据处理方法的一个实施例的流程图。如图1所示,在步骤102,在骨干网上通过数据采集点采集用户上网数据。例如,根 据电信网络路由策略选择数据采集点的部署方式。在步骤104,根据从用户上网数据中提取的用户IP信息获得用户标识。例如,从 AAA服务器获取网络用户上下线信息,获得用户标识和IP地址的对应关系;根据用户上网 数据中提取的IP地址以及用户标识和IP地址的对应关系,获得用户标识信息。在步骤106,按照用户标识对用户上网数据进行存储。将采集的用户上网数据按照 不同的用户标识分别存储,例如,存储在根据用户标识索引的各个用户目录中。在步骤108,从按照用户标识存储的用户上网数据获得用户的上网行为描述信息。 对不同用户的上网数据进行分析,获得各个用户的上网行为描述信息。用户的上网行为描 述信息例如包括访问时间、网站IP地址、网站URL、页面文本标题或用户提交的关键词、网 站Cookie、页面Referrer等信息。可以通过多个关键词来描述用户上网行为特征,作为用 户上网行为描述信息,从用户访问页面的文本标题或者内容匹配各个关键词,从而体现用 户上网行为特征。例如,采集代表宽带用户对网站页面的访问动作的HTTP请求数据以及相应网站 页面的内容信息,宽带用户的上网行为描述信息可以通过用户对网站页面的访问事件来描 述。每个访问事件记录了用户端信息和网站端信息,用户端信息包括用户UserlD、访问时 间、用户IP地址,网站端信息包括网站IP地址、网站URL、页面文本标题或用户提交的关键 词。在上述实施例中,在骨干网中采集用户上网数据,将用户的上网数据按照用户进 行存储,并分析获得各个用户的上网行为描述信息,能够较好地获得个体用户上网行为描 述,并根据个体用户上网信息描述获得用户群体上网行为描述。此外,由于区分用户进行数 据存储和分析,可以在部分或者较少的链路上部署采集点,通过时间的积累获得个体用户上网行为描述,减少骨干网上数据采集点的部署,而同时仍能在统计意义上较准确地获得 用户上网行为描述,从而减少了系统的成本,便于实施应用。网络拓扑结构上的关键节点由与之相关的链路连接和路由策略共同决定。本发明 的一个实施例根据网络拓扑层次结构和网络路由策略在骨干网上部署数据采集点,从而实 现在电信网络中部署适量数据采集点,并尽量获得该网络范围内所有个体用户在统计意义 上的准确上网行为。一种实现方式是数据采集点部署在数据流分散之前和/或数据流汇聚 之后的网络路由设备的输入端口或输出端口上,从而以尽量少的采集点部署获得尽可能多 的用户数据。电信网络的骨干网由大量路由器彼此连接组成的,当一个数据包需要从网络链路 的A节点传输到B节点时往往面临多条传输路径,这时电信网络需要采用路由策略来决定 如何选择数据的传输路径。从大体上说路由策略分为动态路由策略和静态路由策略。动态路由策略是指电信网络能够根据当前网络状况确定最优的数据传输路径,常 用的路由协议包括基于距离向量的RIP协议、基于链路状态的OSPF协议、和基于路径向量 的BGP协议。RIP协议采用Bellman-Ford算法确定跳跃计数(Hop Count)最少的网络链 路为最优传输路径并写入路由表。OSPF协议采用Dijkstra' s算法确定带宽最大的网络 链路为最优传输路径并写入路由表,该协议用于同一电信运营商运营的具有统一路由策略 的自治系统网络内(参见RFC1930)。BGP协议采用经过修改的Bellman-Ford算法(参见 RFC1322)根据一系列与网络链路相关的参数来确定最优传输路径并写入路由表,该协议用 于不同自治系统网络之间(参见RFC1930)。如果多条可用网络链路具有相同的优先级顺 序,那么路由器会根据负载均衡原则将数据均勻地转发到各条链路上。在采用动态路由策 略的网络中路由器会根据不同网络状态选择不同网络链路传输数据。在这种情况下,如果 网络结构状态稳定,则网络路由器的每个输出端口所连接的网络链路所传输的数据内容不 变,如果网络状态结构发生变化,则路由器可使用网络路由协议探测到该变化,进而更新其 路由表,这样路由器输出端口所连网络链路上传输的数据内容就会发生变化。这种数据内 容的变化可能反映在时间、用户、和网站任何一个维度上。除了动态路由策略外,路由器还可以采用人工设置的特定数据转发规则来选择网 络链路,即静态路由策略。比如电信运营商可以对具有不同源或目的IP地址段的数据选择 不同的网络链路,或者根据不同的数据类型(比如HTTP数据、流媒体数据、P2P数据)选择 不同的网络链路。通常静态路由策略规则直接作用在数据转发过程中,优先级高于基于网 络协议的动态路由策略。在这种情况下,网络路由器的不同输出端口所连接的网络链路传 输的数据具有不同且固定的内容特征,并且不同转发规则决定了不同链路数据在时间、用 户、和网站这三个维度上的差异。图2示出路由器输入输出链路示意图。如图2所示,路由器21通过输入端口有m 条输入数据链路,通过输出端口有m’条输出数据链路,数据采集点部署在输出数据链路上。 路由器21可以采用不同的路由策略。下面根据路由器21的路由策略介绍如何确定数据采 集点的部署。为了既获得反映用户群体真实上网行为的数据,又能有效控制采集成本,可以采 用统计采样方法在电信骨干网络上选择合适的数据采集点部署采集设备,并且确保采集到 的数据样本对整体的代表性。因此根据不同的电信网络路由策略采取不同方式在电信网络路由器的输出端口所连接的网络链路上部署数据采集设备。对以动态路由策略配置的路由器,数据被转发到各个输出端口所连网络链路上的 转发规则是根据当时的网络状态动态确定,可以根据电信运营商提供的运营经验规则在可 靠性高稳定性好的网络链路上部署数据采集点。不同的采集点部署方式对采集到的数据样 本的影响有两种情况在一般情况下为了获得对数据整体状况有代表性的数据样本,可以在尽可能多的 路由器输出端口所连网络链路上部署采集点,使得数据的样本量大且受网络变化影响小。 一个极端情况是在所有输出端口网络链路上部署采集点以获得全体数据,这样数据特征就 不受网络变化影响。但是在实际操作中,所能部署的采集点个数受限于系统建设成本。如果路由器将数据按照负载均衡原则转发到多条网络链路上,每条链路都以均等 机会获得并传输数据,这种情况下可在任何一条链路上部署采集点,而获得的数据样本在 统计意义上都能代表数据整体状况。这样,就可以大大减少采集点的部署,减少系统建设成 本。对以静态路由策略配置的路由器,相应路由转发规则已经事先确定,各条路由器 输出端口所连网络链路上的数据内容特征也已确定,可以根据实际需要决定在哪条网络链 路上采集什么样的用户上网行为数据。例如,如果路由器将从不同源IP地址发来的数据转 发至不同输出端口所连的网络链路上,可以根据自身需要决定需要采集的数据样本范围 或者在所有链路上部署采集点以获得全部源IP地址对应的数据,或者选择性地在特定的 链路上部署采集点以获得部分源IP地址段的数据。根据本发明的一个实施例,在数据采集容量允许的情况下,在拓扑结构上层的数 据链路上部署数据采集点,以覆盖更多的宽带用户。根据本发明的一个实施例,在由静态路 由策略确定的所有数据传输链路上部署采集点,包括具有不同目的地址的数据由不同链路 传输的情况(比如目的网站在省内设有站点),以实现完全覆盖上网行为在时间和网站维 度上的分布。根据本发明的一个实施例,在多条负载均衡链路上任选一条部署采集点,即可 获得在时间和网站维度上的具有准确统计意义的用户上网行为。根据本发明的一个实施 例,在多条热备链路(即不同链路上数据相同)上均部署采集点,但在正常情况下只启用一 条,若链路发生故障则启用其它链路上的采集点,以应对网络拓扑结构发生变化,实现对该 链路上用户上网行为数据在时间和网站维度上的完全覆盖。对于冷备链路上可以不部署采 集点,以节省成本。图3示出本发明的基于骨干网的用户上网数据处理系统的一个实施例的结构图。 如图3所示,该系统包括多个数据采集设备31、用户标识获取设备32、上网数据存储设备33 和描述信息提取设备34。其中,数据采集设备31在骨干网上采集用户上网数据,将采集的 用户上网数据发给用户标识获取设备32。用户标识获取设备32根据从用户上网数据中提 取的用户IP信息获得用户标识,将获得的用户标识发送给上网数据存储设备33。上网数据 存储设备33按照用户标识对用户上网数据进行存储。描述信息提取设备34从按照用户标 识存储的用户上网数据获得用户的上网行为描述信息。例如,用户的上网行为描述信息包 括访问时间、网站IP地址、网站URL、页面文本标题、关键词、网站cookie、和页面Referrer 中的至少一个。根据本发明的一个实施例,对于采用动态路由策略决定数据转发路径的路由器数据采集设备部署在骨干网根据metric信息选择的路由器输出端口网络链路上;和/或数 据采集设备部署在骨干网的传输距离短或链路状态好的路由器输出端口网络链路上;和/ 或对于路由器将数据按照负载均衡原则转发到多条网络链路上,每条链路以均等机会获得 并传输数据的情况,数据采集设备部署在从多条网络链路上选择任意一条链路。这种情况 下可在任何一条链路上部署采集点,而获得的数据样本在统计意义上都能代表数据整体状 况,就可以大大减少采集点的部署,减少系统建设成本。在路由策略与时间无关的情况下, 数据采集设备部署在固定网络链路上对用户访问网站事件在时间上进行均勻的随机采样。 这样随着采样时间的延长和样本数据的不断积累,采集得到的访问事件样本最终会在统计 意义上趋向于用户对网站的访问事件的全体集合。在这种情况下,可以减少采用时间,但仍 然能够获得统计意义上用户对网站的访问事件的全体集合,减少了运营成本。下面从时间、用户、和网站三个维度描述宽带用户对互联网网站的访问行为。这 种情况下,整个宽带用户群体对互联网网站的访问事件的集合可以表示在如图4所示的一 个由时间、用户、和网站组成的三维空间中。在图4中,上述用户对网站的访问事件的三维 图中只有时间坐标轴是连续有序排列的,用户和网站在相应坐标轴上的排列是离散且无序 的,即不同的离散坐标值表示该维度属性上的不同个体,也就是说用户坐标轴上的每个离 散坐标点表示一个用户、网站坐标轴上的每个离散坐标点表示一个网站。如果数据采集方法不能覆盖所有宽带用户对互联网网站的所有访问数据,那么其 采集到的用户上网行为采集数据就是全部数据集合的子集。根据用户对网站的访问事件的 三个描述维度,即时间、用户、和网站,宽带用户上网行为数据子集的采样效果可以用下列 指标来衡量(1)采集到的宽带用户群体访问事件样本的时间采样百分比Rt ;(2)采集到的宽带用户群体访问事件样本的用户采样百分比Ru ;(3)采集到的宽带用户群体访问事件样本的网站采样百分比Rw。用户群体上网行为采样效果下面分别从时间、用户、和网站三个维度来说明数据采样方案对所观察到的宽带 用户群体对互联网网站的访问行为的影响。一.时间维度采样(1)均勻采样无论是基于静态因素还是动态因素的路由策略,只要路由策略与时间没有关联, 那么部署在固定网络链路上的采集点将对用户访问网站事件在时间上进行均勻的随机采 样。此时所观察到的用户对网站的访问事件的集合将如图5所示。在这样的情况下所观察 到的用户对网站的访问事件是全体集合的一个子集。但是随着采样时间的延长和样本数据 的不断积累,采集得到的访问事件样本最终会在统计意义上趋向于用户对网站的访问事件 的全体集合。在这种情况下,可以减少采用时间,但仍然能够获得统计意义上用户对网站的 访问事件的全体集合,减少了运营成本。(2)非均勻采样如果路由策略随时间而变化,那么部署在固定网络链路上的采集点将对用户访问 网站事件在时间上进行非均勻的随机采样。此时所观察到的用户对网站的访问事件的集合 将如图6所示。在这样的情况下随着采样时间的延长和样本数据的不断积累,所观察到的用户对网站的访问事件子集在统计意义上反映了全体访问事件在时间维度上的简单或复 杂的映射结果,而不会趋向于用户对网站的访问事件的全体集合。综合上述情况,在部署数据采集点时尽量选择优先级高、具备时间均勻特性路由 策略的路由器输出数据链路作为数据采集路径,以确保获得充分的、且能代表整体用户上 网行为特征的网络数据。这种情况下采集到的网络数据就是对其覆盖的宽带用户群体上网 行为的一个估计,该估计的准确程度由采集到的用户群体对网站的访问时长占整个访问时 间的百分比决定,即由采集到的宽带用户群体访问事件样本的时间采样百分比Rt决定。二,用户维度采样根据电信网络的特点,特定用户的互联网访问数据是否由特定网络链路来传输的 路由策略是相对固定的,即该用户的访问数据是否流经某条网络链路大多是由静态因素决 定的,比如用户IP地址范围、用户所在区域的网络链路质量、用户所在区域的网络拓扑结 构等。所以,在这样的情况下所观察到的用户群体采样也是固定的。如果观察到用户群体 发生较大变化,那么很大程度上是因为静态的路由策略发生了变化所导致的;无论采样时 间长短,所观察到的用户群体行为只描述了该用户群体采样的行为,而不能以此来估计未 被观察到的用户群体的行为。此时所观察到的用户对网站的访问事件的集合将如图7所示。在部署数据采集点 时尽量选择经过路由器汇聚的路由器输出端口所连接的数据链路作为数据采集路径,以确 保覆盖该路由器输入端口所连接的数据链路所对应的所有宽带用户群体。这种情况下采集 到的网络数据就是对其所应该覆盖的宽带用户群体上网行为的一个估计,该估计的准确程 度由采集到的用户数目占整个用户群体的百分比决定,即由采集到的宽带用户群体访问事 件样本的用户采样百分比Ru决定。三,网站维度采样如果在特定的电信运营商IDC机房部署采集点,那么所获得的用户对网站的访问 事件将只是全体访问事件集合的一个子集。由于特定IDC机房所包含的网站是相对固定 的,于是与对用户采样的情况相似;在这样的情况下所观察到的用户访问的网站采样也是相对固定的。如果观察到 网站发生较大变化,那么很大程度上是因为相应网络链路所连接的网站发生了变化所导致 的;无论采样时间长短,所观察到的用户对网站的访问行为只描述了对相应网站集合 的访问行为,而不能以此来估计用户在其所访问过但未被观察到的网站上的访问行为。此时所观察到的用户对网站的访问事件的集合将如图8所示。在这种情况下所观 察到的宽带用户所访问的部分网站所对应的用户群体和访问时间仅是全体用户群体和全 部访问时间的一个子集。因此无论采样时间的长短和样本数据的多少,采集到的子集数据 只能反映这个子集所包含的用户群体在相应访问时间内的行为情况,而无法代表全部用户 群体在任何时间访问全部网站的行为。这种情况下采集到的网络数据就是对访问这些网站 的宽带用户群体的上网行为的一个估计,该估计的准确程度由采集到的网站占该用户群体 所访问过的全部网站的百分比决定,即由采集到的宽带用户群体访问事件样本的网站采样 百分比Rw决定。因此,如果不能在用户数据汇聚的网络链路上部署数据采集点,那么会尽量选择连接着包含有大量大型互联网网站的电信运营商IDC机房的网络数据链路来部署数据采
^^点ο由于在实际电信网络环境中对宽带用户群体上网行为的数据采样效果通常是在 时间、用户、和网站三个维度上的组合形式,所以需要根据实际网络链路情况在数据采样效 果和所需代价之间取得平衡。用户个体上网行为采样效果根据采集的宽带用户上网数据内容,个体用户的上网行为可以用其对网站页面的 访问事件来描述。首先个体用户由其用户UserID标识,每个访问事件则记录了该用户访问 某个网站时的时间信息和网站信息时间信息用户对单个网站的访问时间网站信息网站IP地址、网站URL、页面文本标题或用户提交的关键词、网站 Cookie、页面 Referrer因此将属于每个宽带用户的对互联网网站的访问事件归入到这个用户中,于是个 体宽带用户的上网行为可以表示在一个由时间和网站组成的二维空间中。图9中显示了三 个宽带用户对多个网站的访问行为。需要注意的是时间坐标轴是有序排列的,而网站坐标 轴是无序排列的。如果数据采集方法不能覆盖所有宽带用户对互联网网站的所有访问数据,那么其 采集到的用户上网行为采集数据就是全部数据集合的子集。根据个体用户对网站的访问事 件的两个描述维度,即时间和网站,个体宽带用户上网行为数据子集的采样效果可以用下 列指标来衡量(1)采集到的个体宽带用户访问事件样本的时间采样百分比Rt ;(2)采集到的个体宽带用户群体访问事件样本的网站采样百分比Rw。下面分别从时间和网站两个个维度来说明数据采样方案对所观察到的宽带用户 个体对互联网网站的访问行为的影响。一,时间维度采样(1)均勻采样无论是基于网络因素的自适应路由策略还是基于人工设置的静态路由策略,只要 路由策略与时间没有关联,那么部署在固定网络链路上的采集点将对个体用户访问网站事 件在时间上进行均勻的随机采样。此时所观察到的个体用户对网站的访问事件的集合将如 图10所示。图10中显示了三个宽带用户对多个网站的访问行为,因此在这样的情况下所 观察到的个体用户对网站的访问事件是全体集合的一个子集,这意味着将不会知道任何在 采样集合以外的访问事件。但是随着采样时间的延长和样本数据的不断积累,采集得到的 访问事件样本最终会在统计意义上趋向于个体用户对网站的访问事件的全体集合。(2)非均勻采样如果路由策略随时间而变化,那么部署在固定网络链路上的采集点将对个体用户 访问网站事件在时间上进行非均勻的随机采样。此时所观察到的个体用户对网站的访问事 件的集合将如图11所示。图11中显示了三个宽带用户对多个网站的访问行为,因此在这 样的情况下随着采样时间的延长和样本数据的不断积累,所观察到的个体用户对网站的访 问事件子集在统计意义上反映了全体访问事件在时间维度上的简单或复杂的映射结果,而不会趋向于用户对网站的访问事件的全体集合。综合上述情况,在部署数据采集点时尽量选择优先级高、具备时间均勻特性路由 策略的路由器输出端口所连网络链路作为数据采集路径,以确保获得充分的、且能代表个 体用户上网行为特征的网络数据。这种情况下采集到的网络数据就是对其覆盖的个体宽带 用户上网行为的一个估计,该估计的准确程度由采集到的个体用户对网站的访问时长占整 个访问时间的百分比决定,即由采集到的个体宽带用户访问事件样本的时间采样百分比Rt 决定。二,网站维度采样如果在特定的电信运营商IDC机房部署采集点,那么所获得的个体用户对网站的 访问事件将只是全体访问事件集合的一个子集。由于特定IDC机房所包含的网站是相对固 定的在这样的情况下所观察到的个体用户访问的网站采样也是相对固定的。如果观察 到网站发生较大变化,那么很大程度上是因为相应网络链路所连接的网站发生了变化所导 致的;无论采样时间长短,所观察到的个体用户对网站的访问行为只描述了对相应网站 集合的访问行为,而不能以此来估计个体用户在其所访问过但未被观察到的网站上的访问 行为。此时所观察到的个体用户对网站的访问事件的集合将如图12所示。图12中显示 了三个宽带用户对多个网站的访问行为,这些网站不含[1,2. 5]和[4,6]两个区间内的网 站。在这种情况下所观察到的个体宽带用户所访问的部分网站所对应的访问时间仅是该用 户全部访问时间的一个子集。因此无论采样时间的长短和样本数据的多少,采集到的子集 数据只能反映这个子集所包含的个体用户在相应访问时间内的行为情况,而无法代表该用 户在任何时间访问全部网站的行为。这种情况下采集到的网络数据就是对该用户所访问网 站的上网行为的一个采样样本,该样本的准确程度由采集到的网站占该用户所访问过的全 部网站的百分比决定,即由采集到的个体宽带用户访问事件样本的网站采样百分比Rw决 定。因此,可以在用户数据汇聚的网络链路上部署数据采集点,或者尽量选择连接着 包含有大量大型互联网网站的电信运营商IDC机房的网络数据链路来部署数据采集点。图13示出一个电信网络链路上数据采样点例子的示意图。例如在某个电信网络 环境中,网络路由节点H的输入端口连接到三条网络链路路径A — H、B — H、和C — H,其输 出端口连接到的另外三条网络链路路径H — G、H — F、和H — I。其中路径H — F具有比路 径H —G和H — I更大的网络带宽,各条路径对应的网络链路成本值(cost)标注在图3的 网络拓扑结构。对从节点A、B、和C访问节点E的数据,网络路由节点H的路由策略如下 静态路由策略规定具有节点A的源IP地址段的数据由路径H — G传输;·自适应路由策略规定节点H优先将数据转发到高带宽的网络链路即路径H — F 上; 因此这样的路由策略将形成如下从节点A、B、和C访问节点E的数据转发情况 具有节点A的源IP地址段的数据由路径H — G传输;
正常情况下其余数据由路径H —F传输,而路径H — I无数据传输成为备用链 路; 如果路径H —F中断,则(1)具有节点A的源IP地址段的数据仍由路径H — G传输;;(2)其余数据则经路径H — I传输,因为路径H — I — E的成本值小于路径 H — G — F — E ; 如果路径H —G中断,则(1)具有节点A的源IP地址段的数据将丢失;(2)其余数据仍经路径H — F传输,因为路径H — F — E的成本值小于路径 H — I — E ; 如果路径H —F和H —G同时中断,则(1)具有节点A的源IP地址段的数据将丢失;(2)其余数据则经路径H — I传输;在具有这样的路由策略的电信网络结构中,系统可采取如下方式部署数据采集占.
^ \\\ · 根据静态路由策略的要求,系统必须在路径H — G上部署一个采集点以获得从 节点A访问节点E的数据; 根据自适应路由策略的要求,系统必须在路径H — F上部署一个采集点以获得 在正常情况下从节点B和C访问节点E的数据; 在网络结构因部分路径中断发生变化而使得自适应路由策略改变数据的传输 路径的情况时,系统还需要在路径H— I上部署一个采集点,以确保采集到因网络结构变化 而被重定向到这条路径上的数据;在按照上述方式部署数据采集点时,在路由节点H输出端口采集到的宽带用户对 互联网网站的访问行为在用户、时间、和网站三个维度上会呈现出如下效果特征 如果在网络路径H — F和H — G上都部署了采集点,那么在正常情况下系统采 集到的数据将来自节点A、B、和C的全部用户,并且覆盖全部用户的全部上网行为时间和全 部访问过的网站。 如果只在网络路径H — F而未在路径H — G上部署采集点,那么采集到的数据 将不会包含来自节点A的用户群体、相应的访问时间、和访问过的网站,而对其余来自节点 B和C的用户群体则覆盖他们全部上网行为时间和全部访问过的网站。 如果在因网络结构发生变化(比如路径H —F或F —E中断)使得数据被重定 向到路径H—I上的情况下系统在该链路上部署了采集点那么系统仍将采集到所有被重定向的用户群体,以及覆盖他们全部上网行为时间 和全部访问过的网站。否则这些数据将全部丢失,包含来相应的用户群体、访问时间、和访 问过的网站。同时如果是路径F — E中断,则由于经过路径H — G传输的数据将无法通过节点F 到达E,而且这部分数据的传输路径是由静态路由策略决定的,所以这部分数据将会丢失。下面举例说明电信骨干网络环境中的采集点部署。下文中,MTP(Media Technology Platform,媒体技术平台)是本申请人的一个基于互联网宽带用户上网行为的为互联网网站提供根据用户偏好进行内容定制的智能化信息服务技术平台。图14示出一个电信运营商省级中心的骨干网络结构及其采集点部署示意图。在 图14所示的电信运营商的省级中心网络中,省内宽带用户先通过分别在各地市的汇聚层 路由器汇总后接入省级中心,并与2个省网路由器相连。一方面省网路由器与2个省内IDC 机房的路由器相连,使得省内用户可以直接访问IDC机房中的网站,另一方面省网路由器 也与电信运营商的2个集团路由器相连,并通过该集团路由器与电信运营商在其它省份的 省级中心相连,这样省内宽带用户就可以通过省网路由器访问其它省份的网络资源。通常 情况下为了增强网络结构的可靠性,各同级路由器之间也直接相连,比如省网路由器和IDC 机房路由器。而且集团路由器直接与IDC机房相连,使得外省用户可以不必经过省网路由 器。同时各个机房路由器与网站之间(黄色连线)也采用直连方式,以缩短传输路径,提高 传输效率和可靠性。对于路由选择,通常情况下,网络路由器采用自适应路由策略来选择数据转发路 径,如果多条转发路径的优先级相同,则路由器采用负载均衡的方式随机且均勻地选择转 发路径。在图14所示的省级中心网络中,省网路由器采用多条IOG的POS链路与IDC机房 和集团路由器相连,并采用自适应路由策略转发数据,各条链路均勻地负担数据传输任务。对于采集点部署,为了获得省内宽带用户的HTTP请求数据,MTP在两个地方部署 数据采集点(1)在省网路由器与省内IDC机房路由器之间的连接链路上部署采集点,以获得 省内宽带用户对IDC机房内的网站访问所产生的HTTP请求数据;(2)在省网路由器与集团路由器之间的连接链路上部署采集点,以获得省内宽带 用户对省外网站访问所产生的HTTP请求数据。由于各条网络链路均勻地承载网络数据流量,所以MTP在两个采集点上均只从多 条网络链路中的任意一条上采用户访问网站时向网站发出的HTTP请求数据。对于数据采样效果,MTP系统从上述两个采集点获得的用户对网站访问产生的 HTTP请求数据样本具有如下特征(I)MTP采集到的用户对网站的访问行为覆盖全部省内宽带用户,无论用户访问的 是省内还是省外的网站;(2)MTP采集到的用户对网站的访问事件样本在统计意义上逐渐趋近于用户对网 站的访问事件的全体集合,趋近速度与采样时间成正比;(3)MTP采集到的用户对网站的访问行为覆盖所有位于省内IDC机房的网站以及 省外网站。本发明实施例的方法和系统,实现了覆盖电信运营商省级中心所有宽带用户,能 够客观反映用户群体上网行为的统计特征,客观反映单个用户上网行为的统计特征。本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明 限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描 述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理 解本发明从而设计适于特定用途的带有各种修改的各种实施例。
权利要求
一种基于骨干网的用户上网数据处理方法,其特征在于,包括在骨干网上通过数据采集点采集用户上网数据;根据从所述用户上网数据中提取的用户IP信息获得用户标识;按照所述用户标识对所述用户上网数据进行存储;从按照所述用户标识存储的所述用户上网数据获得所述用户的上网行为描述信息。
2.根据权利要求1所述的用户上网数据处理方法,其特征在于,所述用户的上网行为 描述信息包括访问时间、网站IP地址、网站URL、页面文本标题、关键词、网站cookie、和页 面Referrer中的至少一个。
3.根据权利要求1所述的用户上网数据处理方法,其特征在于,根据网络拓扑层次结 构和网络路由策略在所述骨干网上的部署所述数据采集点。
4.根据权利要求3所述的用户上网数据处理方法,其特征在于,所述根据网络拓扑层 次结构和网络路由策略在所述骨干网上的部署所述数据采集点的步骤包括对于采用静态路由策略决定数据转发路径的路由器,在所述路由器的所有输出端口采 集所述用户上网数据。
5.根据权利要求3所述的用户上网数据处理方法,其特征在于,所述根据网络拓扑层 次结构和网络路由策略在所述骨干网上的部署所述数据采集点的步骤包括对于采用动态路由策略决定数据转发路径的路由器,根据metric信息选择所述路由 器输出端口网络链路以部署所述数据采集点; 和/或在传输距离短或链路状态好的路由器输出端口网络链路部署所述数据采集点; 和/或对于路由器将数据按照负载均衡原则转发到多条网络链路上,从所述多条网络链路上 选择任意一条链路部署所述数据采集点; 和/或在拓扑结构上层的数据链路上部署所述数据采集点。
6.根据权利要求1所述的用户上网数据处理方法,其特征在于,所述数据采集点部署在数据流分散之前和/或数据流汇聚之后的网络路由设备的输 入端口或输出端口上。
7.一种基于骨干网的用户上网数据处理系统,其特征在于,包括 多个数据采集设备,用于在骨干网上采集用户上网数据;用户标识获取设备,用于根据从所述用户上网数据中提取的用户IP信息获得用户标识;上网数据存储设备,用于按照所述用户标识对所述用户上网数据进行存储; 描述信息提取设备,用于从按照所述用户标识存储的所述用户上网数据获得所述用户 的上网行为描述信息。
8.根据权利要求7所述的用户上网数据处理系统,其特征在于,所述用户的上网行为 描述信息包括访问时间、网站IP地址、网站URL、页面文本标题、关键词、网站cookie、和页 面Referrer中的至少一个。
9.根据权利要求7所述的用户上网数据处理系统,其特征在于,对于采用动态路由策略决定数据转发路径的路由器所述数据采集设备部署在骨干网根据metric信息选择的所述路由器输出端口网络链 路上;和/或所述数据采集设备部署在骨干网的传输距离短或链路状态好的路由器输出端口网络 链路上; 和/或对于路由器将数据按照负载均衡原则转发到多条网络链路上,所述数据采集设备部署 在从所述多条网络链路上选择任意一条链路; 和/或在拓扑结构上层的数据链路上部署所述数据采集点。
10.根据权利要求7所述的用户上网数据处理方法,其特征在于, 所述数据采集点部署在数据流分散之前和/或数据流汇聚之后的网络路由设备的输 入端口或输出端口上。
全文摘要
本发明公开一种基于骨干网的用户上网数据处理方法和系统。该方法包括在骨干网上通过数据采集点采集用户上网数据;根据从用户上网数据中提取的用户IP信息获得用户标识;按照用户标识对用户上网数据进行存储;从按照用户标识存储的用户上网数据获得用户的上网行为描述信息。本公开的方法和系统实现了覆盖电信运营商省级中心所有宽带用户,能够客观反映用户群体上网行为的统计特征,客观反映单个用户上网行为的统计特征。
文档编号H04L12/56GK101986605SQ201010537959
公开日2011年3月16日 申请日期2010年11月4日 优先权日2010年11月4日
发明者王强 申请人:北京迈朗世讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1