网页访问数据的处理方法和装置制造方法

文档序号:6638922阅读:176来源:国知局
网页访问数据的处理方法和装置制造方法
【专利摘要】本发明提供了一种网页访问数据的处理方法和装置。其中,该处理方法包括:确定与第一时间段对应的历史数据;根据历史数据确定第一时间段的第一访问数据和第一访问数据的置信区间;从数据库中提取第一时间段的第二访问数据,其中,第二访问数据为记录的用户终端访问网页的数据;判断第二访问数据是否在第一访问数据的置信区间内;若第二访问数据不在第一访问数据的置信区间内,判断出记录的第二访问数据出现异常;若第二访问数据在第一访问数据的置信区间内,判断出记录的第二访问数据正常。通过本发明实施例,解决了现有技术中无法判断用户访问数据是否出现异常的问题,实现了准确且及时地判断异常用户访问数据的效果。
【专利说明】网页访问数据的处理方法和装置

【技术领域】
[0001] 本发明涉及数据处理领域,具体而言,涉及一种网页访问数据的处理方法和装置。

【背景技术】
[0002] 随着互联网的普及和发展,通过互联网了解信息和进行交易的人越来越多,在互 联网上得到的用户访问数据也随之日渐庞大。越来越多的产品提供方开始利用互联网这个 平台进行产品的宣传、交易和维护,这就导致对互联网数据的处理和呈现的需求一路飙升。 数据提供方可以通过各种图、表的方式展示用户访问历史数据的变化情况,现有的展示方 法重点在于如何更快、更好得向数据需求方提供和展示数据,以尽可能协助他们掌握和了 解产品的历史表现。但有时仅仅对数据进行展示是不够的,展示数据只能让数据需求方看 到静态的数据历史表现,无法及时判断数据是否出现异常,因此无法对异常数据进行及时 预警以尽早采取措施。
[0003] 现有技术中,由于用户访问互联网时产生的当天的用户访问数据,只能在第二天 才能看到,在第二天查看前一天最新产生的用户访问数据时,无法判断该最新产生的用户 访问数据是否出现异常,如用户访问数据的减少可能是由于网站出现问题,导致数据丢失, 如果未能及时发现该异常数据并对网站进行检查与修复,则可能导致数据一直丢失,并且 丢失的数据无法再次找回。
[0004] 如上所述,现有的数据展示方法的侧重点在于更快、更好得整合和展现数据,以协 助客户掌握和了解产品的历史表现,具体用到的方法仅限于描述性的统计方法,如:多维数 据表、折线图、柱形图、饼形图、气泡图、面积图等,这些数据展示方法均无法及时判断数据 是否出现异常,在某种程度上造成了最佳决策机会的错失。
[0005] 针对现有技术中无法判断用户访问数据是否出现异常的问题,目前尚未提出有效 的解决方案。


【发明内容】

[0006] 本发明的主要目的在于提供一种网页访问数据的处理方法和装置,以解决现有技 术中无法判断用户访问数据是否出现异常的问题。
[0007] 为了实现上述目的,根据本发明的一个方面,提供了一种网页访问数据的处理方 法。
[0008] 根据本发明的处理方法包括:确定与第一时间段对应的历史数据,其中,第一时间 段为请求分析的时间段;根据历史数据确定第一时间段的第一访问数据和第一访问数据的 置信区间;从数据库中提取第一时间段的第二访问数据,其中,第二访问数据为记录的用户 终端访问网页的数据;判断第二访问数据是否在第一访问数据的置信区间内;若第二访问 数据不在第一访问数据的置信区间内,判断出记录的第二访问数据出现异常;若第二访问 数据在第一访问数据的置信区间内,判断出记录的第二访问数据正常。
[0009] 进一步地,在判断出记录的第二访问数据出现异常之后,处理方法还包括:获取置 信区间的端点;使用置信区间的端点、第一访问数据以及第二访问数据计算第二访问数据 的偏移值。
[0010] 进一步地,使用置信区间的端点、第一访问数据以及第二访问数据计算第二访问 数据的偏移值包括:按照如下公式计算偏移值D,其中,公式为Z) = H X100%,A为第二 β - L· 访问数据,B为置信区间的端点,C为第一访问数据。
[0011] 进一步地,确定与第一时间段对应的历史数据包括:获取第一时间段对应的第二 时间段;从数据库中提取第二时间段的历史数据,其中,第二时间段的截止时刻早于第一时 间段的起始时刻;根据历史数据确定第一时间段的第一访问数据和第一访问数据的置信区 间包括:使用霍尔特温特斯模型对历史数据进行拟合处理得到第一时间段的第一访问数 据;读取预先获取的修正值;计算第一访问数据与修正值的差得到第一值,并计算第一访 问数据与修正值的和得到第二值;使用第一值和第二值确定置信区间,其中,第一值和第二 值为置信区间的端点。
[0012] 进一步地,在从数据库中提取第一时间段的第二访问数据之后,处理方法还包括: 将置信区间、历史数据和第二访问数据展示在折线图上。
[0013] 进一步地,在判断出记录的第二访问数据出现异常之后,处理方法还包括:生成第 二访问数据出现异常的异常信息。
[0014] 为了实现上述目的,根据本发明的另一方面,提供了一种网页访问数据的处理装 置。
[0015] 根据本发明的处理装置包括:第一确定模块,用于确定与第一时间段对应的历史 数据,其中,第一时间段为请求分析的时间段;第二确定模块,用于根据历史数据确定第一 时间段的第一访问数据和第一访问数据的置信区间;提取模块,用于从数据库中提取第一 时间段的第二访问数据,其中,第二访问数据为记录的用户终端访问网页的数据;判断模 块,用于判断第二访问数据是否在第一访问数据的置信区间内;第三确定模块,用于在第二 访问数据不在第一访问数据的置信区间内的情况下,确定记录的第二访问数据出现异常; 第四确定模块,用于在第二访问数据在第一访问数据的置信区间内的情况下,确定记录的 第二访问数据正常。
[0016] 进一步地,处理装置还包括:第一获取模块,用于在判断出记录的第二访问数据出 现异常之后,获取置信区间的端点;第一计算模块,用于使用置信区间的端点、第一访问数 据以及第二访问数据计算第二访问数据的偏移值。
[0017] 进一步地,第一计算模块包括:计算子模块,用于按照如下公式计算偏移值D,其 J - β 中,公式为β = P X 100%,A为第二访问数据,B为置信区间的端点,C为第一访问数据。
[0018] 进一步地,第一确定模块包括:第二获取模块,用于获取第一时间段对应的第二时 间段;提取子模块,用于从数据库中提取第二时间段的历史数据,其中,第二时间段的截止 时刻早于第一时间段的起始时刻;第二确定模块包括:拟合模块,用于使用霍尔特温特斯 模型对历史数据进行拟合处理得到第一时间段的第一访问数据;读取模块,用于读取预先 获取的修正值;第二计算模块,用于计算第一访问数据与修正值的差得到第一值,并计算第 一访问数据与修正值的和得到第二值;确定子模块,用于使用第一值和第二值确定置信区 间,其中,第一值和第二值为置信区间的端点。
[0019] 进一步地,处理装置还包括:展示模块,用于在从数据库中提取第一时间段的第二 访问数据之后,将置信区间、历史数据和第二访问数据展示在折线图上。
[0020] 进一步地,处理装置还包括:生成模块,用于在判断出记录的第二访问数据出现异 常之后,生成第二访问数据出现异常的异常信息。
[0021] 采用本发明实施例,在确定第一时间段对应的历史数据之后,根据历史数据确定 第一时间段的第一访问数据和第一访问数据的置信区间,并判断从数据库中提取到的第一 时间段的第二访问数据是否在该置信区间内,在第二访问数据不在该置信区间内时,判断 出第二访问数据出现异常;在第二访问数据在该置信区间内时,判断出第二访问数据正常。 在本上述的实施例中,在大量历史数据的基础上对请求分析的时间段的访问数据可以进行 准确地拟合,得到请求分析的时间段的访问数据的估计值(即上述实施例中的第一访问数 据)和对应的置信区间,通过判断请求分析的时间段的实际访问数据(即上述实施例中的 第二访问数据)是否在该置信区间内来确定实际访问数据是否出现异常。通过本发明实施 例,解决了现有技术中无法判断用户访问数据是否出现异常的问题,实现了准确且及时地 判断异常用户访问数据的效果。

【专利附图】

【附图说明】
[0022] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0023] 图1是根据本发明实施例的网页访问数据的处理方法的流程图;
[0024] 图2是根据本发明实施例的一种可选的网页访问数据的处理方法的流程图;
[0025] 图3是根据本发明实施例的另一种可选的网页访问数据的处理方法的流程图;以 及
[0026] 图4是根据本发明实施例的网页访问数据的处理装置的示意图。

【具体实施方式】
[0027] 为了使本【技术领域】的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0028] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用 的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或 描述的那些以外的顺序实施。此外,术语"包括"和"具有"以及他们的任何变形,意图在于 覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限 于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产 品或设备固有的其它步骤或单元。
[0029] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。
[0030] 图1是根据本发明实施例的网页访问数据的处理方法的流程图。如图1所示,该 处理方法包括如下的步骤S102至步骤Sl 12 :
[0031] 步骤S102,确定与第一时间段对应的历史数据。
[0032] 其中,第一时间段为请求分析的时间段。
[0033] 步骤S104,根据历史数据确定第一时间段的第一访问数据和第一访问数据的置信 区间。
[0034] 步骤S106,从数据库中提取第一时间段的第二访问数据。
[0035] 其中,第二访问数据为记录的用户终端访问网页的数据。
[0036] 步骤S108,判断第二访问数据是否在第一访问数据的置信区间内。
[0037] 其中,在第二访问数据不在第一访问数据的置信区间内的情况下,执行步骤SllO ; 在第二访问数据在第一访问数据的置信区间内的情况下,执行步骤Sl 12。
[0038] 步骤S110,判断出记录的第二访问数据出现异常。
[0039] 步骤S112,判断出记录的第二访问数据正常。
[0040] 采用本发明实施例,在确定第一时间段对应的历史数据之后,根据历史数据确定 第一时间段的第一访问数据和第一访问数据的置信区间,并判断从数据库中提取到的第一 时间段的第二访问数据是否在该置信区间内,在第二访问数据不在该置信区间内时,判断 出第二访问数据出现异常;在第二访问数据在该置信区间内时,判断出第二访问数据正常。 在本上述的实施例中,在大量历史数据的基础上对请求分析的时间段的访问数据可以进行 准确地拟合,得到请求分析的时间段的访问数据的估计值(即上述实施例中的第一访问数 据)和对应的置信区间,通过判断请求分析的时间段的实际访问数据(即上述实施例中的 第二访问数据)是否在该置信区间内来确定实际访问数据是否出现异常。通过本发明实施 例,解决了现有技术中无法判断用户访问数据是否出现异常的问题,实现了准确且及时地 判断异常用户访问数据的效果。
[0041] 在上述实施例中,历史数据可以为具有周期性特征的网页访问数据;数据库中记 录有用户终端访问网页时实际产生的网页访问数据,如网页跳出率、网页访问时长、网页访 问量、网页刷新率以及退出率等。
[0042] 通过本发明上述的实施例,使用大量的历史数据确定请求分析的时间段的访问数 据的估计值和该估计值的置信区间,然后从数据库中提取请求分析的时间段的实际访问数 据,通过判断该实际访问数据是否在估计值的置信区间内,可以实现对该实际访问数据是 否出现异常的判断。
[0043] 根据本发明的上述实施例,在判断出记录的第二访问数据出现异常之后,处理方 法还可以包括:获取置信区间的端点;使用置信区间的端点、第一访问数据以及第二访问 数据计算第二访问数据的偏移值。
[0044] 具体地,在判断出记录的第二访问数据(即第一时间段的实际访问数据)出现异 常之后,获取置信区间的端点,并使用端点的值、第二访问数据(即第一时间段的访问数据 的估计值)以及第二访问数据计算第二访问数据的偏移量。
[0045] 通过本发明上述实施例,在判断出记录的实际访问数据出现异常之后,计算该实 际访问数据的偏移量,以表征实际访问数据偏离正常范围的异常偏离程度,可以直观的表 示实际访问数据的异常程度。
[0046] 进一步地,使用置信区间的端点、第一访问数据以及第二访问数据计算第二访问 数据的偏移值可以包括:按照如下公式计算偏移值D,其中,公式为D = H X 1〇〇%,A为 第二访问数据,B为置信区间的端点,C为第一访问数据。
[0047] 具体地,若选择置信区间的上界值(即上述实施例中的置信区间的一个端点的 值,该端点值可以为上端点的值或者是下端点的值)计算实际访问数据(即上述实施例中 宏|5示倌· _卜界·倌· 的第二访问数据)的偏移量,可以按照偏移量=^Ι^^Ιχ?οο%计算第二访问数 据的偏移量,其中,实际值为第二访问数据的数值,估计值为第一访问数据(即第一时间段 的访问数据的估计值)的数值,上界值为上端点的值。
[0048] 根据本发明上述实施例,确定与第一时间段对应的历史数据可以包括:获取第一 时间段对应的第二时间段;从数据库中提取第二时间段的历史数据,其中,第二时间段的截 止时刻早于第一时间段的起始时刻。
[0049] 具体地,可以按照访问数据的周期的倍数获取第一时间段对应的第二时间段,然 后从数据库中提取第二时间段的历史数据,即可确定与第一时间段对应的历史数据。
[0050] 例如,若访问数据的周期为七天,第一时间段为数据库中记录的最新访问数据对 应的日期(如一个周期内的第三天),在获取第二时间段时,获取该日期之前的多个周期所 对应的时间段并获取该日期所在周期的前两天,将获取到的时间段作为第二时间段,然后 按照获取到的第二时间段从数据库中提取历史数据,作为第一时间段对应的历史数据。
[0051] 在本发明的上述实施例中,根据历史数据确定第一时间段的第一访问数据和第一 访问数据的置信区间可以包括:使用霍尔特温特斯模型对历史数据进行拟合处理得到第一 时间段的第一访问数据;读取预先获取的修正值;计算第一访问数据与修正值的差得到第 一值,并计算第一访问数据与修正值的和得到第二值;使用第一值和第二值确定置信区间, 其中,第一值和第二值为置信区间的端点。
[0052] 具体地,通过霍尔特温特斯模型拟合历史数据,得到第一时间段的第一访问数据 (即第一时间段的访问数据的估计值),然后读取预先获取的修正值,将第一访问数据与修 正值的差值作为置信区间的一个端点,将第一访问数据与修正值的和的值作为置信区间的 另一个端点,即可确定第一访问数据的置信区间。
[0053] 在本发明的上述实施例中,预先获取的修正值可以通过从预设的正态分布的临界 值表中读取第一区间参数Θ,然后利用拟合得到的第一访问数据计算第二区间参数 〇,具 体地,可以按照如下公式计算第二区间参数σ

【权利要求】
1. 一种网页访问数据的处理方法,其特征在于,包括: 确定与第一时间段对应的历史数据,其中,所述第一时间段为请求分析的时间段; 根据所述历史数据确定所述第一时间段的第一访问数据和所述第一访问数据的置信 区间; 从数据库中提取所述第一时间段的第二访问数据,其中,所述第二访问数据为记录的 用户终端访问网页的数据; 判断所述第二访问数据是否在所述第一访问数据的置信区间内; 若所述第二访问数据不在所述第一访问数据的置信区间内,判断出记录的所述第二访 问数据出现异常; 若所述第二访问数据在所述第一访问数据的置信区间内,判断出记录的所述第二访问 数据正常。
2. 根据权利要求1所述的处理方法,其特征在于,在判断出记录的所述第二访问数据 出现异常之后,所述处理方法还包括: 获取所述置信区间的端点; 使用所述置信区间的端点、所述第一访问数据以及所述第二访问数据计算所述第二访 问数据的偏移值。
3. 根据权利要求2所述的处理方法,其特征在于,使用所述置信区间的端点、所述第一 访问数据以及所述第二访问数据计算所述第二访问数据的偏移值包括: 按照如下公式计算所述偏移值D,其中,所述公式为Z) = X100%,所述A为所述 B-C 第二访问数据,所述B为所述置信区间的端点,所述C为所述第一访问数据。
4. 根据权利要求1所述的处理方法,其特征在于, 确定与第一时间段对应的历史数据包括:获取所述第一时间段对应的第二时间段;从 所述数据库中提取所述第二时间段的所述历史数据,其中,所述第二时间段的截止时刻早 于所述第一时间段的起始时刻; 根据所述历史数据确定所述第一时间段的第一访问数据和所述第一访问数据的置信 区间包括: 使用霍尔特温特斯模型对所述历史数据进行拟合处理得到所述第一时间段的所述第 一访问数据; 读取预先获取的修正值; 计算所述第一访问数据与所述修正值的差得到第一值,并计算所述第一访问数据与所 述修正值的和得到第二值; 使用所述第一值和所述第二值确定所述置信区间,其中,所述第一值和所述第二值为 所述置信区间的端点。
5. 根据权利要求1至4中任意一项所述的处理方法,其特征在于,在从数据库中提取所 述第一时间段的第二访问数据之后,所述处理方法还包括: 将所述置信区间、所述历史数据和所述第二访问数据展示在折线图上。
6. 根据权利要求1至4中任意一项所述的处理方法,其特征在于,在判断出记录的所述 第二访问数据出现异常之后,所述处理方法还包括: 生成所述第二访问数据出现异常的异常信息。
7. -种网页访问数据的处理装置,其特征在于,包括: 第一确定模块,用于确定与第一时间段对应的历史数据,其中,所述第一时间段为请求 分析的时间段; 第二确定模块,用于根据所述历史数据确定所述第一时间段的第一访问数据和所述第 一访问数据的置信区间; 提取模块,用于从数据库中提取所述第一时间段的第二访问数据,其中,所述第二访问 数据为记录的用户终端访问网页的数据; 判断模块,用于判断所述第二访问数据是否在所述第一访问数据的置信区间内; 第三确定模块,用于在所述第二访问数据不在所述第一访问数据的置信区间内的情况 下,确定记录的所述第二访问数据出现异常; 第四确定模块,用于在所述第二访问数据在所述第一访问数据的置信区间内的情况 下,确定记录的所述第二访问数据正常。
8. 根据权利要求7所述的处理装置,其特征在于,所述处理装置还包括: 第一获取模块,用于在判断出记录的所述第二访问数据出现异常之后,获取所述置信 区间的端点; 第一计算模块,用于使用所述置信区间的端点、所述第一访问数据以及所述第二访问 数据计算所述第二访问数据的偏移值。
9. 根据权利要求8所述的处理装置,其特征在于,所述第一计算模块包括: 计算子模块,用于按照如下公式计算所述偏移值D,其中,所述公式为 D=?xlOO%,所述A为所述第二访问数据,所述B为所述置信区间的端点,所述C为 i> -C 所述第一访问数据。
10. 根据权利要求7所述的处理装置,其特征在于, 所述第一确定模块包括:第二获取模块,用于获取所述第一时间段对应的第二时间段; 提取子模块,用于从所述数据库中提取所述第二时间段的所述历史数据,其中,所述第二时 间段的截止时刻早于所述第一时间段的起始时刻; 所述第二确定模块包括: 拟合模块,用于使用霍尔特温特斯模型对所述历史数据进行拟合处理得到所述第一时 间段的所述第一访问数据; 读取模块,用于读取预先获取的修正值; 第二计算模块,用于计算所述第一访问数据与所述修正值的差得到第一值,并计算所 述第一访问数据与所述修正值的和得到第二值; 确定子模块,用于使用所述第一值和所述第二值确定所述置信区间,其中,所述第一值 和所述第二值为所述置信区间的端点。
11. 根据权利要求7至10中任意一项所述的处理装置,其特征在于,所述处理装置还包 括: 展示模块,用于在从数据库中提取所述第一时间段的第二访问数据之后,将所述置信 区间、所述历史数据和所述第二访问数据展示在折线图上。
12.根据权利要求7至10中任意一项所述的处理装置,其特征在于,所述处理装置还包 括: 生成模块,用于在判断出记录的所述第二访问数据出现异常之后,生成所述第二访问 数据出现异常的异常信息。
【文档编号】G06F17/30GK104462445SQ201410779393
【公开日】2015年3月25日 申请日期:2014年12月15日 优先权日:2014年12月15日
【发明者】钦滨杰, 李梦溪 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1