用户行为数据的采集方法及装置与流程

文档序号:16533328发布日期:2019-01-05 10:57阅读:749来源:国知局
用户行为数据的采集方法及装置与流程

本发明涉及互联网技术领域,特别是涉及一种用户行为数据的采集方法及装置。



背景技术:

随着互联网技术的日益发展,使用互联网的用户的数量也日益增多,为用户提供服务的互联网网站数量也越来越多。为了能够更好的运营互联网网站以及为用户提供更好的服务,网站运营者在构建好网站的基础上,还需要对大量的用户访问网站产生的行为数据进行统计、分析,以获取用户访问互联网网站的行为趋势。

目前,网站运营者将第三方统计平台提供的用户行为数据采集代码布署在网站中的网页中,通过用户行为数据采集代码来采集用户访问网站的行为数据。

发明人在实现上述发明过程中,发现现有技术中,由于构建不同网页所使用的代码各不相同,当用户行为数据采集代码与待采集用户行为数据的网页的自身代码发生冲突时,会导致用户行为数据采集代码无法正常的运行,从而无法有效的采集用户行为数据;同时,由于用户行为数据采集代码布署在网页中,因此当用户在网页中下载某些保存在服务器中的数据文件时,用户行为数据采集代码只能采集到用户的下载行为,而采集不到用户具体下载的数据文件的信息,或者,当用户在某网页中点击一个链接跳转到另一网页中时,用户行为数据采集代码只能采集到用户点击链接的行为,而采集不到跳转后到达的网页的信息,从而导致采集到的用户行为数据的准确性及完整性较低。



技术实现要素:

有鉴于此,本发明提供的用户行为数据的采集方法及装置,主要目的在于克服在使用用户行为数据采集代码采集用户行为数据的过程中,当用户行为数据采集代码与网页自身代码冲突时,无法有效的采集用户行为数据,以及用户行为数据采集代码无法采集用户下载的数据文件的信息和跳转到达网页的信息的问题,从而提高了采集用户行为数据的准确性及完整性。

为了解决上述问题,本发明主要提供如下技术方案:

第一方面,本发明提供了一种用户行为数据的采集方法,该方法包括:

根据用户访问日志生成第一用户行为数据,其中,所述用户访问日志中至少记录有用户访问目标网站的第一行为信息,以及所述第一行为信息对应的响应信息;

向所述客户端发送数据采集指令,并获取基于所述数据采集指令采集的第二用户行为数据,其中,所述数据采集指令用于指示所述客户端根据用户访问目标网站的访问记录生成所述第二用户行为数据,所述第二用户行为数据包含客户端侧采集到的用户访问目标网站的第二行为信息;

在将所述第一用户行为数据以及所述第二用户行为数据中的行为信息进行同项合并后,结合所述响应信息,生成第三用户行为数据。

可选的,根据用户访问日志生成第一用户行为数据包括:

提取所述用户访问日志中的所述第一行为信息以及对应的所述响应信息;

根据预设分类规则,对所述第一行为信息以及对应的所述响应信息进行分类,得到至少一个行为数据文件,其中,所述预设分类规则用于根据至少一个分类参数对所述第一行为信息以及对应的所述响应信息进行归类;

接收预处理指令,并获取所述预处理指令中包含的可配置筛选参数,根据所述可配置筛选参数对所述至少一个行为数据文件中的行为信息以及对应的响应信息进行筛选,将筛选后的所述至少一个行为数据文件进行汇总,生成第一用户行为数据表。

可选的,在获取基于所述数据采集指令采集的第二用户行为数据之后,所述方法还包括:

根据所述预处理指令中包含的所述可配置筛选参数对所述第二用户行为数据中的第二行为信息进行筛选,生成第二用户行为数据表。

可选的,在生成第三用户行为数据之前,所述方法还包括:

将所述第一用户行为数据表以及所述第二用户行为数据表中由无效访问产生的行为信息进行删除,其中,所述无效访问是指除人为访问外其他形式产生的访问。

可选的,在将所述第一用户行为数据以及所述第二用户行为数据中的行为信息进行同项合并后,结合所述响应信息,生成第三用户行为数据包括:

将经过删除操作后的所述第一用户行为数据表以及经过删除操作后的所述第二用户行为数据表中的行为信息进行同项合并;

根据同项合并后的所述行为信息以及对应的响应信息,生成第三用户行为数据表。

可选的,在生成第三用户行为数据表之后,所述方法还包括:

接收指标查询指令,在所述第三用户行为数据表中查找与所述指标查询指令匹配的行为信息,其中,所述指标查询指令包括至少一个行为信息对应的指标查询参数;

将与所述指标查询指令匹配的行为信息发送至所述客户端,以便所述客户端将与所述指标查询指令匹配的行为信息进行输出显示。

为了实现上述目的,根据本发明的第二方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的用户行为数据的采集方法。

为了实现上述目的,根据本发明的第三方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的用户行为数据的采集方法。

第四方面,本发明还提供一种用户行为数据的采集装置,该装置包括:

第一生成单元,用于根据用户访问日志生成第一用户行为数据,其中,所述用户访问日志用于记录用户访问目标网站的第一行为信息,以及所述第一行为信息对应的响应信息;

发送单元,用于向所述客户端发送数据采集指令;

获取单元,用于获取基于所述数据采集指令采集的第二用户行为数据,其中,所述数据采集指令用于指示所述客户端根据用户访问目标网站的访问记录生成所述第二用户行为数据,所述第二用户行为数据包含客户端侧采集到的用户访问目标网站的第二行为信息;

第二生成单元,用于在将所述第一生成单元生成的所述第一用户行为数据以及所述获取单元获取的所述第二用户行为数据中的行为信息进行同项合并后,结合所述响应信息,生成第三用户行为数据。

可选的,所述第一生成单元包括:

提取模块,用于提取所述用户访问日志中的所述第一行为信息以及对应的所述响应信息;

分类模块,用于根据预设分类规则,对所述提取模块提取的所述第一行为信息以及对应的所述响应信息进行分类,得到至少一个行为数据文件,其中,所述预设分类规则用于根据至少一个分类参数对所述第一行为信息以及对应的所述响应信息进行归类;

筛选模块,用于接收预处理指令,并获取所述预处理指令中包含的可配置筛选参数,根据所述可配置筛选参数对所述分类模块分类获得的所述至少一个行为数据文件中的行为信息以及对应的响应信息进行筛选;

第一生成模块,用于将所述筛选模块筛选后的所述至少一个行为数据文件进行汇总,生成第一用户行为数据表。

可选的,所述装置还包括:

筛选单元,用于在所述获取单元获取基于所述数据采集指令采集的第二用户行为数据之后,根据所述预处理指令中包含的所述可配置筛选参数对所述第二用户行为数据中的第二行为信息进行筛选;

第三生成单元,用于根据所述筛选单元筛选的结果,生成第二用户行为数据表。

可选的,所述装置还包括:

删除单元,用于在所述第二生成单元生成第三用户行为数据之前,将所述第一用户行为数据表以及所述第二用户行为数据表中由无效访问产生的行为信息进行删除,其中,所述无效访问是指除人为访问外其他形式产生的访问。

可选的,所述第二生成单元包括:

合并模块,用于将经过删除操作后的所述第一用户行为数据表以及经过删除操作后的所述第二用户行为数据表中的行为信息进行同项合并;

第二生成模块,用于根据所述合并模块同项合并后的所述行为信息以及对应的响应信息,生成第三用户行为数据表。

可选的,所述装置还包括:

接收单元,用于在所述第二生成单元生成第三用户行为数据表之后,接收指标查询指令;

查找单元,用于在所述第三用户行为数据表中查找与所述接收单元接收的所述指标查询指令匹配的行为信息,其中,所述指标查询指令包括至少一个行为信息对应的指标查询参数;

发送单元,用于将所述查找单元查找到的与所述指标查询指令匹配的行为信息发送至所述客户端,以便所述客户端将与所述指标查询指令匹配的行为信息进行输出显示。

借由上述技术方案,本发明提供的技术方案至少具有下列优点:

本发明提供的一种用户行为数据的采集方法及装置,本发明能够同时获取目标网站服务器中的用户访问日志记录的用户访问目标网站产生的用户行为数据以及客户端侧采集到的用户访问目标网站产生的用户行为数据,通过对两侧不同方法获取的用户行为数据的对比互补,获得完整的用户访问目标网站的用户行为数据,与现有技术中,通过布署在目标网页中的第三方统计平台提供的用户行为数据采集代码采集用户访问目标网站过程中产生的用户行为数据相比,可以根据另一侧获取到的用户行为数据对本侧缺失的用户行为数据进行补充,从而提高了采集用户行为数据的准确性;同时,用户访问日志中不仅记录了用户下载数据文件、跳转到其他网页等行为数据,也记录了用户下载的数据文件的具体信息、跳转后到达的网页的具体信息等行为数据对应的响应信息,从而提高了采集用户行为数据的完整性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了现有技术中提供的一种采集用户访问目标网站过程中产生的用户行为数据的流程图;

图2示出了本发明实施例提供的一种用户行为数据的采集方法流程图;

图3示出了本发明实施例提供的另一种用户行为数据的采集方法流程图;

图4示出了本发明实施例提供的一种通过目标网站服务器以及客户端两侧采集用户访问目标网站过程中产生的用户行为数据的流程图;

图5示出了本发明实施例提供的一种设定指标查询指令的界面示意图;

图6示出了本发明实施例提供的一种客户端展现查询结果报表示意图;

图7示出了本发明实施例提供的一种用户行为数据的采集装置的组成框图;

图8示出了本发明实施例提供的另一种用户行为数据的采集装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

现有技术中,通过布署在目标网页中的第三方统计平台提供的用户行为数据采集代码采集用户访问目标网站过程中产生的用户行为数据的具体流程如图1所示,用户通过客户端向目标网站服务器发送请求目标网页的信息,当目标网站服务器接收到该客户端的请求信息后,目标网站服务器会响应该客户端。该客户端在得到目标网站服务器的响应后,开始加载目标网页,当执行到预先布署的第三方统计平台提供的用户行为数据采集代码时,开始采集该用户的行为数据。当采集完毕该用户的行为数据后,将采集到的用户行为数据发送至第三方统计平台的数据收集处理服务器中,第三方统计平台将接收到的该用户行为数据存储于数据库中。通过数据分析服务器对采集到大量用户的行为数据进行分析加工。当第三方统计平台接收到查询与该目标网页相关的用户行为数据的指令时,会将与查询指令匹配的信息以报表、图表等形式展现出来。

本发明实施例提供了一种用户行为数据的采集方法,应用于目标网站服务器采集客户端用户行为数据过程中,如图2所示,该方法包括:

101、根据用户访问日志生成第一用户行为数据。

其中,用户访问日志为目标网站服务器用于记录所有用户访问目标网站的访问情况的文件。用户访问日志中至少记录有用户访问目标网站过程中产生的第一行为信息,以及第一行为信息对应的响应信息。其中,第一行为信息为目标网站服务器侧记录的用户在访问目标网站过程中产生的行为信息以及对应的用户的信息,可以包括:用户id、用户ip、访问目标网页使用的客户端类型、访问的目标网页信息、访问目标网页时间、停留时间、点击操作、点击操作时间等信息;第一行为信息对应的响应信息具体为当用户通过客户端向网站服务器发送下载数据文件或者跳转到其他网页等请求信息时,网站服务器向客户端回复的响应信息中包含的下载的数据文件或者跳转网页等的具体信息,例如:用户a在访问目标网站的过程中下载了一张图片x,此时,在目标网站服务器的用户访问日志中记录了用户a下载图片x的行为信息a,以及行为信息a对应的响应信息1,其中,响应信息1的内容为图片x的具体信息;用户b在访问目标网站的过程中从网页a跳转到了网页b,此时,在目标网站服务器的日志中记录了用户a从网页a跳转到网页b的行为信息b,以及行为信息b对应的响应信息2,其中响应信息2的内容为网页b的具体信息。其中,第一用户行为数据为根据目标网站服务器中的用户访问日志生成的用户访问目标网站过程中产生的用户行为数据。

在本发明实施例中,根据用户访问日志中记录的第一行为信息以及第一行为信息对应的响应信息,生成用户访问目标网站过程中产生的第一用户行为数据。

102、向客户端发送数据采集指令,并获取基于数据采集指令采集的第二用户行为数据。

其中,数据采集指令用于指示客户端根据用户访问目标网站的访问记录生成第二用户行为数据,第二用户行为数据包含客户端侧采集到的用户访问目标网站的第二行为信息以及对应的用户的信息。第二行为信息为客户端侧采集到的用户在访问目标网站过程中产生的行为信息,可以包括:访问的目标网页信息、访问目标网页时间、停留时间、点击操作、点击操作时间等信息,对应的用户的信息可以包括:用户id、用户ip、访问目标网页使用的客户端类型等信息。具体的,可以通过在目标网页中布署用户行为数据采集代码,从而实现在客户端侧采集用户在访问目标网站过程中产生的第二行为信息。

在本发明实施例中,当目标网站服务器接收到客户端发送的请求目标网页的信息时,目标网站服务器会响应该客户端。该客户端在得到目标网站服务器的响应后,开始加载目标网页,并开始采集用户访问目标网站过程中产生的第二行为信息以及对应的用户的信息。该客户端在接收到目标网站服务器发送的数据采集指令后,根据用户访问目标网站的访问记录生成第二用户行为数据,并将生成的第二用户行为数据发送至目标网站服务器,以便目标网站服务器接收到该客户端基于数据采集指令采集的第二用户行为数据。

需要进行说明的是,通常情况下,如果不考虑数据采集故障等特殊情况,第一用户行为数据中包含的第一用户行为信息与第二用户行为数据中包含的第二用户行为信息应该是相同的。但是,在实际应用过程中,由于网络发生故障等问题,导致用户某次访问目标网站产生的第一行为信息以及对应响应信息在传输过程中丢失,从而这一条第一行为信息以及对应的响应信息不会被记录在用户访问日志中,进而导致第一用户行为数据中包含的行为信息并不完整;相对应的,当在目标网页中布署的用户行为数据采集代码与目标网页的自身代码发生冲突时,无法有效的在客户端侧采集用户访问目标网站过程中产生的第二行为信息,从而导致第二用户行为数据中包含的行为信息并不完整。

103、在将第一用户行为数据以及第二用户行为数据中的行为信息进行同项合并后,结合响应信息,生成第三用户行为数据。

在本发明实施例中,将步骤101生成的第一用户行为数据以及步骤102中获取的客户端侧基于数据采集指令采集的第二用户行为数据中相同的行为信息进行合并,即当第一用户行为数据和第二用户行为数据同时包含同一用户的同一行为产生的行为信息时,将这两条相同的行为信息合并为一条行为信息。根据经过合并操作后的行为信息结合对应的响应信息以及只存在于某一用户行为数据中的行为信息结合对应的响应信息,生成第三用户行为数据。

例如,第一用户行为数据中包含用户a访问目标网站过程中产生的行为信息a1、b1、c1、d1、f1,其中,行为信息a1对应的响应信息为1、行为信息c1对应的响应信息为2,第二用户行为数据中包含用户a访问目标网站过程中产生的行为信息a2、b2、c2、d2、e2。由于第一用户行为数据中包含的行为信息a1、b1、c1、d1和第二用户行为数据中包含的行为信息a2、b2、c2、d2均为用户a在访问目标网站过程中产生的行为信息,且a1与a2为用户a同一行为产生行为信息,同理b1与b2、c1与c2、d1与d2也分别为用户a的同一行为产生的行为信息,将第一用户行为数据和第二用户行为数据中两条相同的行为信息合并为一条行为信息,即将相同行为信息a1和行为信息a2合并为行为信息a、将相同的行为信息b1和行为信息b2合并为行为信息b等等,并结合行为信息a对应的响应信息、行为信息c1对应的响应信息2,生成第三用户行为数据,第三用户行为数据具体包括行为信息a、b、c、d、e2、f1以及行为信息a对应的响应信息1、行为信息c对应的响应信息2。

本发明实施例提供的一种用户行为数据的采集方法,本发明实施例能够同时获取目标网站服务器中的用户访问日志记录的用户访问目标网站产生的用户行为数据以及客户端侧采集到的用户访问目标网站产生的用户行为数据,通过对两侧不同方法获取的用户行为数据的对比互补,获得完整的用户访问目标网站的用户行为数据,与现有技术中,通过布署在目标网页中的第三方统计平台提供的用户行为数据采集代码采集用户访问目标网站过程中产生的用户行为数据相比,可以根据另一侧获取到的用户行为数据对本侧缺失的用户行为数据进行补充,从而提高了采集用户行为数据的准确性;同时,用户访问日志中不仅记录了用户下载数据文件、跳转到其他网页等行为数据,也记录了用户下载的数据文件的具体信息、跳转后到达的网页的具体信息等行为数据对应的响应信息,从而提高了采集用户行为数据的完整性。

以下为了更加详细地说明,本发明实施例提供了另一种用户行为数据的采集方法,具体如图3所示,该方法包括:

201、提取用户访问日志中的第一行为信息以及对应的响应信息。

在本发明实施例中,由于在用户访问日志中是通过一条一条代码的形式记录用户访问目标网站的访问情况,因此需要在用户访问日志中提取具体的用户访问目标网站过程中产生的第一行为信息以及对应的响应信息,以便后续根据第一行为信息以及对应的响应信息生成目标网站服务器侧记录的用户行为数据。

202、根据预设分类规则,对第一行为信息以及对应的响应信息进行分类,得到至少一个行为数据文件。

其中,预设分类规则用于根据至少一个分类参数对第一行为信息以及对应的响应信息进行归类。其中,分类参数可以为:用户所在地域、访问目标网页时间等参数。

在本发明实施例中,由于步骤201提取得到第一行为信息以及对应的响应信息是杂乱无章排序的,为了便于后续处理,需要根据预设分类规则,对提取得到的第一行为信息以及对应的响应信息进行分类,得到至少一个行为数据文件。

对于本发明实施例,具体应用场景可以如下所示,但不限于此包括:

在用户访问日志中提取得到的第一行为信息以及对应的响应信息为:(1)用户id:a,用户ip:xxx.xxx.xxx.xxx、所在地域:河北、访问的目标网页信息:a、访问目标网页时间:2017年6月15日8:01:00;(2)用户id:a,用户ip:xxx.xxx.xxx.xxx、所在地域:河北、访问的目标网页信息:a、下载图片x、下载时间:2017年6月15日8:03:00、图片x具体信息;(3)用户id:a,用户ip:xxx.xxx.xxx.xxx、所在地域:河北、访问的目标网页信息:b、访问目标网页时间:2017年6月15日8:12:00;(4)用户id:b,用户ip:xx.xxx.xx.xxx、所在地域:山东、访问的目标网页信息:a、访问目标网页时间:2017年6月15日9:20:00;(5)用户id:c,用户ip:xxx.xxx.xxx.xxx、所在地域:河北、访问的目标网页信息:a、访问目标网页时间:2017年6月15日9:15:00;(6)用户id:d,用户ip:xxx.xxx.xx.xxx、所在地域:广东、访问的目标网页信息:a、访问目标网页时间:2017年6月15日9:15:00;(7)用户id:d,用户ip:xxx.xxx.xx.xxx、所在地域:广东、访问的目标网页信息:a、点击链接跳转其他网页、点击链接时间:2017年6月15日9:17:00、跳转网页信息:b;(8)用户id:a,用户ip:xxx.xxx.xxx.xxx、所在地域:河北、访问的目标网页信息:c、访问目标网页时间:2017年6月15日8:08:00。预设分类规则中包含的分类参数为:用户所在地域,根据预设分类规则对提取得到的第一行为信息以及对应的响应信息进行分类,获得行为数据文件1,包括:(1)、(2)、(3)、(5)、(8)5条行为信息及对应的响应信息;行为数据文件2,包括:(4)一条行为信息;行为数据文件3,包括:(6)、(7)两条行为信息以及对应的响应信息。

需要说明的是,预设的分类规则中可以包含一个分类参数,也可以包含多个分类参数,在实际应用过程中,可以根据实际需求设定预设分类规则中包含几个分类参数以及选择何种分类参数。预设的分类规则中具体包含几个分类参数以及包含何种分类参数,在本发明实施例,不进行限定。

203、接收预处理指令,并获取预处理指令中包含的可配置筛选参数。

其中,可配置筛选参数为预处理指令中携带的可以事先进行设定的筛选参数。

在本发明实施例中,当接收到对步骤202获得的至少一个行为数据文件进行预处理的指令时,获取预处理指令中携带的可配置筛选参数,以便后续根据可配置筛选参数对行为数据文件进行筛选。

需要说明的是,预处理指令中可以包含一个可配置筛选参数,也可以包含多个可配置筛选参数,在实际应用过程中,可以根据实际需求来设定预处理指令中包含几个可配置筛选参数以及配置何种筛选参数。预处理指令中具体包含几个可配置参数以及包含何种可配置筛选参数,在本发明实施例,不进行限定。

204、根据可配置筛选参数对至少一个行为数据文件中的行为信息以及对应的响应信息进行筛选,将筛选后的至少一个行为数据文件进行汇总,生成第一用户行为数据表。

在本发明实施例中,在通过步骤203获取得到预处理指令中包含的可配置筛选参数后,首先,根据可配置筛选参数对至少一个行为数据文件进行筛选,即将行为数据文件中与可配置筛选参数相关的行为信息以及对应的响应信息保留,将与配置筛选参数无关的行为信息以及对应的响应信息删除;然后,将经过筛选操作后的行为数据文件进行汇总,生成第一用户行为数据表。

对于本发明实施例,具体应用场景可以如下所示,但不限于此包括:

在通过步骤202经过分类后获得行为数据文件1、2、3后,接收到预处理指令a,获取预处理指令a中包含的可配置筛选参数为:“访问的目标网页信息:a”。根据可配置筛选参数“访问的目标网页信息:a”,对数据文件1、2、3进行筛选,即在行为数据文件1、2、3中将与“访问的目标网页信息为a”有关的行为信息及对应的响应信息保留,将与“访问的目标网页信息为a”无关的+行为信息及对应的响应信息删除。将经过筛选操作后的行为数据文件进行汇总,生成第一用户行为数据表,具体的,如表1所示:

表1

205、向客户端发送数据采集指令,并获取基于数据采集指令采集的第二用户行为数据。

其中,关于步骤205、向客户端发送数据采集指令,并获取基于数据采集指令采集的第二用户行为数据,可以参考图2对应部分的描述,本发明实施例此处将不再赘述。

206、根据预处理指令中包含的可配置筛选参数对第二用户行为数据中的第二行为信息进行筛选,生成第二用户行为数据表。

其中,预处理指令为步骤203接收的预处理指令,可配置筛选参数为步骤203中获取的可配置参数。

在本发明实施例中,首先,根据前述步骤获取的可配置筛选参数对客户端侧采集的第二用户行为数据中的第二行为信息进行筛选,即将第二用户行为数据中与可配置筛选参数相关的行为信息保留,将与配置筛选参数无关的行为信息删除;然后,根据筛选后的第二用户行为数据生成第二用户行为数据表。

对于本发明实施例,具体应用场景可以如下所示,但不限于此包括:

首先,根据步骤203接收到的预处理指令a中包含的可配置筛选参数为“访问的目标网页信息:a”,对步骤206获取的第二用户行为数据中的第二行为信息进行筛选,即在第二用户行为数据中将与“访问的目标网页信息为a”有关的行为信息保留,将与“访问的目标网页信息为a”无关的行为信息删除;然后,根据筛选后的第二用户行为数据生成第二用户行为数据表,具体的,如表2所示:

表2

207、将第一用户行为数据表以及第二用户行为数据表中由无效访问产生的行为信息进行删除。

其中,无效访问是指除人为访问外其他形式产生的访问。无效访问可以包括:通过代理服务器对目标网站进行的访问、各大搜索引擎的网络蜘蛛对目标网站进行的访问或者对目标网站进行恶意攻击的访问等等。

在本发明实施例中,通过步骤204生成的第一用户行为数据表以及通过步骤206生成的第二用户行为数据表中可能会记录非人为访问产生的行为信息,为了保证采集的用户行为数据的准确性,因此需要将第一用户行为数据表以及第二用户行为数据表中由无效访问产生的行为信息进行删除。

具体的,将第一用户行为数据表以及第二用户行为数据表中由无效访问产生的行为信息进行删除的方法可以为:(1)设定同一用户ip在单位时间内访问次数的阈值,若某一用户ip在单位时间内访问目标网站次数超过设定的阈值,则标记该用户ip为恶意攻击ip,在第一用户行为数据表以及第二用户行为数据表中将该用户ip对应的行为信息进行删除。(2)当第一用户行为数据表以及第二用户行为数据表中记录的某一条行为信息的用户ip与预置的搜索引擎网络蜘蛛的ip相同,则将该条行为信息进行删除。将第一用户行为数据表以及第二用户行为数据表中由无效访问产生的行为信息进行删除的方法可以为以上方法,但是不仅限于上述方法,具体使用的方法,在本发明实施例中,不进行限定。

208、将经过删除操作后的第一用户行为数据表以及经过删除操作后的第二用户行为数据表中的行为信息进行同项合并。

在本发明实施例中,将第一用户行为数据表以及第二用户行为数据表中由无效访问产生的行为信息进行删除后,将两个用户行为数据表中相同的行为信息进行合并,即当第一用户行为数据表和第二用户行为数据表中同时包含同一用户的同一行为产生的行为信息时,将这两条相同的行为信息合并为一条行为信息。

例如,根据目标网站服务器的用户访问日志生成的第一用户行为数据表,经过删除操作后具体如表1所示,其中,记录的第1条行为信息为“用户a,ip地址为xxx.xxx.xxx.xxx,所在地为河北,在2017年6月15日8:01:00访问了网页a”。获取得到的客户端侧采集的第二用户行为数据,经过筛选操作生成第二用户行为数据表,具体如表2所示,其中,记录的第1条用户行为数据为“用户a,ip地址为xxx.xxx.xxx.xxx,所在地为河北,在2017年6月15日8:01:00访问了网页a”。由于表1和表2中记录的第1条行为信息,均为“用户a在2017年6月15日8:01:00访问了网页a”,为两条相同的行为信息,因此将这两条行为信息合并为一条行为信息。同时,使用相同的方法对两表中其他相同的行为信息也进行合并操作。

209、根据同项合并后的行为信息以及对应的响应信息,生成第三用户行为数据表。

在本发明实施例中,根据步骤208获得的经过合并操作后的行为信息结合对应的响应信息以及只存在于某一用户行为数据表中的行为信息结合对应的响应信息,生成第三用户行为数据表。

对于本发明实施例,具体应用场景可以如下所示,但不限于此包括:

通过步骤208对第一用户行为数据表和第二用户行为数据表中相同的行为信息进行合并操作,即对表1和表2中两条相同的行为信息合并为一条行为信息,根据经过合并操作后的行为信息结合对应的响应信息以及只存在于某一用户行为数据中的行为信息结合对应的响应信息,生成第三用户行为数据表,具体的,如表3所示:

表3

在生成第三用户行为数据表后,将生成的第三用户行为数据存储在目标网站服务器本地的数据库中,以保证采集到的用户行为数据的安全性。

210、接收指标查询指令,在第三用户行为数据表中查找与指标查询指令匹配的行为信息。

其中,指标查询指令包括至少一个行为信息对应的指标查询参数。指标查询指令为拥有查看用户行为数据权限的网站运营者根据实际需求发送的查询指令,网站运营者根据实际需求确定需要获取哪些用户行为数据,进而设定指标查询指令中包括的指标查询参数。

在本发明实施例中,由于生成的第三用户行为数据表,存储在目标网站服务器本地的数据库中,因此当网站运营者需要查看采集的用户行为数据时,可以直接向目标网站服务器发送指标查询指令,当目标网站服务器接收到指标查询指令后,在由步骤209生成的第三用户行为数据表中查找与指标查询指令中包括的指标查找参数相匹配的具体行为信息。

对于本发明实施例,具体应用场景可以如下所示,但不限于此包括:

网站运营者需要查询“河北和广东”两地的用户访问目标网站产生的行为信息,根据查询需求确定指标查询指令。当目标网站接收到该条指标查询指令后,在上述生成第三用户行为数据表,表3中进行查找用户所在地域为“河北和广东”的行为信息,具体的,如表4所示:

表4

需要说明的是,指标查询指令中可以包括一个行为信息对应的指标查询参数,也可以包括多个行为信息对应的指标查询参数,在实际应用过程中,可以根据实际需求来设定指标查询指令中包含几个指标查询参数以及包含何种指标查询参数。指标查询指令中中具体包含几个指标查询参数以及包含何种指标查询参数,在本发明实施例,不进行限定。

211、将与指标查询指令匹配的行为信息发送至客户端。

在本发明实施例中,将步骤210查找到的与指标查询指令匹配的行为信息发送至请求查看用户行为数据的客户端中,以便该客户端将查找到的与指标查询指令匹配的行为信息进行输出显示,使网站运营者对用户访问目标网站产生行为数据进行分析,从而更好的了解用户的实际需求,进而对目标网站进行优化为用户提供更好的服务。

对于本发明实施例,通过目标网站服务器以及客户端两侧采集用户访问目标网站过程中产生的用户行为数据的具体应用场景可以如下所示,但不限于此包括:如图4所示,目标网站服务器将用户访问日志发送至数据收集处理服务器中,在数据收集处理服务器中对用户访问日志进行分析,并且根据预处理指令对用户访问日志中记录的第一行为信息以及对应的响应信息进行筛选处理,生成第一用户行为数据表,具体可以如上述表1所示,其中,目标网站服务器和数据收集处理服务器可为同一服务器,若目标网站服务器与数据收集处理器为同一服务器,则直接在目标网站服务器中根据用户访问日志生成第一用户行为数据表。在生成第一用户行为数据表后,将第一用户行为数据表中由无效访问产生的行为信息进行删除。与此同时,客户端向目标网站服务器发送请求目标网页的信息,当目标网站服务器接收到该客户端发送的请求信息后,目标网站服务器会响应该客户端。该客户端在得到目标网站服务器的响应后,开始加载目标网页,并开始采集用户访问目标网站过程中产生的第二行为信息以及对应的用户的信息。该客户端在接收到目标网站服务器发送的数据采集指令后,根据用户访问目标网站的访问记录生成第二用户行为数据,并将生成的第二用户行为数据发送至数据收集处理服务器中。数据收集处理器根据预处理指令对第二行为数据中的第二行为信息进行筛选处理,生成第二用户行为数据表,具体可以如上述表2所示,其中,若目标网站服务器与数据收集处理器为同一服务器,则将客户端采集到的第二用户行为数据直接发送至目标网站服务器并生成第二用户行为数据表。在生成第一用户行为数据表和第二用户行为数据表后,对两个用户行为数据表中的行为信息进行同项合并,并根据经过合并操作后的行为信息结合对应的响应信息以及只存在与某一用户行为数据表中的行为信息结合对应的响应信息,生成第三用户行为数据表,具体可以如上述表3所示,并存储目标网站服务器本地的数据库中。当接收到拥有查看用户数据权限的指标查询指令时,在第三用户行为数据表中查找与指标查询指令相匹配的行为信息,具体可以如上述表4所示,并将查询到的行为信息发送至客户端中,在该客户端中对查询结果进行展示,该客户端为发送指标查询指令的客户端,其中,网站运营者设定指标查询指令的界面可以如图5所示;在客户端展示的查询结果具体可以如图6所示,其中,查询结果可以以报表、图表等形式进行展示,具体以何种方式进行展示,在本发明实施例中不进行限定。

为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的用户行为数据的采集方法。

为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的用户行为数据的采集方法。

进一步的,作为对上述图2及图3所示方法的实现,本发明另一实施例还提供了一种用户行为数据的采集装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于提高采集用户行为数据的准确性及完整性,具体如图7所示,该装置包括:

第一生成单元71,用于根据用户访问日志生成第一用户行为数据,其中,用户访问日志中至少记录有用户访问目标网站的第一行为信息,以及第一行为信息对应的响应信息;

发送单元72’,用于向客户端发送数据采集指令;

获取单元72,用于获取基于数据采集指令采集的第二用户行为数据,其中,数据采集指令用于指示客户端根据用户访问目标网站的访问记录生成第二用户行为数据,第二用户行为数据包含客户端侧采集到的用户访问目标网站的第二行为信息;

第二生成单元73,用于在将第一生成单元71生成的第一用户行为数据以及获取单元72获取的第二用户行为数据中的行为信息进行同项合并后,结合响应信息,生成第三用户行为数据。

进一步的,如图8所示,第一生成单元71包括:

提取模块711,用于提取用户访问日志中的第一行为信息以及对应的响应信息;

分类模块712,用于根据预设分类规则,对提取模块711提取的第一行为信息以及对应的响应信息进行分类,得到至少一个行为数据文件,其中,预设分类规则用于根据至少一个分类参数对第一行为信息以及对应的响应信息进行归类;

筛选模块713,用于接收预处理指令,并获取预处理指令中包含的可配置筛选参数,根据可配置筛选参数对分类模块712分类获得的至少一个行为数据文件中的行为信息以及对应的响应信息进行筛选;

第一生成模块714,用于将筛选模块713筛选后的至少一个行为数据文件进行汇总,生成第一用户行为数据表。

进一步的,如图8所示,该装置还包括:

筛选单元74,用于在获取单元72获取基于数据采集指令采集的第二用户行为数据之后,根据预处理指令中包含的可配置筛选参数对第二用户行为数据中的第二行为信息进行筛选;

第三生成单元75,用于根据筛选单元74筛选的结果,生成第二用户行为数据表。

进一步的,如图8所示,该装置还包括:

删除单元76,用于在第二生成单元73生成第三用户行为数据之前,将第一用户行为数据表以及第二用户行为数据表中由无效访问产生的行为信息进行删除,其中,无效访问是指除人为访问外其他形式产生的访问。

进一步的,如图8所示,第二生成单元73包括:

合并模块731,用于将经过删除操作后的第一用户行为数据表以及经过删除操作后的第二用户行为数据表中的行为信息进行同项合并;

第二生成模块732,用于根据合并模块731同项合并后的行为信息以及对应的响应信息,生成第三用户行为数据表。

进一步的,如图8所示,该装置还包括:

接收单元77,用于在第二生成单元73生成第三用户行为数据表之后,接收指标查询指令;

查找单元78,用于在第三用户行为数据表中查找与接收单元77接收的指标查询指令匹配的行为信息,其中,指标查询指令包括至少一个行为信息对应的指标查询参数;

发送单元79,用于将查找单元78查找到的行为信息发送至客户端。

本发明实施例提供的一种用户行为数据的采集装置,本发明实施例能够在同时获取目标网站服务器中的用户访问日志记录的用户访问目标网站产生的用户行为数据以及客户端侧通过采集功能采集到的用户访问目标网站产生的用户行为数据,通过对两侧不同方法获取的用户行为数据的对比互补,获得完整的用户访问目标网站的用户行为数据,与现有技术中,通过布署在目标网页中的第三方统计平台提供的用户行为数据采集代码采集用户访问目标网站过程中产生的用户行为数据相比,可以根据另一侧获取到的用户行为数据对本侧缺失的用户行为数据进行补充,从而提高了采集用户行为数据的准确性;同时,用户访问日志中不仅记录了用户下载数据文件、跳转到其他网页等行为数据,也记录了用户下载的数据文件的具体信息、跳转后到达的网页的具体信息等行为数据对应的响应信息,从而提高了采集用户行为数据的完整性;以及,可以通过将第一用户行为数据表以及第二用户行为数据表中由无效访问产生的行为信息进行删除,从而提高了采集用户行为数据的准确性;除此之外,本发明实施例还可以将生成的第三用户行为数据表存储于目标网站服务器本地的数据库中,当接收到指标查询指令后,将与指标查询指令匹配的用户行为数据发送至客户端中,从而实现采集的用户行为数据本地化展示功能,以及保证了采集的用户行为数据的安全性。

所述用户行为数据的采集装置包括处理器和存储器,上述第一生成单元、发送单元、获取单元和第二生成单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高服务器采集用户行为数据的准确性。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:

根据用户访问日志生成第一用户行为数据,其中,所述用户访问日志中至少记录有用户访问目标网站的第一行为信息,以及所述第一行为信息对应的响应信息;

向所述客户端发送数据采集指令,并获取基于所述数据采集指令采集的第二用户行为数据,其中,所述数据采集指令用于指示所述客户端根据用户访问目标网站的访问记录生成所述第二用户行为数据,所述第二用户行为数据包含客户端侧采集到的用户访问目标网站的第二行为信息;

在将所述第一用户行为数据以及所述第二用户行为数据中的行为信息进行同项合并后,结合所述响应信息,生成第三用户行为数据。

进一步的,根据用户访问日志生成第一用户行为数据包括:

提取所述用户访问日志中的所述第一行为信息以及对应的所述响应信息;

根据预设分类规则,对所述第一行为信息以及对应的所述响应信息进行分类,得到至少一个行为数据文件,其中,所述预设分类规则用于根据至少一个分类参数对所述第一行为信息以及对应的所述响应信息进行归类;

接收预处理指令,并获取所述预处理指令中包含的可配置筛选参数,根据所述可配置筛选参数对所述至少一个行为数据文件中的行为信息以及对应的响应信息进行筛选,将筛选后的所述至少一个行为数据文件进行汇总,生成第一用户行为数据表。

进一步的,在获取基于所述数据采集指令采集的第二用户行为数据之后,所述方法还包括:

根据所述预处理指令中包含的所述可配置筛选参数对所述第二用户行为数据中的第二行为信息进行筛选,生成第二用户行为数据表。

进一步的,在生成第三用户行为数据之前,所述方法还包括:

将所述第一用户行为数据表以及所述第二用户行为数据表中由无效访问产生的行为信息进行删除,其中,所述无效访问是指除人为访问外其他形式产生的访问。

进一步的,在将所述第一用户行为数据以及所述第二用户行为数据中的行为信息进行同项合并后,结合所述响应信息,生成第三用户行为数据包括:

将经过删除操作后的所述第一用户行为数据表以及所述第二用户行为数据表中的行为信息进行同项合并;

根据同项合并后的所述行为信息以及对应的响应信息,生成第三用户行为数据表。

进一步的,在生成第三用户行为数据表之后,所述方法还包括:

接收指标查询指令,在所述第三用户行为数据表中查找与所述指标查询指令匹配的行为信息,其中,所述指标查询指令包括至少一个行为信息对应的指标查询参数;

将与所述指标查询指令匹配的行为信息发送至所述客户端,以便所述客户端将与所述指标查询指令匹配的行为信息进行输出显示。

本文中的设备可以是服务器、pc、pad、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:根据用户访问日志生成第一用户行为数据,其中,所述用户访问日志中至少记录有用户访问目标网站的第一行为信息,以及所述第一行为信息对应的响应信息;向所述客户端发送数据采集指令,并获取基于所述数据采集指令采集的第二用户行为数据,其中,所述数据采集指令用于指示所述客户端根据用户访问目标网站的访问记录生成所述第二用户行为数据,所述第二用户行为数据包含客户端侧采集到的用户访问目标网站的第二行为信息;在将所述第一用户行为数据以及所述第二用户行为数据中的行为信息进行同项合并后,结合所述响应信息,生成第三用户行为数据。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1