一种数据采样方法及装置与流程

文档序号:11388821阅读:287来源:国知局
一种数据采样方法及装置与流程

本发明涉及数据分析技术领域,尤其涉及一种数据采样方法及装置。



背景技术:

在互联网平台上,前端页面是网站与用户直接交互的场所。通过前端页面的精细化开发,可以捕捉用户的行为轨迹数据。将捕捉的用户行为轨迹数据通过网络传输给后台服务器,可用于不同目的的分析处理。由于网络带宽的制约以及网络传播延迟的影响,在传输上述用户行为轨迹数据时,需要对用户行为轨迹数据进行采样,将采样数据传输给后台服务器。

在现有技术中,对捕捉的用户行为轨迹数据的采样,都是由人工完成的。由人工设定对用户行为轨迹数据的采样点,并根据采样点对用户行为轨迹数据进行采样。人工设定采样点具有较高的主观性,不可避免地会发生遗漏重要采样点的情况,并且由人工完成设置采样点的工作,其处理速度较慢,普适性较差。



技术实现要素:

基于上述现有技术的缺陷和不足,本发明提出一种数据采样方法及装置,能够自动完成对用户行为轨迹数据的采样处理,有效排除了人为主观性对采样过程的影响,采样效率更高。

一种数据采样方法,包括:

获取行为轨迹时间序列;

对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号;

根据所述频域功率信号,计算得到对所述行为轨迹时间序列进行采样的采样点数;

根据所述采样点数,对所述行为轨迹时间序列进行均匀采样,得到所述行为轨迹时间序列的采样数据。

优选地,所述根据所述频域功率信号,计算得到对所述行为轨迹时间序列进行采样的采样点数,包括:

根据所述频域功率信号,设定频率阈值;

根据所述频率阈值,确定所述频域功率信号的频谱主瓣宽度;

根据所述频谱主瓣宽度以及信号采样定理,计算得到对所述行为轨迹时间序列进行采样的采样点数。

优选地,所述根据所述频域功率信号,设定频率阈值,包括:

从所述频域功率信号的频率范围内,选取频率值;

判断所述频域功率信号中,频率大于所述频率值的信号的功率总和与频率小于所述频率值的信号的功率总和的比值,是否小于设定比值;

如果所述频域功率信号中,频率大于所述频率值的信号的功率总和,与频率小于所述频率值的信号的功率总和的比值,小于设定比值,则将所述频率值作为用于确定所述频域功率信号的频谱主瓣宽度的频率阈值;

如果所述频域功率信号中,频率大于所述频率值的信号的功率总和与频率小于所述频率值的信号的功率总和的比值,不小于设定比值,则重新选取频率值,直到所述频域功率信号中,频率大于所选取的频率值的信号的功率总和,与频率小于所选取的频率值的信号的功率总和的比值,小于设定比值;

将最后一次选取的频率值,作为用于确定所述频域功率信号的频谱主瓣宽度的频率阈值。

优选地,所述根据所述频谱主瓣宽度以及信号采样定理,计算得到对所述行为轨迹时间序列进行采样的采样点数,包括:

根据信号采样定理,设定对所述频谱主瓣进行采样的采样点数为所述频谱主瓣宽度的宽度值的两倍,并将对所述频谱主瓣进行采样的采样点数作为对所述行为轨迹时间序列进行采样的采样点数。

优选地,所述对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号,包括:

对所述行为轨迹时间序列进行快速傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号。

一种数据采样装置,包括:

数据获取单元,用于获取行为轨迹时间序列;

变换处理单元,用于对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号;

计算单元,用于根据所述频域功率信号,计算得到对所述行为轨迹时间序列进行采样的采样点数;

采样单元,用于根据所述采样点数,对所述行为轨迹时间序列进行均匀采样,得到所述行为轨迹时间序列的采样数据。

优选地,所述计算单元,包括:

阈值设定子单元,用于根据所述频域功率信号,设定频率阈值;

频谱选择子单元,用于根据所述频率阈值,确定所述频域功率信号的频谱主瓣宽度;

采样点数计算子单元,用于根据所述频谱主瓣宽度以及信号采样定理,计算得到对所述行为轨迹时间序列进行采样的采样点数。

优选地,所述频谱选择子单元根据所述频域功率信号,设定频率阈值时,具体用于:

从所述频域功率信号的频率范围内,选取频率值;

判断所述频域功率信号中,频率大于所述频率值的信号的功率总和,与频率小于所述频率值的信号的功率总和的比值,是否小于设定比值;

如果所述频域功率信号中,频率大于所述频率值的信号的功率总和,与频率小于所述频率值的信号的功率总和的比值,小于设定比值,则将所述频率值作为频率阈值;

如果所述频域功率信号中,频率大于所述频率值的信号的功率总和,与频率小于所述频率值的信号的功率总和的比值,不小于设定比值,则重新选取频率值,直到所述频域功率信号中,频率大于所选取的频率值的信号的功率总和,与频率小于所选取的频率值的信号的功率总和的比值,小于设定比值;将最后一次选取的频率值,作为频率阈值。

优选地,所述采样点数计算子单元根据所述频谱主瓣宽度以及信号采样定理,计算得到对所述行为轨迹时间序列进行采样的采样点数时,具体用于:

根据信号采样定理,设定对所述频谱主瓣进行采样的采样点数为所述频谱主瓣宽度的宽度值的两倍,并将对所述频谱主瓣进行采样的采样点数作为对所述行为轨迹时间序列进行采样的采样点数。

优选地,所述变换处理单元对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号时,具体用于:

对所述行为轨迹时间序列进行快速傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号。

本发明提出的数据采样方法,包括:获取行为轨迹时间序列;对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号;根据所述频域功率信号,计算得到对所述行为轨迹时间序列进行采样的采样点数;根据所述采样点数,对所述行为轨迹时间序列进行均匀采样,得到所述行为轨迹时间序列的采样数据。采用上述数据采样方法,能够自动完成对用户行为轨迹数据的采样处理,有效排除了人为主观性对采样过程的影响,采样效率更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本发明实施例提供的一种数据采样方法的流程示意图;

图2是本发明实施例提供的滑动验证码滑块的速度曲线示意图;

图3是本发明实施例提供的滑动验证码滑块的速度曲线的功率信号示意图;

图4是本发明实施例提供的另一种数据采样方法的流程示意图;

图5是本发明实施例提供的再一种数据采样方法的流程示意图;

图6是本发明实施例提供的一种数据采样装置的结构示意图;

图7是本发明实施例提供的另一种数据采样装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种数据采样方法,参见图1所示,包括:

s101、获取行为轨迹时间序列;

具体的,在前端页面,按照时间先后顺序,依次对用户行为轨迹进行采样。由于用户的行为是在一个时间段内的连续行为,因此得到的行为轨迹是设定时间段内的连续的行为轨迹时间序列。

以滑动验证码行为轨迹为例,如图2所示,前端页面获取了不同用户在滑动验证码滑块过程中的完整的速度曲线。大致可以看出,在滑动过程中,滑动速度呈现“先增速后减速”的规律,在这一过程中,可能出现一个或多个“峰值”。仅仅凭借观察,技术人员很难确定应该如何对这些曲线进行采样。

s102、对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号;

具体的,对步骤s101中获取的连续的行为轨迹时间序列进行傅里叶变换处理,将连续的行为轨迹时间序列转换为频域的功率信号。

以图2中所示的各个速度曲线为例,分别对其进行傅里叶变换,对应得到如图3所示的功率信号。

s103、根据所述频域功率信号,计算得到对所述行为轨迹时间序列进行采样的采样点数;

具体的,经过步骤s102处理,将时域连续的行为轨迹时间序列转换为频域功率信号后,进一步确定该频域功率信号的频谱主瓣宽度。根据频谱主瓣宽度,结合频域信号采样定理,确定对频域功率信号进行采样的采样点数。由于该频域功率信号由时域的行为轨迹时间序列转换而来,因此,对频域功率信号进行采样的采样点数同样适用于对时域时间序列进行采样。所以,将计算得到的对频域功率信号进行采样的采样点数,作为对上述行为轨迹时间序列进行采样的采样点数。

s104、根据所述采样点数,对所述行为轨迹时间序列进行均匀采样,得到所述行为轨迹时间序列的采样数据。

具体的,在步骤s103中确定对上述行为轨迹时间序列进行采样的采样点数后,对上述行为轨迹时间序列进行均匀采样,采样数量为上述采样点数的数量,即可得到上述行为轨迹时间序列的采样数据。

本发明提出的数据采样方法,包括:获取行为轨迹时间序列;对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号;根据所述频域功率信号,计算得到对所述行为轨迹时间序列进行采样的采样点数;根据所述采样点数,对所述行为轨迹时间序列进行均匀采样,得到所述行为轨迹时间序列的采样数据。采用上述数据采样方法,能够自动完成对用户行为轨迹数据的采样处理,有效排除了人为主观性对采样过程的影响,采样效率更高。

可选的,在本发明的另一个实施例中,参见图4所示,根据所述频域功率信号,计算得到对所述行为轨迹时间序列进行采样的采样点数,包括:

s403、根据所述频域功率信号,设定频率阈值;

具体的,设定的频率阈值,用于区分上述频域功率信号中的功率较高的部分和功率较低的部分。在本发明实施例中对频域信号进行分析的过程中,功率较高的部分,也就是频谱主瓣,是分析重点。因此,本发明实施例根据上述频域功率信号,设定频率域值,用于从上述频域功率信号中选出频谱主瓣。

以图2所示的滑动验证码滑块的速度曲线频谱图为例,从图中可以看出,在绝大部分速度曲线的频谱图中,信号能量都集中在零频和低频部分(<10)。这说明,正常用户虽然存在滑动速度上的变化或抖动,但这种速度变化都是渐进的,并不是突变的(在频谱上,突变对应的是高频部分,高频部分的能量很少,意味着快速突变很少)。因此,将频率阈值设置为10。

s404、根据所述频率阈值,确定所述频域功率信号的频谱主瓣宽度;

具体的,在步骤s403中确定频率阈值后,根据频率阈值,从上述频域功率信号中选出频率小于上述频率阈值,功率较大的部分,作为频谱主瓣。该频谱主瓣的频率范围,即频谱主瓣宽度。

如图2中的滑动验证码滑块的速度曲线频谱图所示,信号能量都集中在零频和低频部分,其频率阈值为10。因此,其频谱主瓣为从0hz到10hz的频率范围,频谱主瓣宽度为10。

s405、根据所述频谱主瓣宽度以及信号采样定理,计算得到对所述行为轨迹时间序列进行采样的采样点数。

具体的,根据信号采样定理,采样频率不小于被采样信号最高频率的2倍时,能够根据采样信号完全恢复被采样信号。因此,在本发明实施例技术方案中,根据信号采样定理,将采样频率设置为不小于频谱主瓣宽度的2倍,即采样点数设置不少于频谱主瓣宽度的2倍,采样的信号能够完全代表原始信号。

仍以图2中所示的滑动验证码滑块的速度曲线频谱图为例,由于其频谱主瓣宽度为10,根据信号采样定理,将采样点数设置为20,也就是对图1所示的速度曲线均匀采样20个点,即可实现对整个滑动速度曲线的精确刻画。

本实施例中的步骤s401、s402、s406分别对应图1所示的方法实施例中的步骤s101、s102、s104,其具体内容请参见对应图1所示的方法实施例的内容,此处不再赘述。

本实施例通过设定频率阈值,确定频域功率信号的频谱主瓣宽度,从而找出频域功率信号的最有价值的信号部分,并且确定了对最有价值部分信号进行采样的采样点数。按照本实施例确定的采样点数,对频域功率信号的最有价值信号部分进行采样,可以得到最有价值的采样信号。

可选的,在本发明的另一个实施例中,参见图5所示,所述根据所述频域功率信号,设定频率阈值,包括:

s503、从所述频域功率信号的频率范围内,选取频率值;

具体的,上述选取的频率值,是在频域功率信号的频率范围内,选取的一个较小的频率值。所选取的频率值的大小,具体可以根据频域功率信号的频率范围而定,也可以根据经验,设定普遍适用的一个频率值,作为频率阈值。

s504、判断所述频域功率信号中,频率大于所述频率值的信号的功率总和,与频率小于所述频率值的信号的功率总和的比值,是否小于设定比值;

具体的,根据步骤s503中选取的频率阈值,计算频率大于该频率阈值部分的功率总和,即旁瓣能量;以及计算频率小于该频率阈值部分的功率总和,即主瓣能量。然后计算上述旁瓣能量与上述主瓣能量的比值是否小于设定比值。

如果所述频域功率信号中,频率大于所述频率值的信号的功率总和,与频率小于所述频率值的信号的功率总和的比值,小于设定比值,则执行步骤s505、将所述频率值作为频率阈值;

具体的,如果旁瓣能量与主瓣能量的比值小于设定比值,则说明利用该频率阈值能够选出频谱主瓣,因此将该频率阈值作为用于确定上述频率功率信号的频谱主瓣宽度的频率阈值。

如果所述频域功率信号中,频率大于所述频率值的信号的功率总和,与频率小于所述频率值的信号的功率总和的比值,不小于设定比值,则执行步骤s506、重新选取频率值,直到所述频域功率信号中,频率大于所选取的频率值的信号的功率总和,与频率小于所选取的频率值的信号的功率总和的比值,小于设定比值,并将最后一次选取的频率值,作为频率阈值。

具体的,如果旁瓣能量与主瓣能量的比值不小于设定比值,则说明利用该频率阈值不能选出频谱主瓣,因此需要重新选取频率值,具体实施过程是重复重新选取更大的频率值,直到利用选取的频率值区分出的旁瓣能量与主瓣能量的比值小于设定比值。将最终选取的频率值作为用于确定该频域功率信号的频谱主瓣宽度的频率阈值。

本实施例中的步骤s501、s502、s507~s509分别对应图4所示的方法实施例中的步骤s401、s402、s404~s406,其具体内容请参见对应图4所示的方法实施例的内容,此处不再赘述。

本实施例采用多次尝试的方式,选出能够明显区分旁瓣能量与主瓣能量的频率值,即选出用于确定频域功率信号的频谱主瓣宽度的频率阈值。具体选取过程,为从小到大的选取过程。根据经验,主瓣能量一般存在与低频部分,因此,从小到大选取频率阈值,能够较快地选出频率阈值。

可选的,在本发明的另一个实施例中,所述根据所述频谱主瓣宽度以及信号采样定理,计算得到对所述行为轨迹时间序列进行采样的采样点数,包括:

根据信号采样定理,设定对所述频谱主瓣进行采样的采样点数为所述频谱主瓣宽度的宽度值的两倍,并将对所述频谱主瓣进行采样的采样点数作为对所述行为轨迹时间序列进行采样的采样点数。

具体的,根据信号采样定理可知,当采样频率不小于被采样信号最高频率的2倍时,能够利用采样信号完全恢复被采样信号。进一步地,结合频域信号采样定理可知,当对频域信号进行采样的采样点数不小于被采样信号频谱主瓣宽度的2倍时,能够通过采样信号完全恢复被采样信号。因此,在本发明实施例中,设置对上述频谱主瓣宽度进行采样的采样点数为上述频谱主瓣宽度的宽度值的2倍。

可选的,在本发明的另一个实施例中,所述对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号,包括:

对所述行为轨迹时间序列进行快速傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号。

具体的,在本发明实施例中,从提高计算速度的目的出发,采用快速傅里叶变换方法,对上述行为轨迹时间序列进行傅里叶变换处理,得到上述行为轨迹时间序列的频域功率信号。显而易见的,在实际实施本发明实施例技术方案时,可以任意选取傅里叶变换方法,对上述行为轨迹时间序列进行傅里叶变换处理。

本发明实施例采用快速傅里叶变换,可以提高计算速度,利于快速的得到行为轨迹时间序列的频域功率信号。

本发明实施例还公开了一种数据采样装置,参见图6所示,包括:

数据获取单元601,用于获取行为轨迹时间序列;

变换处理单元602,用于对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号;

计算单元603,用于根据所述频域功率信号,计算得到对所述行为轨迹时间序列进行采样的采样点数;

采样单元604,用于根据所述采样点数,对所述行为轨迹时间序列进行均匀采样,得到所述行为轨迹时间序列的采样数据。

具体的,本实施例中各个单元的具体工作内容,请参见对应的方法实施例的内容,此处不再赘述。

本发明实施例提出的数据采样装置,在对数据进行采样时,首先由数据获取单元601获取行为轨迹时间序列;然后变换处理单元602对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号;接下来计算单元603根据所述频域功率信号,计算得到对所述行为轨迹时间序列进行采样的采样点数;最后采样单元604根据所述采样点数,对所述行为轨迹时间序列进行均匀采样,得到所述行为轨迹时间序列的采样数据。采用上述数据采样方法,能够自动完成对用户行为轨迹数据的采样处理,有效排除了人为主观性对采样过程的影响,采样效率更高。

可选的,在本发明的另一个实施例中,参见图7所示,计算单元603,包括:

阈值设定子单元6031,用于根据所述频域功率信号,设定频率阈值;

频谱选择子单元6032,用于根据所述频率阈值,确定所述频域功率信号的频谱主瓣宽度;

采样点数计算子单元6033,用于根据所述频谱主瓣宽度以及信号采样定理,计算得到对所述行为轨迹时间序列进行采样的采样点数。

具体的,本实施例中各个单元的具体工作内容,请参见对应的方法实施例的内容,此处不再赘述。

可选的,在本发明的另一个实施例中,频谱选择子单元6032根据所述频域功率信号,设定频率阈值时,具体用于:

从所述频域功率信号的频率范围内,选取频率值;

判断所述频域功率信号中,频率大于所述频率值的信号的功率总和,与频率小于所述频率值的信号的功率总和的比值,是否小于设定比值;

如果所述频域功率信号中,频率大于所述频率值的信号的功率总和,与频率小于所述频率值的信号的功率总和的比值,小于设定比值,则将所述频率值作为频率阈值;

如果所述频域功率信号中,频率大于所述频率值的信号的功率总和,与频率小于所述频率值的信号的功率总和的比值,不小于设定比值,则重新选取频率值,直到所述频域功率信号中,频率大于所选取的频率值的信号的功率总和,与频率小于所选取的频率值的信号的功率总和的比值,小于设定比值;

将最后一次选取的频率值,作为频率阈值。

具体的,本实施例中频谱选择子单元6032的具体工作内容,请参见对应的方法实施例的内容,此处不再赘述。

可选的,在本发明的另一个实施例中,采样点数计算子单元6033根据所述频谱主瓣宽度以及信号采样定理,计算得到对所述行为轨迹时间序列进行采样的采样点数时,具体用于:

根据信号采样定理,设定对所述频谱主瓣进行采样的采样点数为所述频谱主瓣宽度的宽度值的两倍,并将对所述频谱主瓣进行采样的采样点数作为对所述行为轨迹时间序列进行采样的采样点数。

具体的,本实施例中采样点数计算子单元6033的具体工作内容,请参见对应的方法实施例的内容,此处不再赘述。

可选的,在本发明的另一个实施例中,变换处理单元602对所述行为轨迹时间序列进行傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号时,具体用于:

对所述行为轨迹时间序列进行快速傅里叶变换处理,得到所述行为轨迹时间序列的频域功率信号。

具体的,本实施例中变换处理单元602的具体工作内容,请参见对应的方法实施例的内容,此处不再赘述。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1