用于识别目标群体的数据处理方法及装置与流程

文档序号:15159427发布日期:2018-08-14 09:57阅读:188来源:国知局

本申请涉及通信领域,具体而言,涉及一种用于识别目标群体的数据处理方法及装置。



背景技术:

wi-fi探针技术是指基于wi-fi探测技术来识别无线访问接入点附近已开启wi-fi的智能手机或者其他wi-fi终端的技术,无需用户接入wi-fi,wi-fi探针就能够识别用户的信息。wi-fi探针采集到的数据主要为mac层的信息,比如设备mac地址、wi-fi信号强度、wi-fi信号频道、信号帧类型等。

wi-fi探针常被应用于客流统计领域,根据wi-fi终端距离wi-fi探针越近,探测到的信号强度越强的原理,现有技术中在区域内部署一个wi-fi探针,通过人为设定一个信号强度阈值,直接比较探测到的信号强度与阈值的大小来判定顾客是否进店,即当探测到的信号强度大于阈值的时候判定进店,反之判定未进店。但在实际操作中,随着探针和wi-fi终端之间距离的增加,探测到的信号强度减小的趋势是不稳定的,另外信号强度还与中间是否存在遮挡物等因素有关,导致单个wi-fi探针采集到的单条信号强度有较大的随机性,使用这种未经处理的探测到的信号强度与根据经验人为确定出的阈值来判定是否进店,判定结果也会存在较大的误差。此外,单个wi-fi探针的探测范围有限,在目标场所较大时,可能并不能将其全面覆盖,同样会对判定结果造成较大的误差。

针对相关技术中使用单个wi-fi探针探测到的未经处理的wi-fi信号数据和经验阈值判断特定群体进入目标场所的判定结果存在较大误差的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请的主要目的在于提供一种用于识别目标群体的数据处理方法,以解决现有技术中使用单个wi-fi探针探测到的未经处理的wi-fi信号数据和经验阈值判断特定群体进入目标场所的判定结果存在较大误差的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种用于识别目标群体的数据处理方法,通过在预设区域内部署多个wi-fi探针用于识别所述预设区域内的待检测设备,通过所述待检测设备用于获得探测数据,所述方法包括:

接收所述探测数据;按照预设的数据格式将所述探测数据整理为特征识别数据;以及将所述特征识别数据作为训练特征,训练得到目标群体的识别模型,其中,所述目标群体用于作为进入预设区域内的目标场所的群体。

进一步地,所述按照预设的数据格式将所述探测数据整理为特征识别数据包括:确定所述预设区域内部署wi-fi探针的探针mac信息;获取所述待检测设备上的设备mac信息,信号强度和探测时间戳;确定设定周期,并将所述设定周期的起始时间作为聚合时间戳;统计所述设定周期内探针探测到的设备mac信息的次数,并计算出被探测到的信号强度的平均信号强度,同时确定其中的最大信号强度和最小信号强度。

进一步地,按照如下预设的数据格式整理得到所述特征识别数据:{探针mac,设备mac,探测次数,平均信号强度,最大信号强度,最小信号强度,聚合时间戳}。

进一步地,所述将所述特征识别数据作为训练特征,训练得到目标群体的识别模型包括:根据预设分类条件选取正样本和负样本;利用所述正样本和负样本的的特征识别数据训练分类模型;以及将所述分类模型作为目标群体的识别模型。

进一步地,所述根据预设分类条件选取正样本和负样本包括:将一天内被探测到的时长大于8小时,且一周内被探测到的天数不小于两天的样本定义为正样本;将一天内被探测到的时长小于3小时,且一周内被探测到的天数为一天的样本定义为负样本。

进一步地,在将所述特征识别数据作为训练特征,训练得到目标群体的识别模型之后还包括:采集所述未知群体的探测数据;按照所述预设的数据格式将所述未知群体的探测数据整理为特征识别数据;将所述未知群体的特征识别数据输入所述目标群体的识别模型;以及根据所述识别模型得出的识别结果判定未知群体是否属于目标群体。

为了实现上述目的,根据本申请的一个方面,提供了一种用于识别目标群体的数据处理装置,该装置包括:

数据采集模块,用于接收所述探测数据;数据处理模块,用于按照预设的数据格式将所述探测数据整理为特征识别数据;以及训练模块,用于将所述特征识别数据作为训练特征,训练得到目标群体的识别模型,所述目标群体为进入预设区域内的目标场所的群体。

进一步地,所述数据处理模块包括:提取模块,用于提取所述探测数据中的特征数据;以及整理模块,用于将所述探测数据中的特征数据按照预设的数据格式整理为所述特征识别数据。

进一步地,所述数据处理装置还包括:识别模块,用于利用所述目标群体的识别模型对未知群体进行识别,所述识别模块包括:预处理模块,用于采集所述未知群体的探测数据并按照所述预设的数据格式将所述未知群体的探测数据整理为特征识别数据;以及判定模块,用于将所述未知群体的特征识别数据输入所述目标群体的识别模型并根据所述识别模型得出的识别结果判定未知群体是否属于目标群体。

进一步地,所述数据处理装置还包括:可视化模块,用于将识别目标群体的数据处理结果显示在web端,所述可视化模块包括:统计模块,用于统计预设时段内所述目标群体的数量;以及显示模块,用于将所述统计结果显示在web端。

在本申请实施例中,采用在预设区域内部署多个wi-fi探针的方式,通过多个wi-fi探针获取预设区域内的待检测设备的探测数据,能够多方位全面覆盖目标场所,对探测数据进行整理后用于训练得到目标群体的识别模型,达到了了客观、准确、稳定地识别进入预设区域内的目标场所的目标群体的目的,进而解决了现有技术中使用单个wi-fi探针探测到的未经处理的wi-fi信号数据和经验阈值判断特定群体进入目标场所的判定结果存在较大误差的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请第一实施例的用于识别目标群体的数据处理方法的流程示意图;

图2是根据本发明第二实施例的用于识别目标群体的数据处理方法的流程示意图;

图3是根据本发明第三实施例的用于识别目标群体的数据处理方法的流程示意图;

图4是根据本发明第四实施例的用于识别目标群体的数据处理方法的流程示意图;

图5是根据本发明第一实施例的用于识别目标群体的数据处理装置的示意图;

图6是根据本发明第二实施例的用于识别目标群体的数据处理装置的示意图;

图7是根据本发明第三实施例的用于识别目标群体的数据处理装置的示意图;以及

图8是根据本发明第四实施例的用于识别目标群体的数据处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1是根据本申请第一实施例的用于识别目标群体的数据处理方法的流程示意图,通过在预设区域内部署多个wi-fi探针用于识别所述预设区域内的待检测设备,通过所述待检测设备用于获得探测数据,该方法包括如下的步骤s100至步骤s102:

步骤s100,接收所述探测数据;

在预设区域内部署多个wi-fi探针,可以多角度全方位的覆盖预设区域,从而保证了当待检测设备出现在预设区域内的特定目标场所或者目标场所周围时能够被至少一个wi-fi探针探测到。此时,接收到的多个wi-fi探针的探测数据是完整的,在识别目标群体时不会遗漏。

例如,在店铺内的多个区域和位置部署多个wi-fi探针,用以保证整个店铺被全面覆盖到,从而保证了不遗漏进店的顾客所携带设备的wi-fi信号,减小判定顾客进店的误差。

步骤s101,按照预设的数据格式将所述探测数据整理为特征识别数据;

通过多个wi-fi探针探测到的信息是多样化的,因此预先设定一种数据格式,用于将接收到的探测数据按此格式转化为后续步骤中需要的特征识别数据,该特征识别数据包含能够反映待检测设备wi-fi信号特征的信息。

步骤s102,将所述特征识别数据作为训练特征,训练得到目标群体的识别模型,其中,所述目标群体用于作为进入预设区域内的目标场所的群体。

使用多个wi-fi探针采集到的数据样本量大,可以用于作为机器学习的训练样本,将探测数据整理后得到的特征识别数据作为训练特征,可以训练得到目标群体的识别模型,样本量越大,所述训练得到的模型就越精确,因此适量增加预设区域内的wi-fi探针数量,有利于提高模型的精度,从而使识别结果更加准确。

从以上的描述中,可以看出,本发明通过在预设区域内部署多个wi-fi探针,有效地解决了部署单个wi-fi探针不能全面覆盖预设区域容易造成遗漏的问题,带来获取数据全面、所得结果准确的效果;同时,通过多个wi-fi探针获得的大量数据样本,使用处理过的特征识别数据作为训练特征,训练得到的识别模型克服了使用经验阈值的主观性强的局限,使得能够客观、准确识别进入预设区域内的目标场所的群体。综上所述,本发明克服了现有技术的局限,实现了更加客观、稳定、准确地判断目标群体是否进入目标场所的技术效果。

图2是根据本发明第二实施例的用于识别目标群体的数据处理方法的流程示意图,该方法包括:

在上述步骤s101中按照预设的数据格式将所述探测数据整理为特征识别数据包括:

步骤s200,确定所述预设区域内部署wi-fi探针的探针mac信息;

步骤s201,获取所述待检测设备上的设备mac信息,信号强度和探测时间戳;

步骤s202,确定设定周期,并将所述设定周期的起始时间作为聚合时间戳;

步骤s203,统计所述设定周期内探针探测到的设备mac信息的次数,并计算出被探测到的信号强度的平均信号强度,同时确定其中的最大信号强度和最小信号强度。

对设定周期内单个wi-fi采集到的待检测设备的wi-fi信号强度进行聚合,得到平均信号强度,并确定设定周期内的最大信号强度和最小信号强度,克服了采集到的单条信号强度具有随机性的问题。

将每个待检测设备被单个wi-fi采集到的数据按设定周期t进行聚合整理,计算这个时间周期内的平均信号强度avgsignal=(signal_1+signal_2+…+signal_n)/n,其中,signal_1,signal_2…signal_n为设定周期t内某设备被探测到的wi-fi信号强度,n为设定周期t内某设备被探测到的次数,通过这种算法将原始的探测信息转化为聚合信息。

例如,取3分钟为设定周期t,假设设定周期t的开始时间为begintime,截止时间时间为endtime,那么endtime-begintime=3分钟,并且将begintime作为聚合时间戳;假设设定周期t内某探针共探测到某个设备mac三次,信号强度分别为-75、-80、-85,则计算出平均信号强度为(-75-80-85)/3=-80,确定最大信号强度为-75,最小信号强度为-85。

优选地,按照如下预设的数据格式整理得到特征识别数据:

{探针mac,设备mac,探测次数,平均信号强度,最大信号强度,最小信号强度,聚合时间戳}。

例如,整理得到的特征识别数据为:{探针mac,设备mac,探测次数3,最大信号强度-75,最小信号强度-85,平均信号强度-80,聚合时间戳begintime}。

图3是根据本发明第三实施例用于识别目标群体的数据处理方法的流程示意图,该方法包括:

步骤s102中将所述特征识别数据作为训练特征,训练得到目标群体的识别模型包括:

步骤s300,根据预设分类条件选取正样本和负样本;

步骤s301,利用所述正样本和负样本的的特征识别数据训练分类模型;

步骤s302,将所述分类模型作为目标群体的识别模型。

其中,根据预设分类条件选取正样本和负样本包括:

将一天内被探测到的时长大于8小时,且一周内被探测到的天数不小于两天的样本定义为正样本;

将一天内被探测到的时长小于3小时,且一周内被探测到的天数为一天的样本定义为负样本。

例如,在判断顾客进店的实际应用中,通过上述预设分类条件挑选出店员群体作为正样本,顾客群体作为负样本,这是因为店员大部分活动范围在店内,而被探测到的大部分顾客的活动范围在店外,并且店员被探测到的时间较长,且会连续多天被探测到,而顾客被探测到的时间短,且一周内只被探测到一天。使用在步骤s101中获得的上述正样本和负样本的特征识别数据:探针mac,设备mac,探测次数,平均信号强度,最大信号强度,最小信号强度,聚合时间戳作为训练特征训练得到分类模型,将训练得到的分类模型作为进店群体的识别模型。

图4是根据本发明第四实施例的用于识别目标群体的数据处理方法的流程示意图,该方法包括:

在步骤s102将所述特征识别数据作为训练特征,训练得到目标群体的识别模型之后还包括:

步骤s400,采集所述未知群体的探测数据;

步骤s401,按照所述预设的数据格式将所述未知群体的探测数据整理为特征识别数据;

步骤s402,将所述未知群体的特征识别数据输入所述目标群体的识别模型;

步骤s403,根据所述识别模型得出的识别结果判定未知群体是否属于目标群体。

例如,在判断顾客进店的实际应用中,将采集到的某一顾客的探测数据整理为特征识别数据,输入训练好的识别模型,如所述识别模型的输出结果为店员群体,则判断该顾客进店,这主要是因为店员群体的活动范围大部分位于店内,被探测到的wi-fi信号特征更接近在店内应该被探测到的wi-fi信号特征,故将该顾客判定为进店群体。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例,还提供了一种用于实施第一实施例中的用于识别目标群体的数据处理方法的数据处理装置,如图5所述,该装置包括:数据采集模块10,数据处理模块20和训练模块30。

数据采集模块10,用于接收所述探测数据;

优选地,数据采集模块10中包括存储服务器,用于接收并存储wifi探针上报的原始探测数据。

数据处理模块20,用于按照预设的数据格式将所述探测数据整理为特征识别数据;

优选地,数据处理模块20中包括统计服务器,用于对所述存储服务器中存储的原始探测数据进行聚合处理,计算出设定周期内的待检测设备wi-fi信号的平均信号强度,确定该周期内的最大信号强度和最小信号强度,连同wi-fi探针的mac和设备mac一起,整理成如下的数据格式:

{探针mac,设备mac,探测次数,平均信号强度,最大信号强度,最小信号强度,聚合时间戳}。

训练模块30,用于将所述特征识别数据作为训练特征,训练得到目标群体的识别模型,所述目标群体为进入预设区域内的目标场所的群体。

优选地,训练模块30将一天内被探测到的时长大于8小时,且一周内被探测到的天数不小于两天的样本定义为正样本;将一天内被探测到的时长小于3小时,且一周内被探测到的天数为一天的样本定义为负样本。

优选地,训练模块30使用二元逻辑回归分类算法作为分类器,构建分类模型。

图6是根据本发明第二实施例的用于识别目标群体的数据处理装置的示意图,该装置中的数据处理模块20包括:

提取模块201,用于提取所述探测数据中的特征数据;

优选地,在wi-fi探针探测到信息中提取用于建模的特征数据,所述探测数据中的特征数据包括:探针mac信息,设备mac信息,探测到的信号强度,探测时间。

整理模块202,用于将所述探测数据中的特征数据按照预设的数据格式整理为所述特征识别数据。

优选地,设定周期t,将时间周期t的开始时间作为探测时间戳,得到时间周期t内某探针mac探测到某设备mac的次数,计算时间周期t内某探针mac探测到某设备mac的信号强度的平均值,得到平均信号强度,确定周期t内的最大信号强度和最小信号强度,最终整理模块202将提取模块201中获得的特征数据整理为如下的数据格式:

{探针mac,设备mac,探测次数,平均信号强度,最大信号强度,最小信号强度,聚合时间戳}。

图7是根据本发明第三实施例的用于识别目标群体的数据处理装置的示意图,该装置还包括:识别模块40,用于利用所述目标群体的识别模型对未知群体进行识别,识别模块40包括:

预处理模块401,用于采集所述未知群体的探测数据并按照所述预设的数据格式将所述未知群体的探测数据整理为特征识别数据;

优选地,预处理模块401提取未知群体探测数据中的特征数据,并将其整理为如下的数据格式:

{探针mac,设备mac,探测次数,平均信号强度,最大信号强度,最小信号强度,聚合时间戳}。

判定模块402,用于将所述未知群体的特征识别数据输入所述目标群体的识别模型并根据所述识别模型得出的识别结果判定未知群体是否属于目标群体。

例如,在判断顾客进店的实际应用中,训练模块30按上述优选的分类方式定义店员群体并作为正样本,定义顾客群体并作为负样本,判定模块402将预处理模块401中某一顾客的特征识别数据输入训练模块30训练得到的识别模型中,通过识别模型输出的结果判定顾客是否进店,即输出结果为店员群体时,判断该顾客进店,输出结果为顾客群体时则判断该顾客未进店。

图8是根据本发明第四实施例的用于识别目标群体的数据处理装置的示意图,该装置还包括:可视化模块50,用于将识别目标群体的数据处理结果显示在web端,可视化模块50包括:

统计模块501,用于统计预设时段内所述目标群体的数量;

显示模块502,用于将所述统计结果显示在web端。

优选地,在判断顾客进店的实际应用中,根据判定模块402输出的判定结果识别进店群体,进店群体中个体的数量被定义为进店量,将上述的数量对映到时间轴上,得到实时客流趋势图,将其显示在web端,此外,还可以按日、周、月进行统计,得到相应时段内的顾客进店趋势图。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1