访客终端的识别方法、装置、设备及存储介质与流程

文档序号:21003628发布日期:2020-06-05 22:56阅读:210来源:国知局
访客终端的识别方法、装置、设备及存储介质与流程

本申请涉及人工智能中的机器学习领域,特别涉及一种访客终端的识别方法、装置、设备及存储介质。



背景技术:

现如今,线下商户会在线上发布活动来吸引用户到店消费。为了确定线上活动的效果,商户需要统计用户的到店情况。

相关技术中,商户通过设置在店内的wifi(wireless-fidelity,无线网)探针获取用户的随身携带的移动终端的信息,来确定用户的到店情况。wifi探针技术是基于wifi探测技术来识别无线ap(accesspoint,接入点)附近已开启wifi的终端设备。wifi探针可以获取到终端设备的信息,包括终端设备的mac(mediaaccesscontroladdress,媒体存取控制地址)、wifi信号强度、wifi信号频道、信号帧类型、时间戳等。相关技术中,将连接到wifi探针的终端对应的信息确定为正样本,将未连接到wifi探针的终端对应的信息确定为负样本,训练得到分类模型,根据分类模型和终端的信息来判断终端是否是访客终端,并以此确定用户的到店情况。

相关技术中访客终端的识别方法,将未连接到wifi探针的终端对应的信息确定为负样本是不合理的,未连接到wifi探针的终端也可能是到店客人使用的终端,只不过客人不需要使用店内的无线网,用这样的负样本训练得到的分类模型显然不能准确判断访客终端。



技术实现要素:

本申请实施例提供了一种访客终端的识别方法、装置、设备及存储介质,可以准确判断访客终端。所述技术方案如下:

根据本申请的一个方面,提供了一种访客终端的识别方法,所述方法包括:

通过无线网探针设备获取无线终端的扫描数据集;

调用分类模型对所述无线终端的所述扫描数据集进行特征提取和特征识别,得到所述无线终端的识别结果,所述分类模型是对正样本和未知样本进行半监督学习得到的,所述正样本包括连接到所述无线网探针设备的所述无线终端对应的所述扫描数据集,所述未知样本包括未连接到所述无线网探针设备的所述无线终端对应的所述扫描数据集,所述识别结果包括访客终端或非访客终端;

输出所述无线终端的所述识别结果。

根据本申请的另一方面,提供了一种访客终端的识别装置,所述装置包括:

数据采集模块,用于通过无线网探针设备获取线终端的扫描数据集;

分类模型模块,用于调用分类模型对所述无线终端的所述扫描数据集进行特征提取和特征识别,得到所述无线终端的识别结果,所述分类模型是对正样本和未知样本进行半监督学习得到的,所述正样本包括连接到所述无线网探针设备的所述无线终端对应的所述扫描数据集,所述未知样本包括未连接到所述无线网探针设备的所述无线终端对应的所述扫描数据集,所述识别结果包括访客终端或非访客终端;

输出模块,用于输出所述无线终端的所述识别结果。

根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的访客终端的识别方法。

根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的访客终端的识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

通过无线网探针设备获取无线终端的扫描数据集,利用分类模型对扫描数据集进行特征提取和识别,从而得到对无线终端的识别结果。其中,分类模型是利用正样本和未知样本进行半监督学习得到的,正样本是主动连接到无线网探针设备的无线终端对应的扫描数据集,未知样本是没有主动连接到无线网探针设备的无线终端对应的扫描数据集。利用半监督学习得到的分类模型,可以提高分类模型对未连接到无线网探针设备的无线终端属于访客终端或属于非访客终端的分辨能力,提高分类模型对未连接到无线网络探针设备的无线终端的识别准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本申请一个示例性实施例提供的计算机系统的框图;

图2是本申请一个示例性实施例提供的访客终端的识别方法的流程图;

图3是本申请一个示例性实施例提供的特征示意图;

图4是本申请另一个示例性实施例提供的客流营销系统的界面示意图;

图5是本申请另一个示例性实施例提供的分类模型的训练方法的流程图;

图6是本申请另一个示例性实施例提供的分类模型的训练方法的流程图;

图7是本申请另一个示例性实施例提供的分类模型的训练方法的流程图;

图8是本申请另一个示例性实施例提供的分类模型的训练方法的流程图;

图9是本申请另一个示例性实施例提供的分类模型的训练方法的流程图;

图10是本申请另一个示例性实施例提供的分类模型的训练方法的流程图;

图11是本申请另一个示例性实施例提供的访客终端的识别方法的流程图;

图12是本申请另一个示例性实施例提供的访客终端的识别方法的流程图;

图13是本申请另一个示例性实施例提供的访客终端的识别方法的流程图;

图14是本申请另一个示例性实施例提供的访客终端的识别装置的示意图;

图15是本申请另一个示例性实施例提供的分类模型的训练装置的示意图;

图16是本申请另一个示例性实施例提供的服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

wifi探针技术是基于wifi探测技术来识别无线ap附近已开启wifi的终端设备。wifi探针可以获取到终端设备的信息,包括终端设备的mac地址、wifi信号强度、wifi信号频道、信号帧类型、时间戳等。

半监督学习是监督学习与无监督学习相结合的一种机器学习方法。半监督学习使用已标记数据和未标记数据来进行模式识别工作。示例性的,半监督学习利用已知样本和未知样本的聚类特性得到已知样本的分类方式,从而获得分类模型。其中,pu-learning算法是半监督学习的一个重要分支。pu-learning算法的基本思想分为两步,一是从未标记样本中找到可靠的负样本,一是用确定的正样本和可靠的负样本训练分类模型。其中,确定可靠的负样本的方法包括朴素贝叶斯算法、spy算法、1-dnf算法等,以spy算法为例,spy算法从正样本p中抽取一部分样本s,正样本p去掉部分样本s后即为样本集ps,将部分样本s加入未知样本u中得到样本集us,利用样本集ps和样本集us训练得到分类模型g,用分类模型g对部分样本s预测得到的分类概率确定分类阈值,对未知样本u使用分类模型g得到每个样本的分类概率,当样本的分类概率小于分类阈值时,将该样本确定为负样本。

本申请将已经连接到wifi探针的终端对应的数据确定为正样本,将未连接到wifi探针的终端对应的数据确定为未知样本,利用半监督学习和随机森林算法对正样本和未知样本进行训练得到由若干个分类树组成的分类模型。利用该分类模型对店内的wifi探针采集到的终端数据进行判断,若该数据与正样本更相似,则该终端为访客终端,若该数据与正样本不相似,则该终端为非访客终端。

参考图1,示出了本申请一个示例性实施例提供的计算机系统的结构示意图,该计算机系统包括无线终端120、无线网探针设备130和服务器140。

无线终端120与无线网探针设备130之间通过无线网络相互连接。

无线网探针设备130与服务器140之间通过有线网络相互连接。

无线终端120是具有连接无线网络功能的设备。无线网络包括无线广域网(wirelesswideareanetwork,wwan)、无线局域网(wirelesslocalareanetwork,wlan)、无线城域网(wirelessmetropolitanareanetwork,wman)和无线个人局域网(wirelesspersonalareanetwork,wpan)。可选地,无线终端120可以包括笔记本电脑、台式电脑、智能手机、平板电脑、智能音箱、智能机器人、摄像机、投影仪、监控器、智能家电中的至少一种。

示例性的,无线终端120是开启无线网络功能的终端。例如,无线网络是wlan,则无线终端120是开启wifi功能的终端,开启wifi功能指wifi处于开启状态(包括已经连接到某wlan的状态和还未连接到wlan的状态)。示例性的,只有开启无线网络功能的无线终端才能被无线网探针设备扫描并获取到扫描数据。

无线终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序;上述第一程序被第一处理器调用执行以实现连接无线网络的功能。第一存储器可以包括但不限于以下几种:随机存取存储器(randomaccessmemory,ram)、只读存储器(readonlymemory,rom)、可编程只读存储器(programmableread-onlymemory,prom)、可擦除只读存储器(erasableprogrammableread-onlymemory,eprom)、以及电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)。

第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(centralprocessingunit,cpu)或者网络处理器(networkprocessor,np)。

无线网探针设备130是具有探针功能的无线网络设备。示例性的,探针技术是基于无线网络探测技术来识别ap附近已经开启无线网络功能的无线设备120。示例性的,无线探针设备130包括wifi探针设备。示例性的,无线网探针设备130可以是路由器、笔记本电脑、台式电脑、智能手机、平板电脑、智能音箱、智能机器人、摄像机、投影仪、监控器、智能家电中。示例性的,无线网探针设备130中设置具有支持被动检测模式(监听器模式)的网卡。

示例性的,无线网探针设备130周期性的向周围的无线终端广播信号,告知无线终端120和其他无线网探针设备此处有无线网可以接入。示例性的,无线终端120在监听无线网探针设备130的同时还会向无线网探针设备130发送信息,告知无线网探针设备130自身的mac地址和其他网络连接信息。示例性的,无线探针设备130定期扫描附近无线终端120发送的信息。示例性的,当无线网探针设备130扫描到无线终端的信息时获取到无线终端120的扫描数据,无线网探针设备130将获取到的扫描数据上传到服务器140。

示例性的,服务器140可以由一个服务器或多个服务器构成。示例性的,服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序,上述第二程序被第二处理器调用来实现本申请提供的访客终端的识别方法。示例性的,第二存储器中存储有第三程序,上述第三程序被第二处理器调用来实现本申请提供的分类模型的训练方法。示例性的,第二存储器中存储有分类模型,上述分类模型被第二处理器调用以实现访客终端的识别方法中服务器侧执行的步骤。可选地,第二存储器可以包括但不限于以下几种:ram(randomaccessmemory,随机存取存储器)、rom(readonlymemory,只读存储器)、prom(programmablereadonlymemory,可编程只读存储器)、eprom(erasableprogrammablereadonlymemory,可擦除可编程只读存储器)、eeprom(electricallyerasableprogrammablereadonlymemory,带电可擦除可编程只读存储器)。

可选地,第二处理器通过调用第二存储器中存储的分类模型,以实现上述访客终端的识别方法。可选地,第二处理器可以是通用处理器,比如,cpu(centralprocessingunit,中央处理器)或者np(networkprocessor,网络处理器)。

示意性的,本申请提供的访客终端的识别方法可以应用于商户管理软件、访客查询软件、客流量查询软件、终端识别软件中的至少一种来执行。

本实施例提供了访客终端的识别方法和分类模型的训练方法两种方法。示例性的,首先,通过分类模型的训练方法训练得到分类模型;然后,将分类模型应用到访客终端的识别方法中,使服务器可以利用分类模型识别新的无线终端是否是访客终端。

图2示出了本申请一个示例性实施例提供的分类模型的训练方法的流程图。该方法可以由图1所示的服务器来执行。所述方法包括:

步骤201,获取样本无线终端的样本扫描数据集,样本扫描数据集包括样本无线终端的扫描数据集。

服务器获取样本无线终端的样本扫描数据集,样本扫描数据集包括样本无线终端的扫描数据集。

扫描数据是服务器通过无线网探针设备获取到的无线终端的数据。示例性的,扫描数据是无线网探针设备扫描到无线终端时获取到的数据。示例性的,扫描数据包括无线网探针设备扫描到的无线终端发送的信号以及信号的类型、无线网探针设备扫描到无线终端的时刻(时间戳)、该无线网探针设备的探针mac地址和无线网mac地址、无线设备的信号强度。示例性的,探针mac地址用于向服务器发送所述扫描数据。示例性的,无线网mac地址用于为无线终端提供网络服务。

示例性的,无线网探针设备扫描到一次无线终端,即会生成一条无线终端的扫描数据。扫描数据集中包括该无线设备的至少一条扫描数据。示例性的,一个扫描数据集包括同一个无线终端的扫描数据。示例性的,一个扫描数据集可以是同一个无线终端在一定时间内的扫描数据的集合;也可以是在无线网探针设备上传的一定数量的扫描数据中,同一个无线终端的扫描数据的集合;还可以是在无线网探针设备一定数量的扫描次数内,获取到的同一个无线终端的扫描数据的集合。示例性的,无线终端发送的信号中包括无线终端的mac地址,服务器将无线网探针设备上传的所有扫描数据中,无线终端的mac地址相同的扫描数据归为同一个无线终端的扫描数据,构成该无线终端的扫描数据集。

示例性的,服务器也可以根据同一个无线终端不同的扫描数据,将一个无线终端的扫描数据集拆分为该无线终端的多个扫描数据集。例如,将第一无线终端由第一无线网探针设备获取到的扫描数据作为第一扫描数据集,将第一无线终端由第二无线网探针设备获取到的扫描数据作为第二扫描数据集。

示例性的,服务器获取至少两个样本无线终端的至少两个样本扫描数据集,样本扫描数据集包括样本无线终端的扫描数据集。

样本扫描数据集是服务器用于训练分类模型的扫描数据集。示例性的,每个样本扫描数据集中的无线终端的mac地址对应了样本无线终端。

服务器获取样本扫描数据集的方式有多种。

示例性的,服务器可以从服务器中存储的扫描数据中提取部分扫描数据构成至少两个样本扫描数据集,来训练分类模型。此时,样本无线终端是服务器提取的扫描数据中无线终端的mac地址对应的终端。

示例性的,服务器还可以实时通过无线网探针设备获取的扫描数据中提取扫描数据构成至少两个样本扫描数据集,来训练分类模型。此时,样本无线终端是在无线网探针设备附近开启无线网功能的终端,或,样本无线终端是无线网探针设备获取到的扫描数据中无线终端的mac地址对应的终端。示例性的,服务器可以通过的多个无线网探针设备来获取样本扫描数据集。例如,一个无线终端的扫描数据集中包括了多条探针mac地址不同的扫描数据,则该多条探针mac地址不同的扫描数据来自于不同无线网探针设备。示例性的,服务器可以根据无线网探针设备的所在位置确定无线终端所在的位置,从而获取到无线终端的位置信息。示例性的,扫描数据中也可以包含该无线终端的位置信息。

示例性的,服务器也可以在一定时间内,通过指定的一定数量的无线网探针设备来获取样本扫描数据集。则样本无线终端是在该一定时间内,被该一定数量的无线网探针设备扫描到的终端。

示例性的,服务器是接收无线网络探针设备发送的扫描数据的服务器。示例性的,服务器也可以是接收由其他服务器转发的扫描数据的服务器。

步骤202,根据样本扫描数据集获取正样本和未知样本,正样本包括连接到无线网探针设备的样本无线终端的样本扫描数据集,未知样本包括未连接到无线网探针设备的样本无线终端的样本扫描数据集。

服务器根据样本扫描数据集获取正样本和未知样本。

示例性的,正样本是主动连接到无线网络探针设备的样本无线终端对应的样本扫描数据集。示例性的,未知样本是没有主动连接到无线网络探针设备的样本无线终端对应的样本扫描数据集。

示例性的,扫描数据中还包括无线终端的连接状态。示例性的,连接状态可以是在扫描数据中由无线网络是设备直接发送给服务器的,也可以是服务器根据扫描数据中无线终端发送的信号以及信号的类型来判断出的无线终端的连接状态。

示例性的,服务器将扫描数据集中连接状态包括至少一个已连接状态的扫描数据集确定为正样本。示例性的,服务器也可以将扫描数据集中连接状态为已连接状态的扫描数据单独确定为一个新的扫描数据集,将该新的扫描数据集确定为正样本。示例性的,服务器也可以将连接状态全部为已连接状态的扫描数据集确定为正样本。

示例性的,服务器将扫描数据集中连接状态包括至少一个未连接状态的扫描数据集确定为未知样本。示例性的,服务器也可以将扫描数据集中连接状态为未连接状态的扫描数据单独确定为一个新的扫描数据集,将该新的扫描数据集确定为未知样本。示例性的,服务器也可以将连接状态全部为未连接状态的扫描数据集确定为未知样本。

示例性的,服务器根据正样本的判断条件从样本扫描数据集中提取正样本,除去正样本外的其他样本扫描数据集即为未知样本。

步骤203,根据正样本和未知样本训练得到分类模型。

服务器根据正样本和未知样本训练得到分类模型。

分类模型是具有分类能力的机器学习模型。示例性的,将一条数据输入分类模型后,分类模型可以输出该数据属于某一类,和/或该数据属于某一类的概率。示例性的,分类模型根据训练时用的样本数据来判断新输入的数据属于哪一类。例如,利用正样本和未知样本训练出的分类模型可以判断出,新输入的数据属于正样本,或,不属于正样本(属于未知样本),和/或,新输入的数据属于正样本的概率,或,不属于正样本(属于未知样本)的概率。

示例性的,服务器将新的扫描数据输入至分类模型后,可以获得该扫描数据属于正样本的概率。示例性的,由于正样本是主动连接到无线网探针设备的无线终端,则该无线终端很可能是访客终端。因此,可以利用分类模型来判断无线终端是否是访客终端。

示例性的,训练得到分类模型后,服务器可以用分类模型来识别访客终端。本实施例提供有步骤211至步骤213的访客终端的识别方法。

示例性的,本实施例提供的分类模型训练方法和访客终端的识别方法可以是由不同服务器或设备来执行的,也可以是由相同的服务器或设备来执行的。例如,用第一终端训练得到分类模型,然后第一服务器利用该分类模型实施本申请提供的访客终端的识别方法。

示例性的,本实施例以两个方法是同一个设备执行的来举例说明。

步骤211,通过无线网探针设备获取无线终端的扫描数据集。

服务器通过无线网探针设备获取无线终端的扫描数据集。

示例性的,服务器通过无线网探针设备来获取无线终端的扫描数据集。利用该扫描数据集识别无线终端是否属于访客终端。

示例性的,由于主动连接到无线网探针设备的无线终端是正样本,根据主动连接到无线网探针设备这一个特征即可判断出该终端是访客终端。为了体现出本实施例提供的分类模型更优的识别效果,本实施例使用未连接到无线网探针设备的无线终端来做演示。即,使用本实施例提供的分类模型,可以判断出未知样本中哪些无线终端是访客终端。

步骤212,调用分类模型对无线终端的扫描数据集进行特征提取和特征识别,得到无线终端的识别结果,分类模型是对正样本和未知样本进行半监督学习得到的,正样本包括连接到无线网探针设备的无线终端对应的扫描数据集,未知样本包括未连接到无线网探针设备的无线终端对应的扫描数据集,识别结果包括访客终端或非访客终端。

服务器调用分类模型对无线终端的扫描数据集进行特征提取和特征识别,得到无线终端的识别结果。

示例性的,访客终端是靠近无线网探针设备的终端,非访客终端是离无线网探针设备较远的终端。示例性的,访客终端是在无线网探针设备附近停留时间较长的终端,非访客终端是在无线网探针设备附近停留时间较短的终端。示例性的,当本实施例的访客终端识别方法应用在识别到店用户的场景中时,访客终端是到店终端,非访客终端是未到店的终端。例如,访客终端是到达店内进行消费的用户使用的终端,或在店内点单外带的用户使用的终端。非访客终端是店外路过的路人使用的终端,或来店内取餐的外卖配送人员使用的终端。

示例性的,分类模型的分类原理是根据扫描数据集的特征来判断扫描数据集的类别。示例性的,若输入的扫描数据集与正样本更相似,则分类模型确定该扫描数据集属于正样本(访客终端)。示例性的,扫描数据集输入分类模型后,分类模型提取扫描数据集的特征,进行特征识别,来判断扫描数据集属于的类别。示例性的,特征是扫描数据集的数据特征。例如,特征是扫描数据的特征,特征包括:扫描数据的时间戳、连接状态、无线终端地址、探针地址、无线网地址、信号强度中的至少一个。其中,无线终端地址是无线终端的mac地址,mac地址用于确认网络设备位置的位址;探针地址是探针的mac地址,探针地址用于向服务器发送扫描数据;无线网地址是无线网的mac地址,无线网地址用于为无线终端提供网络服务。示例性的,特征还可以是其他限定特征,例如,一段时间。示例性的,特征还可以是由已知特征得出的新的特征。例如,根据探针地址可以获取到无线终端的位置,根据多个扫描数据的时间戳可以算出该终端停留在无线网探针设备附近的时长。示例性的,特征还可以是由多个特征组合得到的特征。例如,如图3所示,是扫描数据集的特征列举图示。由多个特征组合得到的特征可以是:特征一601在营业时间内每个无线终端的到店时长;特征二602营业时间前一个小时无线终端在店,或,营业时间最后一个小时无线终端在店;特征三603无线终端第一次被扫描的时间戳在每天的凌晨零点到六点之间;特征四604“营业时间-信号值-扫描次数”,在营业时间内,单个无线终端的信号强度与扫描次数的关系图;特征五605“打样时间-信号值-扫描次数”,在打样时间内,单个无线终端的信号强度与扫描次数的关系图;特征六606“全天-信号值-扫描次数”,全天单个无线终端的信号强度与扫描次数的关系图;特征七607“营业时间-扫描间隔时间分布”,在营业时间内,单个无线终端被扫描到的扫描间隔时间的分布图;特征八608“全天-扫描间隔时间分布”,全天单个无线终端被扫描到的扫描间隔时间的分布图;特征九609“营业时间-扫描次数”,在营业时间内,单个无线终端的扫描次数的分布图;特征十610“打样时间-扫描次数”,在打样时间内,单个无线终端的扫描次数的分布图;特征十一611“全天-扫描次数”,全天单个无线终端的扫描次数的分布图;特征十二612“营业时间-扫描小时数”,在营业时间内,单个无线终端在哪几个小时被扫描到的分布图;特征十三613“打样时间-扫描小时数”,在打样时间内,单个无线终端在哪几个小时被扫描到的分布图;特征十四614“全天-扫描小时数”,全天单个无线终端在哪几个小时被扫描到的分布图;特征十五615“同一时段无线终端mac数的1分钟最大值/最小值/直方图”,同一时段无线网探针设备在1分钟内获取的无线终端mac最大数量/最小数量,以及每1分钟无线网探针设备在1分钟内获取的无线终端mac数量的直方图;特征十六616“同一时段无线终端mac数的10分钟最大值/最小值/直方图”,同一时段无线网探针设备在10分钟内获取的无线终端mac最大数量/最小数量,以及每10分钟无线网探针设备在10分钟内获取的无线终端mac数量的直方图;特征十七617“同一时段无线终端mac数的1小时最大值/最小值/直方图”,同一时段无线网探针设备在1小时内获取的无线终端mac最大数量/最小数量,以及每1小时无线网探针设备在1小时内获取的无线终端mac数量的直方图;特征十八618“同一时段对同一无线终端mac的扫描次数的1分钟最大值/最小值/直方图”1分钟内店内的无线网探针设备上报次数最多/最少的无线终端mac,以及每个无线终端mac被无线网探针设备上报次数分布直方图;特征十九619“同一时段对同一无线终端mac的扫描次数的10分钟最大值/最小值/直方图”,10分钟内店内的无线网探针设备上报次数最多/最少的无线终端mac,以及每个无线终端mac被无线网探针设备上报次数分布直方图;特征二十620“同一时段对同一无线终端mac的扫描次数的1小时最大值/最小值/直方图”,1小时内店内的无线网探针设备上报次数最多/最少的无线终端mac,以及每个无线终端mac被无线网探针设备上报次数分布直方图;特征二十一621“同一时段的probe数的1分钟最大值/最小值/直方图”同一时段无线网探针设备在1分钟内获取的probe(无线终端的信号)最大数量/最小数量,以及每1分钟无线网探针设备在1分钟内获取的probe(无线终端的信号)数量的直方图;特征二十二622“同一时段的probe数的10分钟最大值/最小值/直方图”同一时段无线网探针设备在10分钟内获取的probe(无线终端的信号)最大数量/最小数量,以及每10分钟无线网探针设备在10分钟内获取的probe(无线终端的信号)数量的直方图;特征二十三623“过去14天中营业时间扫描天数”,过去的两周内,无线终端在营业时间被扫描到的天数;特征二十四624“过去14天中打样时间扫描天数”,过去的两周内,无线终端在打样时间被扫描到的天数;特征二十五625“过去14天中到店时长分布”,过去的两周内,无线终端的到店时长分布图;特征二十六626“过去14天中到每个小时出现的天数分布”,过去的两周内,无线终端在哪几个小时被扫描到以及被扫描到的天数分布。

示例性的,分类模型得到的识别结果包括该扫描数据集属于哪一类,和/或,该扫描数据集属于哪一类的概率是多少。

步骤213,输出无线终端的识别结果。

服务器输出无线终端的识别结果。

示例性的,服务器输出该扫描数据属于访客终端或属于非访客终端。

示例性的,服务器可以还可以根据该识别结果进行进一步的数据分析,例如,分析一个店在某一天的访客终端数量,从而获取该店的客流量。例如,如图4所示,服务器将该识别结果应用在客流营销系统403中,分析啡啡咖啡店404在2019年10月22日至2019年10月28日间的进店客405的趋势,得到趋势图405。啡啡咖啡店的经营者可以根据趋势图来更改营销策略,吸引更多客户。

综上所述,本实施例提供的方法,通过无线网探针设备获取无线终端的扫描数据集,利用分类模型对扫描数据集进行特征提取和识别,从而得到对无线终端的识别结果。其中,分类模型是利用正样本和未知样本进行半监督学习得到的,正样本是主动连接到无线网探针设备的无线终端对应的扫描数据集,未知样本是没有主动连接到无线网探针设备的无线终端对应的扫描数据集。利用半监督学习得到的分类模型,可以提高分类模型对未连接到无线网探针设备的无线终端属于访客终端或属于非访客终端的分辨能力,提高分类模型对未连接到无线网络探针设备的无线终端的识别准确度。

示例性的,本申请还提供有一个利用随机森林算法来训练分类模型的示例性实施例。

图5示出了本申请一个示例性实施例提供的分类模型的训练方法的流程图。该方法可以由图1所示的服务器来执行。所述方法包括:

步骤201,获取样本无线终端的样本扫描数据集,样本扫描数据集包括样本无线终端的扫描数据集。

步骤202,根据样本扫描数据集获取正样本和未知样本,正样本包括连接到无线网探针设备的样本无线终端的样本扫描数据集,未知样本包括未连接到无线网探针设备的样本无线终端的样本扫描数据集。

示例性的,如图6所示,步骤202包括步骤2021至步骤2024。

步骤2021,将样本扫描数据集中满足有效条件的样本扫描数据集确定为有效数。

服务器将样本扫描数据集中满足有效条件的样本扫描数据集确定为有效数。

有效条件用于剔除内部工作人员终端和无法识别的终端对应的扫描数据集。

示例性的,服务器获取到的样本扫描数据集中包括部分无效数据。

例如,部分无线终端出于信息安全考虑,在无线终端连接到无线探针设备前不会向无线探针设备发送真实的无线终端mac地址,而是用随机生成的伪装mac地址向无线探针设备发送信息,无线终端每次发送信息都会使用不同的伪装mac地址,因此服务器无法根据无线终端的mac地址来确定该扫描数据属于哪一个无线终端。

例如,店内工作人员使用的无线终端是长期在店内的。这部分无线终端产生的扫描数据不具有参考价值,会影响分类模型对扫描数据的特征提取和识别,因此,这部分扫描数据为无效数据。

有效数据是对训练能够识别出访客终端的分类模型有参考价值的数据。示例性的,从有效数据中可以提取出访客终端或非访客终端的某些特性、特征。

有效条件是用来剔除无效数据的判断条件。示例性的,样本扫描数据集中不满足有效条件的样本扫描数据集作为无效数据剔除。或,有效条件是筛选有效数据的判断条件。示例性的,样本扫描数据集中满足有效条件的样本扫描数据集作为有效数据保留。

示例性的,本实施例还提供有确定有效数据的至少三种方法。

第一种方法,示例性的,如图6所示,步骤2021包括步骤2021-1。

步骤2021-1,将时间戳早于或晚于营业时间的数量小于第一阈值的样本扫描数据集,确定为满足有效条件的样本扫描数据集。

服务器将时间戳早于或晚于营业时间的数量小于第一阈值的样本扫描数据集,确定为满足有效条件的样本扫描数据集。

示例性的,商家会将店铺的营业时间发送给服务器,服务器根据营业时间将店内工作人员的无线终端对应的扫描数据从样本扫描数据集中剔除。

示例性的,服务器将样本扫描数据集中扫描数据的时间戳早于或晚于营业时间的扫描数据确定为工作人员的扫描数据,当一个扫描数据集中工作人员的扫描数据数量大于一定数值后,则可以确定该无线终端是工作人员使用的终端,将该终端对应的样本扫描数据集剔除。

示例性的,当一个扫描数据集中工作人员的扫描数据数量小于一定数值后,则该样本扫描数据集有可能是到店访客的终端对应的扫描数据集,则确定该样本扫描数据集满足有效条件。

示例性的,第一阈值可以是任意数值。第一阈值可以由服务器或用户根据无线网探针设备的扫描周期进行设定,例如,无线网探针设备的扫描周期是一分钟十次,则第一阈值可以是一百次,即,一个样本扫描数据集中如果有一百个时间戳都是早于或晚于营业时间的,则确定该样本扫描数据集为工作人员的无线终端。反之则确定为满足有效条件。

示例性的,时间戳早于或晚于营业时间的数量等于第一阈值的样本扫描数据集可以确定为满足有效条件,也可以确定为不满足有效条件。

第二种方法,示例性的,如图7所示,步骤2021包括步骤2021-2。

步骤2021-2,将时间戳包含的日期占工作日的比例小于第二阈值的样本扫描数据集,确定为满足有效条件的样本扫描数据集。

服务器将时间戳包含的日期占工作日的比例小于第二阈值的样本扫描数据集,确定为满足有效条件的样本扫描数据集。

示例性的,商家会将店铺的工作日发送给服务器,服务器根据工作日将店内工作人员的无线终端对应的扫描数据从样本扫描数据集中剔除。

示例性的,服务器将样本扫描数据集中扫描数据的时间戳所包含的日期占工作日的比例超过一定数值的扫描数据确定为工作人员的扫描数据,当一个扫描数据集中工作人员的扫描数据数量大于一定数值后,则可以确定该无线终端是工作人员使用的终端,将该终端对应的样本扫描数据集剔除。例如,某商家的工作日是每周的周一到周五,正常来说一个月商家的工作日为20天,则如果一个月有18天以上无线网探针设备都上传了同一个无线终端的扫描数据,则该无线终端是工作人员的无线终端,将该无线终端确定为不满足有效条件的样本扫描数据。

示例性的,当一个扫描数据集中工作人员的扫描数据数量小于一定数值后,则该样本扫描数据集有可能是到店访客的终端对应的扫描数据集,则确定该样本扫描数据集满足有效条件。

示例性的,第二阈值可以是任意数值。第二阈值可以由服务器或用户根据商家的工作日进行设定,例如,某商家的工作日是每个月30天,则第二阈值可以是25天,即,一个样本扫描数据集中如果时间戳的日期涵盖了一个月中的25天以上,则确定该样本扫描数据集为工作人员的无线终端。反之则确定为满足有效条件。

示例性的,时间戳包含的日期占工作日的比例等于第二阈值的样本扫描数据集可以确定为满足有效条件,也可以确定为不满足有效条件。

示例性的,也可以根据商家的工作日,将非工作日获取到的样本扫描数据剔除,该部分数据很有可能是路过店铺或在店门口停留的无线终端产生的扫描数据。即,将时间戳包含的日期是工作日的样本扫描数据集,确定为满足有效条件的样本扫描数据集。

第三种方法,示例性的,如图8所示,步骤2021包括步骤2021-3。

步骤2021-3,将无线终端地址不满足伪装mac地址条件的样本扫描数据集确定为满足有效条件的样本扫描数据集,伪地址条件是判断无线终端地址的组织位移标识符oui是否为已知厂商的oui的条件。

服务器将无线终端地址不满足伪装mac地址条件的样本扫描数据集确定为满足有效条件的样本扫描数据集。

示例性的,无线终端mac地址的前几位是oui(organizationallyuniqueidentifier,组织唯一标识符)。组织唯一标志符(oui)是由电器和电子工程师协会(instituteofelectricalandelectronicsengineers,ieee)分配给单位组织的,对于厂商生产的每一块网卡来说,这个地址是唯一的。因此,服务器获取到已有的oui列表,如果在现有的oui列表中没有查到无线终端地址的oui,则该无线终端地址很可能是无线终端随机生成的伪装mac地址。示例性的,mac地址包含12个字符,前6个字符是oui。

示例性的,还可以采用随机mac规则过滤伪装mac地址。mac匹配前缀daa119,或者前2个字符(16进制),转换成2进制,如果最后两位等于10,则该无线终端mac地址也是伪装mac地址。

示例性的,若样本扫描数据集的无线终端地址不满足上述伪装mac地址条件,则确定为满足有效条件的样本扫描数据集。

示例性的,如图9所示,步骤2021包括步骤2021-4至步骤2021-5。

步骤2021-4,调用孤立检测模型对样本扫描数据集进行特征分类,得到样本扫描数据集的异常分。

服务器调用孤立检测模型对样本扫描数据集进行特征分类,得到样本扫描数据集的异常分。

孤立检测模型是用来检测一个样本群中,每个样本的异常分。示例性的,将一个杨本群输入孤立检测模型后,孤立检测模型基于孤立森林算法(isolationforest)得到的模型。

孤立森林算法中,异常被定义为“容易被孤立的离群点(morelikelytobeseparated)”,可以将其理解为分布稀疏且离密度高的群体较远的点。在特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的数据是异常的。孤立森林算法是一种适用于连续数据(continuousnumericaldata)的无监督异常检测方法,即不需要有标记的样本来训练。在孤立森林算法中,递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。

示例性的,将样本扫描数据集输入孤立检测模型后,孤立检测模型根据若干个特征对样本扫描数据集进行分类得到孤立树,孤立树是每个叶子节点中样本扫描数据集的数量小于阈值(数量为1)的分类树。示例性的,孤立树可以根据每个样本扫描数据集在孤立树中所在的节点位置来确定该样本扫描数据集的异常分。示例性的,孤立检测模型会按照上述方法将样本扫描数据集构成若干个孤立树,每个样本扫描数据集都可以得到若干个异常分,将每个样本扫描数据集对应的若干个异常分加权求和后,即可以得到孤立检测模型输出的每个样本扫描数据集的异常分。

示例性的,若某个样本扫描数据集的异常分大于一定阈值,则可以确定该样本存在异常。

步骤2021-5,将异常分小于第三阈值的样本扫描数据集确定为满足有效条件的样本扫描数据集。

服务器将异常分小于第三阈值的样本扫描数据集确定为满足有效条件的样本扫描数据集。

示例性的,第三阈值可以是任意数值。第三阈值可以由服务器或用户根据孤立检测模型输出的异常分取值范围进行设定。

示例性的,图6至图9给出的三种确定有效数据的方法可以单独使用,也可以同时使用三种方法中的至少两种方法确定有效数据。示例性的,本实施例对同时使用三种方法中的至少两种方法确定有效数据的使用顺序不加以限定,例如,可以先使用图9所示的孤立检测模型来确定有效数据后,再将有效数据用图6所示的有效数据确定方法进一步筛选有效数据。

示例性的,本实施例还给出了一种确定有效数据的方法。

服务器可以根据一个样本扫描数据集中的多个扫描数据的时间戳确定该无线终端的扫描时间间隔。扫描时间间隔是同一个无线终端前后两次被获取到扫描数据的间隔时长。例如,无线网探针设备在12:30分第一次扫描到无线终端a,在12:31分第二次扫描到无线终端a,则这两个扫描数据的时间间隔为一分钟。示例性的,服务器获取样本扫描数据集中每两次扫描数据间的扫描时间间隔,得到x个扫描时间间隔,x是大于1的整数。示例性的,服务器根据这x个扫描时间间隔确定出一个时间间隔阈值,例如,服务器将x个扫描时间间隔从大到小顺序排列后取中位数作为时间间隔阈值,或,服务器计算x个扫描时间间隔的平均数作为时间间隔阈值。示例性的,不同无线终端有不同的时间间隔阈值。示例性的,时间间隔阈值具有统一的取值标准,例如时间间隔阈值不可以大于30分钟,若按照上述方式计算得到的无样本线终端的时间间隔阈值大于30分钟,则将该样本无线终端对应的样本扫描数据集确定为无效数据,或,将30分钟确定为该样本无线终端对应的时间间隔阈值。

示例性的,服务器根据样本无线终端的时间间隔阈值,将样本扫描数据集中扫描时间间隔大于时间间隔阈值的扫描数据剔除,得到该样本无线终端对应的新的样本扫描数据集,将该扫描数据集确定为满足有效条件的样本扫描数据集。

示例性的,服务器利用时间间隔阈值将样本扫描数据集中的部分扫描数据剔除后,利用剩余的扫描数据的时间戳,计算该无线终端的到店时长。示例性的,无线终端的到店时长等于无线终端的小于时间间隔阈值的所有扫描时间间隔之和。

示例性的,服务器将到店时长大于0的扫描样本扫描数据集确定为满足有效条件的样本扫描数据集。

步骤2022,服务器判断有效数据的连接状态是否为已连接,若是,则进行步骤2023;否则进行步骤2024。

示例性的,服务器得到有效数据后,根据扫描数据中的连接状态来确定正样本和未知样本。示例性的,服务器判断无线终端是否已连接的方法可以参照步骤202下的举例。

步骤2023,服务器将有效数据中连接状态为已连接的样本扫描数据集确定为正样本。

正样本是服务器能够确定是访客终端的样本无线终端对应的样本扫描数据集。示例性的,正样本是机器学习中的有标记的样本。

步骤2024,服务器将有效数据中连接状态为未连接的样本扫描数据集确定为未知样本。

未知样本是服务器无法确定是否是访客终端的样本无线终端对应的样本扫描数据集。示例性的,未知样本是机器学习中的没有标记的样本。

步骤2031,服务器将正样本中的部分样本确定为测试样本。

示例性的,服务器从正样本中随机抽出部分样本作为测试样本,剩下的样本是目标正样本。例如,正样本有100个样本,随机抽出30个作为测试样本,剩下的70个是目标正样本。

步骤2032,服务器将正样本中除测试样本外的样本确定为目标正样本。

步骤2033,服务器将测试样本和未知样本的集合确定为目标未知样本。

示例性的,服务器向未知样本中加入有标记的测试样本得到目标负样本。

步骤2034,服务器根据目标正样本和目标未知样本训练得到分类模型。

示例性的,分类模型输出的分类结果是某一数据属于正样本的概率,但究竟这个概率多大才能够确定这个样本是正样本,还需要根据测试样本测试得到。示例性的,服务器利用目标正样本和目标未知样本训练得到分类模型后,利用分类模型对已知为正样本的测试样本输出的预测概率,来确定概率的划分界限。

示例性的,如图10所示,步骤2034包括步骤2034-1。

步骤2034-1,服务器根据用随机森林算法、目标正样本和目标未知样本,训练得到包括至少一个第一分类树的第一分类模型,第一分类树是将目标正样本和目标未知样本从至少一个特征维度进行分类得到的树形分类结构。

第一分类树响应于分类结果中目标正样本占比大于第四阈值,将分类结果对应的识别结果确定为访客终端;

第一分类树响应于分类结果中目标正样本占比小于第五阈值,将分类结果对应的识别结果确定为非访客终端;

第一分类模型响应于大于第四比例的分类树对测试数据的识别结果为访客终端,将测试数据的识别结果确定为访客终端;

第一分类模型响应于大于第五比例的分类树对测试数据的识别结果为非访客终端,将测试数据的识别结果确定为非访客终端,测试数据是输入分类模型的数据。

随机森林算法是是通过集成学习的思想将多棵分类树集成的一种算法,它的基本单元是分类树(决策树),而它的本质属于机器学习的一大分支——集成学习(ensemblelearning)方法。随机森林算法中包括有多个分类树,每个分类树都是一个分类器,对于一个输入样本,n棵树会有n个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。示例性的,随机森林算法还会输出该分类结果的概率,概率是n棵分类树赞成该分类结果的分类树占全部分类树的比例。

示例性的,随机森林算法会随机地从目标正样本和目标未知样本中有放回的随机抽取i个样本,然后用j个特征维度将这i个样本分类,得到一个分类树。计算分类树中每个分类结果里正样本所占的比例,当正样本所占的比例大于一定阈值时,确定该分类结果对应的识别结果是正样本。

示例性的,服务器获取总样本的m个特征维度,总样本是目标正样本和目标未知样本的集合,m是大于1的整数;服务器从总样本中有放回地随机抽取x个目标样本,x是大于1的整数;服务器根据m个特征和x个目标样本构造分类树,分类树包括n个分类结果,n是大于1的整数;分类树根据每个分类结果中目标正样本所占的比例确定每个分类结果对应的预测结果,预测结果包括访客终端和非访客终端,访客终端是分类结果中目标正样本所占的比例大于第四阈值对应的预测结果,非访客终端是分类结果中目标正样本所占的比例小于第五阈值对应的预测结果;服务器重复上述步骤获取y个分类树,y是大于1的整数;将y个分类树确定为第一分类模型,第一分类模型响应于y个分类树中大于第四比例的分类树对目标数据的预测结果为访客终端时,确定终端识别结果为访客终端,分类模型响应于y个分类树中小于第五比例的分类树对目标数据的预测结果为非访客终端时,确定终端识别结果为非访客终端。

示例性的,可以对第一分类模型进行迭代训练。

示例性的,测试数据是任意一个输入第一分类模型的数据。测试数据只是用来便于描述第一分类模型的特性。

示例性的,如图10所示,该方法还包括步骤204至步骤210。

步骤204,将测试样本输入第一分类模型。

服务器将测试样本输入第一分类模型。

在步骤2034-1得到第一分类模型后,服务器将测试样本输入第一分类模型,得到第一分类模型对测试样本输出的识别结果和概率。

步骤205,获取至少一个分类树中:识别结果为访客终端的分类树占至少一个分类树的第三比例。

服务器获取至少一个分类树中:识别结果为访客终端的分类树占至少一个分类树的第三比例。

示例性的,服务器获取y个分类树中:识别结果为访客终端的分类树占y个分类树的第三比例,y是大于1的整数。

服务器获取至少一个分类树中:将是样本识别为访客终端的分类树占全部分类树的第三比例。例如,第一分类模型中一共有1000个分类树,其中有861个分类树认为第一测试样本是访客终端,则第一分类模型的识别结果为第一测试样本是访客终端的概率为0.861。

示例性的,第三比例是第一分类模型输出的预测测试样本是正样本的概率。

示例性的,服务器获取每个测试样本分别对应的第三比例。

步骤206,计算至少两个测试样本对应的至少两个第三比例的平均值。

服务器计算至少两个测试样本对应的至少连个第三比例的平均值。

例如,测试样本一共有三个,将第一测试样本输入第一分类模型后得到的识别结果是,为访客终端的概率是0.8,将第二测试样本输入第一分类模型后得到的识别结果是,为访客终端的概率是0.9,将第一测试样本输入第一分类模型后得到的识别结果是,为访客终端的概率是0.4,则平均值=(0.8+0.9+0.4)/3=0.7,则第四比例等于第五比例等于0.7。即,当有百分之七十的分类树认为输入的数据是访客终端时,分类模型就确定该数据对应的终端是访客终端。示例性的,服务器也可以用三个测试样本中任意两个测试样本的第三比例计算平均值,例如,用第一测试样本和第三测试样本的第三比例计算平均值,则平均值=(0.8+0.4)/2=0.6。

步骤207,服务器将平均值确定为第四比例。

示例性的,将所有测试样本的第三比例的平均值确定为第四比例。即,第一分类模型响应于大于第四比例的分类树对测试数据的识别结果为访客终端,将测试数据的识别结果确定为访客终端;第一分类模型响应于大于第四比例的分类树对测试数据的识别结果为非访客终端,将测试数据的识别结果确定为非访客终端,测试数据是输入分类模型的数据。若等于第四比例的分类树对测试数据的识别结果为访客终端,既可以将测试数据确定为访客终端,也可以确定为非访客终端。

步骤208,调用第一分类模型对未知样本进行特征提取和特征识别,得到未知样本的识别结果。

服务器调用第一分类模型对未知样本进行特征提取和特征识别,得到未知样本的识别结果。

示例性的,步骤207得到第四比例的确定值后,即可以用第一分类模型识别未知样本,输出确定的识别结果。

步骤209,将识别结果为非访客终端的未知样本确定为负样本。

服务器将识别结果为非访客终端的未知样本确定为负样本。

示例性的,服务器重新将未知样本输入第一分类模型后,得到了是非访客终端的负样本。

步骤210,根据随机森林算法、目标正样本和负样本,训练得到包括至少一个第二分类树的第二分类模型,第二分类树是将目标正样本和负样本从至少一个特征维度进行分类得到的树形分类结构。

服务器根据随机森林算法、目标正样本和负样本,训练得到包括至少一个第二分类树的第二分类模型。

第二分类树响应于分类结果中目标正样本占比大于第三阈值,将分类结果对应的识别结果确定为访客终端;

第二分类树响应于分类结果中目标正样本占比小于第六阈值,将分类结果对应的识别结果确定为非访客终端;

第二分类模型响应于大于第一比例的分类树对测试数据的识别结果为访客终端,将测试数据的识别结果确定为访客终端;

第二分类模型响应于大于第二比例的分类树对测试数据的识别结果为非访客终端,将测试数据的识别结果确定为非访客终端,测试数据是输入分类模型的数据。

服务器重新根据随机森林算法、目标正样本和负样本,训练得到包括至少一个第二分类树的第二分类模型。示例性的,第二分类模型的训练方法可以参照步骤2034-1。

示例性的,服务器可以利用第一分类模型识别访客终端,也可以用第二分类模型识别访客终端。

综上所述,本实施例提供的方法,通过将主动连接到无线网探针设备的样本扫描数据集确定为正样本,将没有连接到无线网探针设备的样本数据确定为未知样本。利用正样本和未知样本训练得到分类模型。该方法利用扫描数据的多个特征维度对无线终端进行判断,减少了其他因素对判断结果的影响,提高判断准确度。

本实施例提供的方法,通过将正样本中的部分样本加入到未知样本中得到目标未知样本,将剩下的正样本确定为目标正样本,然后利用目标未知样本和目标正样本训练得到第一分类模型,然后利用目标未知样本中的已知正样本确定第四比例,根据第四比例确定第一分类模型输出的识别结果。提高分类模型的识别准确度。

本实施例提供的方法,通过利用有效条件将样本扫描数据中工作人员、常驻设备和伪装mac地址对应的扫描数据剔除,提高数据的针对性,从而提高分类模型的识别准确度。

本实施例提供的方法,通过在得到第一分类模型后,将未知样本输入第一分类模型得到负样本,利用目标正样本和负样本训练得到第二分类模型,提高分类模型的识别准确度。

示例性的,服务器利用分类模型可以得到不同的分类结果。示例性的,其中非访客终端还可以包括工作人员终端和无法识别的终端。

图11示出了本申请一个示例性实施例提供的访客终端的识别方法的流程图。该方法可以由图1所示的服务器来执行。与图2所示出的方法不同的是,将步骤212替换为如下步骤:

步骤2121,调用分类模型对无线终端的扫描数据集进行特征提取和特征识别。

服务器调用分类模型对无线终端的扫描数据集进行特征提取和特征识别。

特征提取是对扫描数据集进行特征的提取。例如,根据扫描数据来计算得到其他特征信息,例如,根据时间戳计算得到用户的到店时长,或,根据探针mac获取终端所在的位置信息等。

特征识别是分类模型根据该扫描数据的若干个特征判断该扫描数据的类别,从而得到识别结果。示例性的,特征识别是判断该扫描数据集与访客终端的扫描数据集更相似,还是跟非访客终端的扫描数据集更相似。

步骤2122,响应于大于第四比例的分类树对无线终端的识别结果为访客终端,得到无线终端的识别结果为访客终端。

服务器响应于大于第四比例的分类树对无线终端的识别结果为访客终端,得到无线终端的识别结果为访客终端。

示例性的,当等于第四比例的分类树对无线终端的识别结果为访客终端时,识别结果可以是非访客终端也可以是访客终端。

步骤2123,响应于大于第五比例的分类树对无线终端的识别结果为非访客终端,得到无线终端的识别结果为非访客终端。

服务器响应于大于第五比例的分类树对无线终端的识别结果为非访客终端,得到无线终端的识别结果为非访客终端。

示例性的,当等于第五比例的分类树对无线终端的识别结果为非访客终端时,识别结果可以是非访客终端也可以是访客终端。

示例性的,第四比例与第五比例可以相等也可以不等。

示例性的,如图12所示,该方法还包括步骤2124至步骤2126。

步骤2124,响应于无线终端的扫描数据集中:时间戳早于或晚于营业时间的数量大于第一阈值,得到无线终端的识别结果为非访客终端,且非访客终端属于内部工作人员终端。

服务器响应于无线终端的扫描数据集中:时间戳早于或晚于营业时间的数量大于第一阈值,得到无线终端的识别结果为非访客终端,且非访客终端属于内部工作人员终端。

步骤2125,响应于无线终端的扫描数据集中:时间戳包含的日期占工作日的比例大于第二阈值,得到无线终端的识别结果为非访客终端,且非访客终端属于内部工作人员终端。

服务器响应于无线终端的扫描数据集中:时间戳包含的日期占工作日的比例大于第二阈值,得到无线终端的识别结果为非访客终端,且非访客终端属于内部工作人员终端。

步骤2126,响应于无线终端的扫描数据集中:无线终端地址满足伪装mac地址条件,得到无线终端的识别结果为非访客终端,且非访客终端属于无法识别的终端。

其中,伪地址条件是判断无线终端地址的oui是否为已知厂商的oui的条件。

服务器响应于无线终端的扫描数据集中:无线终端地址满足伪装mac地址条件,得到无线终端的识别结果为非访客终端,且非访客终端属于无法识别的终端。

综上所述,本实施例提供的方法,通过响应于扫描数据集的不同特征,输出对应的识别结果,提高分类模型输出的识别结果类型,可以帮助用户更准确的判断终端类型。

示例性的,给出一种将本申请提供的访客终端的识别方法应用在识别到店客的场景中的示例性实施例。

图13示出了本申请一个示例性实施例提供的访客终端的识别方法的流程图。该方法可以由图1所示的服务器来执行。该方法包括如下步骤:

步骤501,根据用户是否主动连接上探针wifi构建训练样本库。

服务器根据用户是否主动连接上探针wifi构建训练样本库。

示例性的,服务器根据用户是否主动连接上无线网探针设备来获取正样本和未知样本。

步骤502,根据探针wifi上报的数据,提取用户特征。

服务器根据探针wifi上报的数据,提取用户特征。

示例性的,服务器根据无线设备的扫描数据进行特征提取和特征识别。

步骤503,从正样本中随机采样出部分正样本作为测试样本,将测试样本加入未知样本构成目标未知样本,将正样本中除了测试样本之外的样本作为目标正样本。

服务器从正样本中随机采样出部分正样本作为测试样本,将测试样本加入未知样本构成目标未知样本,将正样本中除了测试样本之外的样本作为目标正样本。

步骤504,根据目标正样本和目标未知样本训练得到二分类模型。

服务器根据目标正样本和目标未知样本训练得到分类模型。

步骤505,根据二分类模型对测试样本的预测值确定阈值t。

服务器根据分类模型对测试样本的预测值确定阈值t(第四比例)。

步骤506,预测用户到店概率,如果大于阈值t,判定为到店客。

服务器利用分类模型预测用户到店概率,如果识别结果是访客终端的概率大于阈值t,则判定为到店客。

综上所述,本实施例提供的方法,通过在店内设置无线网探针设备,根据无线网探针设备上传的扫描数据对无线网探针设备附近的无线设备进行识别,从而获取到店客的信息,帮助店主进行店内客户流量分析。该方法应用在客流营销系统,可以准确地识别到店客,能够帮助用户更加有效地进行客流统计分析,用户画像分析,tgi(targetgroupindex,目标群体指数)对比分析等,提供各种维度的数据帮助企业进行决策;也可以作为人群扩散(lookalike)的种子用户,帮助寻找相似的目标用户,进行运营推广。

示例性的,给出一种将本申请提供的访客终端的识别方法应用在识别到店客的场景中的示例性实施例。

在店铺a中设置有wifi探针设备a,wifi探针设备a周期性的扫描附近的无线终端,获取无线终端的扫描数据,并将获取到的扫描数据上传到服务器。服务器将无线终端的扫描数据输入分类模型,得到对无线终端的识别结果,确认无线终端是访客终端或非访客终端。如此,服务器可以获取每天进入店铺a的顾客的访客终端信息,例如,在10月18日,终端a在15:00进入店铺a(首次被wifi探针设备a获取到扫描信息)在14:00离开店铺a(最后一次被wifi探针设备a获取到扫描信息),示例性的,由于wifi探针设备是周期性的进行扫描,服务器可以根据无线终端的多个扫描数据中的扫描时间,来确定无线终端是否是长时间位于wifi探针设备a附近,从而获取无线终端的到店时间和离店时间。示例性的,服务器还可以根据扫描数据得到上述实施例中所提到的其它无线终端到的相关信息。服务器利用这些信息可以计算得到店铺a的访客情况。例如,计算(统计)得到每天到达店铺a的访客终端的数量、计算一天中各个时间段到达店铺a的访客终端的数量、计算每天到达店铺a的访客终端在店铺a停留的时长、计算某个终端到店铺a的频率以及到达时间分布等等。例如,统计得到店铺a在一周内的访客量是:周一100人次、周二50人次、周三56人次、周四68人次、周五300人次、周六600人次、周日580人次,示例性的,服务器可以提供一个访客信息查询页面,提供根据扫描数据和无线终端识别结果统计得到的这些统计结果,让店铺a的经营者可以直观看到店铺a的访客情况。示例性的,访客信息查询页面还可以提供统计结果的图表,例如,折线图、直方图、饼状图等。

综上所述,本实施例提供的方法,通过在店内设置无线网探针设备,根据无线网探针设备上传的扫描数据对无线网探针设备附近的无线设备进行识别,从而获取到店客的信息,帮助店主进行店内客户流量分析。该方法应用在客流营销系统,可以准确地识别到店客,能够帮助用户更加有效地进行客流统计分析,用户画像分析,tgi(targetgroupindex,目标群体指数)对比分析等,提供各种维度的数据帮助企业进行决策;也可以作为人群扩散(lookalike)的种子用户,帮助寻找相似的目标用户,进行运营推广。

下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。

图14示出了本申请一个示意性实施例提供的访客终端的识别装置的框图。该装置可以实现成为服务器的全部或一部分。该装置包括:

数据采集模块301,用于通过无线网探针设备获取线终端的扫描数据集;

分类模型模块302,用于调用分类模型对所述无线终端的所述扫描数据集进行特征提取和特征识别,得到所述无线终端的识别结果,所述分类模型是对正样本和未知样本进行半监督学习得到的,所述正样本包括连接到所述无线网探针设备的所述无线终端对应的所述扫描数据集,所述未知样本包括未连接到所述无线网探针设备的所述无线终端对应的所述扫描数据集,所述识别结果包括访客终端或非访客终端;

输出模块303,用于输出所述无线终端的所述识别结果。

在一个可选的实施例中,所述分类模型包括至少一个分类树;

所述分类模型模块302,响应于大于第四比例的所述分类树对所述无线终端的识别结果为所述访客终端,得到所述无线终端的识别结果为所述访客终端。

在一个可选的实施例中,所述分类模型包括至少一个分类树;

所述分类模型模块302,响应于大于第五比例的所述分类树对所述无线终端的识别结果为所述非访客终端,得到所述无线终端的识别结果为所述非访客终端。

在一个可选的实施例中,所述扫描数据集包括至少一条扫描数据,所述扫描数据包括:时间戳、连接状态、无线终端地址、探针地址、无线网地址、信号强度中的至少一个;

所述无线终端地址是所述无线终端的媒体存取控制mac地址,所述mac地址用于确认网络设备位置的位址;

所述探针地址是探针的mac地址,所述探针地址用于向服务器发送所述扫描数据;

所述无线网地址是无线网的mac地址,所述无线网地址用于为所述无线终端提供网络服务。

在一个可选的实施例中,所述扫描数据包括所述时间戳;

所述分类模型模块302,响应于所述无线终端的扫描数据集中:所述时间戳早于或晚于营业时间的数量大于第一阈值,得到所述无线终端的所述识别结果为所述非访客终端,且所述非访客终端属于内部工作人员终端。

在一个可选的实施例中,所述扫描数据包括所述时间戳;

所述分类模型模块302,响应于所述无线终端的扫描数据集中:所述时间戳包含的日期占工作日的比例大于第二阈值,得到所述无线终端的所述识别结果为所述非访客终端,且所述非访客终端属于内部工作人员终端。

在一个可选的实施例中,所述扫描数据包括所述无线终端地址;

所述分类模型模块302,响应于所述无线终端的扫描数据集中:所述无线终端地址满足伪装mac地址条件,得到所述无线终端的识别结果为所述非访客终端,且所述非访客终端属于无法识别的终端;

其中,所述伪地址条件是判断所述无线终端地址的组织位移标识符oui是否为已知厂商的oui的条件。

图15示出了本申请一个示意性实施例提供的分类模型的训练装置的框图。该装置可以实现成为服务器的全部或一部分。示例性的,该分类模型的训练装置与上述访客终端的识别装置可以是同一个装置也可以是不同的装置。该装置包括:

样本获取模块306,用于获取样本无线终端的样本扫描数据集,所述样本扫描数据集包括所述样本无线终端的扫描数据集;

所述样本获取模块306,还用于根据所述样本扫描数据集获取正样本和未知样本,所述正样本包括连接到所述无线网探针设备的所述样本无线终端的样本扫描数据集,所述未知样本包括未连接到所述无线网探针设备的所述样本无线终端的样本扫描数据集;

训练模块304,用于根据所述正样本和所述未知样本训练得到所述分类模型。

在一个可选的实施例中,所述样本获取模块306,还用于将所述正样本中的部分样本确定为测试样本;

所述样本获取模块306,还用于将所述正样本中除所述测试样本外的样本确定为目标正样本;

所述样本获取模块306,还用于将所述测试样本和所述未知样本的集合确定为目标未知样本;

所述样本获取模块306,还用于根据所述目标正样本和所述目标未知样本训练得到所述分类模型。

在一个可选的实施例中,所述训练模块304,还用于根据用随机森林算法、所述目标正样本和所述目标未知样本,训练得到包括至少一个第一分类树的第一分类模型,所述第一分类树是将所述目标正样本和所述目标未知样本从至少一个特征维度进行分类得到的树形分类结构。

在一个可选的实施例中,所述第一分类树响应于分类结果中所述目标正样本占比大于第四阈值,将所述分类结果对应的识别结果确定为所述访客终端;

所述第一分类树响应于所述分类结果中所述目标正样本占比小于第五阈值,将所述分类结果对应的所述识别结果确定为所述非访客终端;

所述第一分类模型响应于大于第四比例的所述分类树对测试数据的所述识别结果为所述访客终端,将测试数据的所述识别结果确定为所述访客终端;

所述第一分类模型响应于大于第五比例的所述分类树对测试数据的所述识别结果为所述非访客终端,将测试数据的所述识别结果确定为所述非访客终端,所述测试数据是输入所述分类模型的数据。

在一个可选的实施例中,所述第四比例等于所述第五比例;所述装置还包括:

输入模块310,用于将所述测试样本输入所述第一分类模型;

第一分类模型模块307,用于获取所述至少一个分类树中:所述识别结果为访客终端的所述分类树占所述至少一个分类树的第三比例;

计算模块308,用于计算至少两个所述测试样本对应的至少两个所述第三比例的平均值;

确定模块305,用于将所述平均值确定为所述第四比例。

在一个可选的实施例中,所述装置还包括:

第一分类模型模块307,用于调用所述第一分类模型对所述未知样本进行特征提取和特征识别,得到所述未知样本的所述识别结果;

确定模块305,用于将所述识别结果为所述非访客终端的所述未知样本确定为负样本;

所述训练模块304,还用于根据随机森林算法、所述目标正样本和所述负样本,训练得到包括至少一个第二分类树的第二分类模型,所述第二分类树是将所述目标正样本和所述负样本从至少一个特征维度进行分类得到的树形分类结构。

在一个可选的实施例中,所述第二分类树响应于分类结果中所述目标正样本占比大于第三阈值,将所述分类结果对应的识别结果确定为所述访客终端;

所述第二分类树响应于所述分类结果中所述目标正样本占比小于第六阈值,将所述分类结果对应的所述识别结果确定为所述非访客终端;

所述第二分类模型响应于大于第一比例的所述分类树对测试数据的所述识别结果为所述访客终端,将测试数据的所述识别结果确定为所述访客终端;

所述第二分类模型响应于大于第二比例的所述分类树对测试数据的所述识别结果为所述非访客终端,将测试数据的所述识别结果确定为所述非访客终端,所述测试数据是输入所述分类模型的数据。

在一个可选的实施例中,所述样本扫描数据集包括至少一条扫描数据,所述扫描数据包括:时间戳、连接状态、无线终端地址、探针地址、无线网地址、信号强度中的至少一个;

所述无线终端地址是所述无线终端的媒体存取控制mac地址,所述mac地址用于确认网络设备位置的位址;

所述探针地址是探针的mac地址,所述探针地址用于向服务器发送所述扫描数据;

所述无线网地址是无线网的mac地址,所述无线网地址用于为所述无线终端提供网络服务。

在一个可选的实施例中,所述扫描数据包括所述连接状态;

所述样本获取模块306,还用于将所述样本扫描数据集中满足有效条件的样本扫描数据集确定为有效数据,所述有效条件用于剔除内部工作人员终端和无法识别的终端对应的所述扫描数据集;

所述样本获取模块306,还用于将所述有效数据中所述连接状态为已连接的所述样本扫描数据集确定为所述正样本;

所述样本获取模块306,还用于将所述有效数据中所述连接状态为未连接的所述样本扫描数据集确定为所述未知样本。

在一个可选的实施例中,所述扫描数据包括所述时间戳;所述样本获取模块306,还用于将所述时间戳早于或晚于营业时间的数量小于第一阈值的所述样本扫描数据集,确定为满足有效条件的所述样本扫描数据集。

在一个可选的实施例中,所述扫描数据包括所述时间戳;所述样本获取模块306,还用于将所述时间戳包含的日期占工作日的比例小于第二阈值的所述样本扫描数据集,确定为满足有效条件的所述样本扫描数据集。

在一个可选的实施例中,所述扫描数据包括所述样本无线终端地址;所述样本获取模块306,还用于将所述无线终端地址不满足伪装mac地址条件的所述样本扫描数据集确定为满足有效条件的所述样本扫描数据集,所述伪地址条件是判断所述无线终端地址的组织位移标识符oui是否为已知厂商的oui的条件。

在一个可选的实施例中,所述装置还包括:

孤立检测模型模块309,用于调用孤立检测模型对所述样本扫描数据集进行特征分类,得到所述样本扫描数据集的异常分;

所述样本获取模块306,还用于将所述异常分小于第三阈值的所述样本扫描数据集确定为满足有效条件的所述样本扫描数据集。

图16是本申请一个实施例提供的服务器的结构示意图。具体来讲:服务器700包括中央处理单元(英文:centralprocessingunit,简称:cpu)701、包括随机存取存储器(英文:randomaccessmemory,简称:ram)702和只读存储器(英文:read-onlymemory,简称:rom)703的系统存储器704,以及连接系统存储器704和中央处理单元701的系统总线705。服务器700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(i/o,input/output)系统706,和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到系统总线705的输入/输出控制器710连接到中央处理单元701。基本输入/输出系统706还可以包括输入/输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入/输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为服务器700提供非易失性存储。也就是说,大容量存储设备707可以包括诸如硬盘或者只读光盘(英文:compactdiscread-onlymemory,简称:cd-rom)驱动器之类的计算机可读介质(未示出)。

不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(英文:erasableprogrammableread-onlymemory,简称:eprom)、电可擦除可编程只读存储器(英文:electricallyerasableprogrammableread-onlymemory,简称:eeprom)、闪存或其他固态存储其技术,cd-rom、数字通用光盘(英文:digitalversatiledisc,简称:dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本申请的各种实施例,服务器700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器700可以通过连接在系统总线705上的网络接口单元711连接到网络712,或者说,也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

本申请还提供了一种计算机设备,该计算机设备包括:处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的访客终端的识别方法。

本申请还提供一种计算机设备,该计算机设备包括:处理器和存储器,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的访客终端的识别方法。

本申请还提供了一种计算机设备,该终端包括:处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的分类模型的训练方法。

本申请还提供一种计算机设备,该计算机设备包括:处理器和存储器,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的分类模型的训练方法。

本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的分类模型的训练方法。

应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1