一种识别上网用户的系统与方法与流程

文档序号:11628625阅读:300来源:国知局
一种识别上网用户的系统与方法与流程

本专利属于互联网领域,涉及一种识别上网用户的系统与方法。



背景技术:

当前,互联网与人们的工作生活、社会上的各行各业紧密融合。每个用户在使用互联网上时都留有或多或少的“痕迹”,例如用户在不同的时间、使用不同的设备,通过互联网访问不同的应用与网站都会留下类似的“痕迹”。

如果我们能够基于这些“痕迹”,从每条痕迹中提取不同的特征来标识这个用户,为该用户建立特征识别库,这将在精准用户画像、跨网站和应用的精准营销、市场研究、以及网络风控等领域拥有很高的价值。

在互联网中,现有技术中已经存在标识唯一用户的技术手段,例如:在pc端使用cookiemapping来进行用户标识,即通过cookiemapping方法对pc端上网的用户进标识;在移动端使用mac地址、iosidfa、androidid和imei等来标识用户。

虽然上述方法在一定程度和范围内解决了用户标识的问题,但是现有技术中的技术方案仍然存在如下缺点:

首先,现有技术中的方法覆盖度不足:如果依赖于ssp、dsp、adexchange和媒体网站进行广告业务时的信息交换来建立cookiemapping,考虑到广告投放的渠道,媒体覆盖率等,该方案很难进行用户全域互联网访问的cookiemapping暨跨网站打通。另一方面,第三方统计公司也无法覆盖所有的网站并植入代码,从而进行全域cookiemapping。其次,用来标识用户的id种类不足:除了cookie和移动设备唯一标识(imei,idfa,androidid,mac),还有很多强属性id可以用来标识用户,例如,用户在媒体网站,社交网站,电商网站的注册账号,用户的手机号,电子邮箱账号,宽带上网账号等,将来随着终端形式的增加,还会有更多的强属性id用来标识用户。很多强属性id基于现有技术的方案都无法完全识别。第三,未实现跨设备打通现有技术中的方案都只能分别基于pc端和移动端对用户进行标识,而实际情况中互联网用户可能使用多种设备。此外,现有技术技术的技术方案也无法保证用户特征标识库的及时更新,对于一个媒体网站,它在用户端的cookie是有一个生命周期的,如果某媒体网站的cookie规则改变了,现有技术的方案必须依赖于再次给该用户在该媒体投放广告,才能相应的更新特征识别库,这必将影响相关业务的开展。



技术实现要素:

本专利正是基于现有技术中的上述需求而提出的,本专利要解决的技术问题是提供一种一种识别上网用户的系统与方法,以便于能够提高识别用户的准确性和扩大适用的范围。

为了解决上述问题,本专利提供的技术方案包括:

一种识别上网用户的方法,所述方法包括:获取网络链路设备中采集的用户流量数据;对获取的用户流量数据进行处理,清洗与用户特征无关的数据得到处理后的用户流量数据;分析所述处理后的用户流量数据,提取其中的用户特征;关联单个用户的所有用户特征,形成单个用户的用户关系链。

优选地,该方法还包括,基于用户特征更新上述用户关系链。

优选地,所述方法包括:所述用户流量数据包括通过设置流量分光器或者采用端口镜像的方式从交换机上采集到的用户流量数据。

优选地,所述用户特征包括:cookie特征标识、设备标识、用户账号标识、统计引擎标识、ssp广告引擎标识和地理位置标识;分析所述处理后的用户流量数据,提取其中的用户特征包括,对处理后的所述用户流量数据进行分析,识别出其中的cookie特征标识、设备标识、用户账号标识、统计引擎标识、ssp广告引擎标识和地理位置标识,并将其提取出来。

优选地,关联单个用户的所有用户特征包括,根据所述用户流量中的各个用户特征的关联性以及各个用户特征内容上的关联性关联所述用户特征。

根据本专利的另一个方面还提供了一种识别上网用户的装置,所述装置包括:数据获取模块,获取网络链路设备中采集的用户流量数据;数据处理模块,对获取的用户流量数据进行处理,清洗与用户特征无关的数据得到处理后的用户流量数据;用户特征提取模块,分析所述处理后的用户流量数据,提取其中的用户特征;用户特征关联模块,关联单个用户的所有用户特征,形成单个用户的用户关系链。

根据本专利的另一个方面,提供了又一种识别上网用户的方法,所述方法包括:在网络链路中采集用户流量数据;对采集的用户流量数据进行处理,包括对采集到的用户流量数据进行预处理和清洗,所述预处理去掉错误和无效的数据,所述预处理剔除掉与用户特征无关的数据;从而得到处理后的用户流量数据;分析所述处理后的用户流量数据,提取其中的用户特征;关联单个用户的所有用户特征,形成单个用户的用户关系链。

根据本专利的另一个方面,还提供了一种网络信息控制方法,所述方法包括:步骤一、获取用户特征,所述用户特征中包括识别上网用户的特征信息;步骤二、基于所述用户特征和如权利要求1-11中任一项所述的用户关系链识别上网用户;步骤三、根据该上网用户的用户关系链中的用户特征,控制所述上网用户的相关信息。

本专利通过采集网络链路上的用户流量信息,并对上述信息进行处理和分析扩大了对于用户特征的标识范围,并且对于基于上述流量信息中的用户特征进行分析,提高了对于用户识别的准确性,并且打破了现有技术中对于用户识别的局限性。

附图说明

图1是本专利具体实施方式中一种识别上网用户的方法的流程图

图2是本专利具体实施方式中用户关系链的结构示意图。

具体实施方式

下面结合附图对本专利的具体实施方式进行详细阐述。需要说明的是,该具体实施方式仅仅是对本专利优选技术方案的举例,并不能理解为对本专利保护范围的限制。

实施例一

本实施例提供了一种识别上网用户的方法,所述方法实现的场景包括但不限于一种设备,例如,服务器、个人电脑或者移动设备;或者是上述设备之间的配合。其中每一种设备中可以包括多个个体,各个个体之间协助工作以实现该方法。

如图1所示,所述方法包括如下步骤:

步骤一、获取网络链路设备中采集的用户流量数据

在本步骤中,获取的数据是在网络链路中采集而来的,例如,在交换机上设置流量分光器或者采用端口镜像的方式采集到了互联网上的数据。可以通过直接传输的方式来获取上述数据;也可以通过间接的方式,例如将在网络链路中采集到的数据进行存储再获取得到的数据。

进一步优选地,本实施例中可以在多个交换机上采集上述流量数据,然后将上述数据进行汇集,进而扩大数据采集的范围。

所述网络链路中的数据并不同于在用户端采集到的数据,其来自于网络链路设备,当同一个用户使用不同的终端设备上网时,虽然每个终端设备所产生信息有一定的区别,但是每个终端设备上的数据都会传递到所述网络链路设备中,因而在网络链路设备中采集到的用户流量数据能够全面地反映用户在各个设备或者各个环境下的上网信息,从而成为全面分析的基础。

在本实施例中,来自于所述网络链路设备的数据可以是经过预先处理的,当然也可以是未经过预先处理的原始数据。这并不能够影响本实施例的实施。

步骤二、对获取的用户流量数据进行处理

网络链路设备所采集到的数据包含了大量的与识别上网用户无关的信息,例如,与运营商相关的信息、与网络环境相关的信息等等,上述信息通常与用户无关或者是与用户的关联度较小,因而需要对于网络链路设备中获取的信息中的上述内容进行清洗。清洗之后缩小相关的数据量,从而便于利用有效的数据进行用户的识别。

因此,在本步骤中对获取的用户流量数据进行处理包括数据清洗,数据清洗可以通过基于规则的方式来实现,例如,预先设置相应的清洗规则,将不符合该规则的数据剔除,而保留符合该规则的数据。由于与用户相关的信息都具有较为明显的内容上的特征,并且与用户无关的信息也具有明显的内容上的特征;因而本领域技术人员可以根据具体的情况设置相应规则的内容,因此在本具体实施方式中不对该清洗规则进行详细的展开。

此外,在该步骤中,对获取的用户流量数据进行处理还可以包括除了清洗之外的其它便于分析的操作,例如特征化,或者是压缩等处理。

对获取的用户流量数据进行处理之后即得到处理后的用户流量数据。

步骤三、基于识别用户的策略及规则库进行用户特征识别

处理后的用户流量数据中包括了大量的用户特征信息,对于处理后的用户流量数据中的各个用户特征进行识别成为识别单个用户的基础。

在本步骤中对于所述用户特征的识别是基于识别用户的策略及规则库来实现的。所述策略和规则库是指预先确定的与用户相关的特征的类型库以及识别该特征类型的策略。例如,这些特征类型包括但不限于:cookie特征标识、设备标识、用户账号标识、统计引擎标识和地理位置标识,等。这些特征类型都具有各自的数据特点,通过对于所述数据特点的分析从而确定识别这些用户特征的策略,以便于从海量的网络链路数据中提取与用户特征识别相关的用户特征。

具体而言,例如:

所述cookie是由服务器端生成反馈给用户端(一般是浏览器)的数据,用户端会将cookie的数据保存到某个目录下的文本文件内,下次请求同一网站时就发送该cookie给服务器。通过cookie能够标识某一个用户的特征,因而提取网络链路设备采集到的cookie数据并对其进行标识,对于识别用户是有意义的。

所述设备标识包括但不限于移动设备,通常在不同的设备上具有不同的设备标识号码,例如,某一手机上具有唯一的识别该手机的编码,因而对于设备标识的提取与识别也与识别用户相关。而设备标识往往具有特定的数据格式,因而可以通过数据格式的分析将上述设备标识识别出来。

所述统计引擎标识、ssp广告引擎标识是指一个用户在统计引擎或ssp广告引擎中所对应的数据,由于统计殷勤和ssp广告引擎针对一个用户在某一范围的网站或者是应用上进行了信息的识别与推送。由于统计引擎标识和ssp广告引擎标识的来源具有显著的特征,因而能够将其从网络链路设备采集到的流量数据中识别出来,并且基于统计引擎数据和ssp广告引擎数据进行识别对于识别用户也是有意义的。

所述用户账号标识,是指将所述用户的账号信息识别出来,并用于标识用户。由于用户在某一个网站或者是应用中的账号往往是确定的,因而识别出该账号能够标识出该用户。用户的账号在不同的网站和不同应用中具有各自具体的特点,可以根据具体环境下用户账号的设置规则提取流量中的用户账号信息。

所述地理位置标识,是指用户在不同的网站或者应用中所产生地理位置信息,这些信息可以是地理坐标信息也可以是经过选择后的地理位置信息(例如城市选择)等等。这些地理位置信息对于识别用户具有参考意义。

此外,所述用户特征还可以包括宽带账号、手机号、mac地址等等,这些信息都可以作为识别用户的特征信息从网络链路上获取的流量分析得到,从而作为识别用户的特征。

由于能够统计网络上所有的信息,因而通过从网络链路上获取的流量数据进行上述特征识别,能够实现全域范围内的用户关联在全域范围内识别用户。并且还能够统计到用户在媒体网站、社交网站、电商网站的注册账号、用户的手机号、电子邮箱账号和宽带上网账号等强属性id,对于识别用户准确度的提高具有显著的意义。此外,用户使用不同设备时(例如使用pc和手机)在某些识别特征上(例如电子邮件账号\qq号)具有相同的内容,因而通过分析网络链路中的流量数据能够识别利用不同设备上网的用户。

步骤四、关联相关的用户特征建立用户关系链

提取了相关的用户特征之后,即可以根据用户特征所反映的信息描述某一用户,将代表该用用的各种用户特征关联起来,从而建立用户关系链。所述用户关系链即是对所述用户的精准画像,从而完成了对该用户的识别。

其中,关联相关的用户特征是指,将代表同一用户的多种用户特征关联起来。关联上述特征可以通过预定的规则来确定,例如基于对用户特征的挖掘可知,在某一时间段内,同一个ip中数据流量中包括的用户特征,通过分析各个用户特征中的内容将相关的用户特征关联起来描述一个用户。还可以在某一设备中的流量数据所包括的用户特征,通过分析各个用户特征中的内容将相关的用户特征关联起来描述一个用户。此外还可以通过账号等强属性的id的对应关系,来关联流量数据中多个用户特征从而描述一个用户。

通过建立用户特征的关联,既可以实现对于用户的标识。所述用户特征的关联示例性地,如图2所示。在分析流量数据之后,可以得到如下的用户关系链,以用户mike为例,在mike的网络数据下,将mike的pc,mike的手机关联起来打通设备之间的界限,同时将mike的微博账号、qq账号,百度、搜狐等网站的cookie等关联起来,形成用户mike的关系链。

步骤五、基于用户特征更新用户关系链

由于各种因素的变化,用户特征在不同时期会产生变化,例如用户会更换手机、更换号码等。这些用户特征的变化需要对于用户关系链进行更新,以便于提高用户识别的准确程度。

在本步骤中,可以通过对于用户特征内容的分析来确定需要更新的用户关系链中的内容,这些内容的分析可以根据具体的用户特征中的数据特点而确定。例如当用户特征中设备标识发生变化时,可以通过分析与设备标识相关的电话号码、账号等强id标识从而确定该变化是由于用户更换了移动设备所致,从而更新用户关系链中的设备标识等相关的用户特征。当然本实施例中更新用户关系链的方式并不仅限于此,当用户特征发生变化时还可以根据其他的规则来替换、增加或者删除用户关系链中的相关用户特征。

实施例二

本实施例中提供了一种识别上网用户的方法,在该方法可以借助于网络链路中的多个设备来实现,或者是在部分步骤中使用该网络链路中的多个设备来实现。所述网络链路中的设备包括分光机、服务器等。

本实施例中的方法包括如下步骤:

步骤一、在网络链路中采集用户流量数据

所述用户流量数据是在网络链路中采集而来的,例如,在网络链路中的交换机上设置流量分光器或者采用端口镜像的方式采集到了互联网上的数据。优选地,本实施例中可以在多个交换机上采集上述流量数据,然后将上述数据进行汇集,进而扩大数据采集的范围。所述网络链路中的数据并不同于在用户端采集到的数据,其来自于网络链路设备,当同一个用户使用不同的终端设备上网时,虽然每个终端设备所产生信息有一定的区别,但是每个终端设备上的数据都会传递到所述网络链路设备中,因而在网络链路设备中采集到的用户流量数据能够全面地反映用户在各个设备或者各个环境下的上网信息,从而成为全面分析的基础。

步骤二、对于所述用户流量数据进行处理

在本步骤中,对用户流量数据进行处理包括对于数据进行预处理,即剔除错误数据,无效数据等明显带来噪音的数据,或者是屏蔽掉明显涉及个人隐私或者保密数据,从而便于后续的分析和处理。

此外,对所述用户流量数据进行处理还包括从预处理后的数据中筛选出与识别上网用户相关的数据。例如预处理后的数据包含了与运营商相关的信息、与网络环境相关的信息等等,上述信息通常与用户无关或者是与用户的关联度较小,因而需要对于网络链路设备中获取的信息中的上述内容进行清洗。清洗之后缩小相关的数据量,从而便于利用有效的数据进行用户的识别。

步骤三、基于识别用户的策略及规则库识别用户特征

处理后的用户流量数据中包括了大量的用户特征信息,对于处理后的用户流量数据中的各个用户特征进行识别成为识别单个用户的基础。

在本步骤中对于所述用户特征的识别是基于识别用户的策略及规则库来实现的。所述策略和规则库是指预先确定的与用户相关的特征的类型库以及识别该特征类型的策略。例如,这些特征类型包括但不限于:cookie特征标识、设备标识、用户账号标识、统计引擎标识、ssp广告引擎标识和地理位置标识,等。这些特征类型都具有各自的数据特点,通过对于所述数据特点的分析从而确定识别这些用户特征的策略,以便于从海量的网络链路数据中提取与用户特征识别相关的用户特征。

具体而言,例如:

所述cookie是由服务器端生成反馈给用户端(一般是浏览器)的数据,用户端会将cookie的数据保存到某个目录下的文本文件内,下次请求同一网站时就发送该cookie给服务器。通过cookie能够标识某一个用户的特征,因而提取网络链路设备采集到的cookie数据并对其进行标识,对于识别用户是有意义的。

所述设备标识包括但不限于移动设备,通常在不同的设备上具有不同的设备标识号码,例如,某一手机上具有唯一的识别该手机的编码,因而对于设备标识的提取与识别也与识别用户相关。而设备标识往往具有特定的数据格式,因而可以通过数据格式的分析将上述设备标识识别出来。

所述统计引擎标识、ssp广告引擎标识是指一个用户在统计引擎或ssp广告引擎中所对应的数据,由于统计殷勤和ssp广告引擎针对一个用户在某一范围的网站或者是应用上进行了信息的识别与推送。由于统计引擎标识和ssp广告引擎标识的来源具有显著的特征,因而能够将其从网络链路设备采集到的流量数据中识别出来,并且基于统计引擎数据和ssp广告引擎数据进行识别对于识别用户也是有意义的。

所述用户账号标识,是指将所述用户的账号信息识别出来,并用于标识用户。由于用户在某一个网站或者是应用中的账号往往是确定的,因而识别出该账号能够标识出该用户。用户的账号在不同的网站和不同应用中具有各自具体的特点,可以根据具体环境下用户账号的设置规则提取流量中的用户账号信息。

所述地理位置标识,是指用户在不同的网站或者应用中所产生地理位置信息,这些信息可以是地理坐标信息也可以是经过选择后的地理位置信息(例如城市选择)等等。这些地理位置信息对于识别用户具有参考意义。

此外,所述用户特征还可以包括宽带账号、手机号、mac地址等等,这些信息都可以作为识别用户的特征信息从网络链路上获取的流量分析得到,从而作为识别用户的特征。

由于能够统计网络上所有的信息,因而通过从网络链路上获取的流量数据进行上述特征识别,能够实现全域范围内的用户关联在全域范围内识别用户。并且还能够统计到用户在媒体网站、社交网站、电商网站的注册账号、用户的手机号、电子邮箱账号和宽带上网账号等强属性id,对于识别用户准确度的提高具有显著的意义。此外,用户使用不同设备时(例如使用pc和手机)在某些识别特征上(例如电子邮件账号\qq号)具有相同的内容,因而通过分析网络链路中的流量数据能够识别利用不同设备上网的用户。

步骤四、关联相关的用户特征建立用户关系链

提取了相关的用户特征之后,即可以根据用户特征所反映的信息描述某一用户,将代表该用用的各种用户特征关联起来,从而建立用户关系链。所述用户关系链即是对所述用户的精准画像,从而完成了对该用户的识别。

其中,关联相关的用户特征是指,将代表同一用户的多种用户特征关联起来。关联上述特征可以通过预定的规则来确定,例如基于对用户特征的挖掘可知,在某一时间段内,同一个ip中数据流量中包括的用户特征,通过分析各个用户特征中的内容将相关的用户特征关联起来描述一个用户。还可以在某一设备中的流量数据所包括的用户特征,通过分析各个用户特征中的内容将相关的用户特征关联起来描述一个用户。此外还可以通过账号等强属性的id的对应关系,来关联流量数据中多个用户特征从而描述一个用户。

通过建立用户特征的关联,既可以实现对于用户的标识。所述用户特征的关联示例性地,如图2所示。在分析流量数据之后,可以得到如下的用户关系链,以用户mike为例,在mike的网络数据下,将mike的pc,mike的手机关联起来打通设备之间的界限,同时将mike的微博账号、qq账号,百度、搜狐等网站的cookie等关联起来,形成用户mike的关系链。

步骤五、基于用户特征更新用户关系链

由于各种因素的变化,用户特征在不同时期会产生变化,例如用户会更换手机、更换号码等。这些用户特征的变化需要对于用户关系链进行更新,以便于提高用户识别的准确程度。

在本步骤中,可以通过对于用户特征内容的分析来确定需要更新的用户关系链中的内容,这些内容的分析可以根据具体的用户特征中的数据特点而确定。例如当用户特征中设备标识发生变化时,可以通过分析与设备标识相关的电话号码、账号等强id标识从而确定该变化是由于用户更换了移动设备所致,从而更新用户关系链中的设备标识等相关的用户特征。当然本实施例中更新用户关系链的方式并不仅限于此,当用户特征发生变化时还可以根据其他的规则来替换、增加或者删除用户关系链中的相关用户特征。

实施例三

本实施例涉及一种网络信息控制方法,该方法基于对于上网用户的识别从而对该用户的相关信息进行控制。所述方法包括如下步骤:

步骤一、获取用户特征

当用户上网时,可以通过各种方式获取用户特征,例如网站可以通过账号或者是cookie获取用户特征,应用可以通过账号等信息获取用户特征。而在其它网络设备上还可以通过分析用户流量数据来获取用户特征。

步骤二、基于所述用户特征和用户关系链识别上网用户

当获取到用户特征之后,即可以通过用户关系链来识别上网用户,所述用户关系链即为实施例一、实施例二中的方法所建立的用户关系链。识别出上网用户后既可以得到该上网用户在所述用户关系链中的部分或全部特征。

步骤三、根据该用户关系链中的用户特征,控制所述上网用户的相关信息

所述控制包括信息推送,信息统计,或者是信息安全保护等相关的控制措施,例如当识别出该用户为未成年人时,对该用户所浏览的网站内容或者是浏览网站的范围进行控制。又例如,当识别出该上网用户的购物偏好时,对于推送给该用户的广告内容进行控制。所述相关信息包括所有与该网络用户有关的能够控制的信息,本领域技术人员出于在具体环境下的具体目的,可以确定该控制的方式和相关相关信息的内容。

以上仅仅是本专利优选的具体实施方式而已,本专利的保护范围应当不限于此。凡是在本专利发明构思下对于本专利应用环境的转换,以及对于其中具体技术手段的替代、增加和省略都应当纳入到本专利的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1