数据处理方法和装置与流程

文档序号:11063514
数据处理方法和装置与制造工艺
本发明涉及互联网领域,具体而言,涉及一种数据处理方法和装置。
背景技术
:随着互联网发展的加速,网络行为已经成为研究消费者的重要途径。目前用户网络访问行为数据的来源主要有:1)网络用户行为样本监测数据;2)网络服务商数据;3)网站服务器日志数据;4)第三方服务商通过页面标签技术获取的数据;5)其他方式。来源1)和2)是其中非常重要的两种方式,这些数据具有以下特点:1)能较为完整的体现网民的互联网访问路径,对全面了解当前网民的特点更加有价值;2)以家庭为单位获取数据;3)方便结合问卷调查等主观方式,能与多种数据源结合分析。但这样的数据源想要产生更高的数据价值,最重要的就是需要把以家庭为单位的数据进一步分离到每个人。现有技术描述了一种实现互联网用户访问情况统计分析的方法,该方案通过提取及记录每一来访用户对象所代表的用户机的信息,根据用户级的信息的相似度合并用户对象。通过学习过程记录不同的Cookie所代表的用户机的信息以及对Cookie所发生的浏览行为,对用户相似程度进行判断,将有可能是同一个用户产生的Cookie进行合并,并基于合并后Cookie的浏览行为记录统计分析访问频次和浏览行为习惯。由此,根据现有技术描述的基于用户机信息和浏览行为的相关度合并Cookie的方案可以确定,现有技术至少存在如下几个缺陷:1)适用数据源有限;2)分离精度有限;3)系统性误差会越来越大,没有修改的机会。针对现有技术中仅能得到同一网络的网络访问行为数据,网络访问行为数据识别精度不高的问题,目前尚未提出有效的解决方案。技术实现要素:本发明实施例提供了一种数据处理方法和装置,以至少解决现有技术中仅能得到同一网络的网络访问行为数据,网络访问行为数据识别精度不高的技术问题。根据本发明实施例的一个方面,提供了一种数据处理方法,包括:获取使用同一网络的用户群中每个用户的网络访问识别模型,其中,网络访问识别模型至少包含用户在预设时间段内通过同一网络进行页面访问之后,所确定的网络访问识别因素;接收同样使用同一网络的当前用户的网络访问行为数据;使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,确定用户群中与当前用户的匹配度最高的用户。根据本发明实施例的另一方面,还提供了一种数据处理装置,包括:获取模块,用于获取使用同一网络的用户群中每个用户的网络访问识别模型,其中,网络访问识别模型至少包含用户在预设时间段内通过同一网络进行页面访问之后,所确定的网络访问识别因素;接收模块,用于接收同样使用同一网络的当前用户的网络访问行为数据;确定模块,用于使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,确定用户群中与当前用户的匹配度最高的用户。在本发明实施例中,通过获取使用同一网络的用户群中每个用户的网络访问识别模型,并接收同样使用同一网络的当前用户的网络访问行为数据,使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,确定用户群中与当前用户的匹配度最高的用户。因此,上述方案可以实现识别不同用户的网络访问行为数据的目的,由于用户属于使用同一网络的用户群,进一步还可以实现将以用户群为单位的网络访问行为数据分离到用户群中每个用户的目的,从而解决现有技术中仅能得到同一网络的网络访问行为数据,网络访问行为数据识别精度不高的技术问题。由此可知,本申请实施例提供的方案可以把以家庭为单位的数据进一步分离到个人,提高网络访问行为数据的识别精度,具有更高的数据价值。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是根据本发明实施例的一种数据处理方法的流程图;图2是根据本发明实施例的一种可选的数据处理方法的流程图;图3是根据本发明实施例的一种数据处理装置的示意图;图4是根据本发明实施例的一种可选的数据处理装置的示意图;图5是根据本发明实施例的一种可选的数据处理装置的示意图;图6是根据本发明实施例的一种可选的数据处理装置的示意图;图7是根据本发明实施例的一种可选的数据处理装置的示意图;图8是根据本发明实施例的一种可选的数据处理示意图;以及图9是根据本发明实施例的一种可选的数据处理示意图。具体实施方式为了使本
技术领域
的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:网络用户行为样本监测:主要是指选取一定的样本,对其网络访问行为进行持续性的数据采集,可依托路由器等硬件设备或上网设备中的监测客户端完成,基于这样一定规模的样本即可完成对庞大网民群体行为进行监测和分析。网络服务商:是指ISP(InternetServiceProvider的缩写),字面意思是网络服务提供者。网络服务商的类型包括物理网络运营者NP、接入服务者IAP、Web服务器等。实施例1根据本发明实施例,提供了一种数据处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本发明实施例的一种数据处理方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,获取使用同一网络的用户群中每个用户的网络访问识别模型,其中,网络访问识别模型至少包含用户在预设时间段内通过同一网络进行页面访问之后,所确定的网络访问识别因素。具体地,上述步骤中的网络访问识别模型表明用户进行页面访问的访问习惯,例如用户经常访问的网页的类型,访问该类型网页的时长和频率等信息。在一种可选的方案中,从一个家庭路由器中提取得到该家庭中所有用户的网络访问行为数据,对该网络访问行为数据进行分析,确定每个用户的网络访问识别模型。步骤S104,接收同样使用同一网络的当前用户的网络访问行为数据。具体地,上述步骤中的网络访问行为数据可以是用户进行页面访问生成的数据,上述数据可以保存在路由器或者网络服务商服务器中。当前用户可以是使用同一网络的用户群中任意一个用户,也可以是非用户群中的任意一个用户,例如用户群是一个家庭中的三个成员A、B和C,当前用户是客人D。此处需要说明的是,本申请上述步骤S102和S104的执行顺序可以相互交换,即在本发明可以提供的另外一种场景中,可以在获取到当前用户使用当前网络进行网络访问之后,再依据不同网络数据确定已经存储的用户群中每个用户的网络访问识别模型,其中,用户群中的每个用户所使用的网络与上述当前用户所使用的网络相同。本发明可选的其他实施例在此不做赘述。步骤S106,使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,确定用户群中与当前用户的匹配度最高的用户。具体地,使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,得到用户群中每个用户和该当前用户的匹配度,该当前用户可以是用户群中匹配度最高的用户。在一种可选的方案中,获取使用同一个路由器的家庭中三个成员A、B和C的网络访问识别模型,接收使用同一个路由器的用户D的网络访问行为数据,分别使用A、B和C三个网络访问识别模型对当前用户的网络访问行为数据进行分析,确定A与当前用户匹配度为20%,确定B与当前用户匹配度为75%,确定C与当前用户匹配度为48%,其中,匹配度最高的用户为B,因此可以确定当前用户为用户B,即当前的网络访问行为数据是用户B访问页面产生的数据。本申请上述实施例中,通过获取使用同一网络的用户群中每个用户的网络访问识别模型,并接收同样使用同一网络的当前用户的网络访问行为数据,使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,确定用户群中与当前用户的匹配度最高的用户。因此,上述方案可以实现识别不同用户的网络访问行为数据的目的,由于用户属于使用同一网络的用户群,进一步还可以实现将以用户群为单位的网络访问行为数据分离到用户群中每个用户的目的,从而解决现有技术中仅能得到同一网络的网络访问行为数据,网络访问行为数据识别精度不高的技术问题。由此可知,本申请实施例提供的方案可以把以家庭为单位的数据进一步分离到个人,提高网络访问行为数据的识别精度,具有更高的数据价值。可选地,本申请上述实施例中,用户访问页面所确定的网络访问识别因素包括如下任意一个或多个参数:访问页面的访问次数、访问时长、跳出率、访问频率和访问深度。具体地,上述方案中访问页面的访问次数可以是用户在特定时间段内访问特定网站的访问次数,该特定时间可以是一天或者一周。访问时长可以是用户每次访问特定网站的时间,例如每次访问视频网站的时间为2个小时。跳出率可以是用户访问网站只访问一个页面就离开的概率。访问频率可是用户访问特定页面之间间隔的时间,例如每隔一天访问一次视频网站。访问深度可以是用户访问特定网站连续的页面个数,例如用户访问视频网站连续的页面个数为10。通过上述方案,由于不同用户访问页面确定的网络访问识别因素不同,因此可以通过生成包含网络访问识别因素的识别模型,对网络访问行为数据进行分析,实现识别不同用户的网络访问行为数据的目的。可选地,本申请上述实施例中,步骤S102获取使用同一网络的用户群中每个用户的网络访问识别模型包括如下步骤:步骤S1022,获取预设时间段内使用同一网络的每个用户的网络访问行为数据。具体地,上述步骤中预设时间段可以是接收到当前用户的网络访问行为数据之前用户设定的时间段,可以将预设时间段内使用同一网络的每个用户的网络访问行为数据作为样本数据,得到每个用户的网络访问识别模型。步骤S1024,根据预设时间段内的每个用户的网络访问行为数据,确定用户群中每个用户的网络访问识别因素和相应的权重。具体地,上述步骤中的权重可以根据每个用户的访问习惯得到,不同用户相同的网络访问识别因素相应的权重不同,相同用户不同的网络访问识别因素相应的权重不同。上述步骤中的网络访问识别因素可以是访问频率、访问时长和访问深度。但不限于此,包括其他参数的网络访问识别因素也可以实现本实施例的目的。在一种可选的方案中,可以根据每个用户的网络访问行为数据之间的相似度,确定每个用户访问页面的页面类型,例如,用户A访问页面的页面类型为体育类和新闻类,用户B访问页面的页面类型为购物类和视频类,用户C访问页面的页面类型为网页游戏类。在对每个用户访问页面的页面类型进行分类之后,确定每个用户在每种页面类型中的网络访问识别因素和相应的权重,例如,视频类的网络访问识别因素是访问时长和访问频率,用户A的网络访问识别因素相应的权重最低,用户B的网络访问识别因素相应的权重最高。步骤S1026,根据每个用户的网络访问识别因素xi和相应的权重ki,按照公式yi=k1x1+k2x2+…+knxn生成每个用户的网络访问识别模型yi,其中,i为自然数。具体地,上述步骤中n可以是网路访问识别因素包含的参数个数,例如,网络访问识别因素是访问频率、访问时长和访问深度,那么n为3。通过上述步骤S1022至步骤S1026,通过获取预设时间段内的每个用户的网络访问行为数据,确定用户群中每个用户的网络访问识别因素和相应的权重,按照公式生成每个用户的网络访问识别模型,从而实现获取使用同一网络的用户群中每个用户的网络访问识别模型的目的。可选地,本申请上述实施例中,步骤S106使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,确定用户群中与当前用户的匹配度最高的用户包括如下步骤:步骤S1062,从当前用户的网络访问行为数据中,提取得到当前用户进行页面访问后的网络访问识别因素。在一种可选的方案中,从当前用户的网络访问行为数据中,提取用户访问页面的页面类型,例如当前用户访问页面的页面类型为视频类,那么当前用户的网络访问识别因素是访问时长和访问频率。步骤S1064,使用每个用户的网络访问识别模型yi对当前用户的网络访问识别因素进行处理,计算得到当前用户对应任意一个用户的网络访问识别模型yi的预测结果值。具体地,上述步骤中预测结果值可以是当前用户为该任意一个用户的预测概率值。在一种可选的方案中,将当前用户的网络访问识别因素代入每个用户的网络访问识别模型yi,求出当前用户对应任意一个用户的网络访问识别模型yi的预测结果值,例如,当前用户的网络访问识别因素是访问时长和访问频率,代入页面类型为视频类的每个用户的网络访问识别模型,计算得到当前用户对应用户A的预测结果值为25%,当前用户对应用户B的预测结果值为80%,当前用户对应用户C的预测结果值为65%。步骤S1066,将预测结果值最高的用户确定为与当前用户匹配度最高的用户。在一种可选的方案中,通过比较当前用户对应任意一个用户的网络访问识别模型yi的预测结果值,将预测结果值最高的用户确定为与当前用户匹配度最高的用户,例如,当前用户对应用户B的预测结果值为80%最高,因此确定用户B为与当前用户匹配度最高的用户。通过上述步骤S1062至步骤S1066,提取当前用户的网络访问识别因素,计算当前用户对应任意一个用户的预测结果值,确定预测结果值最高的用户为与当前用户匹配度最高的用户,从而实现稳定且高效识别用户的网络访问行为数据的目的。可选地,本申请上述实施例中,使用回归算法确定每个用户的网络访问识别因素xi所对应的权重ki。具体地,上述回归算法可以是逻辑回归算法,但不限于此,其他的回归算法也可以实现本实施例的目的。也可以使用数据分析或数据挖掘软件实现本实施例的目的,例如SPSS、Stat、SAS、R、rapidminer以及Python等。在一种可选的方案中,根据每个用户网络访问行为数据,使用逻辑回归算法得到所有网络访问识别因素的权重值,进一步确定每个用户及其网络访问行为之间的关系,从而建立一个相关性较好的回归方程(即网络访问识别模型),用于预测接收到的当前用户的网络访问行为数据所对应的用户群中的用户。可选地,逻辑回归算法通过观测样本的极大似然估计值来选择参数,具体步骤如下:第一步,在rapidminer系统中,导入需要分析的每个用户的网络访问行为数据作为样本数据。第二步,根据导入的样本数据,建立逻辑回归模型,输出各因素权重值的结果示例如表1所示:表1因素Attribute权重值Weight访问页面的访问次数x1k1访问时长x2k2跳出率x3k3访问频率x4k4访问深度x5k5通过上述方案,使用回归算法可以得到更精确的网络访问识别因素所对应的权重。可选地,本申请上述实施例中,在步骤S1066将预测结果值最高的用户确定为与当前用户匹配度最高的用户之后,上述方法还包括如下步骤:步骤S110,判断任意一个用户的预测结果值是否小于预设阈值。具体地,上述步骤中任意一个用户的预测结果值可以是与当前用户匹配度最高的用户的预测结果值,预设阈值可以是70%,但不仅限于此,其他的预设阈值也可以满足本实施例的目的。在一种可选的方案中,用户A的预测结果值为25%,用户B的预测结果值为80%,用户C的预测结果值为65%,确定与当前用户匹配度最高的用户为用户B,由于80%大于70%,因此判断用户B的预测结果值大于预设阈值。步骤S112,在预测结果值小于预设阈值的情况下,修正预测结果值小于预设阈值的用户的网络访问识别模型,直至预测结果值大于等于预设阈值。在一种可选的方案中,用户A的预测结果值为25%,用户B的预测结果值为65%,用户C的预测结果值为45%,确定与当前用户匹配度最高的用户为用户B,由于65%小于70%,判断用户B的预测结果值大于预设阈值,修正用户B的网络访问识别模型,直至用户B的预测结果值大于等于预设阈值。通过上述步骤S110至步骤S112,通过判断任意一个用户的预测结果值是否小于预设阈值,并在预测结果值小于预设阈值的情况下,修正预测结果值小于预设阈值的用户的网络访问识别模型,直至预测结果值大于等于预设阈值。因此,上述方案通过持续修正每个用户的网络访问识别模型,避免了小概率事件对网络访问识别模型的影响,保证较高的识别精度。可选地,本申请上述实施例中,步骤S112中修正预测结果值小于预设阈值的用户的网络访问识别模型包括如下步骤:步骤S1122,根据当前用户的网络访问行为数据,修正预设时间段内所确定的网络访问识别因素和相应的权重,得到修正后的每个用户的网络访问识别模型。在一种可选的方案中,在用户B的预测结果值小于预设阈值的情况下,仅仅根据当前用户的网络访问行为数据,修正预设时间段内确定的用户B的网络访问识别因素所对应的权重,进一步得到修正后的用户B的网络访问识别模型。通过上述步骤S1122,根据当前用户的网络访问行为数据,修正预设时间段内所确定的网络访问识别因素和相应的权重,得到修正后的每个用户的网络访问识别模型,从而实现修正预测结果值小于预设阈值的用户的网络访问识别模型的目的。可选地,本申请上述实施例中,步骤S112中修正预测结果值小于预设阈值的用户的网络访问识别模型包括如下步骤:步骤S1124,以当前用户进行页面访问的时间为基准,根据每个用户的网络访问行为数据和当前用户的网络访问行为数据,确定修正后预设时间段内的网络访问识别因素和相应的权重,生成修正后的每个用户的网络访问识别模型。在一种可选的方案中,在用户B的预测结果值小于预设阈值的情况下,将当前用户的网络访问行为数据加入到每个用户的网络访问行为数据中,得到新的样本数据,根据新的样本数据确定新的预设时间段内用户B的网络访问识别因素和相应的权重,进一步得到修正后的用户B的网络访问识别模型。通过上述步骤S1124,以当前用户进行页面访问的时间为基准,根据每个用户的网络访问行为数据和当前用户的网络访问行为数据,确定修正后预设时间段内的网络访问识别因素和相应的权重,生成修正后的每个用户的网络访问识别模型,从而实现修正预测结果值小于预设阈值的用户的网络访问识别模型的目的。图2是根据本发明实施例的一种可选的数据处理方法的流程图,如图2所示,一种可选的应用场景的详细步骤为:S21:包含关键字段的数据源输入。具体地,从路由器中获取特定数量的家庭用户的网络访问行为数据,上述关键字段包括访问页面和如下任意一个或多个参数:访问页面的访问次数、访问时长、跳出率、访问频率和访问深度。S22:区分属于不同家庭及家庭内的多个设备的数据。具体地,可以根据路由器的IP地址对特定数量的家庭用户的网络访问行为数据进行区分,得到属于同一个家庭内的多个设备的网络访问行为数据。S23:建立家庭中每个用户的网络访问识别模型。具体地,提取一段样本数据针对智能手机数据,每一部手机可视为一个独立的用户,据此可以猜测家庭成员数;针对平板电脑数据,依据与智能手机数据的相似度,可合并到手机用户上,无法匹配的数据可默认为一个用户,通常是家庭中的少年儿童;针对PC数据,依据与平板电脑和智能手机数据的相似度,分离归并到各用户;根据样本数据找到区分用户的网络访问识别因素及其权重,建立每个用户的网络访问识别模型。S24:使用网络访问识别模型对后续采集数据进行预测。具体地,该步骤的实现方式与上述实施例中步骤S106的实现方式相同,使用每个用户的网络访问识别模型对当前用户的网络访问行为数据进行分析,计算当前用户对应任意一个用户的网络访问识别模型的预测结果值,将预测结果值最高的用户确定为与当前用户匹配度最高的用户。S25:判断预测概率是否小于一定的阈值。具体地,该步骤的实现方式与上述实施例中步骤S110的实现方式相似。在预测概率小于一定的阈值的情况下,进入步骤S26。在预测概率大于等于一定的阈值的情况下,进入步骤S27。S26:修正模型。具体地,该步骤的实现方式与上述实施例中步骤S112的实现方式相似,在此不作赘述。S27:结束。具体地,在预测概率大于等于一定的阈值的情况下,完成识别用户的网络访问行为数据。实施例2根据本发明实施例,提供了一种数据处理装置实施例。图3是根据本发明实施例的一种数据处理装置的示意图,如图3所示,该装置包括:获取模块31、接收模块33和确定模块35,其中,获取模块31,用于获取使用同一网络的用户群中每个用户的网络访问识别模型,其中,网络访问识别模型至少包含用户在预设时间段内通过同一网络进行页面访问之后,所确定的网络访问识别因素。具体地,上述获取模块31中的网络访问识别模型表明用户进行页面访问的访问习惯,例如用户经常访问的网页的类型,访问该类型网页的时长和频率等信息。在一种可选的方案中,获取模块31从一个家庭路由器中提取得到该家庭中所有用户的网络访问行为数据,对该网络访问行为数据进行分析,确定每个用户的网络访问识别模型。接收模块33,用于接收同样使用同一网络的当前用户的网络访问行为数据。具体地,上述接收模块33中的网络访问行为数据可以是用户进行页面访问生成的数据,上述数据可以保存在路由器或者网络服务商服务器中。当前用户可以是使用同一网络的用户群中任意一个用户,也可以是非用户群中的任意一个用户,例如用户群是一个家庭中的三个成员A、B和C,当前用户是客人D。确定模块35,用于使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,确定用户群中与当前用户的匹配度最高的用户。具体地,确定模块35使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,得到用户群中每个用户和该当前用户的匹配度,该当前用户可以是用户群中匹配度最高的用户。在一种可选的方案中,获取模块31获取使用同一个路由器的家庭中三个成员A、B和C的网络访问识别模型,接收模块33接收使用同一个路由器的用户D的网络访问行为数据,确定模块35分别使用A、B和C三个网络访问识别模型对当前用户的网络访问行为数据进行分析,确定A与当前用户匹配度为20%,确定B与当前用户匹配度为75%,确定C与当前用户匹配度为48%,其中,匹配度最高的用户为B,因此可以确定当前用户为用户B,即当前的网络访问行为数据是用户B访问页面产生的数据。本申请上述实施例中,通过获取模块获取使用同一网络的用户群中每个用户的网络访问识别模型,并通过接收模块接收同样使用同一网络的当前用户的网络访问行为数据,确定模块使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,确定用户群中与当前用户的匹配度最高的用户。因此,上述方案可以实现识别不同用户的网络访问行为数据的目的,由于用户属于使用同一网络的用户群,进一步还可以实现将以用户群为单位的网络访问行为数据分离到用户群中每个用户的目的,从而解决现有技术中仅能得到同一网络的网络访问行为数据,网络访问行为数据识别精度不高的技术问题。由此可知,本申请实施例提供的方案可以把以家庭为单位的数据进一步分离到个人,提高网络访问行为数据的识别精度,具有更高的数据价值。可选地,本申请上述实施例中,用户访问页面所确定的网络访问识别因素包括如下任意一个或多个参数:访问页面的访问次数、访问时长、跳出率、访问频率和访问深度。具体地,上述方案中访问页面的访问次数可以是用户在特定时间段内访问特定网站的访问次数,该特定时间可以是一天或者一周。访问时长可以是用户每次访问特定网站的时间,例如每次访问视频网站的时间为2个小时。跳出率可以是用户访问网站只访问一个页面就离开的概率。访问频率可是用户访问特定页面之间间隔的时间,例如每隔一天访问一次视频网站。访问深度可以是用户访问特定网站连续的页面个数,例如用户访问视频网站连续的页面个数为10。通过上述方案,由于不同用户访问页面确定的网络访问识别因素不同,因此可以通过生成包含网络访问识别因素的识别模型,对网络访问行为数据进行分析,实现识别不同用户的网络访问行为数据的目的。可选地,如图4所示,本申请上述实施例中,上述获取模块31包括:获取子模块311,用于获取预设时间段内使用同一网络的每个用户的网络访问行为数据。具体地,上述获取子模块311中预设时间段可以是接收到当前用户的网络访问行为数据之前用户设定的时间段,可以将预设时间段内使用同一网络的每个用户的网络访问行为数据作为样本数据,得到每个用户的网络访问识别模型。第一确定子模块313,用于根据预设时间段内的每个用户的网络访问行为数据,确定用户群中每个用户的网络访问识别因素和相应的权重。具体地,上述第一确定子模块313中的权重可以根据每个用户的访问习惯得到,不同用户相同的网络访问识别因素相应的权重不同,相同用户不同的网络访问识别因素相应的权重不同。网络访问识别因素可以是访问频率、访问时长和访问深度。但不限于此,包括其他参数的网络访问识别因素也可以实现本实施例的目的。在一种可选的方案中,第一确定子模块可以根据每个用户的网络访问行为数据之间的相似度,确定每个用户访问页面的页面类型,例如,用户A访问页面的页面类型为体育类和新闻类,用户B访问页面的页面类型为购物类和视频类,用户C访问页面的页面类型为网页游戏类。在对每个用户访问页面的页面类型进行分类之后,确定每个用户在每种页面类型中的网络访问识别因素和相应的权重,例如,视频类的网络访问识别因素是访问时长和访问频率,用户A的网络访问识别因素相应的权重最低,用户B的网络访问识别因素相应的权重最高。生成子模块315,用于根据每个用户的网络访问识别因素xi和相应的权重xi,按照公式yi=k1x1+k2x2+…+knxn生成每个用户的网络访问识别模型yi,其中,i为自然数。具体地,上述生成子模块315中n可以是网路访问识别因素包含的参数个数,例如,网络访问识别因素是访问频率、访问时长和访问深度,那么n为3。通过上述方案,通过获取子模块获取预设时间段内的每个用户的网络访问行为数据,获取子模块确定用户群中每个用户的网络访问识别因素和相应的权重,生成子模块按照公式生成每个用户的网络访问识别模型,从而实现获取使用同一网络的用户群中每个用户的网络访问识别模型的目的。可选地,如图5所示,本申请上述实施例中,上述确定模块35包括:提取子模块351,用于从当前用户的网络访问行为数据中,提取得到当前用户进行页面访问后的网络访问识别因素。在一种可选的方案中,提取子模块从当前用户的网络访问行为数据中,提取用户访问页面的页面类型,例如当前用户访问页面的页面类型为视频类,那么当前用户的网络访问识别因素是访问时长和访问频率。计算子模块353,用于使用每个用户的网络访问识别模型yi对当前用户的网络访问识别因素进行处理,计算得到当前用户对应任意一个用户的网络访问识别模型yi的预测结果值。具体地,上述计算子模块353中预测结果值可以是当前用户为该任意一个用户的预测概率值。在一种可选的方案中,计算子模块将当前用户的网络访问识别因素代入每个用户的网络访问识别模型yi,求出当前用户对应任意一个用户的网络访问识别模型yi的预测结果值,例如,当前用户的网络访问识别因素是访问时长和访问频率,代入页面类型为视频类的每个用户的网络访问识别模型,计算得到当前用户对应用户A的预测结果值为25%,当前用户对应用户B的预测结果值为80%,当前用户对应用户C的预测结果值为65%。第二确定子模块355,将预测结果值最高的用户确定为与当前用户匹配度最高的用户。在一种可选的方案中,第二确定子模块通过比较当前用户对应任意一个用户的网络访问识别模型yi的预测结果值,将预测结果值最高的用户确定为与当前用户匹配度最高的用户,例如,当前用户对应用户B的预测结果值为80%最高,因此确定用户B为与当前用户匹配度最高的用户。通过上述方案,提取子模块提取当前用户的网络访问识别因素,计算子模块计算当前用户对应任意一个用户的预测结果值,第二确定子模块确定预测结果值最高的用户为与当前用户匹配度最高的用户,从而实现稳定且高效数据处理目的。可选地,如图6所示,本申请上述实施例中,上述装置还包括:处理模块37,用于使用回归算法确定每个用户的网络访问识别因素xi所对应的权重ki。具体地,上述回归算法可以是逻辑回归算法,但不限于此,其他的回归算法也可以实现本实施例的目的。也可以使用数据分析或数据挖掘软件实现本实施例的目的,例如SPSS、Stat、SAS、R、rapidminer和Python等。在一种可选的方案中,根据每个用户网络访问行为数据,使用逻辑回归算法得到所有网络访问识别因素的权重值,进一步确定每个用户及其网络访问行为之间的关系,从而建立一个相关性较好的回归方程(即网络访问识别模型),用于预测接收到的当前用户的网络访问行为数据所对应的用户群中的用户。可选地,逻辑回归算法通过观测样本的极大似然估计值来选择参数,具体步骤如下:第一步,在rapidminer系统中,导入需要分析的每个用户的网络访问行为数据作为样本数据。第二步,根据导入的样本数据,建立逻辑回归模型,输出各因素权重值的结果示例如表1所示。通过上述方案,处理模块使用回归算法可以得到更精确的网络访问识别因素所对应的权重。可选地,如图7所示,本申请上述实施例中,上述装置还包括:判断模块32,用于判断任意一个用户的预测结果值是否小于预设阈值。具体地,上述判断模块32中任意一个用户的预测结果值可以是与当前用户匹配度最高的用户的预测结果值,预设阈值可以是70%,但不仅限于此,其他的预设阈值也可以满足本实施例的目的。在一种可选的方案中,用户A的预测结果值为25%,用户B的预测结果值为80%,用户C的预测结果值为65%,第二确定子模块确定与当前用户匹配度最高的用户为用户B,由于80%大于70%,因此判断模块判断用户B的预测结果值大于预设阈值。修正模块34,用于在预测结果值小于预设阈值的情况下,修正预测结果值小于预设阈值的用户的网络访问识别模型,直至预测结果值大于等于预设阈值。在一种可选的方案中,用户A的预测结果值为25%,用户B的预测结果值为65%,用户C的预测结果值为45%,第二确定子模块确定与当前用户匹配度最高的用户为用户B,由于65%小于70%,判断模块判断用户B的预测结果值大于预设阈值,修正模块修正用户B的网络访问识别模型,直至用户B的预测结果值大于等于预设阈值。通过上述方案,通过判断模块判断任意一个用户的预测结果值是否小于预设阈值,并在预测结果值小于预设阈值的情况下,修正模块修正预测结果值小于预设阈值的用户的网络访问识别模型,直至预测结果值大于等于预设阈值。因此,上述方案通过持续修正每个用户的网络访问识别模型,避免了小概率事件对网络访问识别模型的影响,保证较高的识别精度。可选地,如图8所示,在一种可选的实施例中,上述修正模块34包括:第一修正子模块341,用于根据当前用户的网络访问行为数据,修正预设时间段内确定的网络访问识别因素和相应的权重,得到修正后的每个用户的网络访问识别模型。在一种可选的方案中,在用户B的预测结果值小于预设阈值的情况下,第一修正子模块仅仅根据当前用户的网络访问行为数据,修正预设时间段内确定的用户B的网络访问识别因素所对应的权重,进一步得到修正后的用户B的网络访问识别模型。通过上述方案,第一修正子模块根据当前用户的网络访问行为数据,修正预设时间段内所确定的网络访问识别因素和相应的权重,得到修正后的每个用户的网络访问识别模型,从而实现修正预测结果值小于预设阈值的用户的网络访问识别模型的目的。可选地,如图9所示,在另一种可选的实施例中,上述修正模块34包括:第二修正子模块343,用于以当前用户进行页面访问的时间为基准,根据每个用户的网络访问行为数据和当前用户的网络访问行为数据,确定修正后预设时间段内的网络访问识别因素和相应的权重,生成修正后的每个用户的网络访问识别模型。在一种可选的方案中,在用户B的预测结果值小于预设阈值的情况下,第二修正子模块将当前用户的网络访问行为数据加入到每个用户的网络访问行为数据中,得到新的样本数据,根据新的样本数据确定新的预设时间段内用户B的网络访问识别因素和相应的权重,进一步得到修正后的用户B的网络访问识别模型。通过上述方案,第二修正子模块以当前用户进行页面访问的时间为基准,根据每个用户的网络访问行为数据和当前用户的网络访问行为数据,确定修正后预设时间段内的网络访问识别因素和相应的权重,生成修正后的每个用户的网络访问识别模型,从而实现修正预测结果值小于预设阈值的用户的网络访问识别模型的目的。所述法律裁判文书的解析装置包括处理器和存储器,上述获取模块、接收模块、确定模块、处理模块、判断模块、修正模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。上述第一预设规则、第二预设规则都可以存储在存储器中。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取使用同一网络的用户群中每个用户的网络访问识别模型,其中,网络访问识别模型至少包含用户在预设时间段内通过同一网络进行页面访问之后,所确定的网络访问识别因素;接收同样使用同一网络的当前用户的网络访问行为数据;使用每个用户的网络访问识别模型分别对当前用户的网络访问行为数据进行分析,确定用户群中与当前用户的匹配度最高的用户。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页1 2 3 
再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1