一种基于互联网应用的用户信息识别分类方法和系统的制作方法

文档序号:9813992阅读:486来源:国知局
一种基于互联网应用的用户信息识别分类方法和系统的制作方法
【技术领域】
[0001]本发明属于通讯领域,特别是涉及一种基于互联网应用的用户信息识别分类方法和系统。
【背景技术】
[0002]在互联网快速发展的今天,网络上的信息日益膨胀,面对这众多的信息资源,广大网民发现越来越难以获得自己想要的信息。个性化的服务技术就是在这种需求背景下诞生的,个性化服务是根据用户的设定来实现的,是一种有针对性的服务方式,通过各种渠道对资源进行收集、整理和分类,向用户提供和推荐相关信息,以满足用户的需求。个性化服务打破了传统被动式的服务模式,能够充分利用各种资源优势,主动开展以满足用户个性化需求为目的的服务。而提供个性化的关键,就在于能够对于用户的行为有着合理的对应关系,只有拥有了这样的对应关系,才有可能进行个性化推荐和筛选。现有的互联网应用的用户信息识别技术研究,主要集中在WEB信息的抽取与分析,所采取的方法有关于WEB信息自动数据记录分析、基于Cookie技术和启发式规则的用户识别,或基于WEB日志挖掘的用户信息需求识别等,但随着APP模式的出现,大量的互联网应用软件涌现,单纯通过WEB信息抽取与分析具有极大的局限性,难以达到有效解决互联网信息识别技术问题,以及如何通过海量信息还原一个用户的真实行为,传统数据收集和识别方式有其局限性,主要有以下原因:
[0003]1.浏览器Http协议无状态。Http协议是无状态协议,将同一个人的数据聚合起来,难度本来就比较高,必须通过Cookie,URL参数等不稳定的方式追踪一个人的行为。
[0004]2.40%的Cookie清除率。从实际的数据上来看,大约40%的用户会清除自己的Cookie,这对于数据收集,Join非常不利。用户清除Cookie的原因很多,包括:由于360,搜狗等现代浏览器的出现,用户清除Cookie的代价非常小,甚至很多浏览器会主动提示;360,腾讯,百度等厂商提供的“安全卫士”等产品会对浏览器数据进行清除,这些工作可能是在用户没有意识的情况下进行的;网吧的还原精灵等自动还原工具的存在。
[0005]3.大量非登录用户。当前互联网很多服务为了降低用户使用门槛,很多服务都不要求用户登录。这样进一步提高了用户识别的难度。
[0006]4.在线时间短,数据稀疏。在线时间是另外一个传统收集用户数据的软肋。
[0007]这些问题严重制约着个性化服务的展开和发展。

【发明内容】

[0008]为解决上述问题,本发明提供了一种基于互联网应用的用户信息识别分类方法包括以下步骤:
[0009]1.获取应用用户的使用信息。
[0010]2.实时数据分析。
[0011]3.离线储存。
[0012]4.离线数据分析。
[0013]5.分析结果汇总。
[0014]步骤I获取的信息为用户使用应用时产生的日志数据。
[0015]进一步的,步骤I收集的日志数据包括:用户设备ID;用户账号信息收集;用户社会关系收集;用户地缘信息收集。
[0016]步骤2所述实时数据分析包括:
[0017]首先对收集到的日志数据进行格式化汇总:将该日志数据进行Json格式化为一个JSON字符串:每条log包含有一个1gId、一个partnerId和一个cookield。其中,log代表日志;1gId代表日志唯一 id,每条日志随机生成;partner Id代表用户分组id !cookie Id代表客户端标识,同一个客户端cookield相同。
[0018]然后进行实时的初步分类汇总,分为:关键信息和非关键信息,关键信息和非关键信息均包含一个或多个key-value对;关键信息的key为事件名称,value为事件发生的次数,会进入实时汇总计算;非关键信息的key和value任意,并且不进入实时汇总计算。
[0019]最后对关键信息进行多层级分类汇总形成多个统计表,每个表格的名称为partnerld,表格内容为关键信息和发生次数,将每条log格式化后的数据partnerld,关键信息,发生次数,更新到表格中。
[0020]进一步的,这些表格的信息,每隔一段时间生成统计数据点,之后清零。这样就能得到最新的数据和每个数据点间隔时间之间的数据。
[0021 ] 优选的,间隔时间可以选择为I分钟、3分钟、5分钟或10分钟。
[0022]进一步的,所述log内容还可以分为:
[0023]a.定时log:定时将一段时间内的客户端信息汇总上报,可以含有多个关键信息key-value对,和若干个非关键信息key-value对。
[0024]b.突发log:突发log用于拟补定时log不能立即发送的不足,将少量更重要的信息立即上报;突发log含有一个关键信key-value对,和若干个非关键信息key-value对。
[0025]进一步的,步骤2所述多层级分类汇总包括:首先,Json串进行Load balance步骤的初步汇总后将数据的量级降低为常数;之后Json串进行多层级的汇总,形成多个统计表,每个表格的名称为partnerld,表格内容为关键信息和发生次数;最后,将每条log格式化后的partnerId,关键信息,发生次数,更新到表格中。
[0026]步骤3所述离线储存为:将多层级分类汇总后的日志数据进行分布式保存并且每I小时进彳丁一次尚效压缩。
[0027]步骤4所述离线数据分析为:根据预设数据模型调取相应数据进行离线建模分析,包括:活跃用户数统计、事件关联统计、新增用户统计、用户保留率统计等。
[0028]步骤5所述分析结果汇总为:结合离线数据分析各数据模型,形成个人用户及应用用户的个性化汇总,可以包括用户兴趣图谱分析和应用用户群体图谱分析。
[0029]本发明还提供了一种基于互联网应用的用户信息识别分类系统,该系统包括:数据收集模块、日志分析模块、储存模块和离线分析模块。
[0030]所述数据收集模块可以加装于客户端,统计应用程序的使用行为信息,并按照固定格式和固定间隔时间上传到服务器;也可以加装于服务器端,收集用户应用程序的使用行为信息后进行格式化转化。
[0031 ]所述日志分析模块为:日志分析模块接收数据收集模块和其他业务系统发送的日志数据进行实时的初步分类,分为关键信息和非关键信息,然后对关键信息进行实时的多层级汇总分析。
[0032]进一步的,日志分析模块还包括:网络优化;负载均衡;客户端故障容错和客户端网络容错,其中:
[0033]网络优化:通过DNS进行网络划分,电信网络、联通网络、移动网络分别部署服务器。
[0034]负载均衡:通过将客户端id进行一致性哈希,将客户端上报的压力平均分给多台服务器,一致性哈希保证当新增或者移除某一台服务器的时候,受到影响的用户数量最小。
[0035]客户端故障容错:当客户端发现上报统计服务器没有响应的时候,会重试,如果连续重试失败次数达到3次,则自动切换到其他服务器并将连续重试次数清零。
[0036]客户端网络容错:当客户端某一次log上报服务器没有正确相应时,会记录该次上报的log并负载于下一次上报的log里。服务器会记录一段时间内log的1gId,如出现客户端多次上报时则对重复的1gId进行去重。这样保证既没有冗余,同时减少log丢失,并且不会增加I og上报次数。
[0037]所述储存模块为离线数据库,离线储存日志分析模块分类汇总后的数据。
[0038]所述离线分析模块通过调取储存模块数据,根据预设分析模型进行建模分析,必要时可调取日志分析模块数据进行补充,所述数据模型包括:活跃用户
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1