一种基于互联网应用的用户信息识别分类方法和系统的制作方法_2

文档序号:9813992阅读:来源:国知局
数统计、事件关联统计、新增用户统计、用户保留率统计等。
[0039]所述模型数据库储存离线分析模块分析得到的数据模型。
[0040]本发明提供的一种基于互联网应用的用户信息识别分类方法和系统具有如下优占.V.
[0041]1.本方法突破了传统数据收集方式的局限性,具有极强的兼容性,并且可以实现实时的数据收集;采用了服务器负载均衡技术,具有较好的稳定性。
[0042]2.实时数据汇总对实时日志进行了多层级分类汇总,降低了实时数据的储存压力,提高了数据分析速率。
[0043]3.采用离线方式储存数据,保证数据完整无误,保证历史数据不丢失。
[0044]4.本系统具有极强的精度、灵活性和稳定性,采用实时分析和离线分析两级分析模式,降低了系统运算压力。关键数据实时分析,时效性强,全部数据离线存储,完整性高。
【附图说明】
[0045]图1是基于互联网应用的用户信息识别分类方法的流程图;
[0046]图2是基于互联网应用的用户信息识别分类系统的结构图。
具体实施例
[0047]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0048]根据本发明一个实施例,提供一种基于激光雷达的输电线路智能预警评估方法,如图1所示,该方法包括:
[0049]SI获取应用用户的使用信息;
[0050]收集的数据为用户使用应用时产生的日志数据,主要来自于高置信度数据来源,基于移动互联网产品可以准确收集大量用户如下数据:
[0051 ] D用户设备10;
[0052]2)用户账号信息收集;
[0053]3)用户社会关系收集;
[0054]4)用户地缘信息收集。
[0055]基于移动互联网产品收集用户数据的特点有:准确,Device识别,天然的准确性。不需要登录;数据丰富,社会关系,地缘信息等。
[0056]另一方面,新的用户数据收集方式来自于高粘滞性数据来源。视频和游戏是互联网中两大强需求、高在线的应用;从内容角度讲,可以获取用户行为数据,活动时间分布等数据,还可以获取用户兴趣,根据视频,游戏的主题,分类等。其特点是,在线时间长,数据丰昆ο
[0057]S2实时数据分析;
[0058]首先对收集到的日志数据进行格式化汇总:将该日志数据进行Json格式化为一个JSON字符串:每条log包含有一个1gId、一个partnerId和一个cookield;然后进行实时的初步分类汇总,分为:关键信息和非关键信息,关键信息和非关键信息均包含一个或多个key-value对:关键信息的key为事件名称,value为事件发生的次数,会进入实时汇总计算;非关键信息的key和value任意,并且不进入实时汇总计算;最后对关键信息进行多层级分类汇总形成多个统计表,每个表格的名称为partnerld,表格内容为关键信息和发生次数,将每条log格式化后的数据partnerld,关键信息,发生次数,更新到表格中。这些表格的信息,每5分钟生成统计数据点,之后清零。这样就能得到最新的数据和每个数据点间隔之间的数据。
[0059]例如:客户端用户在每次播放视频的时候,可以上报一个“eventlog(play)”,并且播放视频的过程中,每隔30秒上报“regular log (online: 30秒,download:过去30秒网络下载的字节数)”。这样,服务器可以统计到每5分钟视频播放的总次数,即play的总和)、平均在线人数,即online的总和/5分钟、当前服务器的平均出带宽,即down load的总和/5分钟。
[0060]S3离线储存;
[0061]将多层级分类汇总后的日志数据进行分布式保存并且每I小时进行一次高效压缩。
[0062]S4离线数据分析;
[0063]调取相应数据进行离线建模分析,包括:活跃用户数统计、事件关联统计、新增用户统计、用户保留率统计等。
[0064]例如:
[0065]某应用某天的活跃用户数:该模型首先调取该应用当天所有的cookield,然后将cookield重复的日志去除,最后统计得出当天该应用的用户数量。
[0066]事件关联统计:该模型可以统计多种关联事件,例如如想知道某天有多少用户既观看了视频又发送了消息,则首先设播放视频事件为play,发送消息事件为sendMessage,然后通过调取分析该视频当天所有cookie Id的play和sendMessage,最后统计得出play次数大于O并且sendMessage次数大于O的用户数。
[0067]新增用户统计:该模型首先调取该应用至今的全部cookield,将cookield重复的日志去除,然后对当天每一条日志的cookeld进行计算,如果这个cookield在历史上没有出现过,则标记为新增,最后统计当天新增的cookield数量。
[0068]用户保留率统计:为某天活跃的用户里面,第二天还活跃的比例。该模型需要统计当前出现的cookield数量,再统计当天出现后第二天仍然出现的cookield的数量,后者除以前者则为保留率。
[0069]离线分析与实时分析相互独立,可以合理分配系统资源,提高建模分析的效率。
[0070]S5分析结果汇总;
[0071]结合离线数据分析各数据模型,形成个人用户及应用用户的个性化汇总。
[0072]根据本发明一个实施例,所述log内容可以分为:
[0073]a.定时log:定时将一段时间内的客户端信息汇总上报,可以含有多个关键信息key-value对,和若干个非关键信息key-value对。
[0074]b.突发log:突发log用于拟补定时log不能立即发送的不足,将少量更重要的信息立即上报;突发log含有一个关键信息key-value对,和若干个非关键信息key-value对。
[0075]根据本发明一个实施例,步骤S2所述多层级分类汇总可以为:首先,Json串进行Load balance步骤的初步汇总后将数据的量级降低为常数;之后Json串进行多层级的汇总,形成多个统计表,每个表格的名称为partnerld,表格内容为关键信息和发生次数;最后,将每条log格式化后的partner Id,关键信息,发生次数,更新到表格中。
[0076]根据本发明一个实施例,步骤S5所述分析结果汇总可以为:调取数据模型库中的相应数据模型进行汇总分析,得到用户兴趣图谱和应用用户群体图谱。
[0077]根据本发明一个实施例,提供一种基于互联网应用的用户信息识别分类系统,如图2所示,该系统包括:数据收集模块、日志分析模块、储存模块、离线分析模块和数据模型库。
[0078]数据收集模块可以加装于客户端,统计应用程序的使用行为信息,并按照固定格式和固定间隔时间上传到服务器;也可以加装于服务器端,收集用户应用程序的使用行为信息后进行格式化转化。
[0079]日志分析模块接收数据收集模块和其他业务系统发送的日志数据进行实时的初步分类,分为关键信息和非关键信息,然后对关键信息进行实时的多层级汇总分析。
[0080]储存模块为离线数据库,离线储存日志分析模块分类汇总后的数据。
[0081]离线分析模块通过调取储存模块数据,根据预设分析模型进行建模分析,必要时可调取日志分析模块数据进行补充,所述数据模型包括:活跃用户数统计、事件关联统计、新增用户统计、用户保留率统计等。
[0082]模型数据库储存离线分析模块分析得到的数据模型。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1