本发明涉及网络通信技术领域,尤其涉及一种用户画像解析方法及装置、网络系统。
背景技术:
纯管道运营模式指的是移动运营商仅仅提供用户接入到网络的服务,即传统的宽带上网或者手机移动数据业务上网;而随着互联网、云计算、大数据的不断发展,纯管道运营的模式已经跟不上时代的发展,移动运营商开始尝试从纯管道运营的模式转型,利用掌握的海量用户数据,进行大数据分析,去驱动企业价值的升级,为用户提供更好的服务。
现有技术中,第三代合作伙伴计划(英文全称:3rdgenerationpartnershipproject,简称:3gpp)规定的移动核心网设备并没有解析用户画像这一功能(没有这个功能并不影响用户正常使用业务),为了获取全面、准确的用户画像,移动运营商不惜花费巨大的人力物力成本,将移动核心网的数据流转移到外部媒介中进行存储,然后将这些数据导出到第三方公司或者自建的分析平台,进行数据的分析;而这种存储再分析的方法,至少存在如下不足:
一、时延很高
一方面是存储过程的时延(即便是最快的存储设备固态硬盘(英文全称:solidstatedrives,简称:ssd),时间消耗也是非常可观的,另一方面是外部系统也存在处理的时延,无法达到快速分析,快速应用;
二、存储硬件成本高
用户拿手机在非无线网(英文全称:wireless-fidelity,简称:wifi)环境下产生的上网数据是十分庞大的(可以达到pb(9.0072e+15比特)级),为了存储这类数据需要大量的存储硬件来存放这些上网数据,从而导致第三方公司或者自建的分析平台在存储硬件的成本上会花费大量的资金。
由上述可知,现有技术中通过第三方公司或者自建的分析平台使用存储再分析的方法解析用户画像时,存在时延很高、存储硬件成本高的问题。
技术实现要素:
本发明的实施例提供一种用户画像解析方法及装置、网络系统,解决了现有技术中通过第三方公司或者自建的分析平台使用存储再分析的方法解析用户画像时,存在时延很高、存储硬件成本高的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面、本发明的实施例提一种用户画像解析装置,包括:
数据获取单元,用于获取移动核心网中pgw实时输出的原始数据码流,并读取移动核心网中pgw实时对原始数据码流进行深度报文检测dpi解析后生成的用户的第一数据;
处理单元,用于对数据获取单元获取的原始数据码流以并行运算的方式,生成用户的第二数据;
数据生成单元,用于根据数据获取单元读取的第一数据和处理单元生成的第二数据,生成用户的用户画像的统计分析结果并发送至第三方共享平台,其中,第三方共享平台用于实时呈现用户的用户画像的统计分析结果。
具体的,该装置还包括:
存储单元,用于存储数据生成单元生成的用户的用户画像的统计分析结果。
具体的,并行运算的方式包含mapreduce的方式;
处理单元,具体用于根据map函数对数据获取单元获取的原始数据码流进行分片统计,并通过reduce函数对数据获取单元获取的原始数据码流进行汇总,生成用户的第二数据。
具体的,并行运算的方式包含hadoop和/或hbase和/或hive和/或spark;
处理单元,具体用于通过hadoop对数据获取单元获取的原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
处理单元,具体用于通过hbase对数据获取单元获取的原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
处理单元,具体用于通过hive对数据获取单元获取的原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
处理单元,具体用于通过spark对数据获取单元获取的原始数据码流进行预设的分类和统计,生成用户的第二数据。
第二方面、本方面的实施例提供一种用户画像解析方法,包括:
获取移动核心网中pgw实时输出的原始数据码流,并读取移动核心网中pgw实时对原始数据码流进行深度报文检测dpi解析后生成的用户的第一数据;
对原始数据码流以并行运算的方式,生成用户的第二数据;
根据第一数据和第二数据,生成用户的用户画像的统计分析结果并发送至第三方共享平台,其中,第三方共享平台用于实时呈现用户的用户画像的统计分析结果。
具体的,该方法还包括:
存储用户的用户画像的统计分析结果。
具体的,并行运算的方式包含mapreduce的方式;
对原始数据码流以并行运算的方式,生成用户的第二数据,包括:
根据map函数对原始数据码流进行分片统计,并通过reduce函数对原始数据码流进行汇总,生成用户的第二数据。
具体的,并行运算的方式包含hadoop和/或hbase和/或hive和/或spark;
对原始数据码流以并行运算的方式,生成用户的第二数据,包括:
通过hadoop对原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
通过hbase对原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
通过hive对原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
通过spark对原始数据码流进行预设的分类和统计,生成用户的第二数据。
具体的,用户的用户画像的统计分析结果包括:用户的网页偏好以及用户的应用程序app偏好、用户的基础信息、用户的时间偏好、用户的消费能力以及用户的常驻地区。
第三方面、本发明的实施例提供一种网络系统,包括ue、enodeb、mme、sgw、pgw和ims,其中如第一方面提供的任一项用户画像解析装置属于pgw。
本发明实施例提供的用户画像解析方法及装置、网络系统,利用pgw对原始数据码流进行深度报文检测dpi解析后生成的用户的第一数据,可以实时动态的掌握每个用户dpi解析的数据的更新,提高了数据的实时性;由于无需将海量的原始数据码流进行预先的存储,而是直接通过对pgw输出的原始数据码流以并行运算的方式,得到用户的第二数据,此时第二数据的大小远远小于海量的原始数据码流,可以大大的减小在存储硬件上的支出;最后数据生成单元根据数据获取单元读取的第一数据和处理单元生成的第二数据,生成用户的用户画像的统计分析结果发送至第三方共享平台用于实时呈现用户的用户画像的统计分析结果,从而无需将原始数据码流存储至第三方公司或者自建的分析平台,然后再进行对原始数据码流的分析得到用户的用户画像的统计分析结果,因此解决了现有技术中通过第三方公司或者自建的分析平台使用存储再分析的方法解析用户画像时,存在时延很高、存储硬件成本高的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用户画像解析装置的结构示意图;
图2为本发明实施例提供的一种用户画像解析装置的另一种结构示意图;
图3为本发明实施例提供的一种用户画像解析方法的流程图;
图4为本发明实施例提供的一种用户画像解析方法的了一种流程图;
图5为本发明实施例提供的一种网络系统的结构示意图。
附图标记:
用户画像解析装置-10;
数据获取单元-101;处理单元-102;数据生成单元-103;存储单元-104;
网络系统-20;
用户设备-201;基站-202;移动管理节点-203;服务网关-204;公用数据网网关-205;网络协议多媒体子系统-206。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一、本发明的实施例提一种用户画像解析装置10,如图1所示包括:
数据获取单元101,用于获取移动核心网中公用数据网网关(英文全称:publicdatanetworkgateway,简称:pgw)实时输出的原始数据码流,并读取移动核心网中pgw实时对原始数据码流进行深度报文检测(英文全称:deeppacketinspection,简称:dpi)解析后生成的用户的第一数据。
处理单元102,用于对数据获取单元101获取的原始数据码流以并行运算的方式,生成用户的第二数据。
数据生成单元103,用于根据数据获取单元101读取的第一数据和处理单元102生成的第二数据,生成用户的用户画像的统计分析结果并发送至第三方共享平台,其中,第三方共享平台用于实时呈现用户的用户画像的统计分析结果。
本发明实施例提供的用户画像解析装置,数据获取单元利用pgw对原始数据码流进行深度报文检测dpi解析后生成的用户的第一数据,可以实时动态的掌握每个用户dpi解析的数据的更新,提高了数据的实时性;由于无需将海量的原始数据码流进行预先的存储,而是处理单元直接通过对pgw输出的原始数据码流以并行运算的方式,得到用户的第二数据,此时第二数据的大小远远小于海量的原始数据码流,可以大大的减小了在存储硬件上的支出;最后数据生成单元根据数据获取单元读取的第一数据和处理单元生成的第二数据,生成用户的用户画像的统计分析结果发送至第三方共享平台用于实时呈现用户的用户画像的统计分析结果,从而无需将原始数据码流存储至第三方公司或者自建的分析平台,然后再进行对原始数据码流的分析得到用户的用户画像的统计分析结果,因此解决了现有技术中通过第三方公司或者自建的分析平台使用存储再分析的方法解析用户画像时,存在时延很高、存储硬件成本高的问题。
实施例二、本发明的实施例提一种用户画像解析装置10,如图2所示包括:
数据获取单元101,用于获取移动核心网中pgw实时输出的原始数据码流,并读取移动核心网中pgw实时对原始数据码流进行深度报文检测dpi解析后生成的用户的第一数据。
需要说明的是,在实际的应用中,原始数据码流在pgw中会进行dpi解析工作,从而反应出用户进行了什么业务,访问了什么网站,打开了什么app,进而会将这些数据按照用户进行分类存储;因此,可以通过读取dpi在pgw中对应的存储信息,可以实时动态的掌握每个用户dpi解析的数据的更新(采集是做不到的,因为采集是一次性的行为,即便频率再高也只是加快刷新速度)。
处理单元102,用于对数据获取单元101获取的原始数据码流以并行运算的方式,生成用户的第二数据。
需要说明的是,在实际的应用中,原始数据码流的数据量十分庞大,因此pgw本身也不会存储,对于这部分数据,本发明实施例提供的用户画像解析装置的处理单元会直接对pgw传输的原始数据码流以并行运算的方式,得到用户的第二数据;其中,第二数据包括:有价值的摘要信息,这部分信息主要是为了弥补dpi数据的缺陷;这里的有价值的摘要信息,可以根据运营商的需求自行设定。
具体的,并行运算的方式包含映射(英文全称:map)归约(英文全称:reduce)的方式;
处理单元,具体用于根据map函数对数据获取单元获取的原始数据码流进行分片统计,并通过reduce函数对数据获取单元获取的原始数据码流进行汇总,生成用户的第二数据。
具体的,并行运算的方式包含海杜普(英文全称:hadoopdistributedfilesystem,简称:hadoop)和/或hadoop数据库(英文全称:hadoopdatabase,简称:hbase)和/或hadoop数据仓库工具(英文全称:hive)和/或阿帕奇大数据计算引擎(英文全称:spark);
处理单元,具体用于通过hadoop对数据获取单元获取的原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
处理单元,具体用于通过hbase对数据获取单元获取的原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
处理单元,具体用于通过hive对数据获取单元获取的原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
处理单元,具体用于通过spark对数据获取单元获取的原始数据码流进行预设的分类和统计,生成用户的第二数据。
数据生成单元103,用于根据数据获取单元101读取的第一数据和处理单元102生成的第二数据,生成用户的用户画像的统计分析结果并发送至第三方共享平台,其中,第三方共享平台用于实时呈现用户的用户画像的统计分析结果。
存储单元104,用于存储数据生成单元103生成的用户的用户画像的统计分析结果。
需要说明的是,在实际的应用中,用户的用户画像的统计分析结果包含通过pgw对原始数据码流进行dpi处理的用户的第一数据和通过直接对原始数据码流以并行运算的方式,计算的用户的第二数据,从而可以实时掌握用户画像所需的必要信息,而由于用户的第一数据与第二数据仅仅是一些摘要信息;因此,在存储硬件上的开销是极小的。
本发明实施例提供的用户画像解析装置,数据获取单元利用pgw对原始数据码流进行深度报文检测dpi解析后生成的用户的第一数据,可以实时动态的掌握每个用户dpi解析的数据的更新,提高了数据的实时性;由于无需将海量的原始数据码流进行预先的存储,而是处理单元直接通过对pgw输出的原始数据码流以并行运算的方式,得到用户的第二数据,并存储用户的第二数据,由于用户的第二数据包含了一些摘要信息,因此在存储方面占用的存储硬件及其的少,从而大大的减小了在存储硬件上的支出;最后数据生成单元根据数据获取单元读取的第一数据和处理单元生成的第二数据,生成用户的用户画像的统计分析结果发送至第三方共享平台用于实时呈现用户的用户画像的统计分析结果,从而无需将原始数据码流存储至第三方公司或者自建的分析平台,然后再进行对原始数据码流的分析得到用户的用户画像的统计分析结果,因此解决了现有技术中通过第三方公司或者自建的分析平台使用存储再分析的方法解析用户画像时,存在时延很高、存储硬件成本高的问题。
实施例三、本方面的实施例提供一种用户画像解析方法,如图3所示包括:
s101、获取移动核心网中pgw实时输出的原始数据码流,并读取移动核心网中pgw实时对原始数据码流进行深度报文检测dpi解析后生成的用户的第一数据。
s102、对原始数据码流以并行运算的方式,生成用户的第二数据。
s103、根据第一数据和第二数据,生成用户的用户画像的统计分析结果并发送至第三方共享平台,其中,第三方共享平台用于实时呈现用户的用户画像的统计分析结果。
本发明实施例提供的用户画像解析方法,利用pgw对原始数据码流进行深度报文检测dpi解析后生成的用户的第一数据,可以实时动态的掌握每个用户dpi解析的数据的更新,提高了数据的实时性;由于无需将海量的原始数据码流进行预先的存储,而是直接通过对pgw输出的原始数据码流以并行运算的方式,得到用户的第二数据,此时第二数据的大小远远小于海量的原始数据码流,可以大大的减小了在存储硬件上的支出;最后根据第一数据和第二数据,生成用户的用户画像的统计分析结果发送至第三方共享平台用于实时呈现用户的用户画像的统计分析结果,从而无需将原始数据码流存储至第三方公司或者自建的分析平台,然后再进行对原始数据码流的分析得到用户的用户画像的统计分析结果,因此解决了现有技术中通过第三方公司或者自建的分析平台使用存储再分析的方法解析用户画像时,存在时延很高、存储硬件成本高的问题。
实施例四、本方面的实施例提供一种用户画像解析方法,如图4所示包括:
s101、获取移动核心网中pgw实时输出的原始数据码流,并读取移动核心网中pgw实时对原始数据码流进行深度报文检测dpi解析后生成的用户的第一数据。
s102、对原始数据码流以并行运算的方式,生成用户的第二数据。
具体的,并行运算的方式包含mapreduce的方式;
对原始数据码流以并行运算的方式,生成用户的第二数据,包括:
根据map函数对原始数据码流进行分片统计,并通过reduce函数对原始数据码流进行汇总,生成用户的第二数据。
具体的,并行运算的方式包含hadoop和/或hbase和/或hive和/或spark;
对原始数据码流以并行运算的方式,生成用户的第二数据,包括:
通过hadoop对原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
通过hbase对原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
通过hive对原始数据码流进行预设的分类和统计,生成用户的第二数据;
和/或
通过spark对原始数据码流进行预设的分类和统计,生成用户的第二数据。
需要说明的是,在实际的应用中,可以通过利用hadoop、hbase、hive或spark中一个或者多个技术来提高用户画像统计工作的效率。
s103、根据第一数据和第二数据,生成用户的用户画像的统计分析结果并发送至第三方共享平台,其中,第三方共享平台用于实时呈现用户的用户画像的统计分析结果。
s104、存储用户的用户画像的统计分析结果。
具体的,用户的用户画像的统计分析结果包括:用户的网页偏好以及用户的应用程序app偏好、用户的基础信息、用户的时间偏好、用户的消费能力以及用户的常驻地区。
本发明实施例提供的用户画像解析方法,利用pgw对原始数据码流进行深度报文检测dpi解析后生成的用户的第一数据,可以实时动态的掌握每个用户dpi解析的数据的更新,提高了数据的实时性;由于无需将海量的原始数据码流进行预先的存储,而是直接通过对pgw输出的原始数据码流以并行运算的方式,得到用户的第二数据,并存储用户的第二数据,由于用户的第二数据包含了一些摘要信息,因此在存储方面占用的存储硬件及其的少,从而大大的减小了在存储硬件上的支出;最后根据第一数据和第二数据,生成用户的用户画像的统计分析结果发送至第三方共享平台用于实时呈现用户的用户画像的统计分析结果,从而无需将原始数据码流存储至第三方公司或者自建的分析平台,然后再进行对原始数据码流的分析得到用户的用户画像的统计分析结果,因此解决了现有技术中通过第三方公司或者自建的分析平台使用存储再分析的方法解析用户画像时,存在时延很高、存储硬件成本高的问题。
实施例五、本发明的实施例提供一种网络系统20,如图5所示包括用户设备201(英文全称:userequipment,简称:ue)、基站202(英文全称:evolvednodeb,简称:enodeb)、移动管理节点203(英文全称:mobilitymanagemententity,简称:mme)、服务网关204(英文全称:servinggateway,简称:sgw)、pgw205和网络协议多媒体子系统206(英文全称:internetprotocolmultimediasubsystem,简称:ims),其中如第一方面提供的任一项用户画像解析装置10属于pgw205。
需要说明的是,在实际的应用中,如图5所示,用户设备ue发送统一资源定位符(英文全称:uniformresourcelocator,简称:url)信息至基站enodeb;基站enodeb将接收到的ue的url信息通过移动管理节点mme发送至服务网关sgw;服务网关sgw将接收到的用户设备的url信息通过网络协议多媒体子系统pgw连接至网络协议多媒体子系统ims;在ue与ims进行信息交互的同时,由于pgw本身具有dpi功能,因此ue的url信息在pgw中会进行dpi解析工作,并且会将dpi解析后的用户的第一数据存储在pgw中;本发明实施例提供的用户画像解析装置,首先通过读取pgw已经存储的用户的第一数据,可减少用户画像的初步解析工作,最大程度的利用现有的资源,减少重复的分析同时可以实时动态的掌握每个用户dpi解析的数据的更新;其次,通过对ue的url信息以并行运算的方式,得到用户的第二数据,由于用户的第二数据中包含了必要的摘要信息,相比现有技术中存储海量的ue的url信息,可以大大的减小了在存储硬件上的支出;最后数据生成单元根据数据获取单元读取的第一数据和处理单元生成的第二数据,生成用户的用户画像的统计分析结果发送至第三方共享平台用于实时呈现用户的用户画像的统计分析结果,从而无需将原始数据码流存储至第三方公司或者自建的分析平台,然后再进行对原始数据码流的分析得到用户的用户画像的统计分析结果。
因此,本发明实施例提供的网络系统,仅仅实在pgw网元设备上进行扩展升级,不用改变当前运营商的移动通信网络结构,部署成本低,风险可控;并且由于直接对ue的url信息进行处理,不用过多的缓存数据,仅存储每个用户对应的摘要信息,有别于传统的存储-分析模式,具备较高的实时性和较低的存储硬件支持;因此解决了现有技术中通过第三方公司或者自建的分析平台使用存储再分析的方法解析用户画像时,存在时延很高、存储硬件成本高的问题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。