一种构建用户画像的系统的制作方法

文档序号:12127292阅读:213来源:国知局
一种构建用户画像的系统的制作方法与工艺

本发明涉及一种构建用户画像的系统。



背景技术:

用户画像,即用户信息标签化,就是通过收集与分析用户社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户全貌是支撑个性化推荐、自动化营销等大数据应用的基本方式。用户画像为公司或企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

然而,现有的用户画像构建的方法中,对用户上网数据分析不全面、不准确,从而导致构建的用户画像不能很好的体现用户全貌,无法满足广告运营商或者企业找到精准用户的需求。



技术实现要素:

本发明主要解决的技术问题是提供一种构建用户画像的系统,通过该系统能够构建全息多维度的用户画像。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种构建用户画像的系统,所述构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:所述数据采集模块用于采集所述用户互联网上网日志数据;所述数据预处理模块用于对所述用户互联网上网日志数据进行预处理;所述数据分析模块用于对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;所述数据应用模块用于基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所 述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;所述数据业务模块用于根据所述多维度属性标签构建所述用户画像。

其中,所述数据分析模块用于分别通过离线和在线方式对预处理后的所述互联网上网日志数据进行分析处理,得到所述用户的属性特征。

其中,所述数据分析模块包括加载单元以及离线分析单元,其中:所述加载单元用于将预处理后的所述互联网上网日志数据加载到数据存储平台中;所述离线分析单元用于结合数据存储平台中存储的历史数据,基于Hadoop开源映射/化简计算框架,对所述预处理后的所述互联网上网日志数据进行离线分析处理,得到所述用户的属性特征。

其中,所述数据分析模块包括分布单元以及在线分析单元,其中:所述分布单元用于将预处理后的所述互联网上网日志数据均匀分布到卡夫卡集群;所述在线分析单元用于通过Spark核心流计算平台实时从所述卡夫卡集群拉取数据并进行实时流计算分析处理,得到所述用户的属性特征。

其中,所述已建立的多维特征库包括运营商基础信息库、终端类型基础库、应用程序分类库、统一资源定位符URL分类库、访问网站及行为规律统计特征库、上网内容聚类结果库、用户群体分类库、命名实体识别内容提取库、动态标签分类管理库、互联网网站特征库、历史用户兴趣关注点库以及终端移动轨迹变化库中的至少一种。

其中,所述数据分析模块还用于构建所述多维特征库,其中,所述数据分析模块通过以下方式构建所述多维特征库:通过外围系统或呼叫详细记录话单日志数据的接入,对所有用户的国际用户识别码、所属运营商、网络类型、归属地、漫游地、位置中的至少一种基础信息进行提取分析,累积得到所述运营商基础信息库;或通过获取所有用户互联网上网日志数据,对所述所有用户互联网上网日志数据中的移动终端国际身份码、终端型号、品牌类型、终端操作系统中的至少一种相关信息进行提取分析,累积得到所述终端类型基础库;或通过获取所有用户互联网上网日志数据,过滤掉无效URL,针对有效的URL建立所述有效URL 所属网站的所述URL分类库;或通过获取所有用户的互联网上网日志数据,从所述所有用户的互联网上网日志数据中提取应用程序类型,通过人工和自动相结合的方式定期对所述应用程序类型进行分类、统计,以形成所述应用程序分类库;或通过获取所有用户的互联网上网日志数据,针对每个用户的上网情况,对用户的常去访问网站以及行为进行累积统计,形成所述访问网站和行为规律统计特征库;或通过获取所有用户的互联网上网日志数据,针对每个用户的上网产生的日志情况,对所述每个用户常在日志中产生的用户内容形成基于用户内容的特征聚类,产生所述上网内容聚类结果库;或通过获取所有用户的互联网上网日志数据,对具有相同特征标签或相同属性或相同业务特征的用户进行聚类合并,形成所述用户群体分类库;或通过结合离线存储所有用户的互联网上网日志数据,对所有用户的上网行为进行分析,对产生的行为进行统计,进而对用户关注内容进行聚类分析以形成所述历史用户兴趣关注点库;或通过对所有用户的互联网上网日志数据中导航地图类应用程序进行分析,得到用户移动变化的经纬度位置信息,将所述经纬度信息与地理信息系统展示结合,得到用户的移动轨迹,同时对用户位置停留时间进行统计,从而得到每个用户常去地区,对所有用户常去地区进行汇总从而形成所述终端移动轨迹变化库;或根据所有用户的互联网上网日志数据,通过主流的命名实体识别算法及训练样本集,对上网内容中具有特定意义的实体进行提取,建立所述命名实体识别内容提取库;或预先根据互联网网站的分类标准,根据所有用户的互联网上网日志,对所述所有用户的互联网上网日志中的互联网网站进行特征收集,构建所述互联网网站特征库;或基于每个特征库训练的标签分类,将所有特征库训练的标签分类进行汇总归并,建立用户偏好的所述动态标签分类管理库。

其中,所述用户的基本属性标签包括用户名、用户标识、性别、民族、国籍、年龄区间段、学历、职业、收入水平、用户终端、国际用户识别码、国际移动终端标识码、所属运营商、网络类型、归属地、漫游地、位置、终端品牌类型、终端型号、终端操作系统以及终端安装的应 用程序中的至少一种;所述社会属性标签包括行业、职业、工作地点、居住地点、银行卡、会员卡以及交通工具中的至少一种;所述上网行为属性标签包括浏览、搜索、下载、购买以及评论中的至少一种;所述行为习惯属性标签包括日均上网时间、常登录网站以及常用应用程序中的至少一种;所述兴趣特征属性标签包括体育、音乐、社交、资讯、购物、休闲、旅游、游戏以及投资理财中的至少一种。

其中,所述数据应用模块还用于在所述已建立的多维特征库中找不到与所述用户的属性特征匹配的多维度属性标签时,将所述用户的属性特征以及对应的多维度属性标签添加到所述多维特征库中。

其中,所述数据采集模块用于实时采集所述用户互联网上网日志数据,以对所述用户的多维度属性标签进行更新。

其中,所述互联网上网日志数据为移动互联网上网日志数据。

本发明的有益效果是:区别于现有技术的情况,本发明提供的构建用户画像的系统,该构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:数据采集模块用于采集用户互联网上网日志数据,数据预处理模块用于对用户互联网上网日志数据进行预处理,数据分析模块用于对预处理后的互联网上网日志数据进行特征提取,得到用户的属性特征,数据应用模块用于基于已建立的多维特征库训练的标签分类,根据用户的属性特征在多维特征库中进行匹配,得到用户的多维度属性标签,数据业务模块用于根据所述多维度属性标签构建所述用户画像。通过本发明提供的系统,能够对用户的上网数据进行全面、准确的分析从而确定用户的多维度属性标签,从而根据多维度属性标签构建用户画像,能够构建出全息的多维度用户画像,从而能够满足运营商/企业/公司快速精准广告投放和用户群体的消费行为的推荐。

附图说明

图1是本发明实施例提供的一种构建用户画像的系统的结构示意图;

图2是本发明实施例提供的构建用户画像的系统中数据分析模块的 其中一种结构示意图;

图3是本发明实施例中提供的构建用户画像的系统中数据分析模块的另一种结构示意图。

具体实施方式

请参阅图1,图1是本发明实施例提供的一种构建用户画像的系统的结构示意图,如图所示,本发明实施例的构建用户画像的系统100包括数据采集模块11、数据预处理模块12、数据分析模块13、数据应用模块14以及数据业务模块15,其中:

数据采集模块11用于采集用户互联网上网日志数据。

构建用户画像的系统通过与外围系统对接,通过数据采集模块11采集原始数据或通过从运营商对接的分光设备,实时采集用户互联网上网日志数据。其中,用户互联网上网日志数据包括但不限于是移动互联网上网日志数据、有线无线互联网上网日志数据等等。

数据预处理模块12用于对用户互联网上网日志数据进行预处理。

由于获取的上网日志数据类型种类比较多,网络通信协议种类也比较丰富,噪音垃圾信息较多。因此,需要对日志数据进行数据预处理(清洗、整合),形成规范的日志格式化,即将上网日志数据按照统一规范形成日志分析需要的基本信息。

数据预处理模块12对获取的用户互联网上网日志数据进行预处理,以使得用户互联网上网日志数据按照统一规范进行格式化。因为互联网的信息满足4A(Anyone,Anytime,Anywhere,Anything)特性,这些非结构化的信息可以被统一标识为何时(When),何地(Where),与谁(Who)和关于什么(What)被分享给谁(Who)。因此,数据预处理模块12可以设计一种隐式数据的表述格式为:Who,When,Where and What to Whom。互联网上网日志数据都可以被表达为这样的格式,从而达到了使得预处理后的互联网上网日志数据都能统一格式。

数据分析模块13用于对预处理后的互联网上网日志数据进行分析处理,得到用户的属性特征。

通过特征提取,可以得到用户的属性特征。用户的属性特征是指能够标识用户特征的关键信息。比如对上网(或呼叫详细记录CDR话单日志)中可解析的文本内容进行分析,主要对文本内容中的人名、地名、机构名等进行识别,实现用户基本信息的提取。

其中,本发明实施例中,数据分析模块13可以通过在线(即实时)和离线相结合的方式对预处理后的互联网上网日志数据进行特征提取,从而得到用户的属性特征。在线处理方式只能对当前的互联网上网日志数据进行处理,而离线处理方式可以结合历史存储数据进行分析处理,从而可以对在线处理方式没有提取的用户属性特征进行补充和完善。通过在线和离线处理方式对互联网上网日志数据进行处理,从而可以将当前数据与历史数据进行关联挖掘分析,使得提取的用户属性更加全面完整。

其中,请进一步参阅图2,图2是本发明实施例提供的构建用户画像的系统中数据分析模块的其中一种结构示意图,如图所示,数据分析模块可以包括加载单元131以及离线分析单元132,其中:

加载单元131用于将预处理后的互联网上网日志数据加载到数据存储平台中。

加载单元131通过加载使得预处理后的互联网上网日志数据进入离线日志分析平台。其中,日志数据通过加载入库到数据存储平台中,数据存储平台支持结构化和非结构化的存储方式,提供关系型数据库、NoSQL数据库和检索库。

离线分析单元132用于结合离线存储的历史数据,基于Hadoop开源映射/化简计算框架,对预处理后的所述互联网上网日志数据进行分析处理,得到用户的属性特征。

通过结合离线存储的历史数据,基于Hadoop开源映射/化简(Map/Reduce)完成日志数据的历史关联分析,得到用户属性特征。

通过离线分析单元离线处理的用户的互联网上网日志数据事实上是用户不断变化的行为数据,如浏览的网站、常去活动区域、常用的应用程序(Application,APP)和消费习惯等,基于用户上网行为和习惯 进行分析,从而可以获取用户喜好、行为特征的最重要的途径。由于此部分信息的分析随时间的变化,属性特征有演化的趋势。在该离线处理中,主要是从历史用户的互联网上网日志数据中提取出用户属性特征,这里的用户属性特征是指从上网日志数据中提取出能够标识用户属性特征的关键信息。比如浏览网站所属类型、常用APP所属类型或者常去活动区域所属地区等等。

请进一步参阅图3,图3是本发明实施例中提供的构建用户画像的系统中数据分析模块的另一种结构示意图,如图所示,数据分析模块可以包括分布单元133以及在线分析单元134,其中:

分布单元133用于将预处理后的互联网上网日志数据均匀分布到卡夫卡集群。

卡夫卡(Kafka)是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。其主要具有以下特性:1)通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能;2)高吞吐量:即使是非常普通的硬件环境搭建kafka集群也可以支持每秒数十万的消息;3)支持通过kafka服务器和消费机集群来分区消息;4)支持Hadoop并行数据加载。

分布单元133将预处理后的互联网上网日志数据,按照一定的规则进行分区,使得日志数据能够均匀地分布在Kafka集群的各台机器上。通过将日志数据加载到Kafka,目的是让日志数据以一定时序或者大小形成分布式的消息队列。

在线分析单元用于通过Spark核心流计算平台实时从卡夫卡集群拉取数据并进行实时流计算分析处理,得到用户的属性特征。

本发明中,通过Spark下的Sparking Streaming进行实时流计算,Spark Streaming属于Spark的核心应用程序编程接口(Application Programming Interface,api),是一种流式计算框架,它支持高吞吐量、支持容错的实时流数据处理。

日志数据实时均匀分布到Kafka集群后,通过Sparking Streaming 实时从Kafka拉取数据并进行实时流计算处理解析,对格式化的日志数据字段进行分析得到用户的属性特征。

数据应用模块14用于基于已建立的多维特征库训练的标签分类,根据用户的属性特征在多维特征库中进行匹配,得到用户的多维度属性标签。

数据应用模块14主要是基于数据分析模块的分析结果(用户上网行为规律统计、APP使用规律、用户上网内容特征词提取、手机终端信息)进行整合,形成多维的画像分析特征的多维特征库库,并根据当前提取的用户属性特征在多维特征库中进行匹配,确定用户的多维度属性标签。

在本发明中,多维特征库是指多个不同特征库组合在一起的统称。其中,特征库是经过对大数据分析统计,并不断训练而得到的特征与不同标签分类对应的特征库。比如对所有用户的互联网上网日志数据进行分析统计,确定所访问网址中含预定字段的为旅游网站,将所有含该预定字段的网站归并到一起作为特征,而旅游则作为该特征对应的标签。在后续进行匹配时,只要用户访问的网站属于包含该预定字段的网站,即通过特征库的匹配就可以得到用户的其中一个多维度属性标签为旅游。

其中,本发明实施例中的多维特征库包括但不限于是运营商基础信息库、终端类型基础库、应用程序分类库、统一资源定位符(Uniform Resoure Locator,URL)分类库、访问网站及行为规律统计特征库、上网内容聚类结果库、用户群体分类库、命名实体识别内容提取库、动态标签分类管理库、互联网网站特征库、历史用户兴趣关注点以及终端移动轨迹变化库等。

其中,本发明实施例中,用户的多维度属性标签是构建用户画像的主要要素。本发明中的多维度属性标签是指从多个维度反映用户特征的属性标签。其中,本发明实施例中多维度属性标签包括但不限于是用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签等。

更进一步地,用户的基本属性标签包括但不限于是用户名、用户标识、性别、民族、国籍、年龄区间段、学历、职业、收入水平、用户终端、国际用户识别码、国际移动终端标识码、所属运营商、网络类型、归属地、漫游地、位置、终端品牌类型、终端型号、终端操作系统以及终端安装的应用程序中的一种或者多种。而社会属性标签包括但不限于是行业、职业、工作地点、居住地点、银行卡、会员卡以及交通工具中的一种或多种。上网行为属性标签包括但不限于是浏览、搜索、下载、购买以及评论等,而行为习惯属性标签包括但不限于是日均上网时间、常登录网站以及常用应用程序等。兴趣特征属性标签包括但不限于是体育、音乐、社交、资讯、购物、休闲、旅游、游戏以及投资理财等。

其中,用户的基本属性标签是通常体现的是用户静态属性,是相对稳定的信息,例如性别、年龄等。而社会属性、上网行为属性、行为习惯属性、兴趣特征属性所体现的是用户的动态属性,是随时间不断变化的属性。而正是这些不断变化的动态属性才可以真正体现用户群体差异化特征。

在具体实现时,可以通过以下方式综合分析确定用户的动态属性:

1)通过统计用户的日均上网时间、用户常去登录上网的网站(类型)、用户常用应用程序APP以及使用常用的APP的时间,从而对用户的行为习惯特征属性进行分析。

2)从用户内容偏好/碎片化上网时间偏好/用户业务偏好等方面来综合分析用户的兴趣特征属性。比如根据用户上网的不同行为动作行为(例如,浏览、搜索、下载、购买和评论等)、或者用户使用的APP类型(例如,包含各种APP应用、常去访问的网站类型等)、或者用户上网产生的内容数据:购买商品类型、浏览网页内容、搜索内容、下载内容的类型等进行综合分析得到用户的兴趣特征属性。就比如一个用户的上网日志数据中,其搜索、浏览的大都是购物网站或者使用的应用程序大多是购物类应用,可以确定购物为该用户的一个兴趣特征属性,又或者一个用户搜索、浏览以及评论的大多是旅游网站或者最常使用的应用程序为旅游类应用,那么可以确定旅游为该用户的一个兴趣特征属性, 以此类推。

以下以用户属性相关的标签确定作为举例进行说明:

基于多维特征库训练的标签分类,建立用户偏好的动态标签管理。具体可以通过如下方面来进行综合考虑,根据不同因子所占权重分配,制定统一的动态属性相关的标签分类标准:

比如基于URL分类库:分析用户上网行为日志,提取内容与URL分类库进行匹配,输出用户访问网页的类型,同时通过统计用户访问内容的、访问时间和频率等信息,以刻画出用户偏好,确定兴趣特征属性标签。

又比如基于应用程序分类库:分析用户上网行为日志,提取APP类型与应用程序分类库进行匹配,输出用户使用APP类型,同时通过统计APP用户使用时长、使用频率等信息,对用户兴趣进行归并考虑。

又比如基于历史用户兴趣关注点库:分析用户上网行为日志,对其中的动作行为(浏览/下载/搜索/评论等)进行提取并统计,结合历史用户兴趣关注点库,实现对用户关注内容的聚类,以刻画出用户的上网行为属性标签。

而基于用户群体分类库:分析用户上网行为日志,根据用户的业务需求、或者业务属性、或者用户特征,与用户群体分类库进行匹配,确定用户基本属性标签。

基于终端移动轨迹变化库:分析用户上网行为日志,对用户的互联网上网日志数据中导航地图类应用程序进行分析,得到用户移动变化的经纬度位置信息,将经纬度信息与地理信息系统展示结合,得到用户的移动轨迹,同时对用户位置停留时间进行统计,从而得到每个用户常去地区,与终端移动轨迹变化库进行匹配,分析用户常去地区活跃度信息,确定用户的社会属性标签。

数据业务模块15用于根据所述多维度属性标签构建所述用户画像。

标签通常是人为规定的高度精炼的特征标识,如年龄段标签:25~35岁,地域标签:北京,标签呈现出两个重要特征:1、语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够 较好的满足业务需求。如,判断用户偏好。2、短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。所以从这个意义上理解,用户画像即是用户标签的总和。

通过以上多个多维特征库匹配得到的多维度标签,数据业务模块15将用户的所有多维度标签进行关联融合,为用户打上多维度标签,或者对已经打上的多维度标签进行更新和补充,以完成用户画像的构建。

在实际应用过程中,数据采集模块11采集用户互联网上网日志数据是实时的,从而通过实时获取的用户上网日志数据,进行分析处理得到最新的用户多维度标签,以对用户画像上已有多维度标签进行更新或补充,从而刻画出最新的含有时空特性的全息多维用户画像。

另外,数据应用模块14还用于在已建立的多维特征库中找不到与用户的属性特殊匹配的多维度属性标签时,将用户的属性特征以及对应的多维度属性标签添加到多维度特征库中。通过这样的方式,以不断更新和完善多维特征库。

其中,在本发明实施例中,多维特征库是实现本发明方法的基础和关键,因此,本发明实施例的系统,通过数据分析模块13构建多维特征库,数据分析模块13通过以下方式构建多维特征库。

通过外围系统或呼叫详细记录话单日志数据的接入,对国际用户识别码、所属运营商、网络类型、归属地、漫游地、位置中的一种或多种基础信息进行提取分析,累积得到运营商基础信息库。运营商基础信息库包括运营商标识以及对应的运营商信息特征。或

或通过获取所有用户互联网上网日志数据,对所有用户互联网上网日志数据中的移动终端国际身份码、终端型号、品牌类型、终端操作系统中的至少一种相关信息进行提取分析,累积得到终端类型基础库。由于目前移动互联网中应用种类较多,各个协议的运行中对用户代理(User-Agent)字段填写的不规范,因此在实际提取过程中,需要对有分歧的特征字段信息进行统一和校验(例如,终端型号部分填的是iphone,而也有填的是IOS;有些只是填的GT900,需要从外网收集收 集型号和品牌的对应的标记信息)。

或通过获取所有用户互联网上网日志数据,过滤掉无效URL,针对有效的URL建立有效URL所属网站的分类库。针对用户的上网日志数据,过滤掉广告、功能页面、导航页面、错误页面等无效URL后,对剩余的有效URL所属网站的URL分类库。

或通过获取所有用户的互联网上网日志数据,从所有用户的互联网上网日志数据中提取APP类型,通过人工和自动相结合的方式定期对APP类型进行分类、统计,以形成应用程序分类库。由于APP应用种类比较丰富,功能比较突出,用户使用和依赖性较强,因此利用已识别的APP应用库,参照APP Store下载和安卓市场的第三方下载的APP分类建议,通过人工和自动相结合的方式定期对APP应用统一分类,以形成APP分类库。

或通过获取所有用户的互联网上网日志数据,针对每个用户的上网情况,对用户的常去访问网站以及行为进行累积统计,形成访问网站和行为规律统计特征库。

或通过获取所有用户的互联网上网日志数据,针对每个用户的上网产生的日志情况,对每个用户常在日志中产生的用户内容形成基于用户内容的特征聚类,产生上网内容聚类结果库。针对每个用户的上网产生的日志情况,对该用户常在日志中产生的用户内容(浏览新闻或帖子,发表或评论内容,购买内容等),形成基于用户内容的特征聚类,产生用户上网内容聚类结果特征库。

或通过获取所有用户的互联网上网日志数据,对具有相同特征标签或相同属性或相同业务特征的用户进行特征合并,对用户群体进行分类,因此形成用户群体分类库。可以根据实际的业务需求定义聚类指标参数,对累积的所有用户进行细分分群并归并从而得到用户群体分类库。

或通过结合离线存储所有用户的互联网上网日志数据,对所有用户的上网行为进行分析,对产生的行为进行统计,进而对用户关注内容进行聚类分析以形成历史用户兴趣关注点库。结合历史上网行为分析,对 产生的动作行为(浏览/下载/搜索/评论等)进行统计,进而对用户关注内容利用传统聚类分析实现历史用户兴趣关注点库的建立。

或通过对所有用户的互联网上网日志数据中导航地图类应用程序进行分析,得到用户移动变化的经纬度位置信息,将经纬度信息与地理信息系统(Geographic Information System,GIS)展示结合,得到用户的移动轨迹,同时对用户位置停留时间进行统计,从而得到每个用户常去地区,对所有用户常去地区进行汇总从而形成终端移动轨迹变化库。通过对上网日志中导航地图类APP分析,可以得到手机用户移动变化的经纬度位置信息。因此,一方面,将此信息和GIS展示结合,可以将手机用户的移动轨迹完整实时呈现;另一方面,可以在不同时间段对手机用户位置停留时间进行统计,根据统计时长可以对手机用户常去活动地进行活跃度分析,即可得到手机用户的常去地区分布,以形成终端移动轨迹变化库。

或根据所有用户的互联网上网日志数据,通过主流的命名实体识别算法及训练样本集,对上网内容中具有特定意义的实体进行提取,建立命名实体识别内容提取库。通过对所有用户的互联网主流的命名实体识别算法及训练样本集,对上网内容中具有特定意义的实体,比如主要包括人名、地名、机构名、专有名词等进行提取,建立针对特定手机用户的属性特征库,以丰富多维属性标签。

或预先根据互联网网站的分类标准,根据所有用户的互联网上网日志,对所有用户的互联网上网日志中的互联网网站进行特征收集,构建互联网网站特征库。即是预先根据互联网网站的分类标准,对用户的日志数据中互联网的网站进行特征收集(网站对应的URL,名称,建立时间,所属网站分类等),构建对应的网站特征库。

或基于每个特征库训练的标签分类,将所有特征库训练的标签分类进行汇总归并,建立用户偏好的所述动态标签分类管理库。其中,在具体应用过程中,可以综合从多方面考虑,并根据每个特征库训练的标签分类所占的权重,制定统一的标签分类标准,结合预先定义的体育/音乐/社交/资讯/购物/休闲/旅游/游戏/投资(理财)等进行各类别累积特征实 现。

以上本发明实施例的构建用户画像的系统,可以用于构建手机用户画像,也可以是用于构建其他终端用户画像。其中,比如当本发明实施例的构建用户画像的系统用于构建手机用户画像时,结合手机终端基本信息库和手机用户基本信息库,通过手机号将手机用户所有属性标签字段关联起来,从而构建一个完整的含时空特性的全景用户画像,使得每个手机用户都有完整的用户画像信息。当然,如果是用于其他终端用户构建画像时,也可以通过其他标识比如终端设备ID、用户ID等关联用户的属性标签,从而将用户的所有属性标签关联起来以构成用户画像。

以上是本发明实施例提供的构建用户画像的系统的详细说明,可以理解,本发明提供的构建用户画像的系统,该构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:数据采集模块用于采集用户互联网上网日志数据,数据预处理模块用于对用户互联网上网日志数据进行预处理,数据分析模块用于对预处理后的互联网上网日志数据进行特征提取,得到用户的属性特征,数据应用模块用于基于已建立的多维特征库训练的标签分类,根据用户的属性特征在多维特征库中进行匹配,得到用户的多维度属性标签,数据业务模块用于根据所述多维度属性标签构建所述用户画像。通过这样的方式,基于大数据分析平台,对移动互联网海量上网日志数据进行挖掘分析,通过对用户上网的行为特征进行累积,对用户兴趣偏好标签标定,进而对用户画像进行全景刻画,以克服现有基于用户上网行为分析不全面、不准确等问题。本发明的构建用户画像的系统能够构建出全息的多维度用户画像,从而为运营商/企业/公司快速精准广告投放和用户群体的消费行为的推荐,累积用户兴趣偏好特征,掌握移动互联网发展态势提供技术手段支撑。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者 可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1