一种构建用户画像的系统的制作方法

文档序号:12127292阅读:来源:国知局

技术特征:

1.一种构建用户画像的系统,其特征在于,所述构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:

所述数据采集模块用于采集所述用户互联网上网日志数据;

所述数据预处理模块用于对所述用户互联网上网日志数据进行预处理;

所述数据分析模块用于对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;

所述数据应用模块用于基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;

所述数据业务模块用于根据所述多维度属性标签构建所述用户画像。

2.根据权利要求1所述的系统,其特征在于,所述数据分析模块用于分别通过离线和在线方式对预处理后的所述互联网上网日志数据进行分析处理,得到所述用户的属性特征。

3.根据权利要求1所述的系统,其特征在于,所述数据分析模块包括加载单元以及离线分析单元,其中:

所述加载单元用于将预处理后的所述互联网上网日志数据加载到数据存储平台中;

所述离线分析单元用于结合数据存储平台中存储的历史数据,基于Hadoop开源映射/化简计算框架,对所述预处理后的所述互联网上网日志数据进行离线分析处理,得到所述用户的属性特征。

4.根据权利要求1所述的系统,其特征在于,所述数据分析模块包括分布单元以及在线分析单元,其中:

所述分布单元用于将预处理后的所述互联网上网日志数据均匀分布到卡夫卡集群;

所述在线分析单元用于通过Spark核心流计算平台实时从所述卡夫卡集群拉取数据并进行实时流计算分析处理,得到所述用户的属性特征。

5.根据权利要求1所述的系统,其特征在于,所述已建立的多维特征库包括运营商基础信息库、终端类型基础库、应用程序分类库、统一资源定位符URL分类库、访问网站及行为规律统计特征库、上网内容聚类结果库、用户群体分类库、命名实体识别内容提取库、动态标签分类管理库、互联网网站特征库、历史用户兴趣关注点库以及终端移动轨迹变化库中的至少一种。

6.根据权利要求5所述的系统,其特征在于,所述数据分析模块还用于构建所述多维特征库,其中,所述数据分析模块通过以下方式构建所述多维特征库:

通过外围系统或呼叫详细记录话单日志数据的接入,对所有用户的国际用户识别码、所属运营商、网络类型、归属地、漫游地、位置中的至少一种基础信息进行提取分析,累积得到所述运营商基础信息库;或

通过获取所有用户互联网上网日志数据,对所述所有用户互联网上网日志数据中的移动终端国际身份码、终端型号、品牌类型、终端操作系统中的至少一种相关信息进行提取分析,累积得到所述终端类型基础库;或

通过获取所有用户互联网上网日志数据,过滤掉无效URL,针对有效的URL建立所述有效URL所属网站的所述URL分类库;或

通过获取所有用户的互联网上网日志数据,从所述所有用户的互联网上网日志数据中提取应用程序类型,通过人工和自动相结合的方式定期对所述应用程序类型进行分类、统计,以形成所述应用程序分类库;或

通过获取所有用户的互联网上网日志数据,针对每个用户的上网情况,对用户的常去访问网站以及行为进行累积统计,形成所述访问网站 和行为规律统计特征库;或

通过获取所有用户的互联网上网日志数据,针对每个用户的上网产生的日志情况,对所述每个用户常在日志中产生的用户内容形成基于用户内容的特征聚类,产生所述上网内容聚类结果库;或

通过获取所有用户的互联网上网日志数据,对具有相同特征标签或相同属性或相同业务特征的用户进行特征合并,对用户群体进行分类,因此形成所述用户群体分类库;或

通过结合离线存储所有用户的互联网上网日志数据,对所有用户的上网行为进行分析,对产生的行为进行统计,进而对用户关注内容进行聚类分析以形成所述历史用户兴趣关注点库;或

通过对所有用户的互联网上网日志数据中导航地图类应用程序进行分析,得到用户移动变化的经纬度位置信息,将所述经纬度信息与地理信息系统展示结合,得到用户的移动轨迹,同时对用户位置停留时间进行统计,从而得到每个用户常去地区,对所有用户常去地区进行汇总从而形成所述终端移动轨迹变化库;或

根据所有用户的互联网上网日志数据,通过主流的命名实体识别算法及训练样本集,对上网内容中具有特定意义的实体进行提取,建立所述命名实体识别内容提取库;或

预先根据互联网网站的分类标准,根据所有用户的互联网上网日志,对所述所有用户的互联网上网日志中的互联网网站进行特征收集,构建所述互联网网站特征库;或

基于每个特征库训练的标签分类,将所有特征库训练的标签分类进行汇总归并,建立用户偏好的所述动态标签分类管理库。

7.根据权利要求1所述的系统,其特征在于,所述用户的基本属性标签包括用户名、用户标识、性别、民族、国籍、年龄区间段、学历、职业、收入水平、用户终端、国际用户识别码、国际移动终端标识码、所属运营商、网络类型、归属地、漫游地、位置、终端品牌类型、终端型号、终端操作系统以及终端安装的应用程序中的至少一种;所述社会属性标签包括行业、职业、工作地点、居住地点、银行卡、会员卡以及 交通工具中的至少一种;所述上网行为属性标签包括浏览、搜索、下载、购买以及评论中的至少一种;所述行为习惯属性标签包括日均上网时间、常登录网站以及常用应用程序中的至少一种;所述兴趣特征属性标签包括体育、音乐、社交、资讯、购物、休闲、旅游、游戏以及投资理财中的至少一种。

8.根据权利要求1所述的系统,其特征在于,所述数据应用模块还用于在所述已建立的多维特征库中找不到与所述用户的属性特征匹配的多维度属性标签时,将所述用户的属性特征以及对应的多维度属性标签添加到所述多维特征库中。

9.根据权利要求1所述的系统,其特征在于,所述数据采集模块用于实时采集所述用户互联网上网日志数据,以对所述用户的多维度属性标签进行更新。

10.根据权利要求1-9任一项所述的系统,其特征在于,所述互联网上网日志数据为移动互联网上网日志数据。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1