基于用户标签的用户属性挖掘方法和系统的制作方法

文档序号:6536314阅读:241来源:国知局
基于用户标签的用户属性挖掘方法和系统的制作方法
【专利摘要】本发明涉及数据挖掘的【技术领域】,提出了一种基于用户标签的用户属性挖掘方法和系统。该方法中首先建立起多维度的用户标签库;每天载入互联网用户的访问日志,根据用户标签库配置加载各维度的标签;形成一个用户标签对应表,整理成统一格式的互联网用户行为标签库。有了这个行为标签库后,可以采用各种用户属性的挖掘模型和算法,生成用户属性的挖掘结果。挖掘结果的输出可以根据具体的需要输入各种属性,也可以分析一些兴趣偏好,购物偏好,心理倾向等信息。本发明不需要用户样本就可以分析挖掘用户基本属性,多维度标签库涵盖了各个行业,可以对用户的全方位画像提供支持用户属性具备可扩展性,对用户标识更为全面。
【专利说明】基于用户标签的用户属性挖掘方法和系统
【技术领域】
[0001]本发明涉及数据挖掘的【技术领域】,特别涉及一种基于用户的行为标签来分析挖掘用户属性的方法和系统。
【背景技术】
[0002]在网络统计分析中,识别用户属性是进行精准内容推荐/广告投放的重要前提。目前,在互联网中识别用户属性的现有技术方案都是基于样本用户的,需要首先收集用户样本,整理样本用户的数据,整理URL样本库,对URL进行分类整理,比如,某个URL代表“购物”,“时尚”,“服饰”等内容;然后再根据URL样本库和互联网用户的URL进行匹配,来识别用户属性,比如如果一个男性用户喜欢访问“军事”、“理财”内容的URL,那么所有访问“军事”,“理财”类URL的用户都是男性的概率较大。即,现有的技术方案基于样本数据,通过机器学习,再配以数据模型进行训练,进行互联网用户属性的判断。
[0003]但是现有技术存在以下缺陷:
[0004]用户标签方面,现有的技术方案在用户标签库的方案都没有完整提出标签的多维度,均是单从主要行业维度和购物等细分维度的分析,都是仅仅简单的对URL进行分类和标识,有的会加上一些权重处理,但不会从多个维度给URL打标签。
[0005]用户样本方面,现有的技术方案都要求有一个已知的用户样本,然后通过用户样本的行为偏好进行机器学习,分析未知用户的用户属性。
[0006]用户属性分析方面,现有的技术方案对用户属性的分析只能分析样本用户属性中的已知属性,对未知的属性无法识别和挖掘。

【发明内容】

[0007](一)本发明解决的技术问题:
[0008]本发明不需要样本用户的数据,直接通过用户的多维度标签来挖掘用户的属性,消除了对数据样本的依赖。并增加了数据维度。
[0009]本发明生成用户标签数据库既可以分析互联网用户的人口属性也可以分互联网用户兴趣属性集消费层次等。可以为用户提供一个完整的画像。
[0010]本发明中从用户标签到用户属性的分析过程,可以使用多种分析方法,即可以采用简单的数据统计的方法,也可以使用聚类,Svm等模型算法。而且由于用户标签是多维度的,所以对用户属性的分析可以很广,既包括人口属性,也包括兴趣偏好,购物层次甚至心理倾向等信息都可以通过用户标签分析。
[0011](二)技术方案
[0012]为实现上述目的,本发明提出了一种基于用户标签的用户属性挖掘方法和系统。首先建立起多维度的用户标签库;每天载入互联网用户的访问日志,根据用户标签库配置加载各维度的标签;形成一个用户标签对应表,整理成统一格式的互联网用户行为标签库。有了这个行为标签库后,可以采用各种用户属性的挖掘模型和算法,生成用户属性的挖掘结果。挖掘结果的输出可以根据具体的需要输入各种属性,比如性别、年龄、收入、家庭状况、婚姻状况、学历,职业等。也可以分析一些兴趣偏好,购物偏好,心理倾向等信息。最后还要对挖掘的用户的属性进行存储和展示,为下一环节的调用提供服务。
[0013]本发明通过建立多维度用户标签库,从多个方面描述用户的行为,再通过用户行为标签分析用户的属性,可以采取聚类,svm等模型算法进行分析挖掘,使得用户属性的挖掘更加准确完善。
[0014]具体地,一方面,本发明提供一种基于用户标签的用户属性挖掘方法,其特征在于,所述方法包括步骤:用户标签库建立阶段和用户属性分析挖掘阶段,
[0015](I)用户标签库建立阶段,建立多维度的用户标签库,基于该用户标签库,结合互联网的用户访问日志,形成用户行为标签库;
[0016](2)用户属性分析挖掘阶段,根据行为标签库采用用户属性的挖掘模型,生成用户属性的挖掘结果;
[0017]步骤(I)和步骤(2)可重复进行。
[0018]优选地,步骤(I)中建立多维度用户标签库具体为:通过程序采集、人工整理的方式生成多维度的用户标签库。
[0019]优选地,步骤(I)中形成用户行为标签库具体为:加载标签库后,形成一个用户〈_>标签的对应表,一个用户可生成多个维度的标签,每个维度内包含细分的标签,形成用户标签对应表后,根据需要整理成统一格式的互联网用户行为标签库。
[0020]优选地,步骤(I)每天定时启动或由特定事件触发启动。
[0021]优选地,方法进一步包括存储并输出挖掘结果、根据具体的需要输出各种用户属性、分析兴趣偏好,购物偏好,心理倾向。
[0022]另一方面,本发明提供一种基于用户标签的用户属性挖掘系统,其特征在于,所述系统包括模块:用户标签库建立模块和用户属性分析挖掘模块,
[0023](I)用户标签库建立模块,建立多维度的用户标签库,基于该用户标签库,结合互联网的用户访问日志,形成用户行为标签库;
[0024](2)用户属性分析挖掘模块,根据行为标签库采用用户属性的挖掘模型,生成用户属性的挖掘结果;
[0025]用户标签库建立模块和用户属性分析挖掘模块可重复执行。
[0026]优选地,用户标签库建立模块中建立多维度用户标签库具体为:通过程序采集、人工整理的方式生成多维度的用户标签库。
[0027]优选地,用户标签库建立模块中形成用户行为标签库具体为:加载标签库后,形成一个用户〈_>标签的对应表,一个用户可生成多个维度的标签,每个维度内包含细分的标签,形成用户标签对应表后,根据需要整理成统一格式的互联网用户行为标签库。
[0028]优选地,用户标签库建立模块每天定时启动或由特定事件触发启动。
[0029]优选地,系统进一步包括结果显示模块,用于存储并输出挖掘结果、根据具体的需要输出各种用户属性、分析兴趣偏好,购物偏好,心理倾向。
[0030](三)技术效果
[0031]本发明不需要用户样本就可以分析挖掘用户基本属性,识别用户属性的应用范围大大扩大,可以分析整个互联网用户的基本属性。[0032]本发明的多维度标签库涵盖了各个行业,可以很有针对性的分析用户的属性,也可以分析用户的偏好,能对用户的全方位画像提供支持。
[0033]本发明输出的用户属性具备可扩展性,不依赖任何样本,既可以分析人口属性,也可以分析情感心理属性,对用户标识更为全面。
【专利附图】

【附图说明】
[0034]图1是本发明中基于用户标签的用户属性挖掘方法流程示意图;
[0035]图2是本发明中本发明中基于用户标签的用户属性挖掘的方法的数据处理流程图;
[0036]图3是本发明中基于用户标签的用户属性挖掘系统结构示意图。
【具体实施方式】
[0037]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038]本发明是一种基于用户标签的用户属性挖掘方法和系统。通过用户网络行为建模,为用户打上各个维度的行为标签,然后再在行为标签的基础上挖掘用户属性的方法,多维度的标签基于网络访问信息行程的专家库,可以从多个维度分析挖掘用户属性,和以往的基于已知样本的用户挖掘相比,具有准确,高效的优点,并克服了样本数量不足的缺陷。
[0039]图1是本发明中基于用户标签的用户属性挖掘的方法流程示意图。在本发明公开的方法分为两个阶段:用户标签库建立阶段和用户属性分析挖掘阶段。用户标签库建立阶段是用户属性分析挖掘阶段的基础,但两者并不具有绝对的先后顺序,可以同步进行,可以先后进行,也可以交叉顺序进行,在用户属性分析挖掘阶段之后,还可以进一步完善用户标签库,随着用户标签库的不断完善,对用户属性进行挖掘分析的也越全面准确。为了丰富完善用户标签库,可以每天定时或由特定事件触发启动执行用户标签库的建立阶段。
[0040]图2是本发明中基于用户标签的用户属性挖掘的方法的数据处理流程图。
[0041]首先是用户标签库建立阶段,该阶段主要过程如下所述:
[0042]S1:生成多维度的用户标签库。首先通过程序采集、人工整理的方式生成多维度的用户标签库,用户标签包括兴趣标签、品类标签、行业标签、电商标签、移动终端标签等各个维度的用户标签。通过建立多维度用户标签库,从多个方面描述用户的行为。
[0043]S2:获取互联网用户的访问日志。为了提高标签的准确性,降低用户属性的误判率,载入访问日志后,对访问日志做基本地整理,如过滤和清洗。
[0044]S3:加载多维度标签库。根据配置加载各维度的用户标签库,用户标签库有多个,分别对应相应维度,包括但不限制于兴趣、品类、行业、购物标签库等。
[0045]S4:形成用户标签对应表。加载标签库后,形成一个用户〈_>标签的对应表。由于标签是多维度的,所以一个用户可能生成很多维度的标签,每个维度内也有很多细分的标签,比如购物标签包括购物网站标签、购物类别标签、购物转化标签、热销商品标签、消费层次标签等等。[0046]S5:形成用户行为标签库。形成用户标签对应表后,还要根据需要整理成统一格式的互联网用户行为标签库。
[0047]本发明中的标签库,仅列举了兴趣、品类、行业、购物等标签库,实际上标签库可以有很多个维度。比如上网习惯标签、终端标签、情感标签等。只要能从URL或者网络内容上能分析出来的标签都是可以作为一个维度加入到这个系统中的。其中行业标签是一个很大的类别,所有的行业都可以包括在其中,大到农林牧渔等各大产业,也可以是金融、信息、旅游等垂直行业,金融行业内也可以包括财经、投资、股票、期货等细分领域。标签可以分机呈现,每一个细分维度的标签都可以打在一个用户上,并可以查询到标签的所属关系。是一个多维立体的标签数据库。
[0048]用户标签库建立阶段后进入用户属性分析挖掘阶段。
[0049]通过用户标签库建立阶段建立起用户行为标签库后,可以采用各种用户属性的挖掘模型和算法,包括svm、贝叶斯、聚类等各种算法模型,最后生成用户属性的挖掘结果。挖掘结果的输出可以根据具体的需要输入各种属性,比如性别、年龄、收入、家庭状况、婚姻状况、学历,职业等。也可以分析一些兴趣偏好,购物偏好,心理倾向等信息。最后还要对挖掘的用户的属性进行存储和展示,为下一环节的调用提供服务。
[0050]图3是本发明中基于用户标签的用户属性挖掘系统结构示意图
[0051]基于用户标签的用户属性挖掘系统主要包括两大模块:用户标签库建立模块和用户属性分析挖掘模块,分别对应基于用户标签的用户属性挖掘方法的两大阶段。
[0052](I)用户标签库建立模块,建立多维度的用户标签库,基于该用户标签库,结合互联网的用户访问日志,形成用户行为标签库;
[0053](2)用户属性分析挖掘模块,根据行为标签库采用用户属性的挖掘模型,生成用户属性的挖掘结果;
[0054]用户标签库建立模块和用户属性分析挖掘模块可重复执行。
[0055]下面通过一个具体的实施例对本发明的方法作进一步的说明。
[0056]基于用户标签的用户属性挖掘在精准内容推荐用户选择媒体时做媒体用户洞察的应用。
[0057]如果一个内容推荐用户希望在互联网上将自己一项内容推荐给他人,他需要将该内容或该内容的摘要或链接显示在他人会浏览的网站/媒体资源中。那么首选要做的就是该网站/媒体的用户洞察,内容推荐用户需要知道选择的网站/媒体的用户属性是否和内容推荐的目标网站/媒体相匹配。匹配程度越大,推荐被接收的效果就越好。而作为一个网站/媒体,一般情况下网站/媒体本身并不清楚自己的用户到底有多少是男性、多少是女性,多少用户是年轻人,多少用户是老人。很多的网站/媒体的访问并不需要提前注册,这样就无法获得样本。那么传统的基于用户样本的用户属性分析的方法就不适用了。
[0058]采用本发明的基于用户标签的用户属性挖掘的方法,不需要实现提供用户样本。
[0059]具体来说,比如一个内容推荐用户推荐一项内容,这项内容只适合年轻的中低收入的女性用户。这时如果这个内容推荐用户在一个奢侈品网站中进行内容推荐,那么从表面上看,该内容推荐被接受的可能性会比较低。但是如果浏览这个奢侈品网站的用户中大多数为年轻的中低收入的女性时,该内容推荐被接受的可能性又会大大增高。此时,就需要对该网站的用户属性作详细的统计分析。[0060]首先,获取该奢侈品网站上的用户访问日志,应用多维标签库,根据访问日志的记载,形成用户〈_>标签对应表,整理对应表,形成用户的行为标签库。
[0061]然后使用svm方法基于行为标签库对这个奢侈品网站的用户的性别、年龄、收入三个基本属性做分析挖掘。挖掘结果显示这个奢侈品网站的用户有70%都是中低收入人群,并且有75%是女性访问者。年龄比例上60%人在25-35这个年龄段。那么从数据分析的结果看这个网站的浏览人群大多数为中低收入的年轻女性用户,比较适合这款推荐的内容。
[0062]经过行业标签进一步分析,发现上这个网站的用户浏览商品的比例很大,而实际转化率几乎为O。这就可以解释为什么这个网站上都是中低收入的年轻女性偏多了。这种分析方法可以很好的帮助内容推荐用户找到价值高的网站/媒体。
[0063]虽然以上结合优选实施例对本发明进行了描述,但本领域的技术人员应该理解,本发明所述的方法和系统并不限于【具体实施方式】中所述的实施例,在不背离由所附权利要求书限定的本发明精神和范围的情况下,可对本发明作出各种修改、增加、以及替换。
【权利要求】
1.一种基于用户标签的用户属性挖掘方法,其特征在于,所述方法包括步骤:用户标签库建立阶段和用户属性分析挖掘阶段, (1)用户标签库建立阶段,建立多维度的用户标签库,基于该用户标签库,结合互联网的用户访问日志,形成用户行为标签库; (2)用户属性分析挖掘阶段,根据行为标签库采用用户属性的挖掘模型,生成用户属性的挖掘结果; 步骤(I)和步骤(2 )可重复进行。
2.如权利要求1所述的方法,其特征在于:步骤(I)中建立多维度用户标签库具体为:通过程序采集、人工整理的方式生成多维度的用户标签库。
3.如权利要求1所述的方法,其特征在于:步骤(I)中形成用户行为标签库具体为:力口载标签库后,形成一个用户〈_>标签的对应表,一个用户可生成多个维度的标签,每个维度内包含细分的标签,形成用户标签对应表后,根据需要整理成统一格式的互联网用户行为标签库。
4.如权利要求1所述的方法,其特征在于:步骤(I)每天定时启动或由特定事件触发启动。
5.如权利要求1所述的方法,其特征在于:方法进一步包括存储并输出挖掘结果、根据具体的需要输出各种用户属性、分析兴趣偏好,购物偏好,心理倾向。
6.一种基于用户标签的用户属性挖掘系统,其特征在于,所述系统包括模块:用户标签库建立模块和用户属性分析挖掘模块, (1)用户标签库建立模块,建立多维度的用户标签库,基于该用户标签库,结合互联网的用户访问日志,形成用户行为标签库; (2)用户属性分析挖掘模块,根据行为标签库采用用户属性的挖掘模型,生成用户属性的挖掘结果; 用户标签库建立模块和用户属性分析挖掘模块可重复执行。
7.如权利要求6所述的系统,其特征在于:用户标签库建立模块中建立多维度用户标签库具体为:通过程序采集、人工整理的方式生成多维度的用户标签库。
8.如权利要求6所述的系统,其特征在于:用户标签库建立模块中形成用户行为标签库具体为:加载标签库后,形成一个用户〈_>标签的对应表,一个用户可生成多个维度的标签,每个维度内包含细分的标签,形成用户标签对应表后,根据需要整理成统一格式的互联网用户行为标签库。
9.如权利要求6所述的系统,其特征在于:用户标签库建立模块每天定时启动或由特定事件触发启动。
10.如权利要求6所述的系统,其特征在于:系统进一步包括结果显示模块,用于存储并输出挖掘结果、根据具体的需要输出各种用户属性、分析兴趣偏好,购物偏好,心理倾向。
【文档编号】G06Q30/02GK103778555SQ201410025975
【公开日】2014年5月7日 申请日期:2014年1月21日 优先权日:2014年1月21日
【发明者】崔晶晶, 林佳婕, 刘立娜, 单晓龙 申请人:北京集奥聚合科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1