一种基于图像内容的用户兴趣细分方法及系统的制作方法

文档序号:9922112阅读:283来源:国知局
一种基于图像内容的用户兴趣细分方法及系统的制作方法
【技术领域】
[0001]本发明属于图像处理技术领域,特别是涉及一种基于图像内容的用户兴趣细分方法及系统。
【背景技术】
[0002]数据挖掘可以提供客户洞察力,这对建立有效的市场营销、销售以及个性化策略是至关重要的。它会导致客户之间的个性化交流,因此通过数据分析来提升满意度以及有益的客户关系。通过客户生活周期的各个阶段,即从获取和建立一种强大的关系到预防摩擦和赢回失去的客户,它可支持一种“个性化”且优化的客户管理。营销人员努力获得更大的市场份额以及更大比例的客户。简单来讲,他们负责获取、开发并维持顾客。
[0003]为了能够提供个性化的市场营销战略,用户细分的主要流程是根据用户的一些特征,把用户群划分为不同的群体。基于数据挖掘的方法可以创建数据驱动的行为细分。细分算法可以分析行为数据,确认不同群组的客户并且提出基于数据格式的方法。在手动或者传统用户细分中,客户们按行为和使用特点进行细分。尽管行为分类可以由业务规则创建,这项方法拥有很多基础性的缺点。它只能有效地处理少数分类领域,而且其客观性是受到质疑的,因为它是基于业务专家的个人感知。
[0004]提取照片的标签信息,不像文档中的信息以相对标准的词和句子传输,图像在另一方面可通过极具表现性的二维像素点传达信息。形象地说,一个图像堪比一千个文字。在大数据和大信息量的当代,文档相对而言更易识别、分类和检索。然而,尽管图像数量不断增长,因图像数据复杂的图像表现结构,仍不得不说破译图像信息依旧是人类的一大任务。
[0005]Latent Dirichlet Allocat1n(潜在主题抽取)或者LDA算法,是一种被应用在文本挖掘方面的机器学习方法,通常目的在于从一个文档集合中自动发现专题论题。简而言之,LDA模型从一大堆文档集合中抽取一个预先确定数量的主题,而且该训练模式可以被用来推断其后任何文档的主题。

【发明内容】

[0006]为了解决上述问题,本发明提出了一种基于图像内容的用户兴趣细分方法及系统,将用户贴上富有实际性的标签,并且用户不但可以继承多个标签,而且用户的兴趣会随着照片内容的更改而改变;不再将客户看成简单的数字,而是有不同偏好的个体,是提供个性化服务的基础。
[0007]为达到上述目的,本发明采用的技术方案是:
[0008]—种基于图像内容的用户兴趣细分方法,包括训练用户标签模型和预测细分用户群组;
[0009]所述训练用户标签模型,基于大量用户照片集的标签信息,利用LDA算法对用户的标签信息进行训练获得用户标签模型;
[0010]所述预测细分新用户群组,运用所述用户标签模型预测并且细分新用户的个性化群组。
[0011]进一步的是,所述训练用户标签模型包括步骤:
[0012](1.1)收集大量的用户和每个用户的用户照片集;
[0013](1.2)对所述用户照片集进行标签处理,获取用户照片集的标签信息;
[0014](1.3)将所述用户的标签信息转换成文本模式,形成文本文档;
[0015](1.4)利用LDA算法训练所述文本文档,形成用户标签模型。
[0016]进一步的是,所述步骤(1.3)中,用户的标签信息将记录入文本文档,而他们的去向通过他们的POI信息反应出来,形成文本文档的内容。
[0017]进一步的是,利用用户经常入出的场所信息预测用户特征或行为习惯作为标签信息。
[0018]进一步的是,所述步骤(1.4)中,利用LDA算法进行模型训练生成预定数量的主要兴趣话题。
[0019]进一步的是,所述用户标签模型中所有标签信息的主要兴趣话题将划分为N个相关主题性的话题。
[0020]进一步的是,所述步骤(1.4)包括步骤:
[0021](1.4.1)构建用户属性字典:结合所有训练用户文本文档形成字典,而且所述字典记录每一个标签出现的次数;移除文本文档中标签属性发生数少于5次的标签信息,因为出现频率太低的标签属性对降低模型的准确度;移除在文本文档中出现超过90%的标签信息,因为出现频率太高的标签属性会降低模型的准确度;在剩下的标签信息中,保留最前列的200个标签信息,200个标签信息是足够能满足用户偏好的维度,太多的标签信息会影响计算速度;
[0022](1.4.2)用户标签模型:基于用户属性字典,创建代表整个训练数据集的词袋;利用所述词袋,把所有训练用户的标签信息从文本格式转换成BOW数据;利用BOW数据和相关参数训练用户标签模型。
[0023]进一步的是,预测细分新用户群组包括步骤:
[0024](2.1)收集新用户照片集;
[0025](2.2)对所述新用户照片集进行标签处理,获取新用户照片集的标签信息;
[0026](2.3)将所述新用户的标签信息转换成文本模式,形成新用户的文本文档;
[0027](2.4)把新用户的文本文档填充到已经训练好的用户标签模型中;
[0028](2.5)所述用户标签模型输出新用户的各个主题可能性并与所有可能主题相对立,从而预测并且细分出新用户的个性化群组。
[0029]进一步的是,所述预测细分新用户群组,包括步骤:基于所述字典,构建新用户标签信息的BOW数据;将新用户的BOW数据填入所述用户标签模型;用户标签模型将输出新用户可能性主题,从而预测并且细分出新用户的个性化群组。
[0030]另一方面,本发明还提供了一种基于图像内容的用户兴趣细分系统,包括训练用户标签模型模块和预测细分用户群组模块,所述训练用户标签模型模块和预测细分用户群组模块设置在服务器中,所述训练用户标签模型模块连接所述预测细分用户群组模块,所述预测细分用户群组模块与客户端相互通信;
[0031]所述训练用户标签模型模块,基于大量用户照片集的标签信息,利用LDA算法对用户的标签信息进行训练获得用户标签模型;
[0032]所述预测细分新用户群组模块,运用所述用户标签模型预测并且细分新用户的个性化群组。
[0033]采用本技术方案的有益效果:通过建立在偏好属性的基础上对用户细分为个性化的群组;利用LDA算法,群组主题上类似的数据一起构成用户的个性化的群组;利用LDA算法能够预测或者细分新的或者未预见的用户为各种主题;将用户贴上富有实际性的标签,并且用户不但可以继承多个标签,而且用户的兴趣会随着照片内容的更改而改变;不再将客户看成简单的数字,而是有不同偏好的个体,是提供个性化服务的基础。
【附图说明】
[0034]图1为本发明的一种基于图像内容的用户兴趣细分方法流程示意图;
[0035]图2为本发明实施例中训练用户标签模型方法流程图;
[0036]图3为本发明实施例中训练用户标签模型方法流程示意图;
[0037]图4为本发明实施例中BOW数据转换示意图;
[0038]图5为本发明实施例中预测细分新用户群组方法的流程图;
[0039]图6为本发明实施例中新用户文本文档的示意图;
[0040]图7为本发明实施例中一种基于图像内容的用户兴趣细分系统的结构示意图。
【具体实施方式】
[0041]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
[0042]在实施例一中,参见图1所示,本发明提出了一种基于图像内容的用户兴趣细分方法,一种基于图像内容的用户兴趣细分方法,包括训练用户标签模型和预测细分用户群组;
[0043]所述训练用户标签模型,基于大量用户照片集的标签信息,利用LDA算法对用户的标签信息进行训练获得用户标签模型;
[0044]所述预测细分新用户群组,运用所述用户标签模型预测并且细分新用户的个性化群组。
[0045]在实施例二中,在实施例一的基础上,如图2和图3所示,所述训练用户标签模型包括步骤:
[0046](1.1)收集大量的用户和每个用户的用户照片集;
[0047](1.2)对所述用户照片集进行标签处理,获取用户照片集的标签信息;
[0048](1.3)将所述用户的标签信息转换成文本模式,形成文本文档;
[0049](1.4)利用LDA算法训练所述文本文档,形成用户标签模型。
[0050]其中,所述步骤(1.3)中,用户的标签信息将记录入文本文档,而他们的去向通过他们的POI信息反应出来,形成文本文档的内容。
[0051]其中,利用用户经常入出的场所信息预测用户特征或行为习惯作为标签信息。
[0052]其中,所述步骤(1.4)中,利用LDA算法进行模型训练生成预定数量的主要兴趣话题,例如:
[0053]风景/美景旅游温泉有人/群照热带雨林寺庙热带雨林有人/群照天空天空广场热带雨林饮品/甜点饮品/甜点寺庙热带雨林广场温泉温泉寺庙表演/舞台表演/舞台表演/舞台咖啡店咖啡店咖啡店饮品/甜点广场游乐场游乐场游乐场游乐场天空塔/佛塔...。
[0054]
[0055]其中,所述用户标签模型中所有标签信息的主要兴趣话题将划分为N个相关主题性的话题;以下是用户标签模型生成的一部分的话题的名称和主要内容,分别是花园相关,美食相关,夜生活相关和旅游主题:
[0056]花园相关主题:花;花园/园林;花园;植物/盆景;果园;野外;风景/美景;菜园;热带雨林;森林
[0057]美食主题:美食/小吃;餐厅;美食广
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1