本发明涉及大数据领域,尤其涉及一种基于行为场景的自适应用户画像引擎系统及方法。
背景技术:
在互联网逐渐步入大数据时代后,不可避免的给企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是“可视化”的。随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生。
用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。
用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。
但传统的画像引擎系统无效化比较严重,实际场景中无意义或者意义很弱的标签属性太多,且需要大量人工标记来设定已知标签属性,无法根据使用场景来动态挖掘未知属性。
技术实现要素:
为了克服现有技术的不足,本发明提供一种基于行为场景的自适应用户画像引擎系统及方法,采用自适应算法,可解决标签无效化以及静态化的问题。
为此,本发明第一方面提供了一种基于行为场景的自适应用户画像引擎系统,包括信号连接的先级划分系统和动态标签挖掘系统,所述优先级划分系统内预设判定标签是否失效的阈值,用于让优先级低于阈值的标签处于失效状态;所述动态标签挖掘系统根据自适应算法实时抽取可疑候选属性,经判断后由优先级划分系统判定决定是否成为可用标签。
本发明第二方面提供一种基于行为场景的自适应用户画像方法,包括如下步骤:
S1、根据行业分类,获得行业中排在高优先级的标签属性;
S2、采用多种数据挖掘算法,得到与事先设定的标签属性的关联度,从而得到排序过的权重值;
S3、设置阈值,排除关联度过低的标签属性;
S4、根据自适应算法实时抽取可疑候选属性;
S5、得到候补属性后,经过优先级划分系统的进一步判断,最终决定是否成为可用标签属性。
优选地,所述自适应算法由统计、关联、聚类算法综合设计而成。
优选地,所述步骤S2中的数据挖掘算法包括关联和协同过滤。
进一步地,所述步骤S4包括:
S401、输入用户行为日志,分割日志的各种行为,进行分类处理,将已知标签属性剔除后,保留未知标签属性;
S402、计算各未知标签属性的特征向量之间的差异、相似度与场景的契合度,根据公式综合得出一个评分来判断该属性是否可以成为候选标签。
与现有技术相比,本发明通过优先级划分系统设定阈值,可以让优先级低于阈值的标签处于失效状态,保证了最优画像模型;通过自适应算法实时抽取可疑候选属性,经判断后由优先级划分系统判定决定是否成为可用标签,可解决标签无效化以及静态化的问题。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明的实施例进行详述。
本发明提供一种基于行为场景的自适应用户画像引擎系统,包括信号连接的先级划分系统和动态标签挖掘系统,所述优先级划分系统内预设判定标签是否失效的阈值,用于让优先级低于阈值的标签处于失效状态;所述动态标签挖掘系统根据自适应算法实时抽取可疑候选属性,经判断后由优先级划分系统判定决定是否成为可用标签。
工作过程包括如下步骤:
S1、根据行业分类,获得行业中排在高优先级的标签属性;
S2、采用多种数据挖掘算法,得到与事先设定的标签属性的关联度,从而得到排序过的权重值;
S3、设置阈值,排除关联度过低的标签属性;
S401、输入用户行为日志,分割日志的各种行为,进行分类处理,将已知标签属性剔除后,保留未知标签属性;
S402、计算各未知标签属性的特征向量之间的差异、相似度与场景的契合度,根据公式综合得出一个评分来判断该属性是否可以成为候选标签根据自适应算法实时抽取可疑候选属性;
S5、得到候补属性后,经过优先级划分系统的进一步判断,最终决定是否成为可用标签属性。
所述自适应算法由统计、关联、聚类算法综合设计而成。
所述步骤S2中的数据挖掘算法包括关联和协同过滤。
综上,本发明通过优先级划分系统设定阈值,可以让优先级低于阈值的标签处于失效状态,保证了最优画像模型;通过自适应算法实时抽取可疑候选属性,经判断后由优先级划分系统判定决定是否成为可用标签,可解决标签无效化以及静态化的问题。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。