基于关联规则的直播平台用户兴趣度挖掘系统及挖掘方法与流程

文档序号:11950715阅读:709来源:国知局
基于关联规则的直播平台用户兴趣度挖掘系统及挖掘方法与流程

本发明涉及数据挖掘技术领域,具体涉及基于关联规则的直播平台用户兴趣度挖掘系统及挖掘方法。



背景技术:

随着直播行业的飞速发展,直播网站的用户数量呈爆炸式增长,如何快速有效的挖掘用户的观看兴趣,给用户推荐其真正感兴趣的直播内容,是现在各直播网站急需考虑的问题。现有技术中,用户兴趣度挖掘还停留而根据如个人经验,或者是简单的通过用户观看了A直播间还观看了B直播间的方法,找出A和B这样的关联规则,进而给当用户观看了A直播间的时候向其推荐B直播间,人工筛选的主观性较强,且在数据量较大的情况下,很难找出关联规则。



技术实现要素:

针对现有技术中存在的缺陷,本发明的目的在于提供基于关联规则的直播平台用户兴趣度挖掘系统及挖掘方法,使得直播平台用户的挖掘过程更加智能化,具有挖掘速度快和挖掘效率高的优点。

为达到以上目的,本发明采取的技术方案是:

一种基于关联规则的直播平台用户兴趣度挖掘系统,包括:数据采集模块,用于从服务器获取直播平台用户行为信息,生成采样事务事件库和测试事务事件库;

关联规则模型构建模块,采用spark计算框架对采样事务事件库进行频繁模式的挖掘,得到关联规则模型;

用户兴趣度输出模块,用于将测试事务事件库作为输入变量输入关联规则模型,获得关联规则模型的输出变量,将输出变量作为用户兴趣内容。

在上述技术方案的基础上,采样事务事件库为选取采样时间内用户的行为信息记为事件生成的。

在上述技术方案的基础上,测试事务事件库为选取采样时间后用户的行为信息记为事件生成的。

在上述技术方案的基础上,所述关联规则模型构建模块包括:

表头构造单元,所述表头构造单元用于构造项目表头,设定spark计算框架的计算并行度,预设支持度阈值,扫描采样事务事件库,获得采样事务事件库中包含的全部的频繁项和每个频繁项的支持度,对所有的频繁项按照支持度降序排列得到频繁项集合F;

FP-树构造单元,所述FP-树构造单元用于构造原始FP-树,扫描采样事务事件库,将采样事务事件库中的每个事件的每个频繁项按照频繁项集合F中的顺序进行重排,并按照重排之后的顺序把每个事物的每个频繁项插入FP-树中,形成原始FP-树;

函数调用单元,所述函数调用单元用于调用FP-growth函数进行频繁项的挖掘;

FP-树计算模块,所述FP-树计算模块用于进行FP-树频集算法,得到支持度大于支持度阈值的频繁模式。

基于关联规则的直播平台用户兴趣度挖掘系统的挖掘方法,包括如下步骤:

S1,数据采集模块从服务器获取直播平台用户行为信息,选取采样时间内用户的行为信息记为事件,生成采样事务事件库;

S2,关联规则模型构建模块基于spark计算框架对采样事务事件库进行频繁模式的挖掘,得到关联规则模型;

S3,数据采集模块从服务器获取直播平台用户行为信息,选取采样时间后用户的行为信息记为事件,生成测试事务事件库;

S4,用户兴趣度输出模块将测试事务事件库作为关联规则模型的输入变量,并输入关联规则模型,获得关联规则模型的输出变量,将输出变量作为用户兴趣内容。

在上述技术方案的基础上,还包括:

S5,用户兴趣度输出模块根据用户兴趣内容生成用户兴趣列表。

在上述技术方案的基础上,采用FP-树频集算法进行频繁模式的挖掘。

在上述技术方案的基础上,采用FP-树频集算法进行频繁模式的挖掘,具体步骤如下:

S21,构造项目表头:设定spark计算框架的计算并行度,预设支持度阈值,扫描采样事务事件库,获得采样事务事件库中包含的全部的频繁项和每个频繁项的支持度,对所有的频繁项按照支持度降序排列得到频繁项集合F;

S22,构造原始FP-树:再次扫描采样事务事件库,将采样事务事件库中的每个事件的每个频繁项按照频繁项集合F中的顺序进行重排,并按照重排之后的顺序把每个事物的每个频繁项插入FP-树中,形成原始FP-树。

S23,调用FP-growth函数进行频繁项的挖掘;

S24,根据FP-树频集算法,得到的支持度大于支持度阈值的频繁模式。

在上述技术方案的基础上,FP-树中一个节点表示一个直播间,一条路径对应一个用户的观看行为信息,每条路径上节点的计数值表示支持度,所述支持度用于确定任意两个直播间的关联程度。

在上述技术方案的基础上,频繁模式为每个直播间到其它直播间的随机观看概率。

与现有技术相比,本发明的优点在于:

(1)本发明的基于关联规则的直播平台用户兴趣度挖掘系统及方法中使用关联规则进行数据管理分析,大幅度减少了计算的时间,基于Spark计算框架构建关联规则模型,使得用户兴趣度挖掘的过程更加智能化,在计算速度方面更快,大大缩短了计算周期,能够更加有效的找到关联规则,保证了测试结果的准确性与实用性。

(2)本发明的基于关联规则的直播平台用户兴趣度挖掘系统及方法,构建关联规则模型的算法具有多种,本发明中采用FP-树频集算法,FP-树中一个节点表示一个直播间,一条路径对应一个用户的观看行为信息,每条路径上节点的计数值表示支持度,支持度用于确定任意两个直播间的关联程度,利用树形结构直接得到频繁项集,减少了扫描采样数据库的次数,提高的算法的效率。

附图说明

图1为本发明实施例中的系统框图;

图2为本发明实施例中关联规则模型构建模块的结构框图;

图3为本发明实施例中的方法流程图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示,本发明实施例提供一种基于关联规则的直播平台用户兴趣度挖掘系统,包括:数据采集模块,用于从服务器获取直播平台用户行为信息,生成采样事务事件库和测试事务事件库,用户行为信息为用户每一次观看行为,可以为观看某一直播间、观看某一分区或观看某一栏目,本实施例中为用户观看某一直播间。

关联规则模型构建模块,采用spark计算框架对采样事务事件库进行频繁模式的挖掘,得到关联规则模型,其中频繁模式为每个直播间到其它直播间的随机观看概率。基于Spark计算框架构建关联规则模型,使得用户兴趣度挖掘的过程更加智能化,在计算速度方面更快,大大缩短了计算周期。

参见图2所示,关联规则模型构建模块包括:

表头构造单元,表头构造单元用于构造项目表头,设定spark计算框架的计算并行度,预设支持度阈值,扫描采样事务事件库,获得采样事务事件库中包含的全部的频繁项和每个频繁项的支持度,对所有的频繁项按照支持度降序排列得到频繁项集合F;

FP-树构造单元,FP-树构造单元用于构造原始FP-树,扫描采样事务事件库,将采样事务事件库中的每个事件的每个频繁项按照频繁项集合F中的顺序进行重排,并按照重排之后的顺序把每个事物的每个频繁项插入FP-树中,形成原始FP-树;

函数调用单元,函数调用单元用于调用FP-growth函数进行频繁项的挖掘;

FP-树计算模块,FP-树计算模块用于进行FP-树频集算法,得到支持度大于支持度阈值的频繁模式。

用户兴趣度输出模块,用于将测试事务事件库作为输入变量输入关联规则模型,获得关联规则模型的输出变量,将输出变量作为用户兴趣内容,进而找到用户的兴趣观看点,可以向用户推荐用户喜欢的观看内容,提高用户的舒适度和感官度,有效减少了用户流失的情况发生。

参见图3所示,本发明实施例提供基于关联规则的直播平台用户兴趣度挖掘系统的挖掘方法,包括如下步骤:

S1,数据采集模块从服务器获取直播平台用户行为信息,选取采样时间内用户的行为信息记为事件,生成采样事务事件库;

S2,关联规则模型构建模块基于spark计算框架对采样事务事件库进行频繁模式的挖掘,得到关联规则模型;

采用FP-树频集算法进行频繁模式的挖掘,具体步骤如下:

S21,构造项目表头:设定spark计算框架的计算并行度,预设支持度阈值,扫描采样事务事件库,获得采样事务事件库中包含的全部的频繁项和每个频繁项的支持度,对所有的频繁项按照支持度降序排列得到频繁项集合F;

S22,构造原始FP-树:再次扫描采样事务事件库,将采样事务事件库中的每个事件的每个频繁项按照频繁项集合F中的顺序进行重排,并按照重排之后的顺序把每个事物的每个频繁项插入FP-树中,FP-树中每一个节点表示一个直播间,一条路径对应一个用户的观看行为信息,每条路径上节点的计数值表示支持度,支持度用于确定任意两个直播间的关联程度,如果频繁项插入时节点已经存在,则该频繁项节点的支持度加1,如果频繁项插入时节点不存在,则创建支持度为1的节点,并把该节点链接到项目表头中。

对于上述伪代码可作以下描述:

FP-growth函数的输入:tree是指原始的原始FP-树或者是指某个模式下的条件FP-树,A是指模式的后缀,但是在第一次调用时A=null,在之后的递归调用中A才是模式后缀;

FP-growth函数的输出:在递归调用过程中输出所有的模式及其支持度,且每一次调用FP-growth输出结果的模式中一定包括FP-growth函数输入的模式后缀。

在FP-growth递归调用的第一层,模式前后A=null,得到的是频繁1项集;对每个频繁1项集,进行递归调用FP-growth()获得多元频繁项集。

S24,根据FP-树频集算法,最终得到的支持度大于支持度阈值的频繁模式,频繁模式为每个直播间到其它直播间的随机观看概率。利用树形结构直接得到频繁项集,减少了扫描采样数据库的次数,提高的算法的效率

S3,数据采集模块从服务器获取直播平台用户行为信息,选取采样时间后用户的行为信息,生成测试事务事件库;

S4,用户兴趣度输出模块将测试事务事件库作为关联规则模型的输入变量,并输入关联规则模型,获得关联规则模型的输出变量,将输出变量作为用户兴趣内容;

S5,根据用户兴趣内容生成用户兴趣列表,根据生成的用户兴趣列表向用户推荐其感兴趣的观看内容。

本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1