基于模糊聚类的视频点播推荐系统及方法

文档序号:6429749阅读:338来源:国知局
专利名称:基于模糊聚类的视频点播推荐系统及方法
技术领域
本发明涉及一种基于模糊聚类的视频点播推荐系统及方法,属于互联网视频点播个性化推荐技术领域。
背景技术
随着移动接入的用户群体不断增加,以网上视频为载体的信息传播模式已经渗入日常生活的方方面面,在视频点播的过程中,用户的忠诚度以及应用对用户的“粘度”已经成为衡量应用是否成功的关键。目前现有的个性化推荐系统主要为客户推荐商品,满足客户的个性化需求,主要优势在于它能收集用户特征资料并根据用户访问特征、兴趣爱好为用户提供简洁的导航服务及个性化的商品推荐服务。在网上视频点播的个性化推荐方面,主要包括页面导航和优化两个方面,所采用的技术包括统计分析、关联分析、协同过滤以及分类分析,如贝叶斯分类、决策树分类,在这些技术方法中,提供个性化推荐服务的前提都是,根据用户的访问情况建立和完善用户访问模型。在建立用户访问模型的过程中,下面两个方面还要进一步的的完善,其一是特征选择问题,在个性化推荐系统中,针对海量高维、非数值型数据的特征选择问题(关键特征的提取、派生特征和无关特征的筛选),在相关的专利和文献中都没有提供较好的解决方法。其二个性化用户访问模型的表示,现有技术解决方案中,通常采用用户访问记录和系统访问特征模型来代替用户访问特征模型,没有根据用户的个性化特点分别进行推荐,及没有做到真正的个性化推荐。

发明内容
为了解决上述问题,本发明提供了一种基于模糊聚类的视频点播推荐系统及方法,在网上视频点播应用中完善了用户访问模型,建立了高效、个性化的推荐系统。本发明为解决其技术问题采用如下技术方案
一种基于模糊聚类的视频点播推荐系统,由数据预处理模块、模糊聚类分析模块、个性化用户推荐模块和系统有效性分析模块顺序相连,其中,所述的数据预处理模块是由源数据采集子模块、数据清洗子模块、用户会话识别子模块、字符属性转化子模块、数据标准化子模块、特征筛选子模块和主成份分析子模块顺序相连;所述模糊聚类分析模块由初始化聚类中心子模块、模糊聚类算法应用子模块和系统访问模式生成子模块顺序相连;个性化推荐模块由用户访问模式生成子模块、个性化推荐生成及反馈和评测子模块顺序相连。基于模糊聚类的视频点播推荐系统的推荐方法,包括如下步骤
(1)采集视频点播系统的访问记录,对异常访问记录进行清洗,根据访问记录的状态属性识别用户会话,并对字符属性进行转化,对转化后的访问记录进行特征筛选,依据特征相似性指标筛选出关键特征,对筛选后的数据再进行主成份分析,根据特征的累计贡献率确定特征的维数;
(2)对数据预处理模块的输出数据进行标准化操作和有放回的随机抽样,利用KR密度估计法和K-Means分析,初始化模糊聚类中心,应用模糊聚类算法SFCM,产生模糊聚类中心,系统访问模式及系统访问推荐列表;(3)以用户为分类依据,使用缓存技术预处理用户访问记录,利用KR密度估计法生成用户的的初始化聚类中心并计算主成份分析中的综合变量值,根据用户访问模式与系统访问模式的隶属度阈值和比例,产生该用户的个性化视频点播推荐列表;
(4)通过对划分系数和可行性划分系数的定义,结合聚类有效性函数,对模糊聚类算法 SFCM的参数进行调节,达到较好的模糊聚类效果,实现较优的视频点播个性化推荐服务。本发明的有益效果如下
1、本发明采用特征筛选和主成分分析的方法,实现源数据降维并保存源数据的信息量,提高了模糊聚类的效率。2、针对大数据量样本采用随机抽样和KR密度估计算法,实现模糊聚类中心初始化,加快了模糊聚类的收敛速度,并利用模糊聚类中心建立系统访问模式。通过模糊聚类产生用户访问模式及其在系统访问模式中的隶属度,根据隶属度的比例生成个性化的用户推荐列表,实现个性化的视频点播推荐。3、有效的降低源数据中噪音数据对推荐结果的影响,同时提高模糊聚类的执行效率和收敛时间,为用户提供更合理的个性化视频节目的推荐服务。


图1为本发明的视频点播推荐系统结构组成框图。图2为特征选择和数据预处理图。图3为模糊聚类生成系统访问模式的数据流程图。图4为生成个性化用户推荐列表的数据流程图。
具体实施例方式
下面结合附图对本发明创造做进一步详细说明。如图1为本发明的视频点播推荐系统结构组成框图,由数据预处理模块、模糊聚类分析模块、个性化用户推荐模块和系统有效性分析模块顺序相连,其中,所述的数据预处理模块是由源数据采集子模块、数据清洗子模块、用户会话识别子模块、字符属性转化子模块、数据标准化子模块、特征筛选子模块和主成份分析子模块顺序相连;所述模糊聚类分析模块由初始化聚类中心子模块、模糊聚类算法应用子模块和系统访问模式生成子模块顺序相连;个性化推荐模块由用户访问模式生成子模块、个性化推荐生成,反馈和评测子模块顺序相连。所述的基于模糊聚类的视频点播推荐系统的推荐方法,包括如下步骤
(1)采集视频点播系统的访问记录,对异常访问记录进行清洗,根据访问记录的状态属性识别用户会话,并对字符属性进行转化,对转化后的访问记录进行特征筛选,依据特征相似性指标筛选出关键特征,对筛选后的数据再进行主成份分析,根据特征的累计贡献率确定特征的维数;
(2)对数据预处理模块的输出数据进行标准化操作和有放回的随机抽样,利用KR密度估计法和K-Means分析,初始化模糊聚类中心,应用模糊聚类算法SFCM,产生模糊聚类中心,系统访问模式及系统访问推荐列表;
(3)以用户为分类依据,使用缓存技术预处理用户访问记录,利用KR密度估计法生成用户的的初始化聚类中心并计算主成份分析中的综合变量值,根据用户访问模式与系统访问模式的隶属度阈值和比例,产生该用户的个性化视频点播推荐列表;(4)通过对划分系数和可行性划分系数的定义,结合聚类有效性函数,对模糊聚类算法 SFCM的参数进行调节,达到较好的模糊聚类效果,实现较优的视频点播个性化推荐服务。如图2为特征选择和数据预处理的流程图,包括源数据采集、数据清洗、用户会话识别、字符属性转化、数据标准化、特征筛选和主成份分析7个部分。系统访问记录进行模糊聚类分析前,需要进行数据格式的转化和清洗,一般系统访问会标识用户的访问活动,如客户端IP、服务器IP、端口、请求方法、访问日期、访问时间、请求路径、URL、协议类型、传输字节数、浏览器版本、系统版本、访问状态、用户代理 ⑶ser-agent)、参照(Reference)。其中访问状态(C-State)包含8种访问状态,如状态代号200表示链接成功,状态代号500表示服务器内部错误停止访问。通过对访问状态的初步筛选,可以去除访问失败的离群点数据。用户和会话的识别,针对注册用户和匿名用户的标识,不同的客户端IP可以标识为不同的用户,相同的IP由于NAT、Proxy等因素, 若浏览器和系统版本发生变化,也标识为不同用户。会话的识别根据客户端接收时间项 (X-Duration)的数值判断,如果超过30秒数据缓冲和接收,则视为有效访问。由于符号型特征值不便于聚类分析,因此需要对符号型特征值进行处理,其中符号型的特征值,如TCP、 UDP根据RFC1340标准转为其相应的协议号,IP地址根据其32位编码转为十进制数值,这样一个IP地址转为唯一的数值来标识。通过对源数据访问状态筛选、用户会话的识别、非数值型数据转换处理,可以得到合理的模糊聚类输入数据,但是由于模糊聚类所处理的是高维、海量数据,在保证聚类精度的同时还需要考虑时效性。因此方法中采用特征筛选和主成份分析方法来尽量减少源数据的维数,同时在信息量方面尽可能保持原有的信息量。特征筛选采用
表示系统访问记录中特征与特征之间的相似性,0表示完全不相关,1表示完全相关,其他数值表示相似程度,特征的相似性度量公式如下所示
权利要求
1.一种基于模糊聚类的视频点播推荐系统,其特征在于由数据预处理模块、模糊聚类分析模块、个性化用户推荐模块和系统有效性分析模块顺序相连,其中,所述的数据预处理模块是由源数据采集子模块、数据清洗子模块、用户会话识别子模块、字符属性转化子模块、数据标准化子模块、特征筛选子模块和主成份分析子模块顺序相连;所述模糊聚类分析模块由初始化聚类中心子模块、模糊聚类算法应用子模块和系统访问模式生成子模块顺序相连;个性化推荐模块由用户访问模式生成子模块、个性化推荐生成及反馈和评测子模块顺序相连。
2.一种应用于权利要求1所述的基于模糊聚类的视频点播推荐系统的推荐方法,其特征在于,包括如下步骤(1)采集视频点播系统的访问记录,对异常访问记录进行清洗,根据访问记录的状态属性识别用户会话,并对字符属性进行转化,对转化后的访问记录进行特征筛选,依据特征相似性指标筛选出关键特征,对筛选后的数据再进行主成份分析,根据特征的累计贡献率确定特征的维数;(2)对数据预处理模块的输出数据进行标准化操作和有放回的随机抽样,利用KR密度估计法和K-Means分析,初始化模糊聚类中心,应用模糊聚类算法SFCM,产生模糊聚类中心,系统访问模式及系统访问推荐列表;(3)以用户为分类依据,使用缓存技术预处理用户访问记录,利用KR密度估计法生成用户的的初始化聚类中心并计算主成份分析中的综合变量值,根据用户访问模式与系统访问模式的隶属度阈值和比例,产生该用户的个性化视频点播推荐列表;(4)通过对划分系数和可行性划分系数的定义,结合聚类有效性函数,对模糊聚类算法 SFCM的参数进行调节,达到较好的模糊聚类效果,实现较优的视频点播个性化推荐服务。
全文摘要
一种基于模糊聚类的视频点播推荐系统及方法,属于互联网视频点播个性化推荐技术领域。该系统由数据预处理模块、模糊聚类分析模块、个性化用户推荐模块和系统有效性分析模块顺序相连。通过对用户访问记录的预处理和筛选,利用模糊聚类算法生成聚类中心和用户访问模式,基于用户访问模式与系统访问模式的隶属度,生成用户的个性化视频点播推荐列表。采用本视频点播推荐系统的推荐方法,可以有效的降低源数据中噪音数据对推荐结果的影响,同时提高模糊聚类的执行效率和收敛时间,为用户提供更合理的个性化视频节目的推荐服务。
文档编号G06N7/02GK102289478SQ20111021693
公开日2011年12月21日 申请日期2011年8月1日 优先权日2011年8月1日
发明者朱祎, 王小军, 王红林 申请人:江苏广播电视大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1