基于加权提取兴趣度的电子终端个性化推荐方法与流程

文档序号:15589703发布日期:2018-10-02 18:48阅读:168来源:国知局

本发明涉及电子终端个性化推荐技术领域,具体地指一种基于加权提取兴趣度的电子终端个性化推荐方法。



背景技术:

随着人们进入第四代移动通讯技术时代,以智能电子终端为代表的移动设备得到了充分的普及。日常生活中人们在选购智能电子终端时,也同样面临着信息过载的问题。想要挑选到一款合适的电子终端,人们会综合考虑多方面的因素,不仅仅是电子终端的外观、详细参数人们还会关注其他用户的评论信息等等。比如,人们在选购电子终端时,价格是很多人都会考虑的一个因素,然而,据中关村在线统计目前市面上在售的电子终端价格在1000元以下的有598款,价格在1000到2000之间的有316款,价格在2000到3000元之间的电子终端有136款,价格在3000元以上的有150款。在这么多选择的情况下,消费者想要挑选一款最适合自己的电子终端着实要耗费不少的时间。



技术实现要素:

本发明的目的就是要提供一种基于加权提取兴趣度的电子终端个性化推荐方法,该方法基于遗传算法、基于内容的推荐算法和协同过滤算法,达到更精确的预测用户偏好、提高推荐质量的目的。

为实现此目的,本发明所设计的基于加权提取兴趣度的电子终端个性化推荐方法,其特征在于,它包括如下步骤:

步骤1:建立基于电子终端基础信息及功能介绍数据库的网页,在用户通过互联网浏览该网页时,收集用户在该网页中对电子终端产品产生的收藏、浏览、搜索和评分行为数据;

步骤2:将用户对电子终端产品产生的收藏、浏览、搜索和评分行为影响用户兴趣的程度设为待求参数,将这些行为数据的加权和与实际兴趣值的均方差作为遗传算法的适应度函数;

步骤3:利用采用了所述的适应度函数的遗传算法来计算用户对电子终端产品产生的收藏、浏览、搜索和评分行为影响用户兴趣度的权值;

步骤4:将步骤3求出的权值以及对电子终端产品产生的收藏、浏览、搜索和评分行为数据,进行加权求和得到用户对所有产生过上述行为的电子终端产品的兴趣度;

步骤5:统计收集到的所有用户对电子终端产品产生的行为记录的总量,然后按照如下公式计算稀疏性,判断用户对电子终端产品产生的行为矩阵的稀疏性是否达到设定稀疏性阈值;若未达到,执行步骤6~8;若达到,执行步骤9~11;

sparsity=1-(c/(u×i))

其中,sparsity表示稀疏性,c表示收集到的所有用户对电子终端产品产生的行为记录的总量,u表示对电子终端产品产生过行为的用户数,i表示有用户对其产生过行为的电子终端产品的总量;

步骤6:提取电子终端产品的基础信息及功能介绍信息,并进行量化,得到用于描述电子终端产品的特征向量;

步骤7:将步骤4计算的用户对所有产生过上述行为的电子终端产品的兴趣度大于对应兴趣度阈值的电子终端产品,且属于用户在预设时间内产生行为的k个电子终端产品加入到描述用户兴趣模型的集合中,对用户兴趣模型集合中的电子终端产品的特征向量求均值,计算得到用户的兴趣描述模型;

步骤8:计算用户兴趣描述模型与电子终端产品的特征向量的相似度,将用户未产生过行为且相似度最高的n个电子终端产品推荐给用户;

步骤9:对每个用户建立一个产品列表,根据步骤4计算的用户对所有产生过上述行为的电子终端产品的兴趣度,将该兴趣度大于对应兴趣度阈值的电子终端产品加入到该用户的产品列表中;

步骤10:对每个用户,将他产品列表中的电子终端产品两两在共现矩阵中加1,然后将共现矩阵归一化得到电子终端产品之间的相似度;

步骤11:将在步骤4得到的所有用户兴趣度分别与预设兴趣度阈值进行比较,将用户兴趣度大于预设兴趣度阈值所对应的电子终端产品定义为用户喜欢的电子终端产品,选取k个用户喜欢的电子终端产品,根据电子终端产品之间的相似度预测用户对与这k款电子终端产品相似的产品的兴趣度,推荐用户兴趣度预测值最高的n款电子终端产品(即给用户推荐与他过去喜欢的物品相似的物品)。

总体而言,本发明与现有技术相比,具有以下有益效果:通过利用遗传算法对用户行为的学习,得到用户几种行为影响用户兴趣度的程度,能够更精确的得到用户对物品的兴趣度,知道了用户对哪些电子终端产品具有更高的兴趣度才能够更精确的给用户推荐与他喜欢的电子终端产品相似的物品,提高了推荐的质量。

协同过滤算法既有适用范围广、推荐结果新颖性高等优点也存在冷启动和稀疏性等问题,而基于内容的推荐算法则正好与其互补,不存在冷启动问题但是存在内容提取的问题,使其适用范围受限,故将两种推荐算法综合运用,如果仅采用协同过滤,则前期由于收集到的用户行为记录较少,会存在冷启动和数据稀疏问题,使用基于内容的推荐算法则不会有。但是,由于基于内容的推荐算法也有一定的不足,由于目前特征提取的技术并不完全成熟,我们通过分析产品的属性来量化得到产品特征描述模型这一过程比较复杂。而协同过滤利用集体智慧的思想,根据所有用户对电子终端产品产生的行为来确定物品之间的相似性,这一计算过程简单方便。故本方法可以使协同过滤算法和基于内容的推荐算法优势互补,同时利用遗传算法来学习用户行为,得到用户几种行为影响用户兴趣度的程度,能够更精确的得到用户对物品的兴趣度,便于更准确的得到用户偏好模型,做出个性化的推荐,与传统协同过滤算法相比,能有效缓解冷启动以及数据稀疏带来的问题,实现推荐质量的提高。

附图说明

图1为本发明的流程图;

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明:

本发明所设计的一种基于加权提取兴趣度的电子终端个性化推荐方法,如图1所示,它包括如下步骤:

步骤1:建立基于电子终端(手机、电脑等)基础信息及功能介绍数据库的网页,在用户通过互联网浏览该网页时,收集用户在该网页中对电子终端产品产生的收藏、浏览、搜索和评分行为数据;

步骤2:将用户对电子终端产品产生的收藏、浏览、搜索和评分行为影响用户兴趣的程度设为待求参数,将这些行为数据的加权和与实际兴趣值的均方差(rmse)作为遗传算法的适应度函数;

步骤3:利用采用了所述的适应度函数的遗传算法来计算用户对电子终端产品产生的收藏、浏览、搜索和评分行为影响用户兴趣度的权值;

步骤4:将步骤3求出的权值以及对电子终端产品产生的收藏、浏览、搜索和评分行为数据,进行加权求和得到用户对所有产生过上述行为的电子终端产品的兴趣度;

步骤5:统计收集到的所有用户对电子终端产品产生的行为记录的总量,然后按照如下公式计算稀疏性,判断用户对电子终端产品产生的行为矩阵的稀疏性是否达到设定稀疏性阈值(在程序中通过if语句判断,如if(sparsity<=0.9),则根据判断结果执行下一操作);若未达到,执行步骤6~8;若达到,执行步骤9~11;

sparsity=1-(c/(u×i))

其中,sparsity表示稀疏性,c表示收集到的所有用户对电子终端产品产生的行为记录的总量,u表示对电子终端产品产生过行为的用户数,i表示有用户对其产生过行为的电子终端产品的总量;

步骤6:提取电子终端产品的基础信息及功能介绍信息,并进行量化,得到用于描述电子终端产品的特征向量;

步骤7:将步骤4计算的用户对所有产生过上述行为的电子终端产品的兴趣度大于对应兴趣度阈值的电子终端产品,且属于用户在预设时间(如当前时间至12个小时之前)内产生行为的k个电子终端产品加入到描述用户兴趣模型的集合中,对用户兴趣模型集合中的电子终端产品的特征向量求均值,计算得到用户的兴趣描述模型(将用户行为记录按照产生时间排序,取距离当前时间最近的,并且步骤四中计算的用户对所有产生过上述行为的电子终端产品的兴趣度大于兴趣度阈值的k个电子终端产品加入到描述用户兴趣模型的集合中);

步骤8:计算用户兴趣描述模型与电子终端产品的特征向量的相似度,将用户未产生过行为且相似度最高的n个电子终端产品推荐给用户;

步骤9:对每个用户建立一个产品列表,根据步骤4计算的用户对所有产生过上述行为的电子终端产品的兴趣度,将该兴趣度大于对应兴趣度阈值的电子终端产品加入到该用户的产品列表(表示为用户喜欢的物品的列表,兴趣度的取值范围是[0,1],故可将兴趣度阈值取为0.5,将兴趣度大于等于0.5的电子终端产品加入到该用户的产品列表)中;

步骤10:对每个用户,将他产品列表中的电子终端产品两两在共现矩阵中加1,然后将共现矩阵归一化得到电子终端产品之间的相似度;

步骤11:将在步骤4得到的所有用户兴趣度分别与预设兴趣度阈值(0.5)进行比较,将用户兴趣度大于预设兴趣度阈值所对应的电子终端产品定义为用户喜欢的电子终端产品,选取k个用户喜欢的电子终端产品,根据电子终端产品之间的相似度预测用户对与这k款电子终端产品相似的产品的兴趣度,推荐用户兴趣度预测值最高的n款电子终端产品。

上述技术方案中,所述步骤3中,利用采用了所述的适应度函数的遗传算法来计算用户对电子终端产品产生的收藏、浏览、搜索和评分行为影响用户兴趣度的权值的具体方法为:

设用户对电子终端产品产生的收藏、浏览、搜索和评分行为影响用户兴趣度的权值分别为:x(1)、x(2)、x(3)、x(4),则它们需满足约束条件x(1)+x(2)+x(3)+x(4)=1,兴趣度观测值xobs,i等于用户对某一电子终端产品产生的收藏、浏览、搜索和评分行为与这些收藏、浏览、搜索和评分行为所占兴趣度权值的加权和,xmodel,i表示用户对该电子终端产品实际的兴趣度,rmse是一种广泛使用的衡量标准,表示观测值偏离真实值的程度,在本方法中表示兴趣度观测值xobs,i与实际兴趣度xmodel,i的均方根误差,fitness表示适应度值,把公式(1)作为遗传算法的适应度函数,rmse值越小,即适应度值越大,表示所求出的权值的精度就越高,以此来求解出影响用户兴趣度的行为因子的权值的最优解或近似最优解;

其中,n表示计算时用到的用户行为记录的总量。

上述技术方案的步骤7中,用户的兴趣描述模型的计算方法为:计算用户兴趣描述模型时,将用户行为记录按照产生时间排序,取距离当前时间最近的,并且步骤四中计算的用户对所有产生过上述行为的电子终端产品的兴趣度大于兴趣度阈值的20个电子终端产品来表示用户兴趣,利用公式(2)来计算一个用户对每个产品特征的兴趣:

其中:fij是电子终端产品特征ij的值,t是用户感兴趣的产品的个数,表示用户n对产品特征ij的兴趣程度,由此可得到如公式(3)所示的用户兴趣描述模型;

其中,cn表示用户的兴趣描述向量,代表了用户对产品的每一个特征的喜好程度。

上述技术方案的步骤10中电子终端产品之间的相似度的计算方法为:首先建立一个用户与电子终端产品倒排表,即对每一个用户建立一个电子终端产品的偏好列表,偏好列表中的每个电子终端产品均为用户兴趣度大于设定的阈值,然后对每个用户,将他喜欢的电子终端产品列表中的电子终端产品两两在共现矩阵中加1,然后将共现矩阵归一化得到物品之间的相似度,即用代码实现用公式(4)计算物品的相似度;

公式(4)中,n(i)表示在偏好列表中存在项目i的用户数,n(j)表示在偏好列表中存在项目j的用户数,而|n(i)∩n(j)|表示在偏好列表中同时存在项目i和项目j的用户数,wij表示项目i和项目j之间的相似度。

上述技术方案的步骤11中,推荐用户兴趣度预测值最高的n款电子终端产品的方法为:根据收集到的用户收藏、浏览、搜索和评分数据是否达到设定值,来选择采用何种推荐算法,当未达到设定值时,采用基于内容的推荐时,主要是利用公式(5)计算用户的兴趣描述向量与每个产品特征向量的相似度,然后生成推荐列表;当达到设定值时,采用协同过滤算法时,以利用公式(6)计算用户对未产生过行为的项目的预测兴趣度,生成推荐列表;

公式(5)中,cn表示用户的兴趣描述向量,p是电子终端产品特征描述向量,dn表示电子终端产品的特征向量与用户的兴趣特征向量的欧氏距离,dn越小,表示该产品与用户的兴趣越接近,选择dn最小的且用户未产生过行为的n款产品推荐给用户;

puj=∑i∈n(u)∩s(j,k)wijrui(6)

公式(6)中puj表示系统预测的用户u对电子终端产品j的兴趣度,n(u)表示用户兴趣度大于设定的阈值的电子终端产品集合,k表示与电子终端产品j最相似的k个电子终端产品的个数,s(j,k)是和电子终端产品j最相似的k个电子终端产品的集合,wij是电子终端产品j和i的相似度,rui是用户u对电子终端产品i的兴趣度,即步骤4求出的兴趣度。该公式表示的是和用户历史上感兴趣的物品越相似的物品,越有可能在用户的推荐列表中获得较高的排名,选择puj最大的且用户未曾产生过行为的n款产品推荐给用户。

上述技术方案的步骤2中的实际兴趣值由用户问卷调查或专家评定产生。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1