一种基于评论文本和评分分析的信息推荐方法

文档序号：9810531阅读：746来源：国知局

一种基于评论文本和评分分析的信息推荐方法
【技术领域】
[0001] 本发明属于数据挖掘领域，尤其涉及一种基于评论文本和评分分析的信息推荐方法。
【背景技术】
[0002] 推荐系统广泛用于在线广告投放、网络购物平台等Web应用领域。推荐系统通过发现用户喜好，帮助用户发现感兴趣的电影、音乐及各类商品；同时，也为在线广告、商品等更精确地锁定目标人群。公知的推荐方法主要有两种：基于内容过滤（content-based filtering)和协同过滤（collaborative filtering)。其中，基于内容过滤的推荐方法根据用户已购商品的特征属性来推荐具有相似属性的商品。然而，该方法推荐的商品种类较为单一，且缺乏新意。协同过滤方法则按用户浏览、评价商品等行为，推荐具有相似偏好的用户购买或喜爱的商品。
[0003] 随着互联网的发展，电子商务网站中出现大量用户评论信息。用户通过评论来表达自己对商品的评价，交流购物心得。一条评论由评分和评论文本组成，评论文本包含丰富的商品属性描述信息，可看作评分的依据。然而，公知的协同过滤方法并未利用评论文本进行推荐。另一方面，公知的评论分析方法涵盖了主题发现、情感分析和观点挖掘等领域，可通过分析评论文本来预测评分。Qu等（Proc ofthe 23rd Int Confon Computational Linguistics. ACL，2010 :913-921)使用观点相关词表示一条评论，对观点描述的属性、阐述观点的形容词和否定词等进行训练得到一个预测评分的线性模型；Ganu等（12th Int Workshop on the Web and Databases. 2009)对评分建模，得到输入为商品属性和对应观点正负性的评分预测公式。但这些方法只能分析出已有评论的评分，而无法预测用户对未评论商品的评分，因此不适用于推荐系统。
[0004] 公知的结合评分和评论文本的推荐方法有McAuley等（Proc ofthe 7thACM Confon Recommender Systems. ACM，2013 :165-172)提出的 HFT(Hidden Factors as Topics)，即通过结合评分的隐藏因子和评论文本的评论主题产生商品/用户档案，并使用 SVD模型预测评分。然而，该方法中评论文本每次只和商品/用户中的一个维度关联，也就是说评论主题只反映了影响评分的一个维度，另一维度则人为地与其保持一致。
[0005] 因此，为了克服上述缺陷，本发明提出了一种基于评论文本和评分分析的信息推荐方法，以发现评分与评论文本间的潜在关系为出发点，挖掘评论文本中的评论主题以及评论在主题上的分布，并在此基础上生成用户档案和评论对象档案，从而预测用户对未评论对象的评分，显著增强了推荐信息与用户偏好之间的潜在关联。

【发明内容】

[0006] 本发明提出了一种基于评论文本和评分分析的信息推荐方法，包括如下步骤：
[0007] 步骤一：获得评论文本的集合，所述集合包括一个以上用户分别对于一个以上已评论对象做出的评论文本,从所述集合中挖掘得到每一条评论文本关于已评论对象的多个评论主题以及所述评论文本关于各评论主题的分布数据。步骤二：根据所述每一条评论文本的分布数据生成用户档案和评论对象档案；所述用户档案是指用户在各评论主题的分布数据，所述评论对象档案是指已评论对象在评论主题的分布数据。步骤三：建立评分预测模型，将所述评论文本的分布数据输入所述评分预测模型，直至所述评分预测模型输出的预测评分与用户在评论文本中做出的实际评分之间的差异在阈值内则停止输入，完成对所述评分预测模型的训练。步骤四：对于一个用户，根据所述用户的用户档案和评论对象档案估计所述用户的评论文本关于未评论对象的分布数据，向所述评分预测模型输入所述分布数据以预测所述用户关于未评论对象的评分，根据所述评分的高低向用户推荐所述未评论对象的信息。
[0008] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤一中，使用LDA文本模型挖掘每一条评论文本的评论主题，并且使用LDA文本模型得到所述评论文本关于所述评论主题的分布数据。
[0009] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤二中，所述用户档案以如下公式表示：
[0011] 其中，pu表示用户U的用户档案，pu]表示用户u在第j个评论主题上的分布数据， Σ i Θ ui]表示用户u对于已评论对象i的评论文本中关于第j个评论主题的分布数据的和， |D U|表示用户u的评论总数，p' u]表示用户u的评论文本中关于第j个评论主题的分布数据的均值，K表示评论主题的总数。
[0012] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤二中，所述评论对象档案以如下公式表示：
[0014] 其中，qi表示第j个已评论对象的评论对象档案，qij表示第i个已评论对象第j 个评论主题上的分布数据，Σ u Θ U1]表示第i个已评论对象关于第j个评论主题的分布数据的和，也」表示第i个已评论对象的评论总数，q' ^表示第i个已评论对象的评论文本中关于第j个评论主题的分布数据的均值，K表示评论主题的总数。
[0015] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤三中，建立线性回归模型，用于表示分布数据和预测评分之间的关联，利用所述线性回归模型进行预测的评分以如下公式表示：
[0016]
[0017] 其中，Θ ui表示用户u关于已评论对象i的评论文本的主题分布数据，匕表示用户 u关于已评论对象i的模型预测评分,W表示评论主题的权重向量,Wi表示第j个评论主题的权重，j e [1，K]，WT表示W的转置矩阵，ε U1表示误差变量。
[0018] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤三中，建立逻辑回归模型，用于表示分布数据和预测评分之间的多元关联，利用所述逻辑回归模型进行预测的评分以如下公式表示：
[0019]
[0020] 其中，Θ ui表示用户u关于已评论对象i的评论文本的分主题布数据，β η = ( β nl， β n2···，β nK)是.? = S时的主题权重向量，.表示:? 时e的心」欠方，Pr(/;, =#)表示rM =ΛΓ 的概率，Ν表示评分的最大值。
[0021] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤四中，所述用户的评论文本关于未评论对象的分布数据以如下公式表示：
[0022]
[0023] 其中，Θ ' mj表示用户u与未评论对象i在第j个评论主题上的分布数据的乘积，Pu]表示用户u在第j个评论主题上的分布数据， qi]表示未评论对象i第j个评论主题上的分布数据，&表示用户u的评论文本关于未评论对象i在第j个评论主题上的分布数据，j表示第j个评论主题，K表示评论主题的总数，j表示未评论对象。
[0024] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中，所述步骤四进一步包括：对于推荐的所述未评论对象的信息做进一步衡量与筛选，从中获取更高相关程度的评论文本同时发送给用户。
[0025] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中，对于一个未评论对象，计算其评论文本中评论主题与所述未评论对象的相关程度，所述相关程度以如下公式表不：
[0027] 其中，d(rul，i)表示评论主题与未评论对象i的相关程度，| | 0ui-qi| |2表示0ui-qi 的2-范数，即II=〔Σ,|~ if)那么 θ ui表示用户U关于未评论对象i的评论文本的分布数据，

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余文喆;张蓉;
技术所有人：华东师范大学;
我是此专利的发明人

上一篇：一种网页去重方法和设备的制造方法
上一篇：一种基于sql数据库数据文件传输方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。