一种基于挖掘评论修正用户评分的改进协同过滤方法与流程

文档序号:14348100阅读:707来源:国知局
一种基于挖掘评论修正用户评分的改进协同过滤方法与流程

本发明属于信息技术领域,涉及一种通过挖掘用户评论信息修正用户评分的改进协同过滤方法,尤其涉及一种针对电子商务网站中的通过挖掘用户评论信息修正用户评分的改进协同过滤方法。



背景技术:

协同过滤算法是推荐系统领域应用最为广泛的一种推荐算法。其特点为:通过分析用户的历史数据,构建个人兴趣偏好,利用兴趣相似的其他用户向目标用户推荐可能感兴趣的信息。协同过滤算法分为基于用户的协同过滤算法和基于内容的协同过滤算法。基于用户的协同过滤算法主要利用用户的评分作为构建用户兴趣偏好的依据。然后根据评分偏好相似的其他用户向目标用户推荐可能感兴趣的信息。而近年来推荐领域研究的热点则是通过挖掘用户评论信息建立更为准确用户兴趣偏好,从而改进传统的协同过滤算法,提高推荐结果的准确率。目前研究的通用流程都是通过挖掘用户评论中包含的信息来建立用户偏好,计算出偏好相似度,再通过用户评分计算出评分相似度,然后将偏好相似度和评分相似度进行加权计算来评价用户之间的相似度,从而产生推荐。目前存在以下问题:

1)当前电子商务网站的用户评分过于集中,区分程度不高。通过统计知名电子商务网站的用户评分数据发现,用户的评分数据很大程度上都表现为高评分。以京东商城为例,统计14大类,142小类产品的评分好评率。结果显示,好评率最低为94.3%,最高达到98.6%,平均好评率为96.2%。由于评分规则(评分为1-5的整数)的限制,且产品整体质量较好,导致用户的评分非常集中,几乎都是5分,区分度非常不明显。

2)用户的评分可信度不高,导致推荐结果准确率难以提升。由于电子商务网站的评分是1-5的整数,所以用户只能尽量选择与其真实评分意愿最为接近的整数作为评分结果,这样往往不能真实地表达用户的评分意愿。以京东商城为例,从手机类产品中随机抽取评价同一产品且评分为5分的4条评论进行对比,如表1所示。由表1可以看出,在用户对产品较为满意的情况下,都会选择5分作为评分结果。而用户评论内容中包含的情感倾向表明用户的真实评分意愿如果只是单一用5这个整数来表示,明显不太精确。

表1用户评分与评论实例

3)当前考虑用户评论和评分的协同过滤推荐算法忽略了用户评论和评分之间存在的内在关联,只是简单地将两者进行加权计算。评分是用户对产品的综合评价,而评论是用户针对自己关注的某些特征给出的细节评价,例如外观很漂亮,反应太慢,质量一般等。因此,评论是对评分进行的详细解释,两者之间存在必然的内在联系。目前考虑用户评论和评分的推荐算法并没有充分利用这种解释功能。



技术实现要素:

为了解决上述技术问题,本发明提供了一种针对电子商务网站中的通过挖掘用户评论信息修正用户评分的改进协同过滤方法。

本发明所采用的技术方案是:一种基于挖掘评论修正用户评分的改进协同过滤方法,其特征在于,包括以下步骤:

步骤1:输入用户评论集tu,评分集vu;

步骤2:对用户评论集进行分词处理,提取评论中的产品特征词和对应的情感词;

步骤3:建立用户偏好向量;

步骤4:建立评论特征偏好向量;

步骤5:计算评论的情感态度;

步骤6:根据情感态度修正用户评分;

步骤7:输出修正后的评分集合vu’。

作为优选,用户评论和评分均来自于电子商务网站真实的用户评分和评论数据。

作为优选,步骤2中,特征词是用户在评论中涉及到的产品某一方面的特征,对应的情感词是用户在评价该特征时给出的情感词。

作为优选,步骤2中,所述对用户评论集进行分词处理,是采用ictclas分词系统对评论进行分词,提取评论中的产品特征词和对应的情感词。

作为优选,步骤2中,所述提取评论中的产品特征词和对应的情感词,是通过词性路径模板来完成,将提取的产品特征词w和对应的情感词h用特征情感词对f=(w,h)表示。

作为优选,步骤3中,用户的偏好向量记为s={p(w1),p(w2),...p(wh)},其中w1,w2,...wh为从用户评论集中提取出的所有产品特征词,p(wi)表示特征wi在w1,w2,...wh中的频率;假设评论中出现的特征词有wa,wb,...wr,则对应的评论特征偏好向量表示为st={q(wa),q(wb),...q(wr)},其中

作为优选,为了保证评论特征偏好向量的有效性,过滤特征词数量小于γ个的用户评论,γ为预设阈值。

作为优选,步骤5中,情感态度是通过评论特征偏好向量计算得出,由评论中特征的偏好程度与对应情感词量化的分值相乘求和得到;具体计算过程是:针对每一条评论,假设评论t中的特征词有w1,w2,...wi,对应的情感词有u1,u2,...ui,情感词量化后的分值r(u1),r(u2),...r(ui)组成向量rt,记为rt={r(u1),r(u2),...r(ui)},则评论的情感态度et=st·rt。

作为优选,步骤6中,修正用户评分是根据评论的情感态度来修正用户评分,假设原评分为v,修正后的评分为v',评分修正值为n,则v'=v+n,其中评分修正值n∈[-0.5,0.5],因此,通过改进min-max标准化公式将情感态度et映射至评分修正值n所在的区间;

公式如下:

[o1,o2]是情感态度et的区间为[1,5],[n1,n2]是评分修正值的区间为[-0.5,0.5]。

本发明专利的有益效果为:

1、充分考虑评论和评分的内在关联。通过挖掘评论中的包含的情感信息,计算出评论的情感态度,再利用评论的情感态度来修正用户评分,使得修正后的评分更加接近用户的真实意愿,提高了评分的可信度,解决了用户评分可信度不高的问题。实验结果也表明,修正后的评分可以提高目标用户的最近邻居集的质量,从而提高推荐结果的准确率。

2、利用评论的情感态度修正用户评分,将整数评分细化至小数层面,扩大了评分的分布范围,提高了评分的区分程度,解决了当前电子商务网站用户评分过于集中的问题。为当前各大电子商务网站评分数据过于集中,数据可靠性低的问题提供了一个可行的解决方案,具有较高的实用价值。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例的真实评分意愿与评分的关系示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

请见图1,本发明提供的一种基于挖掘评论修正用户评分的改进协同过滤方法,包括以下步骤:

1)用户对某一类产品所关注的特征和偏好在一段时间内是稳定不变的,为了解决“冷启动”问题,获取用户关于某类产品的所有评论组成评论集合tu,评分集vu;

本实施例的评分和评论为电子商务网站真实的用户评分和评论数据。

2)采用ictclas分词系统对用户评论集进行分词处理,提取评论中包含的产品特征词和对应的情感词,组成特征情感词对集合fu;

产品特征词是用户在评论中涉及到的产品某一方面的特征,例如外观,颜色,质量等。对应的情感词则是用户在评价该特征时给出的情感词,例如很好,漂亮等。

3)建立用户偏好向量,假定fu包含的特征词为w1,w2,...wh,对应出现的次数表示为n1,n2,...nh,记n=n1+n2+...+nh,则用户的偏好向量表述为:s={p(w1),p(w2),...p(wh)},p(wi)表示特征wi在特征词集合中fu的频率,即:

4)建立评论特征偏好向量。对于tu中的任意一条评论t,若t中出现的特征词有w1,w2,...wss≤h,则对应的评论特征偏好向量表示为st={q(w1),q(w2),...q(ws)},其中

为了保证评论特征偏好向量的有效性,需要过滤特征词数量小于3个的用户评论。量化情感词的情感强度是采用台湾大学ntusd简体中文情感词典来判断情感词的极性,并根据极性强弱量化分值。

5)计算评论的情感态度。记fu中特征词w1,w2,...wh对应的情感词为u1,u2,...uh,根据台湾大学ntusd简体中文情感词典判断情感词极性,利用如下规则对情感词进行量化:

量化后的分值情感词r(u1),r(u2),...r(uh)组成向量rt,记为rt={r(u1),r(u2),...r(uh)}。则评论的情感态度et可由如下公式计算得出:

et=st·rt

6)修正用户评分。考虑用户的评分都会尽可能接近自己的真实评分意愿。例如,用户购买某产品之后觉得非常满意,各方面都达到要求,只有一点小瑕疵,权衡之下,在4分和5分之间,仍然会给出5分,使评分尽可能最接近自己的真实意愿,这种权衡可以类似于四舍五入的原则:在整体非常满意,仅有一点瑕疵的情况下,真实意愿很接近5分,所以会给出5分,若瑕疵较难以接受,就可能会给出4分。因此,真实评分意愿和评分的关系可以用图2来描述。

由图2可以看出,真实评分意愿在评分上下0.5分范围内,所以修正后的评分需保持在原评分上下0.5分范围内,即评分的修正值在区间[-0.5,0.5]上,而情感态度et∈[1,5],采用改进的min-max标准化公式来完成映射:

式中,[o1,o2]是情感态度et的区间为[1,5],[n1,n2]是评分修正值的区间[-0.5,0.5],n是将et映射到评分修正值区间后的结果,即为评分修正值。记原评分为v,修正后的评分为v',则:

v'=v+n

7)利用修正后的评分参与协同过滤算法,步骤和现有的协同过滤算法一致。

本发明基于评论挖掘修正用户评分的改进协同过滤算法将通过挖掘分析评论的情感态度来修正评分,突破整数评分的限制,将整数评分细化到小数层面,提高评分的区分度,解决评分过于集中的问题;同时,实现修正后的评分更加接近用户的真实评分意愿,提高评分的可信度,解决整数评分可信度不高的问题;并且,通过对用户评论的挖掘分析,修正每个用户的评分,体现评论对评分的详细解释功能,从而达到充分利用评论和评分的内在关联的目的。通过解决这3种技术问题,就能解决用户评分过于集中而区分度不高以及整数评分可信度不高的问题,提高评分的区分度和可信度,从而提高推荐结果的准确率。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1