去除在线评论呈现顺序对评论帮助性干扰的纠偏方法及应用

文档序号:31960725发布日期:2022-10-28 23:18阅读:42来源:国知局
1.本发明属于数据处理
技术领域
:,具体涉及一种去除在线评论呈现顺序对评论帮助性干扰的纠偏方法及应用。
背景技术
::2.随着电子商务市场的发展,在线平台越来越重视在线评论内容对消费者购买的帮助作用。为了降低海量评论信息给消费者带来的信息过载,平台通过收集浏览者投票的形式实现对评论质量的分析,并优先把高质量评论呈现给消费者。然而这种来自浏览者投票的信息不能完全反映评论的质量。由于排序靠后的评论可见性下降,同时带来的信息边际效用递减,评论收到的投票信息会受到呈现顺序的消极影响,导致基于投票信息的评论质量分析出现偏误。3.因此需要一种技术,能够在投票信息的基础上去除呈现顺序带来的偏误,从而帮助平台更准确的估计评论的质量。技术实现要素:4.为解决现有技术中存在的上述缺陷,本发明的目的在于提供一种去除在线评论呈现顺序对评论帮助性干扰的纠偏方法,通过构建包含评论呈现顺序和评论帮助性的面板数据集,计算评论顺序偏误的影响作用大小,对评论帮助性进行误差纠正,从而帮助在线平台更准确的估计评论的质量。5.本发明是通过下述技术方案来实现的。6.本发明一方面,提供了一种去除在线评论呈现顺序对评论帮助性干扰的纠偏方法,包括:7.构建包括评论呈现顺序和评论帮助性的面板数据集;8.分别设定评论收集窗口和评论收集间隔,对评论收集窗口和评论收集间隔赋值;9.进行多期横截面数据收集;10.对相邻两期横截面数据的相同评论进行评论关联;11.根据获得的相邻两期的评论关联关系,计算评论的新增投票,形成面板数据集;12.利用面板数据集计算评论留存率和顺序稳定率;13.判断评论留存率和顺序稳定率是否满足要求,如果不满足要求,则重新对收集间隔和收集窗口赋值;否则计算评论呈现顺序的系数;14.对获得的面板数据集,计算评论呈现顺序的系数;15.利用评论呈现顺序系数调整评论帮助性,得到纠偏后的评论帮助性。16.优选的,对评论收集窗口和评论收集间隔赋值,第一次赋初始值根据工程分析的要求预设;若上一次得到的评论留存率不满足要求,则扩大收集窗口;若上一次得到的顺序稳定率不满足要求,则缩小收集间隔;收集窗口的扩大量和收集间隔的缩小量根据工程分析的要求预设。17.优选的,横截面数据收集包含三个维度:产品、评论和期数;收集的数据包含四个类型:总投票数、呈现顺序、评论文本和控制变量;数据收集的总期数根据工程分析要求预设;控制变量包含的变量根据工程分析要求预设。18.优选的,相邻两期评论关联是指对相邻两期的评论集基于评论文本进行相同评论识别。19.优选的,对评论留存率和顺序稳定率的要求为大于给定阈值,评论留存率和顺序稳定率的给定阈值根据工程分析的要求预设。20.优选的,对获得的面板数据集ω,使用最小二乘法回归计算评论呈现顺序的系数。21.本发明再一方面,提供了一种所述方法在电子商务在线平台中应用。22.本发明由于采取以上技术方案,其具有以下有益效果:23.1.降低消费者信息过载。本发明由于采用了对获得的面板数据集,计算评论呈现顺序的系数,实现了对来自浏览者投票的评论帮助性与评论真实质量之间存在的系统偏误的定量刻画。24.2.利用评论呈现顺序系数调整评论帮助性的偏误纠正方法,实现了对高质量评论的有效识别,从而降低消费者的信息过载。25.3.具有很强的分析层次迁移性。本方法可以应用于平台级的评论呈现顺序对其帮助性的偏误调整,也可在产品类别级和产品级应用,具有灵活的可迁移性。附图说明26.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,并不构成对本发明的不当限定,在附图中:27.图1是本发明实施例的去除呈现顺序对在线评论的帮助性干扰的纠偏算法流程图。具体实施方式28.下面将结合附图以及具体实施例来详细说明本发明,在此本发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。29.图1是本发明实施例的去除在线评论呈现顺序对评论帮助性干扰的纠偏方法流程图。通过构建包含评论呈现顺序和评论帮助性的面板数据集,计算评论顺序偏误的影响作用大小,实现对评论帮助性进行误差纠正。评论帮助性为一条评论收到来自浏览者的点赞数;评论呈现顺序为一条评论在页面中呈现给浏览者的顺序变量;顺序偏误为评论呈现顺序对评论收到的点赞数的影响。30.本发明纠偏方法包括以下步骤:31.步骤1,构建包含评论呈现顺序和评论帮助性的面板数据集。32.首先,分别设定评论收集窗口和评论收集间隔,对评论收集窗口和评论收集间隔赋值。33.第一次赋初始值,赋值根据工程分析的要求预设;迭代解算时根据前一次执行步骤5计算的评论留存率和顺序稳定率进行修正。34.在迭代时对收集窗口和收集间隔的调整方式为,若上一次根据步骤6判断得到的评论留存率不满足要求,则扩大收集窗口;若上一次根据步骤6判断得到的顺序稳定率不满足要求,则缩小收集间隔;收集窗口的扩大量和收集间隔的缩小量根据工程分析的要求预设。35.步骤2,按照步骤1设定的收集窗口与收集间隔收集多期横截面数据。36.横截面数据收集包含三个维度:{i,j,t}。其中i=1,2,...,i代表评论,i为收集窗口中一个产品的评论总数;j=1,2,...,j代表产品,j为收集的产品总数,根据工程分析的要求预设;t=1,2,...,t代表期数,t为收集的横截面数据总期数,根据工程分析的要求预设。37.收集的数据包含以下四个类型:{votesijt,orderijt,textij,controlsijt},其中votesijt是产品j的评论i截止第t期收到的总投票数,为序数变量;orderijt是产品j的评论i在第t期的呈现顺序,为序数变量;textij是产品j的评论i的评论文本内容,为字符串变量;controlsijt是产品j的评论i在第t期的控制变量,可包含多个数值变量,根据工程分析的要求预设。38.步骤3,根据获得的多期横截面数据,对相邻两期横截面数据的评论关联。对相邻两期的评论集基于评论文本textij进行相同评论识别。39.步骤4,根据获得的相邻两期的评论关联关系,计算评论的新增投票,构建面板数据集。40.利用相邻两期的评论关联关系,计算评论的新增投票:yijt=votesij(t+1)-votesijt,形成面板数据集ω;41.面板数据集ω中每一条观测值包含以下五个主要类型:42.{yijt,orderijt,votesijt,textijt,controlsijt},其中t=1,2,...t-1。43.步骤5,根据面板数据集计算评论留存率和顺序稳定率。44.评论留存率计算公式为:其中n为面板数据集ω中的观测值总数,m为面板数据集ω中的评论个数。45.顺序稳定率计算公式为:其中nstable为面板数据集ω中相邻两期orderijt未发生变化的观测值数量,n2,3,...t-1为面板数据集ω中t∈{2,3,...t-1}的观测值数量。46.步骤6,对评论留存率和顺序稳定率判断。47.判断评论留存率和顺序稳定率是否满足要求,如果不满足要求,返回步骤1,否则进入步骤7。48.对评论留存率和顺序稳定率的要求为大于给定阈值,评论留存率和顺序稳定率的给定阈值根据工程分析的要求预设。49.步骤7,计算顺序偏误的影响作用50.对面板数据集ω,使用最小二乘法回归计算呈现顺序的系数;回归分析使用如下公式:51.yijt=α0+α1×ln(orderijt)+β×controlsijt+μj+νt+εijt,52.其中,α0为回归的常数项,α1为取自然对数后的评论呈现顺序的系数,β为控制变量的系数,μj为产品的固定效应,νt为期数的固定效应,εijt为回归的特异性误差项。53.对面板数据集ω依据回归式使用最小二乘法进行参数估计,得到α1。54.步骤8,评论帮助性纠偏55.用获得的呈现顺序系数α1调整评论帮助性,得到纠偏后的评论帮助性,纠偏使用如下公式:adjustedhelpfulnessijt=yijt-α1×ln(orderijt)。56.步骤9,输出纠偏后的评论帮助性。57.下面通过一个具体实施例来进一步说明本发明的实现过程。58.本实施例选择某大型电商平台的数码、电脑、手机、男装、女装、美妆六个产品种类下的660个高销量产品的评论作为研究对象。以下按照上面的9个步骤顺序,给出本发明方法在在线平台的应用示范。59.根据步骤1的要求,将评论收集窗口设为评论区的前50条评论,将评论收集间隔设定为1天。60.根据步骤2的要求收集横截面数据。横截面数据收集的总期数设定为64。61.根据步骤3~4,对相邻两期横截面数据进行评论关联,并计算评论对应的新增投票,得到面板数据集ω。面板数据集ω包含40,622条不同评论在63期的数据,共计1,935,179条观测值。62.根据步骤5~6的要求对评论留存率和顺序稳定率进行计算和判断。将评论留存率和顺序稳定率的阈值设为60%。[0063][0064][0065]这里,面板数据集ω下的评论留存率和顺序稳定率均大于给定阈值,因此转入步骤7。[0066]根据步骤7的要求对面板数据集ω进行回归。回归使用如下公式:[0067]helpfulnessijt=α0+α1ln(orderijt)+β1votesijt+β2controlsijt+μj+νt+εijt,[0068]回归涉及的变量、变量含义及相关统计值如表1所示。[0069]表1回归变量的描述性统计[0070][0071][0072]使用最小二乘法得到的回归结果如表2所示。[0073]表2回归结果[0074][0075]注意:括号中为系数估计的稳健t统计量[0076]***p《0.01,**p《0.05,*p《0.1[0077]得到α1=-0.0288。[0078]根据步骤8~9的要求,用下式计算纠偏后的评论帮助性并输出:adjustedhelpfulnessijt=yijt+0.0288×ln(orderijt)。[0079]此外,本方法可以应用于产品类别级的评论帮助性纠偏,实现方法为使用回归式对不同产品类别的数据进行子样本回归,得到不同产品类别下的α1。不同产品类别下的回归结果如表3所示。为了结果的简洁呈现,这里省去了控制变量等的系数估计结果。[0080]表3不同产品类别的回归结果[0081][0082]注意:括号中为系数估计的稳健t统计量[0083]***p《0.01,**p《0.05,*p《0.1[0084]从以上实施例可以看出,本发明方法能够有效的从产品评论信息中捕获由于呈现顺序造成的偏误α1。此外,本发明方法可以灵活的迁移到产品类别层次,从而进行更精细的评论帮助性纠偏。[0085]本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1