一种汽车垂直网站水军甄别方法与流程

文档序号:20769254发布日期:2020-05-15 19:26阅读:322来源:国知局
一种汽车垂直网站水军甄别方法与流程

本发明涉及汽车垂直网站信息处理技术领域,尤其涉及一种汽车垂直网站水军甄别方法。



背景技术:

随着互联网的迅速发展和普及,越来越多的人选择在线上浏览和购买汽车,所以会常常查看其它买主对已购车型的评价。另一方面,汽车产品的研发团队也会从用户评论中挖掘用户的使用体验。因此汽车类垂直网站的用户评论无论是从汽车产品改进迭代方面还是顾客购买决策方面都有着重要参考作用。然而,这些评论的发出者却并不都是正常用户,夹杂了很多的水军,发出大量的异常评论混淆视听、干扰买主。

李异平[1]等人分析了网络水军的产生、扩散特点以及影响,但并未提出具体的识别方法。但随着这一群体逐渐深入人们的视野,网络水军具体识别的研究也在逐步深入,范秀珍[2]最先明确提出对于水军影响事件的防范要从源头出发,即防范的对象是“水军”而不是“网络”。网络水军通过大量的评论加回复来刻意的引导舆论方向,其结果使得部分人群收益,其评论内容缺乏客观性和真实性,是在利益操控下的商业行为,造成了对设计研究机构的误导。再例如,莫倩[3]等人针对网络水军的特点和行为模式进行了研究,并且对水军的识别特征的进展进行了阐述,分析出了网络水军的识别方向;刘健男[4]等人在针对现在的电影评论的粉丝用户识别提出了一种用朴素贝叶斯算法来检测并对用户进行分类,其特征的选取主要针对黑粉和粉丝的行为模式来进行选取,该方法能够反映出不同种类的无效用户,但现如今的水军组成已不再限于专业团队,还有很多兼职水军,随着时间的积累,该方法的错误率是不能解决的一大难题。同样,基于相同的朴素贝叶斯算法原理,张艳梅[5]等人在微博领域对无效用户的识别进行了分析,并总结出了包括微博粉丝数、微博回复数等多条特征共同作用来对水军用户进行识别,其分析是在保证水军识别准确的前提下进行识别,其分析结果可能会造成水军的判断过量的问题。对于部分样本无法标准的情况,张慧杰[6]等人提出了一种基于多特征尺度空间模型的网络水军组织发现技术,通过模型的建立来甄别网络中存在的组织是否为网络水军。这种方法能够极大降低虚假评论识别的巨大人工标注工作量,然而在优选各个模型的过程中存在着不可避免的误差,使得最终的识别准确率受到影响。在设计决策方面,杨程[7]等人提出了一种基于主成分分析对产品的外观进行多目标决策的方法,通过求解其主成分及其贡献率来构建评价函数模型,这种方法提高了设计评价的客观性和科学性,但是数据量庞大,对于所用服务器的存储能力有一定要求,因而有一定的局限性。近年来,随着水军的行为模式及评论习惯的复杂化,单单仅凭监督学习进行水军识别难以达到预期效果,王梦华[8]提出了一种基于分歧的半监督学习方法来实现虚假评论的检测任务,效果显示更为准确良好。道如那[9]提出了一种基于文本与用户行为挖掘的方法对虚假评论进行了识别,利用svm(支持向量机)、xgboost(极端梯度提升)分类算法搭建了识别模型,虽准确率较高,但是在特征选取方面不是很全面,难以适应兼职水军的大量涌入形势。

随着汽车网站用户评论的日益增多,水军的行为日趋正常化和隐蔽化,以及水军比例的加速扩展,仅仅通过记录和分析id与ip地址的特征来识别评论的真实与否已不能满足当今的趋势,用户评论的识别亟需一个能够涵盖大数据特征的自动识别方法来提高识别的效率与准确率,进而能够及时对产品的改进提出合理的建议与措施,为汽车产品的产业发展增添活力。

参考文献:

[1]李异平,武鹏.网络水军的传播乱象评析[j].网络传播,2011(9):98-99

[2]范秀珍.网络水军的传播机制与治理对策[j].网络传播,2011(7):56-57

[3]莫倩,杨珂.网络水军识别研究[j].软件学报,2014,25(07):1505-1526.

[4]刘健男.基于机器学习的高级水军识别模型[a].中国计算机学会.第33次全国计算机安全学术交流会论文集[c].中国计算机学会:中国计算机学会计算机安全专业委员会,2018:4.

[5]张艳梅,黄莹莹,甘世杰,丁熠,马志龙.基于贝叶斯模型的微博网络水军识别算法研究[j].通信学报,2017,38(01):44-53.

[6]张慧杰.基于多特征尺度空间模型的网络水军组织发现技术研究[d].浙江工商大学,2015.

[7]杨程,孙守迁,刘征,柴春雷.基于主成分分析的产品外观设计决策模型[j].中国机械工程,2011,22(18):2218-2223.

[8]王梦华.基于半监督学习的虚假评论识别研究[d].南京财经大学,2018.

[9]道如那.基于文本与用户行为挖掘的虚假评论识别研究[d].内蒙古大学,2018.



技术实现要素:

本发明提供了一种汽车垂直网站水军甄别方法,本发明通过对汽车垂直网站的某些车型的论坛评论中的真实用户与水军的识别问题进行探究,去伪存真,剔除掉水军用户及其发表的评论,留下真实用户及其评论,为下一步的产品改进与设计提供了参考,详见下文描述:

一种汽车垂直网站水军甄别方法,其特征在于,所述方法包括:

采集汽车垂直网站的用户信息;

深入分析正常用户和水军的区别,构建由用户名特征、粉丝关注比、精华帖特征、活跃度特征、车主特征、文本内容特征组成的六元组特征模型;

在六元组特征模型的基础上结合逻辑回归对水军进行检测识别;

所述用户名特征:

其中,len(number)表示用户昵称中数字的个数或长度,len(name)表示用户昵称的整体字符个数或长度。

所述粉丝关注比:

其中,num(fans)为用户所拥有的粉丝数目,num(observe)为用户的关注数,abs为差值的绝对值。

所述精华帖特征:

其中,num(jinghuatie)表示用户发布的精华帖的个数,num(zhutie)表示用户发布的全部帖子的个数。

所述活跃度特征:

其中,hi为用户对于他人发出的单个帖子的回复数,n为用户回复其他人发出的帖子的总数量。

所述车主特征:

其中,1表示该用户有认证车主的标志,0表示该用户没有认证车主的标志。

所述文本内容特征:t6=count*ad、senw、puc+

其中,ad是程度副词,senw是情感词(同时包括好或坏),puc是不常用的特殊的标点符号,count表示计数。

本发明提供的技术方案的有益效果是:

1、通过本发明可以很好的过滤掉水军留下真实用户,从而保证了信息的真实性,可以更好地服务于买主;

2、本发明还有助于汽车产品的研发团队从真实用户的各类信息中挖掘出最有价值的使用体验以及消费者的偏好等,以利于产品的更新迭代,做出最受消费者欢迎的各类汽车产品。

附图说明

图1是汽车垂直网站水军甄别方法的流程图;

图2是实验数据集部分截图;

图3是本发明识别准确率结果截图;

图4是不同文本分类方法的验证对比结果截图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

本发明是这样实现的,具体包括以下步骤:

1)采集汽车垂直网站的用户信息,具体包括:用户名、发帖时间、发帖内容、所购车型、对车型的各方面评价打分、浏览数、支持数、评论数、购车目的、关注数、是否认证车主、粉丝数、主贴数、精华帖数以及回帖数等等信息,然后存至本地数据库。

2)深入分析正常用户和水军的区别,构建六元组特征模型(t1,t2,t3,t4,t5,t6);

2.1)用户名特征:

其中,len(number)表示用户昵称中数字的个数(或长度),len(name)表示用户昵称的整体字符个数(或长度)。

2.2)粉丝关注比:

其中,num(fans)为用户所拥有的粉丝数目,num(observe)为用户的关注数,abs为差值的绝对值。

2.3)精华帖特征:

其中,num(jinghuatie)表示用户发布的精华帖的个数,num(zhutie)表示用户发布的全部帖子的个数。

2.4)活跃度特征:

其中,hi为用户对于他人发出的单个帖子的回复数,n为用户回复其他人发出的帖子的总数量。

2.5)车主特征:

其中,1表示该用户有认证车主的标志,0表示该用户没有认证车主的标志。

2.6)文本内容特征:t6=count*ad、senw、puc+。

其中,ad是程度副词,senw是情感词(同时包括好或坏),puc是不常用的特殊的标点符号,count表示计数。

3)由于判断一个用户是否属于水军是一个二分类的问题,因此可以在六元组特征模型的基础上结合逻辑回归算法对水军进行检测识别。

其中,逻辑回归是一种广义的线性回归分析模型,尽管名称有回归,但实际上它是用于分类而非回归的线性模型。将整理好的数据集划分为训练集和测试集,将模型在训练集进行训练,然后在测试集上进行预测。

4)为了确保识别水军的有效性还需要进行验证,本发明在上述识别完水军之后将水军用户与真实用户的评论单独筛选抽取、分离了出来,然后采用了三种不同的方法加以对比的将评论文本进行分类,直到每一种方法的准确率均达到了百分之七十七以上才最终确定了本发明的识别方法。

实施例2

下面结合具体的实验对实施例1中的方案进行进一步地验证,详见下文描述:

实验运行环境为:windows7操作系统,3.70ghz,4核处理器,4gb内存,相关软件有python3.6,mysql5.7.17。

本文的实验数据源是采用python软件爬取的汽车类垂直网站的数据,存储在mysql数据库中。

在基于六元组特征模型借助逻辑回归算法识别水军时使用了python软件里的sklearn机器学习模块,调用了该模块里的logisticregressioncv,使用交叉验证自动搜索出了识别准确率最高的正则化系数并且最终的识别率达到了97.8%。

在验证的过程中为了确保可信度本发明同时选用了三种文本分类的方法加以对比,最终结果表明每一种文本分类的方法准确率都不错,这三种文本分类的方法分别是朴素贝叶斯(bayes)、支持向量机(svm)以及长短期记忆人工神经网络(lstm)。

本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1