本发明涉及信息检索领域,尤其涉及一种面向汽车垂直网站的产品信息检索方法。
背景技术:
2017年8月4日,中国互联网络信息中心(cnnic)发布的第40次《中国互联网络发展状况统计报告》显示[1],截至2017年6月,中国网民规模达到7.51亿,占全球网民总数的五分之一。互联网普及率为54.3%,超过全球平均水平4.6个百分点。以互联网为代表的电子商务技术正在加速促进我国消费升级、经济社会转型,也深刻地促进了人们消费习惯的变革。
产品的使用者通过商家的网站、购物门户网站、相关垂直网站和交流社区所发表的对产品的评价,一方面对于其他消费者的消费意愿具有相当程度的影响作用[2],产品的购买者和使用者通过发表对产品在不同使用状况、不同使用周期的真实状态,能够影响处于观望期间的潜在消费者的购买欲望,使其消费更趋理性化[3];另一方面,用户对产品的评论反馈深刻地影响着消费者和企业之间的关系,是企业了解用户需求的重要资源。总是能生产口碑良好产品的公司,更能培育与消费者之间的良好关系并发展为品牌忠诚度[4]。因此,挖掘隐含在产品评论背后的用户情感倾向,能够较为有效地帮助企业发现消费者集中抱怨的缺陷,以迎合消费者的需求[5]。
汽车产品由于价格较高,车型及配置种类繁多,且需要购买者实际体验,因此很难像其他普通消费品一样进行网上购买、配送。也正因如此,汽车垂直网站等网站中用户所发表的口碑(评论)由于包含了车主对所购汽车价格、配置、动力、油耗、售后等方面的评价信息,对于消费者在购买之前进行判断甄别,以及对于企业商家了解产品市场反应、发现自身产品缺陷、调整营销策略都具有极为重要的价值[6]。汽车垂直网站作为最具活力的信息聚焦点,正是用户选车、购车的过程中的最佳导购媒介。因此搜索引擎成为用户在使用汽车类垂直网站进行信息检索时的重要工具。由于汽车产品类型多样、结构复杂以及用户评论在表述形式上的差异,导致检索结果往往并不准确,同时也缺乏对检索结果的个性化排序。
现有的对汽车产品信息进行检索的方式主要为字词匹配,通过存取网页内容,进行分词后建立索引,并构建索引库,针对查询语句完成对数据库的查询,并按照相关性、时间或网页权重进行排序,最终呈现检索结果[7]。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
1)基于字词匹配,难以呈现与用户所要检索内容语义相同或相近的产品信息;
2)新词汇以及变种词汇的不断涌现,检索结果往往难以反映用户真正要检索的信息;
3)检索结果缺乏个性化排序,不能满足某一特定领域、特定人群以及特定需求的检索目标,因此也缺乏对检索结果的个性化排序。
基于此,面向互联网汽车垂直网站,结合文本挖掘与数据处理技术,本发明构建了一种能够提高检索效率和检索准确率的方法。
参考文献
[1]中国网民7.51亿占全球网民五分之一[j].新闻世界,2017,(09):5.
[2]dincerh,haciogluu.performanceevaluationwithfuzzyvikorandahpmethodbasedoncustomersatisfactioninturkishbankingsector[j].kybernetes,2013,42(7):1072-1085.
[3]xiaos,weicp,dongm.crowdintelligence:analyzingonlineproductreviewsforpreferencemeasurement[j].information&management,2016,53(2):169-182.
[4]farrispw,bendlen,pfeiferp,etal.marketingmetrics:thedefinitiveguidetomeasuringmarketingperformance[m].pearsoneducation,2010.
[5]guow,liangry,wangl,etal.exploringsustainedparticipationinfirm-hostedcommunitiesinchina:theeffectsofsocialcapitalandactivedegree[j].behaviour&informationtechnology,2017,36(3):223-242.
[6]袁庆玉,彭赓,刘颖,吕本富.基于网络关键词搜索数据的汽车销量预测研究[j].管理学家(学术版),2011,(01):12-24.
[7]曹树金,陈忆金,杨涛.基于用户需求的图书馆用户满意实证研究[j].中国图书馆学报,2013,39(05):60-75.
技术实现要素:
本发明提供了一种面向汽车垂直网站的产品信息检索方法,本发明解决了传统检索方法中返回结果单一、适应新兴词汇有限、无法对特定用户和特定需求进行个性化排序的问题,详见下文描述:
一种面向汽车垂直网站的产品信息检索方法,所述产品信息检索方法包括以下步骤:
利用爬虫技术抓取多个汽车类垂直网站数据,并以网站—车型—口碑的树形结构存入数据库;
对数据库中的数据格式进行规整及预处理操作,使得来自不同网站的数据格式、命名方式统一;
考虑数据的来源网站、口碑等级、口碑内容、用户等级,构建检索结果评价体系,为检索结果评价体系分配指标权重;
根据检索结果评价体系构建口碑特征向量,并结合情感分析得分,综合口碑的所属网站、口碑等级以及发表信息的用户等级,得到汽车产品信息的检索结果。
所述多个汽车类垂直网站数据具体为:
1)垂直网站数据,包括:网站的反链数、发帖用户数量、以及包含的车型数量;
2)车型数据,包括:垂直网站内的车型类别、车型品牌、以及车型价格区间;
3)口碑数据,包括:用户针对不同汽车属性的评分、用户级别、购车时间、购车地点、口碑内容、口碑等级。
所述对数据库中的数据格式进行规整及预处理操作具体为:
建立车型命名映射表:将不同汽车网站中同一车型的不同名称相互映射,统一命名;
建立汽车属性命名映射表:将不同汽车垂直网站中的汽车属性名称相互映射,统一命名;
删除用户发表的重复口碑,并删除数据项不完善的口碑;构建汽车领域关键词库、停用词库、情感词库以及同义词词库;分词、词性标注及去停用词处理。
进一步地,所述检索结果评价体系具体为:
检索结果评价体系共两级,一级指标为综合检索结果p,二级指标为汽车的相关属性ii,该相关属性ii由专家打分确定。
其中,所述相关属性ii包括:动力、操控、外观、内饰、空间、油耗、舒适性、操控以及售后。
进一步地,所述专家打分具体为:
构建基于专家打分的比较判断矩阵,比较判断矩阵表示当一级指标与二级指标之间存在联系时,二级指标之间相对重要性的比较。
进一步地,所述口碑等级具体为:
其中,所述用户等级具体为:
本发明提供的技术方案的有益效果是:
1、本发明能够在以小时计的时间区段内,快速抓取汽车产品在多个网站上的在线口碑数据,不断更新语料库和文本数据库;
2、本发明能够整合多个汽车垂直网站数据,同时将用户及其发表口碑的等级纳入考量范围,从汽车本体属性角度出发,通过完善相关词典以及构建特征向量,得到更加精准的汽车产品检索结果;
3、本发明通过筛选口碑数据中的购车地点、购车目的、购车时间等信息,能够获得产品在不同时间范围、不同地域、不同需求等考量范围下的检索结果及其变化趋势,针对性的满足消费者及生产企业对产品的细粒度的认知需求。
附图说明
图1为一种面向汽车垂直网站的产品信息检索方法的流程图;
图2为数据存储结构的示意图;
图3为检索结果评价指标体系的示意图;
图4为检索详细操作的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种面向汽车垂直网站的产品信息检索方法,参见图1,该方法包括以下步骤:
101:利用爬虫技术抓取多个汽车类垂直网站数据,并以“网站—车型—口碑”的树形结构存入数据库;
102:对数据库中的数据格式进行规整及预处理操作,使得来自不同网站的数据格式、命名方式统一;
103:考虑数据的来源网站、口碑等级、口碑内容、用户等级,构建检索结果评价体系,为检索结果评价体系分配指标权重;
104:根据检索结果评价体系构建口碑特征向量,并结合情感分析得分,综合口碑的所属网站、口碑等级以及发表信息的用户等级,得到汽车产品信息的检索结果。
综上所述,本发明实施例通过上述步骤101-步骤104实现了面向汽车类垂直网站,能够利用多个网站的不同用户发表的海量口碑信息,提高用户使用汽车垂直网站的整体检索效率和检索准确率。
实施例2
下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:通过数据抓取获取多个汽车垂直网站的用户口碑等相关数据;
其中,该步骤201具体为:
1)根据网页http协议,使用爬虫技术抓取主流汽车类垂直网站的用户口碑数据,将制定好的正则表达式(该表达式为本领域技术人员所公知,本发明实施例对此不做赘述)用于遍历采集网站所有车型,并进一步针对每款车型遍历爬取所有用户发表的口碑信息。
其中,上述抓取的数据具体为:
①垂直网站数据,包括:网站的反链数、垂直网站中发帖用户数量以及垂直网站中包含的车型数量;
②车型数据,包括:垂直网站内包括的车型类别、车型品牌、以及车型价格区间等;
③口碑数据,包括:用户针对不同汽车属性的评分、用户级别、购车时间、购车地点、口碑内容、口碑等级等。
初次抓取后,每24小时对上述若干个数据项进行增量抓取,确保数据的稳定增长和时间上的连续性。
2)将抓取的数据以“网站—车型—口碑”的树形结构存入本地数据库中,如图2所示。
202:数据格式整理、数据清洗及文本预处理;
1)建立车型命名映射表:将不同汽车网站中同一车型的不同名称相互映射,统一命名;
2)建立汽车属性命名映射表:将不同汽车垂直网站中的汽车属性名称相互映射,统一命名,如“舒适性”与“舒适度”等;
3)删除用户发表的重复口碑,并删除数据项不完善的口碑;
其中,数据项不完善的口碑根据实际需要进行确定,本发明实施例对此不做赘述。
4)构建汽车领域关键词库、停用词库、情感词库以及同义词词库。
在对汽车用户口碑进行文本处理时,原有的通用词库并不能覆盖汽车领域的关键词,因此应针对汽车领域构建相应词库,具体包括:
①汽车领域关键词库:以汽车本体结构词汇及产品规格说明书为基础,融合多款中文输入法中的汽车领域词库,辅以人工补充汽车领域的简写词汇、新兴词汇以及与汽车属性相关的附属词汇(如“通过性”、“异响”等),构建汽车领域关键词库;
②停用词库:将与汽车属性及评价相关的停用词从停用词表中删除,将与汽车属性及评价无关的词汇添加至停用词表;
③情感词库:将形容、描述汽车属性的带有情感倾向的形容词及副词添加入情感词(如),能够更加准确的把握用户描述的汽车属性的情感倾向;
④同义词词库:用户在进行口碑评价的时候,不同的用户往往会使用不同的词汇或表述方式描述汽车产品的同一属性(如“大灯”与“前车灯”等),因此应构建同义词词库,便于特征归纳和分类。
5)分词、词性标注及去停用词处理:原始的口碑文本信息包含较多的与汽车产品实体信息无关或相关性较小的信息,这些信息会为后续实体特征提取及情感分析带来噪声,因此应对文本进行精简。
将汽车领域关键词库与停用词库导入中科院推出的中文分词工具ictclas中,将所获得的所有用户口碑信息进行分词、词性标注及去停用词处理,保留与汽车领域相关的名词、名词词组、形容词、副词等。
203:建立汽车产品检索结果二级指标评价体系,并分配二级指标权重;
依据用户在汽车垂直网站发表口碑时的评价项目,以及综合汽车拥有者在日常驾驶过程中关注的汽车属性,建立检索结果评价指标体系,如图3所示。
其中,检索结果评价指标体系共两级,一级指标为综合检索结果p,二级指标为汽车的相关属性ii,i∈[1,9]。分别为动力、操控、外观、内饰、空间、油耗、舒适性、操控以及售后,该相关属性ii由专家打分确定。
应用层次分析法(ahp),构建基于专家打分的比较判断矩阵m(即对相关属性ii进行打分)。比较判断矩阵m表示当一级指标p(此处即为汽车产品检索结果)与二级指标i之间存在联系时,二级指标ii之间相对重要性的比较。比较判断矩阵m的关系式可表示为:
其中,n=9。
比较判断矩阵m表示指标ii和指标ij相对于一级指标p进行比较时,两者相对重要程度的隶属度,根据上述描述得到如下的比较判断矩阵m:
根据矩阵论求解上述比较判断矩阵m,得到比较判断矩阵m的最大特征值对应的特征向量μ*,将其归一化为μ=[μ1,μ2,…,μn]t,即为各个二级指标的权重。
204:计算汽车产品检索结果评价指标。
1)依据汽车产品检索结果二级指标评价体系构建口碑特征向量;
根据步骤203构建的汽车产品检索结果二级指标评价体系,将口碑分句,并针对每一口碑构建形式为
其中,α为产品实体(如某款车型),β为实体α的一个特征属性(如空间、操控、外观设计等特征属性),γ为口碑的发表者,η为口碑发表的时间,
2)运用中文情感分析工具snownlp,对口碑特征向量进行情感计算,获得二级指标i下第j条口碑情感得分dij;
其中,dij∈[0,1],为便于计算,将dij转换到[1,5]区间,dij′=5dij∈[0,5]。
3)调整口碑得分权重;
由于汽车产品检索结果二级指标评价体系的原始数据来自于抓取的汽车垂直网站数据,其可信度受其来源网站、用户级别、口碑等级等因素影响,因此应根据这些因素调整情感分析得分,详细包括:
a)口碑属性c;
口碑等级为各个网站针对用户的口碑所划分的推荐程度。统一设定为精华口碑、推荐口碑以及普通口碑。口碑等级越高,其口碑内容可信度越高。
b)用户属性u;
汽车垂直网站中的用户分为认证用户与非认证用户。认证用户为在网站进行购车信息登记的用户,相应的,非认证用户为仅在网站进行注册但尚未进行购车信息登记的用户。认证用户所发表的口碑评论可信度高于非认证用户所发表内容的可信度。依据经验值,有:
c)网站属性w;
网站的影响力是影响用户消费选择的重要因素。具有较高权威性和认可程度的网站信息,能够通过其影响力获得较大程度的传播,从而影响消费者的消费策略。此处网站的影响力选用网站的反链数(anti-chainnumber)。
反链数是指从别的网站导入到某网站的链接数量,导入链接的质量直接决定了某网站在搜索引擎中的权重。网站的反链数越多,则网站的受关注度及权威性越高。即某个垂直网站的权重为其反链数在所有抓取网站反链数总和的比重,即:
其中,wj为所采集的口碑j所属垂直网站的影响力,bj为口碑j所属垂直网站的反链数,
通过以上属性可得,某款车型第j条口碑针对二级指标i的得分pij=dij′cjujwj。若针对二级指标i共抓取到k条口碑数据,则二级指标i的得分为
综上所述,本发明实施例通过上述步骤可以获得某一车型、某一汽车属性的检索得分,并据此对检索结果进行排序,从而生成基于汽车垂直类网站、面向用户个性化检索需求的检索结果,提高了检索的准确性,满足了实际应用中的多种需要。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。