一种感知数据的评价方法和系统与流程

文档序号:11950780阅读:269来源:国知局

本发明涉及数据分析技术领域,尤其涉及一种感知数据的评价方法和系统。



背景技术:

随着电子商务的发展,快递物流行业得到了长足的发展。快递公司有多家,如何从中选取合适的快递公司需要一个客观的评价标准。但是,目前,市场上尚未出现能够将顾客的感知评论很好的定量分析出来的系统,其中的难点在于评分指标的选取、自然语义分析等。因此,需要提出一种评价方法,能够实现对客户感知数据的自动、定量、标准化评价,以实现不同快递服务提供商之间的比较。

快递物流服务业是典型的生产型服务业,以快递服务业为例提出的评价方法,能对其他服务业认证的开展起到示范作用。



技术实现要素:

鉴于上述的分析,本发明旨在提供一种感知数据的评价方法和系统,用以解决服务行业缺乏统一的认证体系标准来评价的问题。

本发明的目的主要是通过以下技术方案实现的:

感知数据的评价方法,包括以下步骤:

S1.获取感知数据作为训练语料;

S2.对训练语料进行数据预处理和人工标注,得到训练词库;

S3.对训练词库中的词汇进行特征提取,得到特征词典,基于特征词典生成特征向量,并构建训练样本;

S4.创建分类器,利用训练样本训练分类器;

S5.获取待评价的感知数据,对待评价的感知数据进行数据预处理,并构建感知数据向量,再将该感知数据向量输入经过训练的分类器,判断感知数据的类别;

S6.计算待评价感知数据的评价分数。

其中,步骤S2和步骤S5中的预处理进一步包括格式化、分词处理,具体步骤为:

S21.将训练语料中的每一条感知数据进行格式化,转换为同一结构化格式,所述结构化格式至少包括感知数据内容、主题域、关键词、公司名称这4个字段;其中,主题域至少有一个,每个主题域下定义至少一个类别;

S22.将感知数据内容进行分词;对中文感知数据采用中文分词器;对英文感知数据,使用空格分词,且英文分词完成后,使用词干提取的方式归一化时态和单复数。

步骤S2和步骤S5中的预处理还包括停用词、同义词处理,具体步骤为:

a.使用预先建立的停用词表处理分词结果,剔除停用词;

b.使用预先建立的同义词表替换同义词。

所述步骤S2中的人工标注是对主题域及主题域下的类别进行的标注。

步骤S3中,特征提取的方法为:统计训练词库中的各个词汇的词频,根据词频对词汇进行排序,选取前N个词形成特征词典。

特征向量的生成方法具体为:将特征词典中的词数作为特征向量的总维度,特征词典中的每一个词对应着一个特征维度,以此为基础,为感知数据建立特征向量;经过预处理的感知数据中出现了特征词典中的词,则将出现词对应的TF-IDF值作为相应维度的取值;经过预处理的感知数据中未出现特征词典中的词,则对应的特征维度取值为0;所述TF-IDF值是指TF×IDF,TF是指词频;IDF是指反文档频率,IDF=log(D/n),式中n表示词出现的感知数据数目,D为总感知数据数目。

针对主题域,步骤S3中可以为每一个主题域构建训练样本,步骤S4中可以为每个主题域创建一个分类器,分别利用每一个主题域的训练样本训练各自的分类器。分类器可以为采用朴素贝叶斯模型的分类器。

评价分数的计算公式为其中式中,n表示主题域下的类别的数目;Max代表评价系数最高得分;△为评价系数的最高数值减去最低数值;h代表了各个类别,h=1~n;αh是各个类别的评价系数;xCh为各主题域下归属于各个类别的条目数,且满足XCI表示划分为某一主题域的感知数据的数目。

本发明还提供了一种感知数据的评价系统,包括:

训练语料模块,用于获取感知数据作为训练语料;

预处理模块,用于对语料进行预处理;

训练词库模块,用于调用预处理模块对训练语料进行数据预处理,再进行人工标注,得到训练词库;

训练样本模块,用于对训练词库中的词汇进行特征提取,得到特征词典,基于特征词典生成特征向量,并构建训练样本;

训练模块,用于创建分类器,利用训练样本训练分类器;

判断模块,用于获取待评价的感知数据,调用预处理模块对待评价的感知数据进行数据预处理,并构建感知数据向量,再将感知数据向量输入经过训练的分类器,判断感知数据的类别;

评价模块,用于计算待评价感知数据的评价分数。

本发明有益效果如下:

本发明基于顾客感知数据进行评价,该评价与认证体系从指标选取、测评技术到认证模式都不同于传统的产品、体系认证。通过对用户感知数据的统计与计算得到服务质量的得分,以此来为某一服务行业建立统一的认证体系标准。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。

图1为感知数据的评价方法的流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。

根据本发明的一个具体实施例,公开了一种快递服务领域的感知数据的评价方法和系统,感知数据的来源包括但不限于微博、贴吧、大众点评、邮政总局评价网站及各类电商网站的评价内容,也可来源于用户行为日志,用户行为分析等。实施例中的感知数据是指用户针对快递服务的评论。

所述评价方法具体包括如下步骤:

S1.通过URL链接爬取网络上的评论内容作为训练语料。

具体地,可以采用开源的NWebCrawler程序爬取HTML文件,再从HTML文件中提取评价信息。

训练用评论数据的来源分布越广、数据类型收集越全面,则训练出来的分类器越准确,这样后续类别预测的结果越准确,进而最终评分也就越能反映快递公司情况。

S2.对训练语料进行数据预处理和人工标注,得到训练词库;所述数据预处理进一步包括:格式化、分词、停用词、同义词处理等,具体内容为:

S21.格式化训练语料中的每一条评论,转换为同一结构化格式,该格式可以是json或者xml等。结构化格式的字段包括:评论内容、主题域、关键词、公司名称等。其中,可以有多个主题域,在每个主题域下又定义多个级别类。关键词字段的内容是基于原始评论内容提取出来的。

以快递服务领域的某快递公司为例。将主题域确定为功能性、经济性、安全性、时效性、舒适性、文明性这6个,如表1所示。功能性表现个性服务情况;经济性表现价格状况;安全性表现隐私保护、保险及货物完整情况;时效性表现送货速度;舒适性表现是否咨询方便、取送方便、是否提醒及时等;文明性表现公司的服务态度。每个主题域下又定义4个级别类,分别为很好、好、差、很差。当然,时效性对应的4个级别类对应表述也可以是:很快、快、慢、很慢;经济性对应的4个级别类对应表述可以是:很便宜、便宜、贵、很贵。

S22.将结构化后的评论内容进行分词。其中,如果评论是中文,则采用中文分词器;如果是英文,则使用空格进行分词,且在英文分词完成后使用词干提取的方式归一化时态和单复数。具体地,可以采用ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System,汉语词法分析系统)和IK Analyzer(IK分词器)等分词工具作为中文分词器。

S23.使用预先建立的停用词表对分词结果进行处理,剔除停用词。其中,停用词包括没有实际意义的字或者词,如“的、了、不但、而且、虽然、但是”等,以及一些生僻字和特殊符号。

S24.使用预先建立的同义词表对训练词库中的同义词进行替换,使得所有同义词均用一个词来表示。

表1主题域及其级别类

S25.人工标注训练语料中每条评论涉及的主题域及主题域下的级别类。需要说明的是一条评论可以涉及多个主题域,但一条评论在每个主题域下只能对应一个级别类。例如,某一条评论涉及的主题域为安全性和时效性,根据语义人工在安全性中标注级别为“好”,在时效性中标注级别为“慢”。如果某一条评论和各个主题域都无关,则删除该评论。

S26.将经过分词、停用表、同义词处理的词汇分主题域以向量的形式存储为对应各个主题域的训练词库。

S3.对训练词库中的词汇进行特征提取,得到特征词典,由特征词典生成各评论的特征向量,以每一个主题域中所涉及的特征向量和人工标注的级别类构成各主题域的训练样本。

其中,特征提取的方法为:统计训练词库中的各个词汇的词频,选取前N(N≥1)个高频词作为特征词典。

特征向量的生成方法为:统计特征词典的词数(总维度),每一个词对应着一个特征维度。以此为基础,为每一评论建立特征向量。经过预处理的评论中出现了特征词典中的词,则将该词对应的TF-IDF值作为相应维度的取值;评论中未出现的特征词典中的词,则对应的特征维度取值为0。

特征向量的形式如:

表示:经过预处理的一评论中出现3个特征词典中的词,分别对应特征词典第1维、第32维和第80维度的词,那么该条评论的特征向量在第1维、第32维和第80维度上的取值为这3词的TF-IDF值,即0.1、0.4、0.32,其他维度的特征向量取值均为0。0表示特征词典中该维度对应的词在评论中并未出现。

上述TF-IDF值是指TF×IDF,TF是指词频;IDF是指反文档频率,IDF=log(D/n),式中n表示该词出现的评论数,D为总评论数。

S4.为每个主题域创建一个分类器,利用各主题域的训练样本训练对应的分类器。该分类器将用于预测评论所在主题域中的级别类。

实施例采用朴素贝叶斯模型作为分类器,分类原理是判断特征属于各个类别的概率,然后取概率最大的类别作为分类结果。本发明不局限于朴素贝叶斯模型,也可以采用SVM(支持向量机)分类器等其他分类器。

S5.通过URL链接爬取针对某一公司的评论,对评论进行数据预处理,并构建评论向量,再将该评论向量输入经过训练的分类器,判断各评论在其所涉及主题域中的级别类,进而能够获取该公司在各个主题域上的级别分布情况。

其中,数据预处理包括格式化、分词、停用词处理等。

S51.将爬取的评论转换为同一结构化格式,该格式可以是json或者xml等。结构化格式的字段包括:评论内容、主题域、关键词、公司名称等。

S52.将结构化后的评论内容进行分词,分词方法同步骤S23。

S53.使用预先建立的停用词表对分词结果进行处理,剔除停用词。所述停用词表与步骤S24中使用的相同。

S54.评论特征向量的构建方法为:将上述数据预处理后的词汇与特征词典进行比较,若特征词典中的词出现在上述数据预处理后的词汇中,则获取该词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值;若特征词典中的词没有出现在上述数据预处理后的词汇中,则该词相应位置的特征值为0。

以快递公司在时效性主题域为例,经过分类器判断,各级别的分布情况如表2。

表2某快递公司在时效性主题域上各级别的分布情况

S6.计算上述公司在各个主题域上的评价分数。

基于上述公司在一主题域上的级别类分布情况,计算该公司在该主题域上的得分KCI,计算公式为其中

式中,n表示主题域下的级别类的数目;

Max代表评价系数最高得分;

△为评价系数的最高数值减去最低数值;

h代表了各个级别类,h=1~n;

αh是各个级别类的评价系数,评价系数的取值可以根据需求进行改动;

xCh为针对该公司的评论在某一主题域下,归属于各个级别类的条目数,且满足

XCI表示对C公司评论划分为主题域I的评论数。

以表2中某快递公司在时效性主题域上级别类的分布情况为例,对评价分数的计算进行说明。各主题域分布设定了4个级别类,即n=4,h=1、2、3、4;各个级别类的评价系数设定为α1=1.2、α2=1、α3=-1、α4=-1.2。因此公式为

<mrow> <msub> <mi>K</mi> <mrow> <mi>C</mi> <mi>I</mi> </mrow> </msub> <mo>=</mo> <mn>5</mn> <mo>-</mo> <mfrac> <mrow> <mn>4</mn> <mo>*</mo> <mrow> <mo>(</mo> <mn>1.2</mn> <mo>-</mo> <msub> <mi>R</mi> <mrow> <mi>C</mi> <mi>I</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mn>2.4</mn> </mfrac> </mrow>

其中,

将RCI的值代入公式KCI

<mrow> <msub> <mi>K</mi> <mrow> <mi>C</mi> <mi>I</mi> </mrow> </msub> <mo>=</mo> <mn>5</mn> <mo>-</mo> <mfrac> <mrow> <mn>4</mn> <mo>*</mo> <mrow> <mo>(</mo> <mn>1.2</mn> <mo>-</mo> <msub> <mi>R</mi> <mrow> <mi>C</mi> <mi>I</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mn>2.4</mn> </mfrac> <mo>=</mo> <mn>3.1167.</mn> </mrow>

即表示该快递公司在主题域“时效性”上的得分为3.1167。

本发明公开了另一个具体实施例,提供了一种上述实现感知数据评价方法的感知数据的评价系统,包括:

训练语料模块,用于实现步骤S1获取感知数据作为训练语料;

预处理模块,用于对语料进行预处理;所述预处理可以包括格式化、分词,进一步可以包括停用词、同义词处理等,具体处理方式如上述步骤S21至S24所述;

训练词库模块,用于调用预处理模块对训练语料进行数据预处理,再进行人工标注,得到训练词库;其中,人工标注可以是标注训练语料中每条评论涉及的主题域及主题域下的级别类;

训练样本模块,用于对训练词库中的词汇进行特征提取,得到特征词典,基于特征词典生成特征向量,并构建训练样本;具体地可以采用上述步骤S3的方法;

训练模块,用于创建分类器,利用训练样本训练分类器,具体可以采用上述步骤S4中的方法;

判断模块,用于获取待评价的感知数据,调用预处理模块对待评价的感知数据进行数据预处理,并构建感知数据向量,再将感知数据向量输入经过训练的分类器,判断感知数据的类别,具体可以采用上述步骤S5中的方法;

评价模块,用于计算待评价感知数据的评价分数,其中计算方法如步骤S6所述。

综上所述,本发明实施例提供了一种快递服务领域的感知数据的评价方法和系统,将用户评价进行分类、量化,提出了对快递公司服务的评分方法,以此建立快递服务行业统一的评价标准。

本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1