基于文本挖掘的医疗器械o2o服务质量评价模型的制作方法

文档序号:8472987阅读:141来源:国知局
基于文本挖掘的医疗器械o2o服务质量评价模型的制作方法
【技术领域】
[0001] 本发明属于电子商务领域,具体涉及020服务质量评价技术,特别地涉及基于文 本挖掘的医疗器械020服务质量评价模型。
【背景技术】
[0002] 近年来,随着电子商务的飞速发展,促使信息与实物之间、线上与线下之间的联系 变得愈加紧密,020(0nlineToOffline)商务模式也应运而生。020是将线下商务的机会与 互联网进行结合,把互联网变为线下交易的前台。通过这种方式,线下服务就可以通过线上 网络来揽客,消费者也可以在网络上来筛选服务,以及网上执行在线成交与结算。由于020 模式下推广效果及每笔交易都可跟踪,因而受到越来越多商家青睐。有研宄表明,2012年美 国线上消费约占8%,线下消费的比例高达92% ;在中国,这一比例分别为3%和97%。二 者比例存在如此大的悬殊,大有潜力可挖。因此,这几年020模式被国内众多公司所采纳。 然而,网上交易给消费者带来便利的同时,也带来了交易风险、信任和产品服务等方面的问 题。在我国,医疗器械目前是被作为较特殊的商品来管控的,网上交易医疗器械大多通过具 有"互联网药品交易服务资格证书"的医疗器械B2B网站进行,一些传统通过实体店销售医 疗器械的商家只要在具有交易服务资质的平台上注册为卖家即可在医疗器械B2B网站开 展销售业务,为了对医疗器械020服务质量进行客观评价和防范风险,建立评价模型对提 供020服务的运营方来说是一件非常重要和有意义的工作。
[0003] 目前,针对医疗器械020服务质量评价的模型尚鲜有,在此,以B2C网站的服务质 量评价模型为例做对照说明,从其模型的指标构成来看,指标基本由网站的可用性、易用 性、完整性、信誉评价等组成,对这些指标分配权重后即构成服务质量评价模型。这种模型 虽然在一定程度上能对服务质量进行评价,但是普遍存在如下问题:
[0004] (1)模型指标的选取具有主观性,所建模型的公正性值得考虑;
[0005] (2)模型参数的权重缺乏反馈与调整机制,权值一旦确定只能通过人工去更改,无 法根据最新形式,自适应调整。

【发明内容】

[0006] 本发明的目的是针对现有医疗器械020服务质量评价模型的不足之处,基于文本 挖掘来对网站、客户留言、聊天记录等文本信息进行挖掘,得到模型的指标以及模型的表示 方式,来建立客观、自适应的医疗器械020服务质量评价模型。
[0007] 为达到上述目的,本发明采用如下技术方案,包含如下内容:
[0008] 1、基于文本挖掘的医疗器械020服务质量评价模型,其特征在于,包括:服务质量 文本挖掘模块和服务质量模型库模块共两个模块,其中,
[0009] 所述服务质量文本挖掘模块,用于对医疗器械网站上的论坛、顾客回复、客户聊天 记录里的文本信息进行挖掘,抽取出服务质量相关的信息,进行建模,包括:爬取互联网文 本、分析文本、提取服务质量评价特征和执行挖掘共四个步骤;
[0010] 所述服务质量模型库模块包括模型参数选取和多元线性回归建模两个过程,其 中,
[0011] 模型参数选取:采取Delphi专家意见法,根据专家反馈的意见确定用于服务质量 评价的参数由服务评分、诚信评分、留言评分、受罚次数共4项参数构成,参数的权重通过 采用AHP层次分析法来确定;
[0012] 多元线性回归建模:根据医疗器械网站的历史数据及所选出的参数,建立的多元 回归模型形式如下:
[0013] Y=a+0 ^Xi
[0014] 式中,Y指服务质量评价分,a是截距项,i取1到4,即4项参数;0指回归系数, 由最小二乘法估算得出;Xi指回归变量,S卩:经过数据预处理后可供回归计算用的4项指标 数值。
[0015] 2、基于权利要求1所述的基于文本挖掘的医疗器械020服务质量评价模型,其特 征在于包括:爬取互联网文本、分析文本、提取服务质量评价特征和执行挖掘共四个步骤, 其中,
[0016] 步骤1 :爬取互联网文本;
[0017] 指对给定的互联网url网址进行文本的抓取与保存,具体过程是网络爬虫首先从 初始url处获得初始网页的域名,接着在抓取到网页时,不断从所抓的当前页面上获取新 的url,将其放入候选队列,直到满足停止条件时,爬取结束;
[0018] 步骤2:分析文本;
[0019] 指对爬取下来的文本进行分词和词性标注,其中,分词采用基于字符串的最大正 向匹配法,词性标注采用隐马尔可夫方法,最大正向匹配法是假设词典中最大词条所含的 汉字个数为n个,并且取待处理字符串的前n个字为匹配字段,再查找分词词典,若在词典 中发现含有该词,则匹配成功,将该词分出,然后从被比较字符串的n+1处重新开始取n个 字组成的字段继续在词典中匹配;如果匹配不成功,则剔除掉这n个字组成的字段的最后 一位,用剩余的n-1个字组成的字段继续在词典中进行匹配,如此进行下去,直到切分成功 为止;
[0020] 步骤3 :提取服务质量评价特征;
[0021] 指采用向量空间模型来提取服务质量评价特征,向量空间模型里每个词称为一个 特征项,其表示形式为V(d)=U1,O1(d);…;tn, ?n(d)),其中的tji= 1,2,…,n)为 特征项词条,Wi(Cl)为特征项在文本中的权重,以相对词频来表示特征项的权重,通过运用 TF_IDF(Term Frequency-Inverse Document Frequency)公式得出,本发明的权重的计算 公式如下,
【主权项】
1. 基于文本挖掘的医疗器械020服务质量评价模型,其特征在于,包括;服务质量文本 挖掘模块和服务质量模型库模块共两个模块,其中, 所述服务质量文本挖掘模块,用于对医疗器械网站上的论坛、顾客回复、客户聊天记录 里的文本信息进行挖掘,抽取出服务质量相关的信息,进行建模,包括:爬取互联网文本、分 析文本、提取服务质量评价特征和执行挖掘共四个步骤; 所述服务质量模型库模块包括模型参数选取和多元线性回归建模两个过程,其中, 模型参数选取:采取Delphi专家意见法,根据专家反馈的意见确定用于服务质量评价 的参数由服务评分、诚信评分、留言评分、受罚次数共4项参数构成,参数的权重通过采用 AHP层次分析法来确定; 多元线性回归建模;根据医疗器械网站的历史数据及所选出的参数,建立的多元回归 模型形式如下: Y=a+ 0 讯 式中,Y指服务质量评价分,a是截距项,i取1到4,即4项参数;0指回归系数,由 最小二乘法估算得出;Xi指回归变量,即;经过数据预处理后可供回归计算用的4项指标数 值。
2. 基于权利要求1所述的基于文本挖掘的医疗器械020服务质量评价模型,其特征在 于包括:爬取互联网文本、分析文本、提取服务质量评价特征和执行挖掘共四个步骤,其中, 步骤1 ;爬取互联网文本; 指对给定的互联网url网址进行文本的抓取与保存,具体过程是网络爬虫首先从初 始url处获得初始网页的域名,接着在抓取到网页时,不断从所抓的当前页面上获取新的 url,将其放入候选队列,直到满足停止条件时,爬取结束; 步骤2 ;分析文本; 指对爬取下来的文本进行分词和词性标注,其中,分词采用基于字符串的最大正向匹 配法,词性标注采用隐马尔可夫方法,最大正向匹配法是假设词典中最大词条所含的汉字 个数为n个,并且取待处理字符串的前n个字为匹配字段,再查找分词词典,若在词典中发 现含有该词,则匹配成功,将该词分出,然后从被比较字符串的n+1处重新开始取n个字组 成的字段继续在词典中匹配;如果匹配不成功,则剔除掉该n个字组成的字段的最后一位, 用剩余的n-1个字组成的字段继续在词典中进行匹配,如此进行下去,直到切分成功为止; 步骤3 ;提取服务质量评价特征; 指采用向量空间模型来提取服务质量评价特征,向量空间模型里每个词称为一个特 征项,其表示形式为V(d)=扣,(d);…;t。,w"(d)),其中的ti(i= 1,2,…,n)为特 征项词条,《i(d)为特征项在文本中的权重,W相对词频来表示特征项的权重,通过运用 TF-IDF(TermRrequen巧-InverseDo州mentRrequency)公式得出,本发明的权重的计算 公式如下,
上式中,k表示词库的维度;tfu表示特征词出现的频率;N表示语料库中文档总数; 壯J表示语料库中包含词的文档数; 步骤4 ;执行挖掘; 指对文本进行分类与聚类的挖掘,其中,文本分类分为训练和分类两个阶段,文本聚类 则采用K均值聚类法,包括如下过程: 过程1;初始化目标分类数K;即对爬取下来的文档集合D二化,d2,…,山…,屯}指定 目标分类数K; 过程2 ;产生聚类中屯、;指按照某种原则产生初始的聚类中屯、; 过程3;执行聚类;根据相似性度量3山化,〇山将其分配到最相似^9111:^{^'/",1('/八:)} 的类别中; 过程4;重新计算聚类中屯、; 过程5 ;进行判断;判断是否满足结束条件,如果不满足,则返回过程3直到聚类结果满 足要求。
【专利摘要】本发明属于电子商务领域,具体为基于文本挖掘的医疗器械O2O服务质量评价模型。本发明的特征在于,包括:服务质量文本挖掘模块和服务质量模型库模块,其中,文本挖掘包含四个步骤,步骤1:爬取互联网文本;步骤2:分析文本;步骤3:提取服务质量评价特征;步骤4:执行挖掘。服务质量模型库模块包括模型参数选取和多元线性回归建模两个过程。与现有评价模型相比,本发明优点:(1)模型指标的选取考虑了用户对所购医疗器械的评论,以文本挖掘获取用户对服务的真实宣泄,从而使评价模型较客观和公正;(2)在模型参数权重的确定上引入了反馈与调整机制,使之能依据文本挖掘所得结果及时自适应更新,从而提升服务质量评价的准确性。
【IPC分类】G06Q30-00, G06F17-30
【公开号】CN104794154
【申请号】CN201510107415
【发明人】邓志龙, 戴永辉, 赵卫东, 戴伟辉
【申请人】南通天呈医流互联网技术有限公司
【公开日】2015年7月22日
【申请日】2015年3月11日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1