一种在线服务评价信息确定方法及设备的制造方法

文档序号:10625206阅读:184来源:国知局
一种在线服务评价信息确定方法及设备的制造方法
【专利摘要】本申请公开了一种在线服务评价信息确定方法。在通过文本预处理获取待处理的在线服务的信息记录的关键词后,根据预设的关键词数据库为各关键词赋予数值,并根据各关键词的数值确定与信息记录对应的权重值,最后判断权重值是否大于预设的阈值,基于判断结果为在线服务设置正面或负面评价信息。从而实现了针对在线服务质量的自动检测以及评价,在保证公正的基础上提高了检查的效率。
【专利说明】
-种在线服务评价信息确定方法及设备
技术领域
[0001] 本申请设及通信技术领域,特别设及一种在线服务评价信息确定方法。本申请同 时还设及一种在线服务评价信息确定设备。
【背景技术】
[0002] 随着移动互联网时代的到来,越来越多的商家开始在网上提供服务。运些服务因 其快捷性,受到了越来越多商家的喜欢。随着服务量的增加,各种售前,售后服务需求量急 剧增加。通常运种服务是由电话呼叫中屯、承接,然而电话呼叫,因为其成本较高,应用受到 一定限制。相比之下,在线客服作为一种低成本的解决方案,受到了商家的欢迎。
[0003] 随着在线客服服务量的增加,在线客服聊天记录成为发现用户声音的一种重要渠 道。用户的声音包含着对产品,流程W及服务本身的期许和评价。发现运些客户的声音,对 于产品质量的提升,流程优化都有着重要的意义。同时,在线聊天记录也可W用来检测商家 提供的服务质量本身。
[0004] 在目前的现有技术中,为了实现针对在线服务的评价,通常通过人工抽检来发现 用户对于产品或是服务本身的评价。但是运种方法耗时耗力,且覆盖有限。同时,不同的人 进行抽检,也存在标准难W统一等缺点。

【发明内容】

[0005] 本申请提供一种在线服务评价信息确定方法,W帮助发现客户对于产品的观点, W及商家提供服务本身的缺陷。
[0006] 本申请实施例提供了一种在线服务评价信息确定方法,包括:
[0007] 通过文本预处理获取待处理的在线服务的信息记录的关键词;
[0008] 根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键词的数值 确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正面评价信息的在 线服务的信息记录中的正面关键词;
[0009] 判断所述权重值是否大于预设的阔值;
[0010] 若判断结果为是,为所述在线服务设置正面评价信息;
[0011] 若判断结果为否,为所述在线服务设置负面评价信息。
[0012] 优选的,通过文本预处理获取待处理的在线服务的信息记录的关键词,具体为:
[0013] 对所述信息记录进行分词处理W及句法分析处理,获取所述信息记录中的各词 语;
[0014] 对所述各词语进行同义词转换W及停顿词过滤处理,将处理后所得到的词语作为 所述关键词。
[0015] 优选的,根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键 词的数值确定与所述信息记录对应的权重值,具体为:
[0016] 对各所述关键词进行卡方检验,将卡方值大于预设阔值的关键词设置特征;
[0017] 为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的 关键词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量;
[0018] 获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所 述权重值。
[0019] 优选的,在为所述在线服务的设置正面或负面评价信息之后,还包括:
[0020] 根据预设的语法规则分别确定与所述在线服务对应的服务提供方W及服务接收 方的情绪信息;
[0021] 根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。
[0022] 优选的,在通过文本预处理获取待处理的在线服务的信息记录的关键词之前,还 包括:
[0023] 从消息数据库的记录信息中提取在线服务的关键词;
[0024] 根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键 词W及负面关键词;
[00巧]根据所述正面关键词生成所述关键词数据库。
[00%] 本申请实施例还提供了一种在线服务评价信息确定设备,包括:
[0027] 获取模块,用于通过文本预处理获取待处理的在线服务的信息记录的关键词;
[0028] 赋值模块,用于根据预设的关键词数据库为各所述关键词赋予数值,并根据各所 述关键词的数值确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正 面评价信息的在线服务的信息记录中的正面关键词;
[0029] 判断模块,用于判断所述权重值是否大于预设的阔值;
[0030] 设置模块,用于当所述判断模块判断结果为是时,为所述在线服务设置正面评价 信息;W及当所述判断模块判断结果为否时,为所述在线服务设置负面评价信息。
[0031] 优选的,所述获取模块,具体用于:
[0032] 对所述信息记录进行分词处理W及句法分析处理,获取所述信息记录中的各词 语;
[0033] 对所述各词语进行同义词转换W及停顿词过滤处理,将处理后所得到的词语作为 所述关键词。
[0034] 优选的,所述赋值模块,具体用于:
[0035] 对各所述关键词进行卡方检验,将卡方值大于预设阔值的关键词设置特征;
[0036] 为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的 关键词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量;
[0037] 获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所 述权重值。
[0038] 本在线服务评价信息确定,还包括:
[0039] 处理模块,用于根据预设的语法规则分别确定与所述在线服务对应的服务提供方 W及服务接收方的情绪信息;
[0040] 根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。
[0041] 本在线服务评价信息确定,,还包括:
[0042] 生成模块,用于从消息数据库的记录信息中提取在线服务的关键词;
[0043] 根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键 词W及负面关键词;
[0044] 根据所述正面关键词生成所述关键词数据库。
[0045] 由此可见,通过应用本申请的技术方案,在通过文本预处理获取待处理的在线服 务的信息记录的关键词后,根据预设的关键词数据库为各关键词赋予数值,并根据各关键 词的数值确定与信息记录对应的权重值,最后判断权重值是否大于预设的阔值,基于判断 结果为在线服务设置正面或负面评价信息。从而实现了针对在线服务质量的自动检测W及 评价,在保证公正的基础上提高了检查的效率。
【附图说明】
[0046] 图1为本申请提出的一种在线服务评价信息确定方法的流程示意图;
[0047] 图2为本申请具体实施例所提出的一种呼叫中屯、在线服务进行情感分析的流程 图;
[0048] 图3为本申请提出的一种在线服务评价信息确定设备的结构示意图。
【具体实施方式】
[0049] 针对现有技术中的缺陷,本申请实施例一提出了一种在线服务评价信息确定方 法,包括W下步骤:
[0050] 步骤101,通过文本预处理获取待处理的在线服务的信息记录的关键词;
[0051] 具体的关键词获取过程可W如下:
[0052] 对所述信息记录进行分词处理W及句法分析处理,获取所述信息记录中的各词 语;对所述各词语进行同义词转换W及停顿词过滤处理,将处理后所得到的词语作为所述 关键词;例如信息记录为"我喜欢中国",可W对其进行分词处理,例如"我\喜欢\中国 及"我喜\欢\中国",然后基于句法分析处理,可W将"我喜\欢\中国"排除,然后获取 "我\喜欢\中国"中的各词语"我","喜欢","中国",而"我"的同义词有"自己","吾"等 等,"喜欢"的同义词有"喜爱"等等,若信息记录中存在停顿词,例如"呢","那个"等等,贝U 将其排除出去,处理之后剩下的词语就作为关键词。
[0053] 而具体的,在步骤101之前,也即在通过文本预处理获取待处理的在线服务的信 息记录的关键词之前,还包括:从消息数据库的记录信息中提取在线服务的关键词;根据 所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键词W及负面关 键词;根据所述正面关键词生成所述关键词数据库。
[0054] 在实际的场景中,信息都是会被保存在消息数据库中的,而其中的一些记录的消 息中是含记录信息有用户的评价的,例如好评,差评等,通过用户的评价对相应记录消息中 的关键词进行划分,具体的可W划分为正面关键词和负面关键词,例如存在用户的评价为 好评的信息中存在关键词"质量好",该关键词即为正面关键词,在划分好关键词之后,基于 所获取的正面关键词生成所述关键词数据库。
[0055] 步骤102,根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键 词的数值确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正面评价 信息的在线服务的信息记录中的正面关键词;
[0056] 具体的确定权重值的过程如下:
[0057] 首先对各所述关键词进行卡方检验,将卡方值大于预设阔值的关键词设置特征; 由于关键词中有一些是没有用的,因此对需要将没有用的关键词进行剔除,为此对各所述 关键词进行卡方检验,也即确定各关键词的卡方值,若卡方值小于预设阔值,则说明是无用 的关键词,可W剔除,只留下大于预设阔值的关键词,并为其设置特征。
[0058] 为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的 关键词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量;例如关 键词A的卡方值大于预设阔值,且关键词A也出现在在关键词数据库中,则将关键词A的特 征赋予1,而若是关键词B的卡方值大于预设阔值,但关键词B没有出现在关键词数据库中, 则为关键词B的特征赋予0,并基于关键词A和B的特征赋值生成对应的向量,也即1和0 的向量。
[0059] 获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所 述权重值。整条消息中包括多个关键词,有些关键词可能是负面的,有些可能是正面的,而 整条消息是否正面,则需要全面的考虑所有关键词。例如消息1中包括关键词1(对应特征 赋予1),关键词2 (对应特征赋予1),关键词3 (对应特征赋予0),通过Ξ个关键词的特征赋 值生成的Ξ个向量,将该Ξ个向量进行逻辑斯蒂梯度计算处理后,会得到一个梯度值,该梯 度值即为消息1的权重值。
[0060] 步骤103,判断所述权重值是否大于预设的阔值;若判断结果为是,为所述在线服 务设置正面评价信息;若判断结果为否,为所述在线服务设置负面评价信息。
[0061] 在为所述在线服务的设置正面或负面评价信息之后,还包括:根据预设的语法规 则分别确定与所述在线服务对应的服务提供方W及服务接收方的情绪信息;根据所述信息 记录中的情绪词和产品或人员词之间的距离进行对象属性判断。
[0062] 在获取到消息是正面评价信息还是负面评价信息之后,而消息可能是服务提供方 或者服务接收方发送的,假设是消息2是服务接收方提供的,其中包含了服务接收方的情 绪信息,例在此情况下,还需要进一步判断情绪所针对的对象,例如服务接收方的情绪是负 面的,且负面情绪针对的是物流速度慢,W此可W基于所针对的问题,全面的而细致的了解 服务提供方提供服务本身的缺陷W及和服务接收方对于产品的观点,W便后续做出针对性 的改进。
[0063] 为了进一步阐述本申请的技术思想,现结合具体的应用场景,对本申请的技术方 案进行说明。W下首先将简要概述本申请的主要流程:
[0064] 1.新词发现处理流程
[0065] 在该流程中,先对所有的文本进行学习,通过分布式算法,计算信息赌,互信息等 统计量,并利用运些统计量来自动发现和呼叫中屯、在线服务领域相关的新词。
[0066] 2.情感词典获取流程
[0067] 在该流程中,利用用户已经进行评价的数据,获取基于呼叫中屯、领域在线服务的 情感词典。
[0068] 3.基于对话进行情感分析
[0069] 利用用户已经进行评价的数据,建立分布式逻辑斯蒂类器。利用专家知识,建立启 发式的分类器。
[0070] 4.基于属性进行情感分析:对于上一步骤已经判断的情感分析结果,进一步分 析,用户的负面情感的对象是产品,流程,还是服务本身。
[0071] 基于W上流程概述,W下将详细介绍流程的实现步骤,如图2所示,为根据本申请 具体实施例所提出的一种呼叫中屯、在线服务进行情感分析的流程图,包含W下步骤:
[0072] 步骤201 :对在线文本进行新词发现,得到新词词典。
[0073] 具体地,该步骤首先进行数据入库处理,将所有对话聊天记录装载入分布式数据 库中,W便后续分布式算法可W进行新词发现。建立基于Map Re化ce的新词发现算法,通 过Map Re化ce来计算互信息和信息赌,发现特定领域的新词。
[0074] 步骤202 :基于已经评价的对话,自动获取负面情感词典。
[0075] 具体地,该步骤基于已经评论的对话,自动获取负面情感词典包括种子词汇的获 取,迭代获取新词。通过卡方获取种子词汇,基于曼哈顿距离进行新的情绪词发现。
[0076] 步骤203:基于新词词典和情感词典,建立基于机器学习的分布式的分类器和基 于规则的启发式分类器。
[0077] 具体地,该步骤基于新词词典和情感词典,建立基于机器学习的分布式的分类器 和基于规则的启发式分类器。其中包含,通过分布式随机梯度算法来建立分类器。通过句 法分析,专业知识,正则表达式等建立基于规则的启发式分类器。
[0078] 步骤204:对步骤203所发现的具有负面情绪对话,进行属性分析,从而得到负面 情绪的对象。
[0079] 具体地,该步骤对步骤103所发现的具有负面情绪对话,进行属性分析,从而得到 负面情绪的对象具体可W包含,产品的负面评价,流程的负面评价,服务本身负面评价。利 用标注数据,建立基于条件随机场的分类器和基于规则的启发式分类器。
[0080] 对于W上过程中的新词发现处理流程,W下面将结合一个具体事例,进行更详细 的说明。
[0081] 几乎所有的中文自然语言处理都面临着一个难题,分词问题。分词是所有后续进 行分析的基础。虽然当前主流的分词方法,都有着较高的准确率。但是,运些分词方法对于 未登录词,也就是领域相关词汇,并不具有很好的区分效果。而运些领域相关词汇,对于后 续整个分析有着至关重要的作用。运样,为了保持后续分析的正确性,需要进行新词发现。 同时,因为新词是随着时间的变化而不断的变化,此模型需要反复训练。本申请采取基于 bash, Python脚本进行自动化训练的方法。因为,呼叫中屯、在线服务领域每天都会有大量 服务记录产生,为了能更快速的进行新词发现。故实施了分布式的新词发现算法。该方法 包含步骤如下: 阳082] 步骤a),通过Bash脚本和Python脚本实现自动化数据交互。
[0083] 为了更好的进行数据分析,本申请采取在本地进行小规模训练。大规模训练采取 分布式算法的方式。首先通过cront油命令设置定时任务,例如,每天早晨10点运行指定 shell脚本。随后,shell脚本调用Python命令,生成sql文件。在sql文件中,指定需要 进行新词发现的对话记录的开始日期和结束日期。最终,shell脚本调用阿里云提供的命 令〇化3畑1(1,执行相关的sql,生成准备数据。
[0084] 步骤b),对数据库中聊天记录进行分析,利用基于Map Re化ce的新词发现算法, 进行新词发现。
[00化]具体地,基于数据库中聊天记录所进行的新词发现具体流程如下:
[0086] (1)定义所待发现新词最大长度,此处设置N = 5。即词的最大长度为5。考虑到 呼叫中屯、中有大量的专用短语,故设置最大长度较长。
[0087] (2)对于一个短句,C1C2C3…C。。其中Cl表示第一个字符,C。表示第η个字符。下面举 例说明,对于如下的短句,"请提高服务质量"。Cl为"请",C2为"提",Ce为"量"。候选新词可W 分为二元词,Ξ元词,四元词,五元词。其中二元词为CiC2,C2C3, . . .,C。iC。。对于上面的例句, 二元词为,"请提","提高","高服","务质","质量"。Ξ元词为C1C2C3, C2C3C4. . . C。2, C。1,C。。 四兀词为 C1C2C3C4. . . C。3。。2。。1。。。五兀词为。1。2。3。4。5· · · C。4。。3。。2。。1。。。
[0088] (3)对于每一个候选词,统计候选词左邻居词出现的次数,统计候选词右邻居出现 的次数,统计组合词出现的次数。下面举例说明左邻居,右邻居,组合词的定义。例如,对于 如下分句,"你的服务质量不好"。"服务"一词的左邻居为"的",右邻居为"质"。对于每个 词,统计其可能组成词的次数。二元词"服务"的组成词为"服","务"。对于Ξ元词"服务 质"为"服务","质","服","物质"。W上步骤,可W通过一个MapRe化ce过程完成。
[0089] (4)在W上MapRe化ce过程中,左邻居标记为"L:候选词:左邻居",右邻居标记为 "R:候选词:右邻居"。
[0090] 妨计算每个词的左邻居的信息赌,每个词的右邻居的信息赌。计算公式如下
[0091] entropy (W) Σ t E {neighbor of w}-p (t) 1〇甜(t) 阳09引在Map过程中,输入过程中的key为,L:候选词:左邻居,输出过程中ou化ut的 key为L:候选词,value为左邻居。在Re化ce过程中,统计每个邻居出现的概率,通过信息 赌公式来计算信息赌。对于右邻居采用相同的方法来计算。
[0093] (6)计算互信息,对于一个词,词的互信息定义如下
[0094]
[00巧]词的互信息计算并行化需要进行两个mapre化e过程。
[0096] (7)第一个mapre化ce的计算过程如下,在map过程中,将一个词拆成多个组合词。 对于每一个组合词的,key为,组合词:候选词,value为出现的次数。此mapre化ce不需要 reduce 过程。
[0097] (8)对于上步骤中的结果,Map过程中,key为候选词,value为组合词和次数。在 re化ce过程中,遍历候选词所有的互信息,选择互信息最低的值为该词的互信息
[0098] (9)设置左邻居,右邻居,互信息的阔值,并且按照词频逆序排列。此步骤可W通过 0化8 S化来完成。
[0099] (10)比较算法计算出来的新词和已经存在词库中的新词,将新词添加到本地数据 库中。
[0100] W上为新词发现的具体处理流程介绍,下面对情感词典获取流程进行介绍。通用 领域的情感词典在特定领域所表达的情感性并不一致。例如,"希望"一词通常是一个正面 词,但是,"希望"在呼叫中屯、的在线对话聊天中是常见用户表达负面情绪的先行词。因此需 要建立一个针对呼叫中屯、在线聊天领域的情感词典。 阳101] 传统的情感词典获取方法需要一定种子词汇,本申请可W自动获取种子词汇。传 统的情感词典获取方法是基于互信息,但是由于互信息的比较偏好低频词汇,为了克服运 个问题,本申请采取了基于曼哈顿距离的算法进行情感词典构建。具体步骤如下: 阳102] 步骤a),将有用户评价的数据根据用户的评价分为满意和不满意的对话。对运些 对话分词,分词后按照如下公式进行排序。 阳 103]
[0104] 〇11表示词在评价为满意中出现的次数,〇22表示不满中出现的次数。0 12表示,满意 文本中没有出现的次数。〇21表示不满意文本中没有出现的次数。其中,运些词作为种子词 汇来进行进行扩充,通过运种方法可W避免人工干预。可W减少对于专家知识的依赖。传 统的情感词扩充,都需要专家进行指定。运些原始的种子词汇的选择,会对最后的结果起到 决定性的作用。对于大量的数据进行统计,得到了诸如"投诉,说话"之类的负面情绪词。也 得到了诸如"谢谢,麻烦你了 "运样的正面种子词汇。
[0105] 步骤b),对于获取的种子词汇,按照如下方式,进行扩展。传统的扩展方法使用 的是互信息,但是互信息在理论上,比较偏向于出现比较少的稀有词语,在呼叫中屯、的文本 中,进行扩展,未取得好的结果。本方法采取曼哈顿距离进行扩展。具体公式如下 阳 106]
[0107]其中 sim(word, t)定义为 阳 10引 sim(word,t) = I 口1_口2
[0109] 其中Pi为word的位置值,P 2为t的位置值
[0110] 步骤C),通过第一轮迭代获取了,准确率较高的负面词汇,如"领导","上级"运些 词汇在投诉环境中具有比较明显的负面性。在筛选过程中,去除单个字的词汇。 阳111] 步骤d),将已经发现的负面情绪词融入到种子词汇,迭代发现新的词,直到不能再 发现新的词汇。
[0112] 在分别通过新词发现W及情感字典获取均准备完毕之后,下面对基于已发现的新 词W及情感词典对聊天记录首先进行评价信息获取处理,具体过程包括:
[0113] 步骤a),对文本进行预处理。该步骤由W下若干流程完成:
[0114] (1)分词阶段,本申请采用改进的mmseg算法进行分词。原mmseg算法规则如下: 规则1,总是选取包含字最多的短句,规则2,取平均词长度最多的一组短句,规则3,取方差 最少的短句,规则4,取自由度最大的短句。W上规则中,规则4需要有较多的先验知识。本 法发明将规则4改为情感词优先的原则。对于如下的句子,"我喜欢中国"。候选的分词结 果为,"我\喜欢\中国","我喜\欢\中国"。喜欢是一个情感词典中的词,故"我\喜欢 \中国"为正确的分词结果。
[0115] (2)依存句法分析,此模块可W为其他模块提供词和词之间的依赖关系。
[0116] 做结构句法分析,词模块可W显示句子的结构。
[0117] (4)同义词转换和停顿词过滤功能。将同义词进行转化,将一些同义词转化为一个 唯一的词。
[0118] 步骤b),对文本进行分类。
[0119] 在该步骤中,本申请采用了逻辑斯蒂回归进行分类。为了能够处理大量的数据,本 申请采用了分布式随机梯度算法进行迭代求解。运种求解方法可W自动适应大数据环境。 该步骤由W下若干流程完成:
[0120] (1)采用前文所提到的mmseg进行分词,同义词转换,停顿词过滤。 阳121] (2)对于分词后的结果,获取卡方值前400的特征。 阳122] (3)通过运些特征,将文本进行向量化。采用词袋模型,忽略词与词之间的位置。 为了方便计算,本文采取了基于是否出现而进行二值化处理。如果出现则记为1,如果未出 现则记为0。 阳123] (4)为了加速算法的收敛,对向量化的样本随机化处理.对每一条数据增加一个 随机值,然后按照运个随机值进行排序,运样就得到了随机化处理后的数据。 阳124] 妨为了加速,开启多个Map过程,一个Re化ce过程。 阳1巧](6)对于每一个Map,初始化所有参数为0, Θ。,Θ 1. .. Θ 4。。为0。对于向量化后的 数据为|wd,Wi,..w。}其中W(J= 1。对于每一个Map中,每条数据按照如下方式来进行更新 [01%]计算逻辑斯蒂梯度 阳 127]
[0128] 梯度更新 阳129] 白=白-曰grad
[0130] 在每个Map最后,保存最后更新的参数值。 阳131] (6)在Re化ce程序中,计算所有参数的平均值,并将运些参数值存至数据库。 阳132] (7)利用运个分类器,对新的文本进行分类。如果分数值大于一定的阔值则为正面 文本,如果数值小于一定的阔值则为负面文本。
[0133] 在针对聊天记录信息确定其为正面文本或是负面文本后,本申请基于属性的情感 分类单元继续确定具体导致负面评价的属性,其中包含人员和产品的区分模块和客服负面 情绪的检测。具体的步骤如下: 阳134] 步骤a),人员和产品负面情绪的区分。
[0135] 每一次在线服务都包含Ξ个方面的属性,人员属性,产品属性,客服服务属性。该 步骤将具体判断每个属性是否具有负面情绪。为了进行人员和产品的区分,本申请采取规 则和机器学习相结合的方法,对所有的负面情绪进行分类。具体流程如下:
[0136] (1)采取规则的方法,区分负面情绪。首先利用结构句法分析器,对句子进行标注, 寻找主语,情绪词,通过主要通过如下规则进行分类。 阳137] S1:S-NV 阳 1:38] S2:S-LESS-PV
[0139] S3: S-V-NADV
[0140] S4:S-LESS-V-PADV 阳141] 为便于更好阐述技术方案,此处首先对所有的规则进行解释,规则一,S-NV。S表 示主语,NV表示负面动词。整体表示主语加上有负面情绪的动词,例如你运是睡了吗?" 属于负面的客服的情绪。规则二,S-LESS-PV。S表示主语,LESS表示一些否定的前缀词,例 如,"不","没有"。例如,"你没有及时回复。"运里,"及时回复"是一个正面的动词,但是,由 于动词前有一个否定前缀,故整句话表达的是负面的情绪。规则Ξ,S-V-NADV,S表示主语, V表示动词,NADV表示含有负面情绪的副词。例如你回复得慢"。在运句话中,你是主语, 回复是动词,慢是副词。规则四,S-LESS-V-PADV,S表示主语,LESS表示否定前缀词,V表示 动词,PADV表示正面的副词。例如,"你说话不清楚",在运句话中,"清楚"是一个正面的副 词。不清楚和在一起表示为负面的情绪。
[0142] (2)进行对象判定,在进行对象判定时,采取了属性词典加 Word2vec属性词典包 含了对象是否是人员还是产品的知识。对于对象,首先判定运个词是否在词典中。如果运 个词是在属性词典中,那么就直接返回该知识点,直接判定词的属性。如果运个词不在词典 中,按照如下公式,进行词性判定。 阳 14引 s(word) = Σ tE {pr〇duct}Sin(t,word) - Σ tE {people}sin(t,peopie)
[0144] 其中,product_set为产品词的集合,people_set为人员词的集合,sim值为 wordvector中的值。如果s(word)〉0,那么此词为产品词,如果s(word)<0,那么此词为人 员词。
[0145] (3)通过机器学习的方法,判定是人员还是产品。将人员词和产品词进行 标注,人员词标记为(people),产品词标记为(pro化ct),负面人员情绪词标记为 (people-negative),负面产品情绪词标记为(product-negatie)。同时,利用依存句法对例 句进行分析,将情绪词和产品或人员词之间的距离作为特征值。利用Linear-CRF算法进行 求解,求解过程采用L-BFGS算法。
[0146] 步骤b),客服负面情绪的检测。 阳147] 对于客服的负面情绪的检测。因为在线客服在对话中有时可能会使用反义疑问 句。或者因为对于业务不是特别熟悉,而导致回复速度较慢。本申请采取如下流程进行检 测:
[0148] (1)对于回复速度,本申请自动检测两次客服对话的回复时间,如果两次回复时间 之间的间隔小于Ξ分钟,则判定为负面情绪。 阳149] 0)提取如下规则
[01 加 ]S1:如estion+Subjective
[0151] S2:Negative 阳152] 规则1,如estion表示一些反义疑问词,如"怎么,难道"。Subjective表示主语。 规则1表达是一种隐性的负面情绪,主要是获取用户的负面情绪词。 阳153] 规则2,化gative表示负面词汇。规则2主要是获取显性负面情绪。一旦出现负 面文字,就立即断定为负面的情绪。 阳154] 本申请实施例还公开了一种在线服务评价信息确定设备,如图3所示,包括: 阳巧日]获取模块310,用于通过文本预处理获取待处理的在线服务的信息记录的关键 词; 阳156] 赋值模块320,用于根据预设的关键词数据库为各所述关键词赋予数值,并根据各 所述关键词的数值确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为 正面评价信息的在线服务的信息记录中的正面关键词; 阳157] 判断模块330,用于判断所述权重值是否大于预设的阔值; 阳15引设置模块340,用于当所述判断模块判断结果为是时,为所述在线服务设置正面评 价信息;W及当所述判断模块判断结果为否时,为所述在线服务设置负面评价信息。
[0159] 具体的,所述获取模块,具体用于:
[0160] 对所述信息记录进行分词处理W及句法分析处理,获取所述信息记录中的各词 语; 阳161] 对所述各词语进行同义词转换W及停顿词过滤处理,将处理后所得到的词语作为 所述关键词。
[0162] 具体的,所述赋值模块,具体用于:
[0163] 对各所述关键词进行卡方检验,将卡方值大于预设阔值的关键词设置特征;
[0164] 为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的 关键词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量;
[0165] 获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所 述权重值。 阳166] 在线服务评价信息确定设备,还包括: 阳167] 处理模块,用于根据预设的语法规则分别确定与所述在线服务对应的服务提供方 W及服务接收方的情绪信息;
[0168] 根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。
[0169] 在线服务评价信息确定设备,还包括: 阳170] 生成模块,用于从消息数据库的记录信息中提取在线服务的关键词; 阳171] 根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键 词W及负面关键词; 阳172] 根据所述正面关键词生成所述关键词数据库。
[0173] 通过应用本申请的技术方案,在通过文本预处理获取待处理的在线服务的信息记 录的关键词后,根据预设的关键词数据库为各关键词赋予数值,并根据各关键词的数值确 定与信息记录对应的权重值,最后判断权重值是否大于预设的阔值,基于判断结果为在线 服务设置正面或负面评价信息。从而实现了针对在线服务质量的自动检测W及评价,在保 证公正的基础上提高了检查的效率。
[0174] 通过W上的实施方式的描述,本领域的技术人员可W清楚地了解到本申请可W通 过硬件实现,也可W借助软件加必要的通用硬件平台的方式来实现。基于运样的理解,本申 请的技术方案可软件产品的形式体现出来,该软件产品可W存储在一个非易失性存储 介质(可W是CD-ROM, U盘,移动硬盘等)中,包括若干指令用W使得一台计算机设备(可 W是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
[01巧]本领域技术人员可W理解附图只是一个优选实施场景的示意图,附图中的模块或 流程并不一定是实施本申请所必须的。
[0176] 本领域技术人员可W理解实施场景中的装置中的模块可W按照实施场景描述进 行分布于实施场景的装置中,也可W进行相应变化位于不同于本实施场景的一个或多个装 置中。上述实施场景的模块可W合并为一个模块,也可W进一步拆分成多个子模块。
[0177] 上述本申请序号仅仅为了描述,不代表实施场景的优劣。
[0178] W上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本 领域的技术人员能思之的变化都应落入本申请的保护范围。
【主权项】
1. 一种在线服务评价信息确定方法,其特征在于,包括: 通过文本预处理获取待处理的在线服务的信息记录的关键词; 根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关键词的数值确定 与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正面评价信息的在线服 务的信息记录中的正面关键词; 判断所述权重值是否大于预设的阈值; 若判断结果为是,为所述在线服务设置正面评价信息; 若判断结果为否,为所述在线服务设置负面评价信息。2. 如权利要求1所述的方法,其特征在于,通过文本预处理获取待处理的在线服务的 信息记录的关键词,具体为: 对所述信息记录进行分词处理以及句法分析处理,获取所述信息记录中的各词语; 对所述各词语进行同义词转换以及停顿词过滤处理,将处理后所得到的词语作为所述 关键词。3. 如权利要求1所述的方法,其特征在于,根据预设的关键词数据库为各所述关键词 赋予数值,并根据各所述关键词的数值确定与所述信息记录对应的权重值,具体为: 对各所述关键词进行卡方检验,将卡方值大于预设阈值的关键词设置特征; 为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的关键 词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量; 获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所述权 重值。4. 如权利要求1所述的方法,其特征在于,在为所述在线服务的设置正面或负面评价 信息之后,还包括: 根据预设的语法规则分别确定与所述在线服务对应的服务提供方以及服务接收方的 情绪信息; 根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。5. 如权利要求1-4任一项所述的方法,其特征在于,在通过文本预处理获取待处理的 在线服务的信息记录的关键词之前,还包括: 从消息数据库的记录信息中提取在线服务的关键词; 根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键词以 及负面关键词; 根据所述正面关键词生成所述关键词数据库。6. -种在线服务评价信息确定设备,其特征在于,包括: 获取模块,用于通过文本预处理获取待处理的在线服务的信息记录的关键词; 赋值模块,用于根据预设的关键词数据库为各所述关键词赋予数值,并根据各所述关 键词的数值确定与所述信息记录对应的权重值,所述关键词数据库中包含已设置为正面评 价信息的在线服务的信息记录中的正面关键词; 判断模块,用于判断所述权重值是否大于预设的阈值; 设置模块,用于当所述判断模块判断结果为是时,为所述在线服务设置正面评价信息; 以及当所述判断模块判断结果为否时,为所述在线服务设置负面评价信息。7. 如权利要求6所述的设备,其特征在于,所述获取模块,具体用于: 对所述信息记录进行分词处理以及句法分析处理,获取所述信息记录中的各词语; 对所述各词语进行同义词转换以及停顿词过滤处理,将处理后所得到的词语作为所述 关键词。8. 如权利要求6所述的设备,其特征在于,所述赋值模块,具体用于: 对各所述关键词进行卡方检验,将卡方值大于预设阈值的关键词设置特征; 为出现在关键词数据库的关键词所对应的特征赋予1,未出现在关键词数据库的关键 词所对应的特征赋予0,将赋值后的各特征生成与所述信息记录对应的向量; 获取所述向量在进行逻辑斯蒂梯度计算处理后的梯度值,并将所述梯度值作为所述权 重值。9. 如权利要求6所述的设备,其特征在于,还包括: 处理模块,用于根据预设的语法规则分别确定与所述在线服务对应的服务提供方以及 服务接收方的情绪信息; 根据所述信息记录中的情绪词和产品或人员词之间的距离进行对象属性判断。10. 如权利要求6-9任一项所述的设备,其特征在于,还包括: 生成模块,用于从消息数据库的记录信息中提取在线服务的关键词; 根据所述记录信息中具有用户评价的记录信息将各所述关键词划分为正面关键词以 及负面关键词; 根据所述正面关键词生成所述关键词数据库。
【文档编号】G06Q50/10GK105989550SQ201510098614
【公开日】2016年10月5日
【申请日】2015年3月5日
【发明人】任望, 王晶, 郭庆榕
【申请人】阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1