电商本体构建方法与流程

文档序号:14451698阅读:179来源:国知局

本发明涉及语义识别技术领域,尤其涉及一种电商本体构建方法。



背景技术:

经统计目前电商网站的订单数与咨询用户数的比例大约4%左右,不同类型的电商网站该比例会有所差异,但总体从该比率中可以看出电商网站客服的成本压力巨大,而且随着业务的持续发展、订单数的规模增长,客服的成本也将会变得越来越高,极大制约着电商成本控制,因此电商智能客服系统研究开发极为迫切。

本体技术的发展为信息检索提供了新的解决方案,通过本体对知识进行重新抽取、组织,能够实现知识的准确理解、匹配,从而提供更好的语义理解。本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”,即本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系。简而言之,本体是一种概念描述,建立本体模型主要是为了可以计算概念间的语义关系,对电商智能客服系统中的对话信息进行泛化后,可以使用共同的概念进行连接处理。大多数的本体构建都是基于实体、类(概念)、属性及关系来构建词间语意关系来完成。

电商智能客服系统中的语义理解属于自然语言处理应用级,而自然语言处理应用级的开发都离不开最基础的nlp(naturallanguageprocessing,自然语言处理)处理问题,字、词、短语、句子、段落、篇章层层递进式的分析处理;而本体是在词层面处理分析的一种重要工具。由于自然语言处理在特定领域不论字、词、短语、句子的处理都是无法达到很好的准确度,这些处理往往也互相依赖导致越上层处理准确率越低,成为自然语言处理中一个很棘手的问题。对自然语言处理的第一步就是需要构建本体,然而,本体构建在不同领域往往对于知识的定义属性具有很大的差异。因此,如何对电商智能客服系统中的本体进行准确的构建,以提高后续语义识别的精准度,是目前亟待解决的技术问题。



技术实现要素:

本发明提供一种电商本体构建方法,用以解决现有技术中电商智能客服的语义识别准确度较低的问题,以提高电商智能客服与用户的线上交流效率,并增强用户体验。

为了解决上述问题,本发明提供了一种电商本体构建方法,包括如下步骤:

构建问答语料库、日常语料库、商品语料库,所述问答语料库中包括多组客服与客户的会话;

通过对所述问答语料库、所述日常语料库、所述商品语料库的空间概率分布调整、分析,建立包括多个候选词的候选词集合;

对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合;

对任两个本体概念在同一会话中共同出现的概率进行统计分析,以建立本体概念间的关联规则;

对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树;

根据所述本体概念集合、所述关联规则、所述层次关系树建立电商本体。

优选的,对所述会话进行预处理以获取多个候选词,并通过对所述问答语料库、所述日常语料库、所述商品语料库的交叉运算调整所述候选词的空间概率分布,建立包括多个候选词及其排名信息的候选词集合的具体步骤包括:

对所述问答语料库中的会话进行分词处理以获取多个候选词,通过统计分析获取每一候选词的词频,并按照词频从大到小的顺序对多个候选词进行排序,以获取每一候选词在所述问答语料库中的排名以及所有词频按照从大到小顺序排列的词频集合;

分别计算每一候选词在所述日常语料库、所述商品语料库中的排名与所述问答语料库中排名之间的距离,计算公式如下式(1)所示:

式中,n表示候选词的数量,r1k表示第k个候选词在所述问答语料库中的排名,r2k表示第k个候选词在所述日常语料库或所述商品语料库中的排名,表示第k个候选词在所述日常语料库或所述商品语料库中的排名与所述问答语料库中的排名之间的距离;

分别计算每一候选词在所述日常语料库、所述商品语料库与所述问答语料库间的相似度;

根据如下公式(2)调整所述问答语料中所有候选词的排名,以按照调整后的排名先后顺序建立候选词集合:

式(2)中,r是第k个候选词调整后的排名,ρ12表示第k个候选词在所述日常语料库或所述商品语料库与所述问答语料库中的相似度。

优选的,所述相似度为皮尔逊相关系数。

优选的,对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合的具体步骤包括:

将所述词频集合中的词频按照从大到小的顺序依次赋予调整排名后的候选词,使得调整后排名第一的候选词具有最大词频、排名最后的候选词具有最小词频;

采用公式(3)计算每一候选词的核心度:

w(t)=-p(t)log2p(t)(3)

式中w(t)表示候选词t的核心度,p(t)表示候选词t在所述问答语料库中出现的概率,p(t)根据所述候选词t的词频在所述词频集合中所有词频的总和中所占的比例计算得到;

采用公式(4)对候选词进行降权处理:

式(4)中{time,place,person,number,letter}表示候选词t的实体特征,{n,v}表示候选词t的词性特征;

对经过降权处理后的候选词汇按照权重从大到小的顺序进行排序,并以权重排序中前n个权重对应的候选词作为本体概念,以构建本体概念集合。

优选的,所述关联规则包括本体概念间的支持度、置信度。

优选的,所述本体概念间的支持度采用如下步骤计算得到:

设所述问答语料库的会话集合s={si|i=1,2,…,x},x为所述问答语料库中会话的组数,对会话si进行分词以得到包括多个关键词的关键词集合,并将所述关键词集合与所述本体概念集合的交集作为所述会话si的关联词集合ti={tij|j=1,2,…,m},其中,m为所述关联词集合ti中本体概念的个数,tij表示在所述会话si中出现的本体概念;

设在所述问答语料库中同时出现所述关联词集合ti中的本体概念tia、tib的次数为则所述本体概念tia与所述本体概念tib之间的支持度采用如下公式(5)计算得到:

优选的,所述本体概念间的置信度采用如下步骤计算得到:

统计在所述问答语料库中分别出现本体概念tc、td的会话数tfc、tfd,以及在所述问答语料库中同时出现本体概念tc、td的会话数tfab,则所述本体概念与之间的置信度采用如下公式(6)、(7)、(8)计算得到:

上式中,tfv表示在所述问答语料库中出现本体概念tv的会话数,p(tc,td)表示本体概念在同一会话中出现的概率,p(tv)表示本体概念或在会话中出现的概念,cconf(tc,td)表示本体概念与本体概念之间的置信度。

优选的,对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树的具体步骤包括:

将所述本体概念集合中的每个本体概念归为一类,共得到l个类,类与类之间的距离就是类所包含的本体概念之间的距离;

计算任意两个类之间的距离,并将距离最短的两个类合并为一类;

分别计算合并生成的类与剩余类之间的相似度;

重复合并类、计算相似度的步骤,直至将l个类都归为一类,以建立层次关系树。

优选的,分别计算合并生成的类与剩余类之间的相似度的具体步骤是:

采用离差平方和法分别计算合并生成的类与剩余类之间的相似度。

优选的,根据所述本体概念集合、所述关联规则、所述层次关系树建立电商本体的具体步骤包括:

根据所述本体概念集合、所述关联规则、所述层次关系树,并采用企业建模法与循环获取法二者相结合的分析方法建立电商本体。

本发明提供的电商本体构建方法,通过构建问答语料库、日常语料库、商品语料库的交叉运算来在语料层面对候选词的空间分布直接进行调整,而不是对最后的统计结果进行调整,构建了针对性较强的电商领域本体,解决了现有技术中电商智能客服在与客户会话的过程中语义识别准确度较低的问题,以提高了电商智能客服与用户的线上交流效率,并增强了用户体验,也降低了电商运营成本。

附图说明

附图1是本发明具体实施方式的电商本体构建方法的流程图;

附图2是本发明具体实施方式的不同语料库中候选词的排名分布图;

附图3是本发明具体实施方式的层次聚类结果图。

具体实施方式

下面结合附图对本发明提供的电商本体构建方法的具体实施方式做详细说明。

本体的结构maedche等人对其进行了定义可以表述为一个五元组:o:={c,r,hc,rel,ao},其中

c为本体概念集合,

r为本体概念间关系集合,

hc为本体概念间层次关系集合,

rel为一个函数表示本体概念间非分类关系集合,

ao为本体的公理集合。

从上述描述我们把它可以简化为(c1,r,c2),也即是说本体构建了概念间的一种关联关系,这种关系比word2vec描述的词间关系更为准确,这可以为后文的构建事件语义图与挖掘词间关系等提供了一种计算通道。

本具体实施方式提供了一种电商本体构建方法,附图1是本发明具体实施方式的电商本体构建方法的流程图。如图1所示,本具体实施方式提供的电商本体构建方法,包括如下步骤:

步骤s11,构建问答语料库、日常语料库、商品语料库,所述问答语料库中包括多组客服与客户的会话。其中,所述商品语料库用于表示与商品信息相关的主体词汇信息,其包括商品信息、品牌信息以及商品分类信息。本具体实施方式中的所述日常语料库可以选用hanlp的分词词典,该词典反映了日常生活中大众常见词汇的统计分布。由于电商领域用户在线咨询的问题主要集中在订单相关问题方面,因此,本具体实施方式中所述问答语料库中包括多组与订单相关的会话。

步骤s12,通过对所述问答语料库、所述日常语料库、所述商品语料库的空间概率分布调整、分析,建立包括多个候选词的候选词集合。所谓候选词,是指反映电商领域基础特征的字或词。建立包括多个候选词的候选词集合,是指通过对所述问答语料库中的会话语料进行信息抽取、提取其中与电商领域高相关度的关键词作为候选词,然后通过与所述日常语料库、所述商品语料库的交叉运算、分析,对多个候选词进行排名顺序调整,以使得所述候选词集合能更专业、更准确的反映电商领域特征词汇的分布信息。

候选词集合的建立过程对于最终建立的电商本体有着重要的影响,然而,在候选词集的建立过程中,语料库的选择对最终的结果影响重大,这是因为,不同的语料库表示着不同的特定的领域特征空间分布,提取出的高相关度的特征也是大不相同的。因此,优选的,本具体实施方式优对所述会话进行预处理以获取多个候选词,并通过对所述问答语料库、所述日常语料库、所述商品语料库的交叉运算调整所述候选词的空间概率分布,建立包括多个候选词及其排名信息的候选词集合的具体步骤包括:

(s12-1)对所述问答语料库中的会话进行分词处理以获取多个候选词,通过统计分析获取每一候选词的词频,并按照词频从大到小的顺序对多个候选词进行排序,以获取每一候选词在所述问答语料库中的排名以及所有词频按照从大到小顺序排列的词频集合。附图2是本发明具体实施方式的不同语料库中候选词的排名分布图。在图2中,横坐标表示所述问答语料库中多个候选词按照词频从大到小的排名,纵坐标表示与横坐标排名对应的候选词在所述日常语料库或所述商品语料库中的词频排名分布,其中,实线21表示多个候选词在日常语料库中的排名分布,虚线22表示多个候选词在所述商品语料库中的排名分布。通过对图2的分析可知,实线21、虚线22中与横坐标越接近的点,在所述问答语料库中的排名应该往后调整。

(s12-2)分别计算每一候选词在所述日常语料库、所述商品语料库中的排名与所述问答语料库中排名之间的距离,计算公式如下式(1)所示:

式中,n表示候选词的数量,r1k表示第k个候选词在所述问答语料库中的排名,r2k表示第k个候选词在所述日常语料库或所述商品语料库中的排名,表示第k个候选词在所述日常语料库或所述商品语料库中的排名与所述问答语料库中的排名之间的距离。

(s12-3)分别计算每一候选词在所述日常语料库、所述商品语料库与所述问答语料库间的相似度。其中,相似度的表示方式有很多种,本领域技术人员可以根据实际需要进行选择。优选的,所述相似度为皮尔逊相关系数。

(s12-4)根据如下公式(2)调整所述问答语料中所有候选词的排名,以按照调整后的排名先后顺序建立候选词集合:

式(2)中,r是第k个候选词调整后的排名,ρ12表示第k个候选词在所述日常语料库或所述商品语料库与所述问答语料库中的相似度。

举例来说,以包含约507万条数据共179442组客服与客户的会话的问答语料库进行建立包括多个候选词及其排名信息的候选词集合的实验,表1所示为从所述问答语料库中提出出来的候选词在调整前和调整后的排名分布结果。从表1可以看出,通过所述问答语料库、所述日常语料库、所述商品语料库的相交运算,可以把大部分与电商领域不相关的候选词的排名进行后移。

表1词频分布调整前后对比表

本具体实施方式基于不同语料库的样本空间所能表示的整体不同而进行多语料库特征之间的相交运算,即本具体实施方式是直接在语料层面使用多领域语料库对候选词的分布空间直接进行调整,而不是对最后的统计结果进行调整,从而使得构建的候选词集合能够更加准确的反映与电商领域相关的特征词汇的分布信息。

步骤s13,对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合。在步骤s12中对候选词排名分布进行了处理,获取了领域特征更强的词汇分布统计信息。但是,在步骤s12中提取出来的候选词不能全部都作为电商领域的本体概念,还需要过滤非领域的核心概念。

为了准确的从所述候选词集合中筛选出用于构建电商本体的本体概念,优选的,对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合的具体步骤包括:

(s13-1)将所述词频集合中的词频按照从大到小的顺序依次赋予调整排名后的候选词,使得调整后排名第一的候选词具有最大词频、排名最后的候选词具有最小词频。即在所述候选词集合中,候选词的排名与该候选词对应的词频的排名一致。

(s13-2)采用公式(3)计算每一候选词的核心度:

w(t)=-p(t)log2p(t)(3)

式中w(t)表示候选词t的核心度,p(t)表示候选词t在所述问答语料库中出现的概率,p(t)根据所述候选词t的词频在所述词频集合中所有词频的总和中所占的比例计算得到。从上述公式(3)可以看出,候选词t的核心度w(t)越大,表示该候选词t在电商领域中越属于核心概念词汇。

(s13-3)采用公式(4)对候选词进行降权处理:

式(4)中{time,place,person,number,letter}表示候选词t的实体特征,{n,v}表示候选词t的词性特征。上述公式(4)反映了如下的权重优化规则:

a)删除停用词;

b)删除长度小l的单词;优选的,l的值为2;

c)对纯数字、字母或者两者进行组合的单词进行降权;

d)对频率小于f的单词进行降权;优选的,f的值为10

e)对时间、地点、姓名的实体词进行降权;

f)对词性不是名词和动词的词进行降权。

(s13-4)对经过降权处理后的候选词汇按照权重从大到小的顺序进行排序,并以权重排序中前n个权重对应的候选词作为本体概念,以构建本体概念集合。其中,n为正整数。

步骤s14,对任两个本体概念在同一会话中共同出现的概率进行统计分析,以建立本体概念间的关联规则。领域本体概念间关系主要有两种:分类关系(taxonomy)和非分类关系(non-taxonomy)。分类关系就是通常的“is-a”关系;非分类关系是除了分类关系以外的即是,主要包括局部与整体关系,地理位置关系,类属关系,转喻关系,制造使用关系,组织结构从属关系,人物关系。关系的提取方法当前主要是通过统计与规则来进行处理。本具体实施方式中,采用关联规则与层次聚类规则来表征本体概念之间的关系。

关联规则是指数据之间的相互依赖关系,关联规则反映了两个本体概念之间的共同出现的关系。有的关联规则提取方法适用性、扩展性不高,而本具体实施方式中所处理的语义信息零散、对话中的概念信息并无严格规则,因而现有的关联规则无法运用在电商领域的问答语料中。本具体实施方式对于关联规则的提取主要包含两个阶段:第一阶段先从语料中提取高频共现词组,第二阶段再由这些高频词组中产生关联规则。关联规则关系挖掘这里主要是寻找词的相关联词。具体来说,所述关联规则包括本体概念间的支持度、置信度。

基于同一会话语料中的本体概念具有相同的事件指向,它们共同描述一个事件内容这样一种思想,本具体实施方式通过对候选词出现在同一会话中的分布情况,来挖掘候选词之间所隐含的关联关系。具体来说,所述本体概念间的支持度采用如下步骤计算得到:

(s14-1)设所述问答语料库的会话集合s={si|i=1,2,…,x},x为所述问答语料库中会话的组数,对会话si进行分词以得到包括多个关键词的关键词集合,并将所述关键词集合与所述本体概念集合的交集作为所述会话si的关联词集合ti={tij|j=1,2,…,m},其中,m为所述关联词集合ti中本体概念的个数,tij表示在所述会话si中出现的本体概念;

(s14-2)设在所述问答语料库中同时出现所述关联词集合ti中的本体概念tia、tib的次数为则所述本体概念tia与所述本体概念tib之间的支持度采用如下公式(5)计算得到:

更优选的,所述本体概念间的置信度采用如下步骤计算得到:

统计在所述问答语料库中分别出现本体概念tc、td的会话数tfc、tfd,以及在所述问答语料库中同时出现本体概念tc、td的会话数tfab,则所述本体概念与之间的置信度采用如下公式(6)、(7)、(8)计算得到:

上式中,tfv表示在所述问答语料库中出现本体概念tv的会话数,p(tc,td)表示本体概念在同一会话中出现的概率,p(tv)表示本体概念或在会话中出现的概念,cconf(tc,td)表示本体概念与本体概念之间的置信度。

举例来说,从所述问答语料库中抽取了约25w组会话,总共约400w条对话记录,对主词拉取了共现频率最高的6个词进行了支持度与置信度计算结果如表3.3所示:

表3.3关联规则实验结果

步骤s15,对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树。层次聚类(hierarchicalclustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。具体的是通过对给定数据集进行层次的分解,直到某种条件满足为止,可分为凝聚与分裂两种实现方式。

优选的,对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树的具体步骤包括:

(s15-1)将所述本体概念集合中的每个本体概念归为一类,共得到l个类,即每个类中仅包含一个本体概念,类与类之间的距离就是类所包含的本体概念之间的距离;

(s15-2)计算任意两个类之间的距离,并将距离最短的两个类合并为一类;

(s15-3)分别计算合并生成的类与剩余类之间的相似度;

(s15-4)重复合并类、计算相似度的步骤,直至将l个类都归为一类(此类包含了l个本体概念),以建立层次关系树。

整个聚类过程建立了一棵层次关系树,如何判断两个类之间的相似度有多种方法。优选的,分别计算合并生成的类与剩余类之间的相似度的具体步骤是:

采用离差平方和法(即scipy的ward距离算法)分别计算合并生成的类与剩余类之间的相似度。离差平方和法的具体如公式(9)所示:

式子中d(u,v)两个类u与v之间的距离,其中u新聚好的分类由s与t两个分类聚合成,其中|*|表示的是类的基数。

举例来说,从所述问答语料库中抽取了184w条数据·使用gensim工具包中的word2vec生成词向量,然后使用scipy中的ward距离算法进行聚类实验。这里为了实验结果便于展示,取了10个订单相关的概念进行聚类实验。概念词为以下数组元素:[订单,包裹,手机,地址,商品,快递员,收件人,订单编号,姓名,运单号],附图3是本发明具体实施方式的层次聚类结果图。

步骤s16,根据所述本体概念集合、所述关联规则、所述层次关系树建立电商本体。根据本体构建顺序本体的构建方法可分为自顶向下、自底向上和两者结合3种。自顶向下通过领域权威的分类法、叙词表、论著、领域专家的知等先验知识构建基础框架,在此基础上不断添加新的概念及概念之间的关系来最终完成。该方法比较依赖先验知识由于领域之间差异较大使用上较困难。自底向上通过从概念词汇出发或者现有的小规模本体出发,向上聚合建立概念之间的关系以形成最终本体。在本具体实施方式中,我们根据所述本体概念集合、所述关联规则、所述层次关系树,并采用企业建模法与循环获取法二者相结合的分析方法建立电商本体。采用企业建模与循环获取法二者相结合的分析方法来构建本体。

具体构建步骤如下:

1)应用情景的收集

电商客服系统当前的定位主要是处理订单相关问题的问答,这类问题其中一般蕴含有一定的业务模式。为了回答某个订单实体相关信息和一些业务处理上的推理,因此需要用到本体来进行词汇级别上的辅助处理。由于文中的本体的构建最终目的是为解决订单相关问题,所以以下本体的构建和使用范围都是基于订单该小领域范围。

2)选择数据源

确定本体的用途和构建目标,接下来就是构建。目前的数据源主要使用人工客服问答的原始语料数据以及常见问题问答数据库,其中还会用到其他的数据源进行辅助处理。

3)概念学习

从数据源中抽取领域概念,并建立概念间的关系,这是本章所要研究的重点,已在上文详细描述。

4)领域聚焦

对抽取的概念进行过滤,筛选当前目标领域本体所需要的概念。

5)关系学习

主要对本体概念的层次关系与隐含的关系进行学习以辅助人工建立关系。

6)评价

对电商领域本体的提取结果进行评价,再重复2-5过程,获得最终适合的本体信息。

以上为电商领域的本体总体处理流程。

本体的构建可以借助界面工具辅助本体开发、构建和编辑,通过本体开发工具方便开发上对本体进行操作和对本体关系进行直观分析。本具体实施方式主要通过使用protégé工具进行本体构建,protégé软件是斯坦福大学基于java语言开发的本体开发工具,也是基于知识的编辑器,属于开放源代码软件。这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具。

本具体实施方式提供的电商本体构建方法,通过构建问答语料库、日常语料库、商品语料库的交叉运算来在语料层面对候选词的空间分布直接进行调整,而不是对最后的统计结果进行调整,构建了针对性较强的电商领域本体,解决了现有技术中电商智能客服在与客户会话的过程中语义识别准确度较低的问题,以提高了电商智能客服与用户的线上交流效率,并增强了用户体验,也降低了电商运营成本。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1