一种面向垂直领域的智能问答系统的制作方法

文档序号:10489022阅读:302来源:国知局
一种面向垂直领域的智能问答系统的制作方法
【专利摘要】一种面向垂直领域的智能问答系统,包括提问模块(1)、预处理模块(2)、分词和词汇标准化模块(3)、净化词模块(4)、同义词扩展模块(5)、词汇扩展或删除模块(6)、句子相似度计算模块(7)和答复输出模块(8)。本发明通过构建领域本体计算用户问句的相似度,依赖于分词技术、领域本体的构建、本体相似度计算。本发明的优点是:通过该句子相似度算法,应用领域本体技术更加准确的理解用户提问意图,计算句子相似度,提高问答系统的准确率。
【专利说明】
一种面向垂直领域的智能问答系统
技术领域
[0001] 本发明涉及一种面向垂直领域的智能问答系统,对垂直领域的语义分析准确率具 有重要意义和作用。
【背景技术】
[0002] 按照问答系统的实现技术划分,包括:基于常见问题集(FAQ)的问答系统、基于信 息检索的问答系统、基于问题分类的问答系统和基于资源描述框架(Re sour ce Description Framework)RDF查询的问答系统。
[0003] 基于常见问题集的问答系统,构建常见问题(FAQ)问答对,实现上依赖于用户问句 与FAQ中问句的相似度计算。在FAQ问答系统的开发过程中,需要识别用户问句的意图,对两 个句子进行相似度计算,以返回查询结果。现有的FAQ问答系统的相关技术流程为:对句子 进行分词、去停用词、词语标准化等预处理工作后,建立倒排索引表,用VSM或者TF-IDF算法 计算两个句子的词语数组的相似度。
[0004] 基于信息检索的问答系统,这种系统的信息来源通常是网络上的文档,所返回的 答案直接从文档中抽取。
[0005] 基于用户问题分类的问答系统,通常对每一类问题构建相应的模板进行处理,增 强对问题的理解,提高系统的准确率。
[0006] 基于RDF(Resource Description Framework资源描述框架,一种用于描述Web资 源的标记语言)查询的问答系统的核心是把自然语言问句转化为RDF的标准查询语言,通常 是W3C指定查询语言SPARQL,将自然语言问句中的词映射为本体中的类、实例或属性。
[0007] 然而现有技术在计算词语相似度时,有采用基于《知网》的相似度计算方法,但是 对于专业的垂直领域缺乏足够的语义分析。且现有技术在计算句子相似度时,未考虑领域 词汇的权重,对于专业的垂直领域的词汇缺乏足够的语义分析。
[0008] 本发明涉及的技术术语说明: 领域本体:领域本体给出了构成相关领域词汇表的基本术语和关系,以及结合这些术 语和关系来定义这些词汇表外延的规则。
[0009] 分词技术:分词就是将句子的词语识别出并进行词性标注。
[0010] 知网:《知网》(HowNet)是一部比较详尽的语义知识词典。以汉语和英语词语所代 表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内 容的常识知识库。
[0011] 倒排索引表:对词语建立一张表,并记录词语对应的问题的位置。由于不是由记录 来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。
[0012] VSM:向量空间模型(Vector Space Model)把对文本内容的处理简化为向量空间 中的向量运算,两个向量运算的相似度作为两个句子的语义相似度。
[0013] TF-IDF:词频-逆文档频率法(term frequency-inverse document frequency), 在VSM算法的基础上,根据词的频率确定词的权重,计算两个句子的相似度。

【发明内容】

[0014] 本发明基于FAQ和基于RDF查询技术有机结合实现,提出一种新的问答系统及处理 流程,以增强智能问答系统语义分析能力,提高智能自动问答系统的准确率。
[0015] 本发明的技术方案是:本发明通过构建领域本体计算用户问句的相似度,依赖于 分词技术、领域本体的构建、本体相似度计算。
[0016] 本发明的优点是:通过该句子相似度算法,应用领域本体技术更加准确的理解用 户提问意图,计算句子相似度,提高问答系统的准确率。
【附图说明】
[0017]图1是本发明系统构成框图; 图2是本发明基本工作程序流程图; 图3是本发明本体的分类结构实施例的示意图; 图4是本发明一个具体本体属性的结构示意图; 图5是本发明工作程序一个实施例的流程图; 图6是本发明的本体宝宝年龄分类结构示意图。
【具体实施方式】
[0018] 参见图1,本发明一种面向垂直领域的智能问答系统,主要基于计算机系统,包括 以下组成部分: (1)提问模块1:用于向系统输入(提出)问题。可以采用键盘输入,语音输入,手写(板) 输入,采用图像采集装置输入。
[0019] (2)预处理模块2:包括垂直领域本体(数据库),用于将本体中的类、属性、实例名 称添加到分词词典中,并标注相应词性。
[0020] (3)分词和词汇标准化模块3:用于对问句进行分词,并进行词语标准化,标注每个 词的词性和本体中的分类标记。
[0021] (4)净化词模块4:用于对分词后的集合进行去停用词,去掉无实际意义的语气词、 寒喧词。
[0022] (5)同义词扩展模块5:用于整理垂直领域的相关同义词词林,对词义进行扩展。
[0023] (6)本体扩展模块6:用于对分词后的词汇集合进行判断,若是本体中的词汇,对词 汇间的关系进行分析,进行扩展或删除,并设置该词汇在句子中的权重;若不是本体中的词 汇,按照普通词语的相似度进行计算。
[0024] (7)句子相似度计算模块:结合所述的词汇在句子中的权重,计算FAQ库中候选问 题与问句的句子相似度。
[0025] (8)答复输出模块:用于输出问题的答案。
[0026] 参见图2,本发明的基本工作流程包括: (1)预处理:构建垂直领域本体,将本体中的类、属性、实例名称添加到分词词典中,并 标注相应词性。
[0027] (2)对问句进行分词并进行词语标准化,标注每个词的词性,和本体中的分类标 记。
[0028] (3)对分词后的集合进行去停用词,去掉无实际意义的语气词、寒暄词。
[0029] (4)整理垂直领域的相关同义词词林,对词义进行扩展。
[0030] (5)对分词后的词汇集合进行判断,若是本体中的词汇,对词汇间的关系进行分 析,进行扩展或删除,并设置该词汇在句子中的权重;若不是本体中的词汇,按照普通词语 的相似度进行计算。
[0031] (6)结合词汇在句子中的权重,计算FAQ库中候选问题与问句的句子相似度。
[0032] (7)输出问题答案:按照相似度由高到低排序,最后选取相似度最高的问题作为答 案。
[0033]下面结合图3-图6对本发明的系统和工作流程作进一步说明。
[0034] 1.关于垂直领域本体知识库构建: 对垂直领域的知识进行分类,分析概念及其属性之间的关系,实现领域知识的表达。
[0035] 领域本体中的类、实例、属性:类和实例与面向对象中类和对象是相似的,属性描 述类或实例之间的关系。
[0036] 如图4中,"地点"作为一个类,有"苏州"作为它的实例,有一个惠氏金装系列的实 例"Wyeth惠氏_金装健儿乐奶粉2段400g",它的产地是苏州。"产地"作为属性连接两个实 例。
[0037] 2.本体中词语相似度的计算: 词汇对应于本体中的类、实例或属性。所有概念形成有向图,定义父类与直接子类的距 离为1,类与其实例的距离为1,属性与其定义域和值域的距离分别为1,词汇Wl、W2的距离依 照上述定义累加。WO为Wl和W2的最近公共父节点。则两个词汇的语义相似度采用公式:
如图3:以"Thing"为根节点,深度为0,"Wyeth惠氏_金装健儿乐奶粉2段400g"的深度 为5,和"Wyeth惠氏_金装幼儿乐奶粉3段400g"的深度为5,它们的最近公共父节点"金装系 列"的深度为4,则他们的相似度为霉_ : a||+j_ =0.80。
[0038] 或:
α是一个可调节的参数,表示两个词汇相似度为0.5时的距离其公共父节点的值。
[0039] 如图3:设α=1.6,以"Thing"为根节点,深度为0,"Wyeth惠氏_金装健儿乐奶粉2段 400g"和"Wyeth惠氏_金装幼儿乐奶粉3段400g",它们距最近公共父节点"金装系列"的距 离都为1,则他们的相似度为:
[0040」最后,按照相似度由高到低排序,最后选取第一个(相似度最高的)问题所对应的 答案作为所提问题的最终答案,并由答复输出模块输出。
[0041 ] 3.问句中词语权重的确定: 用户问句中不同的词所占的权重是不同的,比如问句"请问花王纸尿裤有没有日本原 装的?","花王纸尿裤"和"日本原装"的词语权重高于"请问"、"有"、"没有"、"的"。具体的确 定方法是: 1)维护停用词表,将"的""呢""啊"等无语义的词排除,不计入句子相似度计算。
[0042] 2)问句中出现子类与其父类相邻的情况删除父类。中文会出现语义重复的情况, 如图3中"惠氏奶粉",惠氏是奶粉的子类,子类的信息覆盖父类的信息,且子类携带的信息 更加详细具体,在这种情况下,我们只需考虑子类所携带的信息。
[0043] 3)分析词语之间的依赖关系,若W1、W2为修饰关系,且在本体中为主语谓语的关系 则将其宾语添加到词汇表中。
[0044] 如图4:所示本体中的主谓宾三元组,"Wyeth惠氏_金装健儿乐奶粉2段400g -产 地-苏州","Wyeth惠氏_金装健儿乐奶粉2段400g"是主语,"产地"是谓语,"苏州"担任宾语 的角色。
[0045]示例1:问句:"Wyeth惠氏_金装健儿乐奶粉2段400g的产地是哪儿?",在中文"A的 B",在A修饰B的情况下,将"苏州"添加到词汇表中。
[0046] 4 )领域本体中的概念是与系统相关度较高的词汇,且随着概念深度的增加,概念 携带的信息越详细,因此领域知识中的词汇权重高于一般词汇,且词汇的权重随词汇的深 度而增加。
[0047]
其中α是一个可调节的参数,调节概念的权重,本文设置α的值为1,表示领域本体中概 念的权重在1-2之间。
[0048] 如图3中,以"Thing"为根节点,深度为0,"惠氏"的深度为3,即:__%_= 3, 5,词语"惠氏"的权重为Weighty = 1 +亡=1.6。
[0049] 5)按照词汇的字数长度来计算: 示例2:针对奶粉与宝宝年龄的关系,构建的本体信息对语义分析的作用。
[0050] 如图6,依据奶粉的段数与适合宝宝的年龄,构建相应领域本体,系统会识别"四个 月"为"0-6个月"范围内,从而寻找标准答案中含"0-6个月"的问题,在答复输出模块上的显 示内容如下:
如图5,用户输入问句"为什么米粉有哈喇味儿啊?",系统在分词的同时对词语进行标 准化,将"哈喇味儿"标准化为"异味";去停用词,将"有""啊"去掉;查数据库倒排索引表 中含有[原因,米粉,异味]的问句,并将问题按照含关键词的数量排序,取前15个问句作 为候选问题;使用VSM算法,依次计算这15个候选问题的分词去停用词结果与[原因,米粉, 异味]的相似度,排序;相似度选取最高的问题的答案返回。
【主权项】
1. 一种面向垂直领域的智能问答系统,其特征在于,包括以下组成部分: (1) 提问模块:用于向系统输入问题; (2) 预处理模块:包括垂直领域本体,用于将本体中的类、属性、实例名称添加到分词词 典中,并标注相应词性; (3) 分词和词汇标准化模块:用于对问句进行分词,标注每个词的词性,和本体中的分 类标记; (4) 净化词模块:用于对分词后的集合进行去停用词,去掉无实际意义的语气词、寒暄 词; (5) 同义词扩展模块:用于整理垂直领域的相关同义词词林,对词义进行扩展; (6) 本体扩展模块:用于对分词后的词汇集合进行判断,若是本体中的词汇,对词汇间 的关系进行分析,进行扩展或删除,并设置该词汇在句子中的权重;若不是本体中的词汇, 按照普通词语的相似度进行计算; (7) 句子相似度计算模块:结合所述的词汇在句子中的权重,计算FAQ库中候选问题与 问句的句子相似度; (8) 答复输出模块:用于输出问题的答案。2. 根据权利要求1所述的面向垂直领域的智能问答系统,其特征在于,所述的提问模块 采用键盘、语音、手写或图像采集装置输入;所述的答复输出模块采用显示器、扬声器或打 印机。3. 根据权利要求1所述的面向垂直领域的智能问答系统,其特征在于,该系统的工作流 程包括: (1) 预处理:构建垂直领域本体,将本体中的类、属性、实例名称添加到分词词典中,并 标注相应词性; (2) 对问句进行分词并进行词语标准化,标注每个词的词性,和本体中的分类标记; (3) 对分词后的集合进行去停用词,去掉无实际意义的语气词、寒暄词; (4) 整理垂直领域的相关同义词词林,对词义进行扩展; (5) 对分词后的词汇集合进行判断,若是本体中的词汇,对词汇间的关系进行分析,进 行扩展或删除,并设置该词汇在句子中的权重;若不是本体中的词汇,按照普通词语的相似 度进行计算; (6) 结合词汇在句子中的权重,计算FAQ库中候选问题与问句的句子相似度; (7) 输出问题答案:按照相似度由高到低排序,最后选取相似度最高的问题所对应的答 案作为问题的答案。
【文档编号】G06F17/27GK105843897SQ201610167602
【公开日】2016年8月10日
【申请日】2016年3月23日
【发明人】张振峰, 于忠清, 刘晓强
【申请人】青岛海尔软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1