一种面向垂直领域的智能问答系统的制作方法

文档序号：10489022阅读：302来源：国知局

一种面向垂直领域的智能问答系统的制作方法
【专利摘要】一种面向垂直领域的智能问答系统，包括提问模块（1）、预处理模块（2）、分词和词汇标准化模块（3）、净化词模块（4）、同义词扩展模块（5）、词汇扩展或删除模块（6）、句子相似度计算模块（7）和答复输出模块（8）。本发明通过构建领域本体计算用户问句的相似度，依赖于分词技术、领域本体的构建、本体相似度计算。本发明的优点是：通过该句子相似度算法，应用领域本体技术更加准确的理解用户提问意图，计算句子相似度，提高问答系统的准确率。
【专利说明】
一种面向垂直领域的智能问答系统
技术领域
[0001] 本发明涉及一种面向垂直领域的智能问答系统，对垂直领域的语义分析准确率具有重要意义和作用。
【背景技术】
[0002] 按照问答系统的实现技术划分，包括:基于常见问题集(FAQ)的问答系统、基于信息检索的问答系统、基于问题分类的问答系统和基于资源描述框架（Re sour ce Description Framework)RDF查询的问答系统。
[0003] 基于常见问题集的问答系统，构建常见问题(FAQ)问答对，实现上依赖于用户问句与FAQ中问句的相似度计算。在FAQ问答系统的开发过程中，需要识别用户问句的意图，对两个句子进行相似度计算，以返回查询结果。现有的FAQ问答系统的相关技术流程为:对句子进行分词、去停用词、词语标准化等预处理工作后，建立倒排索引表，用VSM或者TF-IDF算法计算两个句子的词语数组的相似度。
[0004] 基于信息检索的问答系统，这种系统的信息来源通常是网络上的文档，所返回的答案直接从文档中抽取。
[0005] 基于用户问题分类的问答系统，通常对每一类问题构建相应的模板进行处理，增强对问题的理解，提高系统的准确率。
[0006] 基于RDF(Resource Description Framework资源描述框架，一种用于描述Web资源的标记语言)查询的问答系统的核心是把自然语言问句转化为RDF的标准查询语言，通常是W3C指定查询语言SPARQL，将自然语言问句中的词映射为本体中的类、实例或属性。
[0007] 然而现有技术在计算词语相似度时，有采用基于《知网》的相似度计算方法，但是对于专业的垂直领域缺乏足够的语义分析。且现有技术在计算句子相似度时，未考虑领域词汇的权重，对于专业的垂直领域的词汇缺乏足够的语义分析。
[0008] 本发明涉及的技术术语说明：领域本体:领域本体给出了构成相关领域词汇表的基本术语和关系，以及结合这些术语和关系来定义这些词汇表外延的规则。
[0009] 分词技术:分词就是将句子的词语识别出并进行词性标注。
[0010] 知网：《知网》(HowNet)是一部比较详尽的语义知识词典。以汉语和英语词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
[0011] 倒排索引表:对词语建立一张表，并记录词语对应的问题的位置。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引（inverted index)。
[0012] VSM:向量空间模型（Vector Space Model)把对文本内容的处理简化为向量空间中的向量运算，两个向量运算的相似度作为两个句子的语义相似度。
[0013] TF-IDF:词频-逆文档频率法（term frequency-inverse document frequency)，在VSM算法的基础上，根据词的频率确定词的权重，计算两个句子的相似度。

【发明内容】

[0014] 本发明基于FAQ和基于RDF查询技术有机结合实现，提出一种新的问答系统及处理流程，以增强智能问答系统语义分析能力，提高智能自动问答系统的准确率。
[0015] 本发明的技术方案是:本发明通过构建领域本体计算用户问句的相似度，依赖于分词技术、领域本体的构建、本体相似度计算。
[0016] 本发明的优点是:通过该句子相似度算法，应用领域本体技术更加准确的理解用户提问意图，计算句子相似度，提高问答系统的准确率。
【附图说明】
[0017]图1是本发明系统构成框图；图2是本发明基本工作程序流程图；图3是本发明本体的分类结构实施例的示意图；图4是本发明一个具体本体属性的结构示意图；图5是本发明工作程序一个实施例的流程图；图6是本发明的本体宝宝年龄分类结构示意图。
【具体实施方式】
[0018] 参见图1，本发明一种面向垂直领域的智能问答系统，主要基于计算机系统，包括以下组成部分： (1)提问模块1:用于向系统输入(提出）问题。可以采用键盘输入，语音输入，手写(板）输入，采用图像采集装置输入。
[0019] (2)预处理模块2:包括垂直领域本体(数据库），用于将本体中的类、属性、实例名称添加到分词词典中，并标注相应词性。
[0020] (3)分词和词汇标准化模块3:用于对问句进行分词，并进行词语标准化，标注每个词的词性和本体中的分类标记。
[0021] (4)净化词模块4:用于对分词后的集合进行去停用词，去掉无实际意义的语气词、寒喧词。
[0022] (5)同义词扩展模块5:用于整理垂直领域的相关同义词词林，对词义进行扩展。
[0023] (6)本体扩展模块6:用于对分词后的词汇集合进行判断，若是本体中的词汇，对词汇间的关系进行分析，进行扩展或删除，并设置该词汇在句子中的权重;若不是本体中的词汇，按照普通词语的相似度进行计算。
[0024] (7)句子相似度计算模块:结合所述的词汇在句子中的权重，计算FAQ库中候选问题与问句的句子相似度。
[0025] (8)答复输出模块:用于输出问题的答案。
[0026] 参见图2,本发明的基本工作流程包括： (1)预处理:构建垂直领域本体，将本体中的类、属性、实例名称添加到分词词典中，并标注相应词性。
[0027] (2)对问句进行分词并进行词语标准化，标注每个词的词性，和本体中的分类标记。
[0028] (3)对分词后的集合进行去停用词，去掉无实际意义的语气词、寒暄词。
[0029] (4)整理垂直领域的相关同义词词林，对词义进行扩展。
[0030] (5)对分词后的词汇集合进行判断，若是本体中的词汇，对词汇间的关系进行分析，进行扩展或删除，并设置该词汇在句子中的权重;若不是本体中的词汇，按照普通词语的相似度进行计算。
[0031] (6)结合词汇在句子中的权重，计算FAQ库中候选问题与问句的句子相似度。
[0032] (7)输出问题答案:按照相似度由高到低排序，最后选取相似度最高的问题作为答案。
[0033]下面结合图3-图6对本发明的系统和工作流程作进一步说明。
[0034] 1.关于垂直领域本体知识库构建：对垂直领域的知识进行分类，分析概念及其属性之间的关系，实现领域知识的表达。
[0035] 领域本体中的类、实例、属性:类和实例与面向对象中类和对象是相似的，属性描述类或实例之间的关系。
[0036] 如图4中，"地点"作为一个类，有"苏州"作为它的实例，有一个惠氏金装系列的实例"Wyeth惠氏_金装健儿乐奶粉2段400g"，它的产地是苏州。"产地"作为属性连接两个实例。
[0037] 2.本体中词语相似度的计算：词汇对应于本体中的类、实例或属性。所有概念形成有向图，定义父类与直接子类的距离为1，类与其实例的距离为1，属性与其定义域和值域的距离分别为1，词汇Wl、W2的距离依照上述定义累加。WO为Wl和W2的最近公共父节点。则两个词汇的语义相似度采用公式：
如图3:以"Thing"为根节点，深度为0，"Wyeth惠氏_金装健儿乐奶粉2段400g"的深度为5,和"Wyeth惠氏_金装幼儿乐奶粉3段400g"的深度为5,它们的最近公共父节点"金装系列"的深度为4，则他们的相似度为霉_ : a||+j_ =0.80。
[0038] 或：
α是一个可调节的参数，表示两个词汇相似度为0.5时的距离其公共父节点的值。
[0039] 如图3:设α=1.6,以"Thing"为根节点，深度为0，"Wyeth惠氏_金装健儿乐奶粉2段 400g"和"Wyeth惠氏_金装幼儿乐奶粉3段400g"，它们距最近公共父节点"金装系列"的距离都为1，则他们的相似度为：
[0040」最后，按照相似度由高到低排序，最后选取第一个(相似度最高的）问题所对应的答案作为所提问题的最终答案，并由答复输出模块输出。
[0041 ] 3.问句中词语权重的确定：用户问句中不同的词所占的权重是不同的，比如问句"请问花王纸尿裤有没有日本原装的?"，"花王纸尿裤"和"日本原装"的词语权重高于"请问"、"有"、"没有"、"的"。具体的确定方法是： 1)维护停用词表，将"的""呢""啊"等无语义的词排除，不计入句子相似度计算。
[0042] 2)问句中出现子类与其父类相邻的情况删除父类。中文会出现语义重复的情况，如图3中"惠氏奶粉"，惠氏是奶粉的子类，子类的信息覆盖父类的信息，且子类携带的信息更加详细具体，在这种情况下，我们只需考虑子类所携带的信息。
[0043] 3)分析词语之间的依赖关系，若W1、W2为修饰关系，且在本体中为主语谓语的关系则将其宾语添加到词汇表中。
[0044] 如图4:所示本体中的主谓宾三元组，"Wyeth惠氏_金装健儿乐奶粉2段400g -产地-苏州"，"Wyeth惠氏_金装健儿乐奶粉2段400g"是主语，"产地"是谓语，"苏州"担任宾语的角色。
[0045]示例1:问句："Wyeth惠氏_金装健儿乐奶粉2段400g的产地是哪儿?"，在中文"A的 B"，在A修饰B的情况下，将"苏州"添加到词汇表中。
[0046] 4 )领域本体中的概念是与系统相关度较高的词汇，且随着概念深度的增加，概念携带的信息越详细，因此领域知识中的词汇权重高于一般词汇，且词汇的权重随词汇的深度而增加。
[0047]
其中α是一个可调节的参数，调节概念的权重，本文设置α的值为1，表示领域本体中概念的权重在1-2之间。
[0048] 如图3中，以"Thing"为根节点，深度为0，"惠氏"的深度为3，即：__%_= 3， 5,词语"惠氏"的权重为Weighty = 1 +亡=1.6。
[0049] 5)按照词汇的字数长度来计算：示例2:针对奶粉与宝宝年龄的关系，构建的本体信息对语义分析的作用。
[0050] 如图6,依据奶粉的段数与适合宝宝的年龄，构建相应领域本体，系统会识别"四个月"为"0-6个月"范围内，从而寻找标准答案中含"0-6个月"的问题，在答复输出模块上的显示内容如下：
如图5,用户输入问句"为什么米粉有哈喇味儿啊?"，系统在分词的同时对词语进行标准化，将"哈喇味儿"标准化为"异味"；去停用词，将"有""啊"去掉;查数据库倒排索引表中含有[原因，米粉，异味]的问句，并将问题按照含关键词的数量排序，取前15个问句作为候选问题;使用VSM算法，依次计算这15个候选问题的分词去停用词结果与[原因，米粉，异味]的相似度，排序;相似度选取最高的问题的答案返回。
【主权项】
1. 一种面向垂直领域的智能问答系统，其特征在于，包括以下组成部分： (1) 提问模块:用于向系统输入问题； (2) 预处理模块:包括垂直领域本体，用于将本体中的类、属性、实例名称添加到分词词典中，并标注相应词性； (3) 分词和词汇标准化模块：用于对问句进行分词，标注每个词的词性，和本体中的分类标记； (4) 净化词模块：用于对分词后的集合进行去停用词，去掉无实际意义的语气词、寒暄词； (5) 同义词扩展模块:用于整理垂直领域的相关同义词词林，对词义进行扩展； (6) 本体扩展模块：用于对分词后的词汇集合进行判断，若是本体中的词汇，对词汇间的关系进行分析，进行扩展或删除，并设置该词汇在句子中的权重;若不是本体中的词汇，按照普通词语的相似度进行计算； (7) 句子相似度计算模块:结合所述的词汇在句子中的权重，计算FAQ库中候选问题与问句的句子相似度； (8) 答复输出模块:用于输出问题的答案。2. 根据权利要求1所述的面向垂直领域的智能问答系统，其特征在于，所述的提问模块采用键盘、语音、手写或图像采集装置输入;所述的答复输出模块采用显示器、扬声器或打印机。3. 根据权利要求1所述的面向垂直领域的智能问答系统，其特征在于，该系统的工作流程包括： (1) 预处理:构建垂直领域本体，将本体中的类、属性、实例名称添加到分词词典中，并标注相应词性； (2) 对问句进行分词并进行词语标准化，标注每个词的词性，和本体中的分类标记； (3) 对分词后的集合进行去停用词，去掉无实际意义的语气词、寒暄词； (4) 整理垂直领域的相关同义词词林，对词义进行扩展； (5) 对分词后的词汇集合进行判断，若是本体中的词汇，对词汇间的关系进行分析，进行扩展或删除，并设置该词汇在句子中的权重;若不是本体中的词汇，按照普通词语的相似度进行计算； (6) 结合词汇在句子中的权重，计算FAQ库中候选问题与问句的句子相似度； (7) 输出问题答案:按照相似度由高到低排序，最后选取相似度最高的问题所对应的答案作为问题的答案。
【文档编号】G06F17/27GK105843897SQ201610167602
【公开日】2016年8月10日
【申请日】2016年3月23日
【发明人】张振峰, 于忠清, 刘晓强
【申请人】青岛海尔软件有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张振峰;于忠清;刘晓强;
技术所有人：青岛海尔软件有限公司;
我是此专利的发明人

上一篇：一种服务交易系统和方法
上一篇：一种多源异构大数据的冗余源协同缩减方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。