一种语义知识库构建方法与流程

文档序号:18834895发布日期:2019-10-09 04:53阅读:1503来源:国知局

本发明涉及人工智能技术领域,尤其涉及一种语义知识库构建方法。



背景技术:

随着人工智能技术的不断成熟与国家战略的不断推进,知识库作为数据存储的重要形态,起到越来越关键的作用。知识库的构建方法和策略,直接关系到微信机器人、网页机器人、虚拟屏机器人、实体机器人等各类终端智能体的智力水平,同时也影响到知识库的维护难度和迭代速度。

专利cn109800879a《知识库构建方法和装置》提出了一种构建知识库的方法。此专利提出了一种拓展相似问句的常规方法,首先构建标准问题和第一拓展问句,然后依此为基础构建基于训练库构造其余相似问句,此方法具有理论上的可行性。专利cn104834668a《基于知识库的职位推荐系统》重点对招聘行业知识的来源及使用方法做了阐述。专利cn106650940a《一种领域知识库构建方法和装置》主要通过核心概念的构建及更新的机制实现知识库的自动构建。

由以上具有代表意义的专利可知,当下知识库的构建方法主要采用常规“从零开始构建”的传统方法。即根据用户提供的行业知识按部就班的按照某种方法进行知识采集及处理。此种机制的弊端有两个,第一是没有充分利用到其他领域的知识,所获取的知识仅仅局限在特定领域,存在人工智能专家geoffreyhinton所说的“机器缺乏常识”的问题。比如“信用卡办理周期”的问题,用户问“信用卡什么时候能寄到”,换种更口语化的问法机器人可能就无法解析,出现错误回答。第二是传统构建方法其准确率得不到保障,其实用价值和商用价值受限。



技术实现要素:

本发明要解决的技术问题是提供一种语义知识库构建方法,解决了常规知识库“从零开始构建”的问题和“书面语口语化表达不匹配”的常识缺乏问题。

为了解决所述技术问题,本发明采用的技术方案是:一种语义知识库构建方法,包括以下步骤:s01)、构建种子语义知识库,原始的语义知识库没有任何内容,首先构建第一版语义知识库,即种子知识库,种子知识库的每一条语义知识都全局唯一语义知识id,语义知识包括标准问句的相似语义知识的聚类;s02)、实现语义知识库与行业知识库的语义互联,行业知识库中每一条知识只包括标准问句与对应答案,进行语义关联时,首先对行业知识库的每一条知识设置全局唯一行业知识id,然后对标准问句进行语义解析及语义提取,然后对解析后的语义与语义知识库进行语义关联;s03)、用户交互过程中,通过后台语义逻辑构建实现机器人智力升级,对于用户咨询的问题,首先通过语义知识库实现语义扩充,再通过与标准问题计算语义相似度,选择最佳的候选答案;s04)、根据当前行业知识库,丰富和扩充语义知识库,当前行业知识库经过一段时间的运行后,行业知识的条目达到一定数量,此时可将行业知识进行语义知识提取和抽象,实现对语义知识库的扩充。

进一步的,采用机器学习的自动构建方法、人工构建方法或者自动构建与人工构建相结合的方法构建种子语义知识库。

进一步的,构建种子语义知识库的过程为:s11)、构造爬虫策略,爬取包括行业文件、行业知识问答、行业常识在内的行业知识;s12)、构造部分训练集,以句子为单位,对句子进行分类,类别包括定义类问题、业务流程类、业务条件类、业务资料类、时间语义、钱数语义;s13)、构造完成训练集,对全部样本以句子为单位进行拆分,得到每个句子的类别;s14)、基于每个句子的类别对句子进行语义提取,同类别的句子提取到语义相似或结构相似的信息,针对每个句子提取的信息构成种子语义知识库。

进一步的,语义知识的形式是基于脚本程序的语义表达块、谓词逻辑表示式、树形结构的语义词库或者正则表达式。

进一步的,语义知识的内容是意图、实体、词库、句法关系或者实体关系。

进一步的,步骤s02中,标准问句语义解析及语义提取的结果包括问句意图、问句实体、语法关系、句法关系。

进一步的,标准问句解析后的语义与语义知识库进行语义关联时,采用语义计算、人工关联或者语义计算与人工关联相结合的方法。

进一步的,行业知识id与语义知识id是一对多、多对多、一一对应的关系。

进一步的,步骤s03的具体过程为:s31)、基于语义知识库进行用户问题语义解析及语义提取,实现问句语义的特征提取及特征升维,构造用户问题特征;s32)、计算用户问题与行业知识库标准问题的语义相似度,选择语义相似度最高的答案为最佳的候选答案。

进一步的,计算用户问题与行业知识库标准问题的语义相似度的方法包括:行业知识特征与用户问题特征逐一计算、单一或者集成学习的相似度计算方法、欧氏距离或者余弦距离的方法。

本发明的有益效果:本方法首先通过构建语义知识库,此语义知识库作为其他知识库的“插件”,可以实现新构建知识库与语义知识库的关联对接,解决了常规知识库“从零开始构建”的问题和“书面语口语化表达不匹配”的常识缺乏问题。此外此语义知识库可通过在线或离线的形式实现升级迭代。最终实现更为精准的用户问答,大大提升机器人的智力水平,提升客户体验度。

具体实施方式

下面结合具体实施例对本发明作进一步的说明。

实施例1

本实施例以语义知识库的构建和在银行知识库中的应用为例,一种语义知识库构建方法的具体步骤如下:

s01)、构建种子语义知识库

原始的语义知识库没有任何内容,首先构建第一版语义知识库,即种子知识库,种子知识库的每一条语义知识都全局唯一语义知识id,语义知识包括行业知识库标准问句的相似语义知识的聚类。

本实施例中,构建种子语义知识库的具体步骤为:

s11)、构造爬虫策略,爬取包括行业文件、行业知识问答、行业常识在内的行业知识;

s12)、构造部分训练集,以句子为单位,对句子进行分类,类别包括定义类问题、业务流程类、业务条件类、业务资料类、时间语义、钱数语义;

s13)、构造完成训练集,对全部样本以句子为单位进行拆分,得到每个句子的类别;

s14)、基于每个句子的类别对句子进行语义提取,同类别的句子提取到语义相似或结构相似的信息,针对每个句子提取的信息构成种子语义知识库。

本实施案例经过训练,提到的部分信息如下:

以上信息即为比较简单的语义形式,其中x代表任意字符。

根据实际情况不同,原始语义知识库的构建也可以采用人工构建或者自动构建与人工相结合的方法。

本实施例中,种子语义知识库的知识数量不受限制,每一条知识都可以动态扩充,实现特征升维。

s02)、实现语义知识库与行业知识库的语义互联

行业知识库中每一条知识只包括标准问句与对应答案,进行语义关联时,首先对行业知识库的每一条知识设置全局唯一行业知识id,然后对标准问句进行语义解析及语义提取,提取结果包括问句意图、问句实体、语法关系、句法关系,也可以是其他,形成行业知识特征id,然后对解析后的语义与语义知识库进行语义关联。在对标准问句进行语义提取时可以用到语义知识库的知识。

解析后的语义与语义知识库进行语义关联时,可采用语义计算的方法,可以采用人工关联的方法,也可以采用语义计算与人工关联相结合的方法。一般而言,人工关联的方法精确度高最高但效率较低,语义计算的方法效率最高但准确率一般。用于根据实际情况选择不同的方法。

语义知识库与行业知识库关联时,行业知识id与语义知识id是一对多、多对多或者一一对应的关系。

比如在实现语义知识库与行业知识库关联时,首先录入银行业务标准问题,例如信用卡可否代办;然后将标准问题进行语义解析及语义提取,提取出“办信用卡周期”和“能否”两个特征,然后将解析出的特征分别与@时间语义和@二值判断语义相关联,然后对录入的银行业务标准问题的其他特征进行提取,此处“@信用卡”特征也将是此标准问题的核心特征。

本步骤中,在知识量较少的时候可以采用人工判断的形式,知识量较多时可采用先机器学习关联后人工二次处理的形式。

s03)、用户交互过程中,通过语义知识库实现语义关联及扩充,也就是通过后台语义逻辑构建实现机器人智力升级。

对于用户咨询的问题,首先通过语义知识库实现语义扩充,再通过与标准问题计算语义相似度,选择最佳的候选答案。

具体的,当用户问“信用卡可不可以代办”时,首先,通过语义提取算法可以得到行业实体“@信用卡”,语义知识库中的语义知识“@二值判断语义”,进而实现用户问题与语义知识库的关联,同时实现语义扩充。也就是间接实现了语义的对齐。

其次,将当前问题与行业知识库中问题特征进行比较,计算相似度。此处可采取核心特征分值累计方法的直观方法。存在一个核心特征加5分,其余特征加2分。显然存在“@信用卡”和“@二值判断语义”的标准问题将得到最高相似度。进而将标准问题“信用卡可否代办”的答案回复到客户。最终实现一次有效的交互过程。

根据实际情况,计算用户问题与行业知识库标准问题的语义相似度也可以采用单一或者集成学习的相似度计算方法、欧氏距离或者余弦距离的方法。

s04)、根据当前行业知识库,丰富和扩充语义知识库。

当前行业知识库经过一段时间的运行后,行业知识的条目达到一定数量,此时可将行业知识进行抽象,实现对语义知识库的扩充。

本实施例中,采用机器学习算法对当前知识进行语义解析及语义提取,整理为统一格式。为保证语义知识库的高质量,可采用人工处理的方式将当前机器学习结果进行二次处理。处理完成后统一入库,形成“永久知识”。

例如上图表格中的种子知识库,可经过后续知识的不断扩充,构造成为知识树或者图谱的形式。

此语义知识库可以用于医院、税务、电力、政务等行业或领域,比较方便的实现知识复用。同时在使用过程中可不断丰富和拓展语义知识库。

语义知识的形式是基于脚本程序的语义表达块、谓词逻辑表示式、树形结构的语义词库或者正则表达式。语义知识的内容是意图、实体、词库、句法关系或者实体关系。

以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1