一种领域知识库构建方法、装置、设备及存储介质与流程

文档序号:26007605发布日期:2021-07-23 21:26阅读:177来源:国知局
一种领域知识库构建方法、装置、设备及存储介质与流程

本申请涉及语义理解技术领域,尤其涉及一种领域知识库构建方法、装置、设备及存储介质。



背景技术:

自然语言理解(naturallanguageunderstanding,nlu)是人工智能领域的一个重要学科分支,被广泛认为是最困难、也是最具标志性的任务。目前,基于自然语言理解技术的智能客服、对话机器人等已经在运营商、银行、保险等领域商用落地,为越来越多的人们提供服务。

自然语言理解技术的关键在于构建出效果较好的语义理解模型,可以理解的是,针对指定领域,为了能够构建出效果较好的语义理解模型,往往需要足够多指定领域的有标注语料以构建领域知识库,进而才能基于领域知识库中足够多的有标注语料构建出效果较好的语义理解模型,然而,在项目的概念验证或者项目的冷启动阶段,往往会缺乏足够多指定领域的有标注语料。



技术实现要素:

有鉴于此,本申请提供了一种领域知识库构建方法、装置、设备及存储介质,用以自动构建出包含足够多指定领域的有标注语料的领域知识库,从而解决在项目的概念验证或者项目的冷启动阶段缺乏足够多指定领域的有标注语料的问题,其技术方案如下:

一种领域知识库构建方法,包括:

获取指定领域对应的种子知识库,其中,所述种子知识库中包含标注在所述指定领域的知识点下的种子句式;

基于所述种子知识库中的种子句式,从所述指定领域对应的领域句式库中挖掘出能够标注在所述指定领域的知识点下的领域句式,并对挖掘出的领域句式进行标注,以得到标注在所述指定领域的知识点下的挖掘句式;

由标注在所述指定领域的知识点下的种子句式和挖掘句式组成所述指定领域对应的领域知识库。

可选的,所述基于所述种子知识库中的种子句式,从所述指定领域对应的领域句式库中挖掘出能够标注在所述指定领域的知识点下的领域句式,包括:

将所述领域句式库中的各领域句式分别作为目标领域句式,针对所述目标领域句式执行:

根据所述目标领域句式和所述种子知识库中的种子句式,从所述指定领域的知识点中确定与所述目标领域句式匹配的知识点,作为目标领域句式对应的知识点;

判别所述目标领域句式是否能够标注在所述目标领域句式对应的知识点下,以得到所述目标领域句式对应的判别结果;

根据所述领域知识库中各领域句式分别对应的判别结果,获得所述领域句式库中能够标注在所述指定领域的知识点下的领域句式。

可选的,所述判别所述目标领域句式是否能够标注在所述目标领域句式对应的知识点下,包括:

获取所述目标领域句式对应的知识点下与所述目标领域句式匹配的种子句式,作为所述目标领域句式对应的种子句式;

根据所述目标领域句式和所述目标领域句式对应的种子句式,判别所述目标领域句式是否能够标注在所述目标领域句式对应的知识点下。

可选的,所述根据所述目标领域句式和所述种子知识库中的种子句式,从所述指定领域的知识点中确定与所述目标领域句式匹配的知识点,包括:

确定所述种子知识库中每个种子句式与所述目标领域句式的第一相似度;

从所述种子知识库中确定与所述目标领域句式的第一相似度最高的预设个种子句式,以得到由所述预设个种子句式所属的知识点组成的知识点集合;

根据所述预设个种子句式中标注在所述知识点集合中每个知识点下的种子句式与所述目标领域句式的第一相似度,确定所述知识点集合中每个知识点的得分;

将所述知识点集合中得分最高的知识点确定为与所述目标领域句式匹配的知识点。

可选的,所述确定所述种子知识库中每个种子句式与所述目标领域句式的第一相似度,包括:

采用基于业务关键词的相似度确定方式、基于词向量的相似度确定方式、基于语言模型的相似度确定方式中的任一种或者至少两种,确定所述种子知识库中每个种子句式与所述目标领域句式的第一相似度;

其中,所述基于业务关键词的相似度确定方式为,基于两个句式包含的业务关键词确定两个句式的相似度,所述基于词向量的相似度确定方式为基于两个句式所包含词的词向量确定两个句式的相似度,所述基于语言模型的相似度确定方式为,基于所述语言模型分别针对两个句式确定的句向量确定两个句式的相似度。

可选的,所述根据所述目标领域句式和所述目标领域句式对应的种子句式,判别所述目标领域句式是否能够标注在所述目标领域句式对应的知识点下。

采用基于词类型的相似度确定方式,确定所述目标领域句式与所述目标领域句式对应的种子句式的第二相似度,其中,所述基于词类型的相似度确定方式为,基于两个句式中所包含词的类型对应的权重和所包含词的词向量确定两个句式的相似度;

根据所述目标领域句式与所述目标领域句式对应的种子句式的第二相似度,判别所述目标领域句式是否能够标注在所述目标领域句式对应的知识点下。

可选的,所述目标领域句式对应的种子句式根据所述目标领域句式对应的知识下各种子句式分别与所述目标领域句式的第一相似度确定,所述目标领域句式与所述目标领域句式对应的种子句式的第一相似度与第二相似度的确定方式不同;

所述根据所述目标领域句式与所述目标领域句式对应的种子句式的第二相似度,判别所述目标领域句式是否能够标注在所述目标领域句式对应的知识点下,包括:

若所述目标领域句式与所述目标领域句式对应的种子句式的第一相似度大于或等于预设的第一相似度阈值,且所述目标领域句式与所述目标领域句式对应的种子句式的第二相似度大于或等于预设的第二相似度阈值,则判定所述目标领域句式能够标注在所述目标领域句式对应的知识点下。

可选的,所述领域知识库构建方法还包括:

针对所述指定领域对应的领域知识库,判断是否存在需要进行句式优化的目标知识点;

若是,则对所述指定领域对应的领域知识库中标注在所述目标知识点下的句式进行优化,以得到优化后的领域知识库。

可选的,所述判断是否存在需要进行句式优化的目标知识点,包括:

利用所述指定领域对应的领域知识库中的句式训练语义理解模型;

利用所述指定领域对应的测试数据集,对训练得到的语义理解模型进行测试,其中,所述指定领域对应的测试数据集中包含所述指定领域的知识点下的测试句式;

根据测试结果确定是否存在语义正确率小于预设正确率阈值的知识点,若是,则将所述语义正确率小于预设正确率阈值的知识点确定为需要进行句式优化的目标知识点;

在确定出存在需要进行句式优化的目标知识点之后,在对所述指定领域对应的领域知识库中标注在所述目标知识点下的句式进行优化之前,所述方法还包括:

从所述指定领域对应的领域知识库中将标注在所述目标知识点下的挖掘句式删除。

可选的,所述判断是否存在需要进行句式优化的目标知识点,包括:

统计所述指定领域对应的领域知识库中标注在每个知识点下的句式的数量;

判断是否存在句式的数量小于预设数量阈值的知识点,若是,则将句式的数量小于预设数量阈值的知识点确定为需要进行句式优化的目标知识点。

可选的,所述对所述指定领域对应的领域知识库中标注在所述目标知识点下的句式进行优化,包括:

获取所述目标知识点对应的种子句式集合,其中,所述目标知识点对应的种子句式集合中包含标注在所述目标知识点下的种子句式;

针对所述目标知识点对应的种子句式集合中的每个种子句式,将该种子句式中所包含的业务词替换为对应的模糊词,替换后的句式作为该种子句式对应的扩展句式;

基于所述目标知识点对应的种子句式集合中各种子句式分别对应的扩展句式,从所述指定领域对应的领域句式库中挖掘出能够标注在所述目标知识点下的领域句式;

将挖掘出的领域句式中的模糊词替换为对应的业务词,并将替换后的领域句式标注在所述目标知识点下,以得到标注在所述目标知识点下的挖掘句式;

将标注在所述目标知识点下的挖掘句式添加至所述指定领域对应的领域知识库中。

可选的,所述领域知识库构建方法还包括:

基于所述优化后的领域知识库对基于优化前的领域知识库训练得到的语义理解模型进行优化;

基于所述指定领域对应的测试数据集对优化后的语义理解模型进行测试,并根据测试结果确定所述优化后的语义理解模型的性能是否满足要求;

若否,则对所述优化后的领域知识库进行如下三种优化处理中的一种或多种:

以意图接近的多个知识点的界限为依据,从标注在意图接近的多个知识点下的句式中确定标注错误的句式,并将标注错误的句式标注在正确的知识点下;

根据所述优化后的语义理解模型基于所述优化后的领域知识库针对所述测试数据集中的测试句式预测的知识点以及所述测试句式标注的知识点,确定标注错误的句式,并将标注错误的句式标注在正确的知识点下;

在所述优化后的领域知识库中添加优化后的语义理解模型的拒识句式,其中,添加的拒识句式为有效业务的意图句式。

一种领域知识库构建装置,包括:种子知识库获取模块、句式挖掘模块和领域知识库获取模块;

所述种子知识库获取模块,用于获取指定领域对应的种子知识库,其中,所述种子知识库中包含标注在所述指定领域的知识点下的种子句式;

所述句式挖掘模块,用于基于所述种子知识库中的种子句式,从所述指定领域对应的领域句式库中挖掘出能够标注在所述指定领域的知识点下的领域句式,并对挖掘出的领域句式进行标注,以得到标注在所述指定领域的知识点下的挖掘句式;

所述领域知识库获取模块,用于由标注在所述指定领域的知识点下的种子句式和挖掘句式组成所述指定领域对应的领域知识库。

一种领域知识库构建设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现上述任一项所述的领域知识库构建方法的各个步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的领域知识库构建方法的各个步骤。

经由上述方案可知,本申请提供的领域知识库构建方法、装置、设备及存储介质,首先获取指定领域对应的种子知识库,然后基于种子知识库中的种子句式从指定领域对应的领域句式库中挖掘出能够标注在指定领域的知识点下的领域句式,并对挖掘出的领域句式进行标注,以得到标注在指定领域的知识点下的挖掘句式,最后由标注在指定领域的知识点下的种子句式和挖掘句式组成指定领域对应的领域知识库。本申请提供的领域知识库构建方法,可获取标注在指定领域的知识点下的种子句式,考虑到种子句式数量较少,本申请进一步基于获得的种子句式对指定领域对应的领域句式库进行句式挖掘,从而获得标注在指定领域的知识点下的挖掘句式,经由本申请实施例提供的领域知识库构建方法可构建出包含足够多指定领域的有标注语料的领域知识库,基于领域知识库中的这些有标注语料可构建出效果较好的语义理解模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的领域知识库构建方法的一流程示意图;

图2为本申请实施例提供的指定领域的知识点以及知识点下的种子句式的示例;

图3为本申请实施例提供的基于种子知识库中的种子句式,从指定领域对应的领域句式库中挖掘出能够标注在指定领域的知识点下的领域句式的流程示意图;

图4为本申请实施例提供的领域知识库构建方法的另一流程示意图;

图5为本申请实施例提供的领域知识库构建装置的结构示意图;

图6为本申请实施例提供的领域知识库构建设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

针对指定领域,为了能够获得足够多的有标注语料,本案发明人进行了研究,在研究过程中发现,现有技术中存在获取有标注语料的方案,现有方案大多为基于人工的有标注语料获取方案,即由人工构造语料并标注,然而,需要的有标注语料往往较多,因此,基于人工的有标注语料获取方案需要投入大量的人力和时间。

鉴于现有方案存在的问题,本案发明人通过不断研究,最终提供了一种能够自动获取有标注语料的方案,该方案的基本构思是:获取指定领域的知识点下的种子句式,基于种子知识库中的种子句式从指定领域对应的领域句式库中挖掘出能够标注在指定领域的知识点下的领域句式,并对挖掘出的领域句式进行标注,在获得种子句式和挖掘句式后,可由获得的种子句式和挖掘句式组成指定领域对应的领域知识库。在获得指定领域对应的领域知识库后,可利用指定领域对应的领域知识库中的句式训练语义理解模型,还可进一步基于训练得到的语义理解模型对指定领域对应的领域知识库进行优化,还可再进一步基于优化后的领域知识库对语义理解模型进行优化、基于优化后的语义理解模型对优化后的领域知识库进一步进行优化,最终获得质量较佳的领域知识库和性能较佳的语义理解模型。需要说明的是,在语义理解模型的训练阶段,可利用领域知识库中的句式训练语义理解模型,在测试阶段,语义模型基于领域知识库中的句式对输入的测试句式进行语义理解。

本申请提供的领域知识库的构建方法可应用于具有数据处理能力的电子设备,该电子设备可以为网络侧的服务器,也可以为用户侧使用的终端,比如pc、笔记本、智能手机等,网络侧的服务器或用户侧使用的终端可按本申请提供的领域知识库构建方法构建指定领域对应的领域知识库。接下来通过下述实施例对本申请提供的领域知识库构建方法进行介绍。

第一实施例

请参阅图1,示出了本申请实施例提供的领域知识库构建方法的流程示意图,该方法可以包括:

步骤s101:获取指定领域对应的种子知识库。

需要说明的是,本申请提及的“领域”指的是行业,包括但不限于银行、保险、政务、运营商、电力等。

在本实施例中,指定领域对应的种子知识库中包含标注在指定领域的知识点下的种子句式,需要说明的是,一种子句式x标注在知识点y下指的是,种子句式x的标注信息为知识点y。

其中,指定领域的知识点通过对指定领域的业务进行梳理得到,可选的,指定领域的知识点为指定领域的高频业务。

请参阅图2,示出了通过对银行这一领域的业务梳理得到的知识点的示意图,银行这一领域的知识点为图3中的二级业务,比如“人民币活期存款利率”、“人民币定期存款利率”、“外币活期存款利率”等,图3中的二级业务常为具体咨询或办理的业务。

在获得指定领域的知识点后,可针对每个知识点构造句式,构造的句式作为种子句式,将针对各知识点构造的种子句式组成指定领域对应的种子知识库。需要说明的是,针对每个知识点可构造一个种子句式,也可构造多个种子句式,为了后续能够从领域句式库中挖掘出更多、更丰富的句式,优选为针对每个知识点构造多个种子句式,比如,构造5个。如图2所示,针对知识点“人民币定期存款利率”构建的种子句式有“存钱三年的利率是多少”、“告诉我以下死期存款利率”、“两年定期的利息怎么算”…。

在针对每个知识点构造多个种子句式时,应在指向该知识点意图的前提下,尽可能地表达丰富,例如,对于“保险”这一领域的知识点“保单查询”,可以通过在领域句式库中搜索,或者通过日常经验,构造指向“保单查询”的多个表达丰富的句式,比如“帮我看下我的保单保什么”、“我这个保单是什么险”、“查查我都办过什么保单”、“看看我的保单到期了吗”、“保单详情查询”,而不应构造表达单一的多个句式,比如,“帮我查一下保单”、“帮我查询保单”、“帮我查一下单字”,这几个句式只是一些同义词的替换,实质上是同一个表达句式,这样构造句式的意义并不大,应避免出现这样的情况。

步骤s102:基于种子知识库中的种子句式,从指定领域对应的领域句式库中挖掘出能够标注在指定领域的知识点下的领域句式,并对挖掘出的领域句式进行标注,以得到标注在指定领域的知识点下的挖掘句式。

其中,指定领域对应的领域句式库中包含多个领域句式,这些领域句式是领域内的不同厂商在与客户进行咨询、处理等业务中产生的句式。本实施例基于指定领域的知识点下的种子句式从指定领域对应的领域句式库中挖掘句式。

具体的,针对指定领域对应的领域句式库中的每个领域句式,可根据种子知识库中的种子句式,确定与该领域句式匹配的知识点,并进一步确定与该领域句式匹配的知识点下与该领域句式匹配的种子句式,根据该领域句式和与该领域句式匹配的种子句式,确定该领域句式是否能够标注在与该领域句式匹配的知识点下,若是,则将该领域句式标注在与该领域句式匹配的知识点下。

步骤s103:由标注在指定领域的知识点下的种子句式和挖掘句式组成指定领域对应的领域知识库。

在获得指定领域对应的领域知识库后,可利用指定领域对应的领域知识库中的句式训练语义理解模型,由于指定领域对应的领域知识库包含较多的有标注语料,因此,基于指定领域对应的领域知识库中的有标注语料可训练得到效果较好的语义理解模型。

本申请实施例提供的领域知识库构建方法,可获取标注在指定领域的知识点下的种子句式,考虑到种子句式数量较少,本申请实施例进一步基于获得的种子句式对指定领域对应的领域句式库进行句式挖掘,从而获得标注在指定领域的知识点下的挖掘句式,进而得到由标注在指定领域的知识点下的种子句式和挖掘句式组成的领域知识库,经由本申请实施例提供的领域知识库构建方法可构建出包含足够多指定领域的有标注语料的领域知识库。

第二实施例

本实施例对上述实施例中的步骤s102中“基于种子知识库中的种子句式,从指定领域对应的领域句式库中挖掘出能够标注在指定领域的知识点下的领域句式”的实现过程进行介绍。

请参阅图3,示出了基于种子知识库中的种子句式,从指定领域对应的领域句式库中挖掘出能够标注在指定领域的知识点下的领域句式的流程示意图,可以包括:

步骤s301:将领域句式库中的各领域句式分别作为目标领域句式,执行:

步骤s3011:根据目标领域句式和种子知识库中的种子句式,从指定领域的知识点中确定与目标领域句式匹配的知识点,作为目标领域句式对应的知识点。

具体的,根据目标领域句式和种子知识库中的种子句式,从指定领域的知识点中确定与目标领域句式匹配的知识点的过程包括:

步骤s3011-1、确定种子知识库中每个种子句式与目标领域句式的第一相似度。

在本实施例中,确定种子知识库中一种子句式qjk(第j个知识点下的第k个种子句式)与目标领域句式qi(领域句式库中的第i个领域句式)的第一相似度的实现方式有多种:

在一种可能的实现方式中,可采用如下三种相似度确定方式中的任一种,确定种子句式qjk与目标领域句式qi的第一相似度:

第一种相似度确定方式:基于业务关键词的相似度确定方式。

基于种子句式qjk中包含的业务关键词与目标领域句式qi中包含的业务关键词,确定种子句式qjk与目标领域句式qi的相似度s业务关键词,作为种子句式qjk与目标领域句式qi的第一相似度。

其中,业务关键词可以包括业务词和操作词,示例性的,种子句式为“我想查一下存款利率”,其包含的业务关键词有“存款”、“利率”、“查询”,其中,“存款”和“利率”为业务词,“查询”为操作词。可选的,业务关键词可通过命名实体识别获得。

假设目标领域句式qi中包含的业务关键词为(x1,...,xm),种子句式qjk中包含的务关键词为(y1,...,yn),则可基于下式确定种子句式qjk与目标领域句式qi的相似度s业务关键词:

第二种相似度确定方式:基于词向量的相似度确定方式。

基于种子句式qjk中所包含词的词向量以及目标领域句式qi所包含词的词向量,确定种子句式qjk与目标领域句式qi的相似度s词向量,作为种子句式qjk与目标领域句式qi的第一相似度。

在本实施例中,可采用word2vec等方法获得种子句式qjk中所包含词的词向量以及目标领域句式qi所包含词的词向量。

在获得种子句式qjk中所包含词的词向量以及目标领域句式qi所包含词的词向量后,可将种子句式qjk中所包含词的词向量转换为句向量vjk,将目标领域句式qi所包含词的词向量转换为句向量vi,然后计算vjk与vi的余弦相似度,作为种子句式qjk与目标领域句式qi的相似度s词向量。需要说明的是,vjk与vi的余弦相似度s词向量越接近1,说明种子句式qjk与目标领域句式qi句式越相似。

第三种相似度确定方式:基于语言模型的相似度确定方式。

基于语言模型针对种子句式qjk确定的句向量以及语言模型针对领域句式qi确定的句向量,确定种子句式qjk与目标领域句式qi的相似度s语言模型,作为种子句式qjk与目标领域句式qi的第一相似度。

具体的,可基于语言模型获取种子句式qjk对应的句向量hjk,并基于语言模型获取领域句式qi对应的句向量hi,然后计算hi与hjk余弦相似度,作为种子句式qjk与目标领域句式qi的相似度s语言模型。

为了能够获得更好的挖掘效果,在另一种可能的实现方式中,可同时采用上述三种相似度确定方式中的任意两种确定相似度,或者,同时采用上述三种相似度确定方式确定相似度,然后将通过两种或三种相似度确定方式确定的相似度融合,融合后的相似度作为种子句式qjk与目标领域句式qi的第一相似度。

比如,可基于种子句式qjk中包含的业务关键词与目标领域句式qi中包含的业务关键词,确定种子句式qjk与目标领域句式qi的相似度s业务关键词,基于基于种子句式qjk中所包含词的词向量以及目标领域句式qi所包含词的词向量,确定种子句式qjk与目标领域句式qi的相似度s词向量,基于语言模型针对种子句式qjk确定的句向量以及语言模型针对领域句式qi确定的句向量,确定种子句式qjk与目标领域句式qi的相似度s语言模型,然后将s业务关键词、s词向量和s语言模型融合,融合后的相似度作为种子句式qjk与目标领域句式qi的第一相似度。

其中,将s业务关键词、s词向量和s语言模型融合的方式可以为:将s业务关键词、s词向量和s语言模型加权求和,假设s业务关键词对应的权重为α,s词向量对应的权重为β,s语言模型对应的权重为γ,则α、β、γ满足α+β+γ=1,需要说明的是,α、β、γ的具体取值可根据具体情况设定,可选的,α:β:γ=2:2:6。

步骤s3011-2、从种子知识库中确定与目标领域句式的第一相似度最高的预设个种子句式,以得到由预设个种子句式所属的知识点组成的知识点集合。

在获得种子知识库中各种子句式分别与目标领域句式qi的第一相似度后,便可获得与目标领域句式qi的相似度最高的预设个(假设n个)种子句式{q’1,q'2,...,q'n},进而可获得由n个种子句式所属的m(m<=n)个知识点组成的知识点集合{s’1,s'2,...,s'm}。

步骤s3011-3、根据预设个种子句式中标注在知识点集合中每个知识点下的种子句式与目标领域句式的第一相似度,确定知识点集合中每个知识点的得分。

具体的,对于知识点集合中的第k个知识点s'k,可通过下式计算知识点s'k的得分:

其中,m为与目标领域句式qi的相似度最高的n个种子句式中在知识点s’i下的种子句式的数量,skj表示n个种子句式中在知识点s'k下的m个种子句式中的第j个种子句式与目标领域句式qi的相似度,该相似度通过上述提供的相似度确定方式获得。

步骤s3011-4、将知识点集合中得分最高的知识点确定为与目标领域句式匹配的知识点,作为目标领域句式对应的知识点。

步骤s3012:判别目标领域句式是否能够标注在目标领域句式对应的知识点下,以得到目标领域句式对应的判别结果。

具体的,判别目标领域句式是否能够标注在目标领域句式对应的知识点下的过程可以包括:

步骤s3012-1:获取目标领域句式对应的知识点下与目标领域句式匹配的种子句式,作为目标领域句式对应的种子句式。

具体的,可将目标领域句式对应的知识点下的种子句式中,与目标领域句式的第一相似度最高的种子句式确定为目标领域句式对应的知识点下与目标领域句式匹配的种子句式,作为目标领域句式对应的种子句式。

步骤s3012-2:根据目标领域句式和目标领域句式对应的种子句式,判别目标领域句式是否能够标注在目标领域句式对应的知识点下。

具体的,根据目标领域句式和目标领域句式对应的种子句式,判别目标领域句式是否能够标注在目标领域句式对应的知识点下的过程可以包括:

步骤s3012-2-1、采用基于词类型的相似度确定方式,确定目标领域句式与目标领域句式对应的种子句式的第二相似度。

具体的,采用基于词类型的相似度确定方式,确定目标领域句式与目标领域句式对应的种子句式的第二相似度的过程可以包括:

步骤a1、获取目标领域句式所包含的每个词对应的词向量和权重,并获取目标领域句式对应的种子句式所包含的每个词对应的词向量和权重。

其中,一个词对应的权重根据该词的类型确定,词的类型可以但不限定于包括:业务词、操作词、属性词等。在本实施例中,可预先设定每种词类型对应的权重,针对目标领域句式和目标领域句式对应的种子句式中的任一词,可将该词的类型对应的权重作为该词对应的权重。

步骤a2、根据目标领域句式所包含的每个词对应的词向量和权重确定目标领域句式的句向量,并根据目标领域句式对应的种子句式所包含的每个词对应的词向量和权重,确定目标领域句式对应的种子句式的句向量。

具体的,可将目标领域句式所包含的各个词的词向量按对应的权重加权求和,加权求和后向量作为目标领域句式的句向量,同样的,可将目标领域句式对应的种子句式所包含的各个词的词向量按对应的权重加权求和,加权求和后向量作为目标领域句式对应的种子句式的句向量。

步骤a3、根据目标领域句式的句向量和目标领域句式对应的种子句式的句向量,确定目标领域句式与目标领域句式对应的种子句式的第二相似度。

具体的,可计算目标领域句式的句向量与目标领域句式对应的种子句式的句向量的余弦相似度,作为目标领域句式与目标领域句式对应的种子句式的第二相似度。

步骤步骤s3012-2-2、根据目标领域句式与目标领域句式对应的种子句式的第二相似度,判别目标领域句式是否能够标注在目标领域句式对应的知识点下。

在一种可能的实现方式,可只根据目标领域句式与目标领域句式对应的种子句式的第二相似度,判别目标领域句式是否能够标注在目标领域句式对应的知识点下。具体的,若目标领域句式与目标领域句式对应的种子句式的第二相似度大于或等于预设的第二相似度阈值,则判定目标领域句式能够标注在目标领域句式对应的知识点下。

为了能够获得较高的判别准确度,在另一种可能的实现方式中,可根据目标领域句式与目标领域句式对应的种子句式的第一相似度,以及目标领域句式与目标领域句式对应的种子句式的第二相似度,判别目标领域句式是否能够标注在目标领域句式对应的知识点下。具体的,若目标领域句式与目标领域句式对应的种子句式的第一相似度大于预设的第一相似度阈值,且目标领域句式与目标领域句式对应的种子句式的第二相似度大于预设的第二相似度阈值,则判定目标领域句式能够标注在目标领域句式对应的知识点下。

需要说明的是,第一相似度阈值和第二相似度阈值可以相同,也可以不同,第一相似度阈值和第二相似度阈值的大小可根据具体情况设定,可选的,可以但不限定为设定第一相似度阈值和第二相似度阈值均为0.8。

需要说明的是,在上述第一种可能的实现方式中,若目标领域句式与目标领域句式对应的种子句式的第二相似度小于预设的第二相似度阈值,可直接判定目标领域句式不能标注在目标领域句式对应的知识点下,或者,可由人工进一步判别目标领域句式是否能够标注在目标领域句式对应的知识点下,将人工判别结果作为最终的判别结果。同样的,在上述第二种可能的实现方式中,若目标领域句式与目标领域句式对应的种子句式的第一相似度小于预设的第一相似度阈值,或者,目标领域句式与目标领域句式对应的种子句式的第二相似度小于预设的第二相似度阈值,可直接判定目标领域句式不能标注在目标领域句式对应的知识点下,或者,可由人工进一步判别目标领域句式是否能够标注在目标领域句式对应的知识点下,将人工判别结果作为最终的判别结果。

步骤s302:根据领域知识库中各领域句式分别对应的判别结果,获得领域句式库中能够标注在指定领域的知识点下的领域句式。

针对领域知识库中的任一领域句式,若判定该领域句式能够标注在该领域句式对应的知识点下,则进一步将该领域句式标注在该领域句式对应的知识点下,即,为该领域句式标注该领域句式对应的知识点(该领域句式的标注信息为该领域句式对应的知识点)。

经由本实施例提供的方法可从指定领域对应的领域句式库中挖掘出能够标注在指定领域的知识点下的领域句式。

第三实施例

为了能够获得质量更佳的领域知识库,同时获得性能较好的语义理解模型,本实施例提供另一种领域知识库构建方法,请参阅图4,示出了该领域知识库构建方法的流程示意图,可以包括:

步骤s401:获取指定领域对应的种子知识库。

其中,种子知识库中包含标注在指定领域的知识点下的种子句式。

步骤s402:基于种子知识库中的种子句式,从指定领域对应的领域句式库中挖掘出能够标注在指定领域的知识点下的领域句式,并对挖掘出的领域句式进行标注,以得到标注在指定领域的知识点下的挖掘句式。

步骤s403:由标注在指定领域的知识点下的种子句式和挖掘句式组成所述指定领域对应的领域知识库。

步骤s401~s403的具体实现过程和相关解释说明可参阅步骤s101~步骤s103的具体实现过程和相关解释说明,本实施例在此不作赘述。

步骤s404:针对指定领域对应的领域知识库,判断是否存在需要进行句式优化的目标知识点,若是,则执行步骤s405,若否,则不执行任何操作或执行其他操作。

具体的,可采用以下两种实现方式中的任一种或两种判断是否存在需要进行句式优化的目标知识点:

第一种实现方式:

步骤s4041a、利用指定领域对应的领域知识库中的句式训练语义理解模型。

将指定领域对应的领域知识库作为训练数据,用其训练语义理解模型。

步骤s4042a、利用指定领域对应的测试数据集,对训练得到的语义理解模型进行测试。

其中,指定领域对应的测试数据集中包含指定领域的知识点下的测试句式。需要说明的是,指定领域对应的测试数据集是预先构建的,专门用于测试指定领域的语义理解模型的语义理解效果的数据集。

步骤s4043a、根据测试结果确定是否存在语义正确率小于预设正确率阈值的知识点,若是,则执行步骤s4044a。

步骤s4044a、将语义正确率小于预设正确率阈值的知识点确定为需要进行句式优化的目标知识点。

优选的,若采用本方式判断是否存在需要进行句式优化的目标知识点,则在判定存在需要进行句式优化的目标知识点之后,将指定领域对应的领域知识库中需要进行句式优化的目标知识点(即语义正确率小于预设正确率阈值的知识点)下的挖掘句式删除,然后再执行步骤s405。

第二种实现方式:

步骤s4041b、统计指定领域对应的领域知识库中标注在每个知识点下的句式的数量。

步骤s4042b、判断是否存在句式的数量小于预设数量阈值的知识点,若是,则执行步骤s4043b。

若某一知识点下的句式数量小于预设数量阈值,说明该知识点下的句式数量不足,需要对该知识点下的句式进行补充。

步骤s4043b、将句式的数量小于预设数量阈值的知识点确定为目标知识点。

步骤s405:对指定领域对应的领域知识库中标注在目标知识点下的句式进行优化,以得到优化后的领域知识库。

具体的,对指定领域对应的领域知识库中标注在目标知识点下的句式进行优化的实现方式有多种,本实施例提供如下两种可选的实现方式:

第一种实现方式:

步骤s4051a、获取目标知识点对应的种子句式集合。

可构造标注在目标知识点下的新种子句式(新种子句式与通过步骤s401获取的种子知识库中标注在目标知识点下的种子句式不同),由构造的新种子句式组成目标知识点对应的种子句式集合。

步骤s4052a、直接基于目标知识点对应的种子句式集合中的句式从指定领域对应的领域句式库中挖掘出能够标注在目标知识点下的领域句式,并对挖掘出的领域句式进行标注,以得到标注在目标知识点下的挖掘句式。

步骤s4053a、将标注在目标知识点下的挖掘句式添加至指定领域对应的领域知识库中,得到优化后的领域知识库。

上述实现方式适用于上述“句式的数量小于预设数量阈值的知识点”。

本案发明人在实现本案的过程中发现,挖掘句式不多或者挖掘句式错误很多是因为业务词的干扰,例如,对于同一业务贷款,领域句式库中的业务名称为“随心贷”、“欢乐贷”等,而种子句式库中种子句式的名称为“任意贷”,这对这种情况,本申请提供了第二种较为优选的实现方式:

步骤s4051b、获取目标知识点对应的种子句式集合。

本步骤中目标知识点对应的种子句式集合可由通过步骤s101获取的种子知识库中标注在目标知识点下的种子句式组成,本步骤中目标知识点对应的种子句式集合也可由通过步骤s101获取的种子知识库中标注在目标知识点下的种子句式以及针对目标知识点新构造的种子句式组成。

步骤s4052b、针对目标知识点对应的种子句式集合中的每个种子句式,将该种子句式中所包含的业务词替换为对应的模糊词,替换后的句式作为该种子句式对应的扩展句式;

假设目标知识点对应的种子句式集合中一种子句式包含e和f两个业务词,将该句式表示为sen(e,f),其中,业务词e对应的模糊词有(e1,···,ei,···,en1),业务词f对应的模糊词有(f0,···,fj,···,fn2),则将种子句式sen(e,f)中的业务词e替换为对应的模糊词ei,将业务词f替换为对应的模糊词fj,替换后的句式作为sen(e,f)对应的扩展句式,针对sen(e,f),基于业务词e对应的n1个模糊词和业务词f对应的n2模糊词,可获得n1*n2个扩展句式。

将种子句式中的业务词替换为模糊词进行句式挖掘,能够减少不同厂商间相同业务、不同名称造成的干扰。

步骤s4053b、基于目标知识点对应的种子句式集合中各种子句式分别对应的扩展句式,从指定领域对应的领域句式库中挖掘出能够标注在目标知识点下的领域句式。

基于种子句式对应的扩展句式从指定领域对应的领域句式库挖掘句式的方式与上述基于种子知识库中的种子句式从指定领域对应的领域句式库挖掘句式的方式相同,本实施例在此不做赘述。

步骤s4054b、将挖掘出的领域句式中的模糊词替换为对应的业务词,并将替换后的领域句式标注在目标知识点下,以得到标注在目标知识点下的挖掘句式。

示例性的,一种子句式为“查一下随心通办的随心贷的到账时间”,该种子句式中的业务词为“随心通”和“随心贷”,假设“随心通”对应的模糊词为“银行卡”,“随心贷”对应的模糊词为“贷款”,则将种子句式“查一下随心通办的随心贷的到账时间”中的“随心通”和“随心贷”分别替换为对应的模糊词后得到“查一下银行卡的贷款的到账时间”,基于该句式在领域句式库中挖掘,假设挖掘到句式“查查我的贷款什么时候能到啊”,在挖掘到该句式后,将该句式中的模糊词替换为对应的业务词,替换后为“查查我的随心贷什么时候能到啊”,将替换后句式作为最终的挖掘句式。

上述的句式挖掘方式为基于模糊句式的挖掘方式,基于该方式进行句式挖掘,一方面能够进一步充实目标知识点的句式数量,另一方面为目标知识点挖掘到更多样式的句式。

步骤s4055b、将标注在目标知识点下的挖掘句式添加至指定领域对应的领域知识库中,得到优化后的领域知识库。

在获得优化后的领域知识库后,可利用优化后的领域知识库对基于优化前的领域知识库训练得到的语义理解模型进行微调(或者说优化),如此,既获得了质量较佳的领域知识库,又获得了性能较佳的语义理解模型。

优选的,在获得优化后的领域知识库后,可进一步按如下方式判断是否需要对优化后的领域知识库进一步优化:

采用指定领域对应的测试数据集对优化后的语义理解模型进行测试,根据测试结果确定指定领域的知识点的正确率(即优化后的语义理解模型对各知识点下测试句式的语义理解正确率),并确定指定领域的知识点的复用率,判断确定的正确率和复用率是否达到预期目标,若否,则重复执行步骤s404~步骤s405,若是,则结束句式挖掘。

需要说明的是,复用率指的是挖掘句式超过设定数量的知识点占所有知识点的比例,比如,挖掘句式超过10条的知识点占所有知识点的比例,针对复用率设定的目标可以为如下形式:使挖掘句式超过m1条(比如10条)的知识点占所有知识点的比例不低于t1(如60%)、使挖掘句式超过m2(比如20条)的知识点占所有知识点的比例不低于t2(比如40%)。

本申请实施例提供的领域知识库构建方法,可构建出指定领域对应的领域知识库,在构建出指定领域对应的领域知识库后,可利用其训练语义理解模型,本申请实施例提供的领域知识库构建方法还可对指定领域对应的领域知识库进行优化,并可基于优化后的领域知识库对训练得到语义理解模型进行优化。经由本申请实施例提供的领域知识库构建方法不但可获得质量较佳的领域知识库,还可同时获得性能较佳的语义理解模型。

第四实施例

为了能够获得质量更佳的领域知识库,以提升语义理解模型的语义理解效果,本申请实施例提供了再一种领域知识库构建方法,该实施例提供的领域知识库构建方法相比于第三实施例提供的领域知识库构建方法,不同之处在于,在获得优化后的领域知识库后,还包括:

基于指定领域对应的测试数据集对优化后的语义理解模型进行测试,并根据测试结果确定优化后的语义理解模型的性能是否满足要求,若否,则针对优化后的领域知识库,执行以下优化处理中的任一种或多种:

第一种优化处理:

针对意图接近的多个知识点,以意图接近的多个知识点的界限为依据,从标注在意图接近的多个知识点下的句式中确定标注错误的句式,并将标注错误的句式标注在正确的知识点下。

需要说明是,对于意图接近的若干知识点,可能存在句式缠绕的情况,所谓的句式缠绕指的是,知识点a和知识点b意图很接近,若没有仔细甄别,则会出现知识点a下的句式意图指向知识点b,知识点b下的句式意图指向知识点a的情况,即知识点a和知识点b下的句式发生了交叉存在,这种情况即为知识点a和知识点b产生了句式缠绕。针对这种情况,需要分析意图接近的若干知识点之间的界限,根据界限对标注在每个知识点下的句式进行梳理,以确定标注错误的句式,并将标注错误的句式标注在正确的知识点下。

示例性的,“重置电话银行密码”和“修改电话银行密码”这两个知识点为意图接近的知识点,这两个知识点的界限为:“重置”表示还原为最初的默认密码,通常用在密码被锁、被冻结的场景,“修改”表示一般的修改,若不区分二者的界限,很容易造成两个知识点之间的句式缠绕,如图4所示,知识点“重置电话银行密码”下的句式“之前设置的电银密码改一下”、“电话银行密码忘了怎么改”标注错误,这两个句式应该标注在知识点“修改电话银行密码”下,知识点“修改电话银行密码”下的句式“我的电话银行密码被锁了”和“还原电话银行初始密码”标注错误,这两个句式应该标注在知识点“重置电话银行密码”下。

第二种优化处理:

根据优化后的语义理解模型基于优化后的领域知识库针对测试数据集中的测试句式预测的知识点以及测试句式标注的知识点确定标注错误的句式,并将标注错误的句式标注在正确的知识点下。

优化后的语义理解模型基于优化后的领域知识库针对测试句式预测知识点的过程包括:优化后的语义理解模型在优化后的领域知识库查找与输入的测试句式匹配的句式,将与输入的测试句式匹配的句式标注的知识点作为针对测试句式预测的知识点。在获得优化后的语义理解模型针对测试句式预测的知识点后,判断针对测试句式预测的知识点与测试句式标注的知识点是否一致,若不一致,则说明领域知识库中与测试句式匹配的句式标注错误,需要将其标注在正确的知识点下,而正确的知识点即为测试句式标注的知识点。

示例性的,测试句式为“电话银行密码忘了怎么改”,其标注的知识点为“修改电话银行密码”,假设将测试句式“电话银行密码忘了怎么改”输入优化后的语义理解模型后,优化后的语义理解模型从优化后的领域知识库中确定与该测试句式匹配的句式为“忘了电话银行密码修改方法”,该句式标注的知识点为“重置电话银行密码”,优化后的语义理解模型会将优化后的领域知识库中与其匹配的句式标注的知识点即“重置电话银行密码”作为针对测试句式预测的知识点,由于针对测试句式预测的知识点(“重置电话银行密码”)与测试句式标注的知识点(“修改电话银行密码”)不一致,因此可确定优化后的领域知识库中的句式“忘了电话银行密码修改方法”标注错误,需要将其标注在正确的知识点,由于“忘了电话银行密码修改方法”所属的知识点应为测试句式“电话银行密码忘了怎么改”标注的知识点“修改电话银行密码”,因此,将领域知识库中的句式“忘了电话银行密码修改方法”标注在知识点“修改电话银行密码”下。

第三种优化处理:

在优化后的领域知识库中添加优化后的语义理解模型的拒识句式,其中,添加的拒识句式为有效业务的意图句式。

若优化后的语义理解模型针对输入句式,在优化后的领域知识库中找不到匹配的句式(找不到与输入句式的相似度大于预设相似度阈值的句式),则该输入句式即为拒识句式,优化后的语义理解模型针对该输入句式进行拒识处理。

需要说明的是,优化后的语义理解模型对输入句式进行拒识处理主要有两种情况:其一,输入句式为有效业务的意图句式,因优化后的领域知识库中缺乏丰富的句式,导致优化后的语义理解模型对输入句式进行拒识处理;其二,输入句式为业务之外的意图句式,本就应该对其进行句式处理。本实施例在优化后的领域知识库中添加的拒识句式指的是,优化后的语义理解模型拒识的有效业务的意图句式。

示例性的,输入句式为“电话银行密码冻结怎么处理”,由于优化后的领域知识库中不存在与其匹配的句式,因此,其为优化后的语义理解模型的拒识句式,由于“电话银行密码冻结怎么处理”为有效业务的意图句式,为了使得下次再输入该句式时,优化后的语义理解模型能够预测出其所属的知识点,可将该句式标注后添加到优化后的领域知识库中。

本申请实施例提供的领域知识库构建方法,可构建出指定领域对应的领域知识库,在构建出指定领域对应的领域知识库后,可利用其训练语义理解模型,本申请实施例提供的领域知识库构建方法还可对指定领域对应的领域知识库进行优化,并可基于优化后的领域知识库对训练得到语义理解模型进行优化,还可进一步对优化后的领域知识库进一步优化以提升优化后的语义理解模型的语义理解效果。经由本申请实施例提供的领域知识库构建方法不但可获得质量较佳的领域知识库,还可获得性能较佳的语义理解模型。

第五实施例

本申请实施例还提供了一种领域知识库构建装置,下面对本申请实施例提供的领域知识库构建装置进行描述,下文描述的领域知识库构建装置与上文描述的领域知识库构建方法可相互对应参照。

请参阅图5,示出了本申请实施例提供的领域知识库构建装置的结构示意图,可以包括:种子知识库获取模块501、句式挖掘模块502和领域知识库获取模块503。

种子知识库获取模块501,用于获取指定领域对应的种子知识库。

其中,所述种子知识库中包含标注在所述指定领域的知识点下的种子句式。

句式挖掘模块502,用于基于所述种子知识库中的种子句式,从所述指定领域对应的领域句式库中挖掘出能够标注在所述指定领域的知识点下的领域句式,并对挖掘出的领域句式进行标注,以得到标注在所述指定领域的知识点下的挖掘句式。

领域知识库获取模块503,用于由标注在所述指定领域的知识点下的种子句式和挖掘句式组成所述指定领域对应的领域知识库。

在一种可能的实现方式中,句式挖掘模块503包括:匹配知识点确定模块、领域句式判别模块和领域句式获取模块。

所述匹配知识点确定模块,用于将所述领域句式库中的各领域句式分别作为目标领域句式,针对所述目标领域句式执行:根据所述目标领域句式和所述种子知识库中的种子句式,从所述指定领域的知识点中确定与所述目标领域句式匹配的知识点,作为目标领域句式对应的知识点。

所述领域句式判别模块,用于判别所述目标领域句式是否能够标注在所述目标领域句式对应的知识点下,以得到所述目标领域句式对应的判别结果。

所述领域句式获取模块,用于根据所述领域知识库中各领域句式分别对应的判别结果,获得所述领域句式库中能够标注在所述指定领域的知识点下的领域句式。

在一种可能的实现方式中,所述领域句式判别模块包括:匹配种子句式获取子模块和领域句式判别子模块。

所述匹配种子句式获取子模块,用于获取所述目标领域句式对应的知识点下与所述目标领域句式匹配的种子句式,作为所述目标领域句式对应的种子句式。

所述领域句式判别子模块,用于根据所述目标领域句式和所述目标领域句式对应的种子句式,判别所述目标领域句式是否能够标注在所述目标领域句式对应的知识点下。

在一种可能的实现方式中,所述匹配知识点确定模块包括:相似度确定子模块、知识点集合获取子模块、知识点得分确定子模块和匹配知识点确定子模块。

所述相似度确定子模块,用于确定所述种子知识库中每个种子句式与所述目标领域句式的第一相似度。

所述知识点集合获取子模块,用于从所述种子知识库中确定与所述目标领域句式的第一相似度最高的预设个种子句式,以得到由所述预设个种子句式所属的知识点组成的知识点集合。

所述知识点得分确定子模块,用于根据所述预设个种子句式中标注在所述知识点集合中每个知识点下的种子句式与所述目标领域句式的第一相似度,确定所述知识点集合中每个知识点的得分。

所述匹配知识点确定子模块,用于将所述知识点集合中得分最高的知识点确定为与所述目标领域句式匹配的知识点。

在一种可能的实现方式中,所述相似度确定子模块,具体用于采用基于业务关键词的相似度确定方式、基于词向量的相似度确定方式、基于语言模型的相似度确定方式中的任一种或者至少两种,确定所述种子知识库中每个种子句式与所述目标领域句式的第一相似度;

其中,所述基于业务关键词的相似度确定方式为,基于两个句式包含的业务关键词确定两个句式的相似度,所述基于词向量的相似度确定方式为基于两个句式所包含词的词向量确定两个句式的相似度,所述基于语言模型的相似度确定方式为,基于所述语言模型分别针对两个句式确定的句向量确定两个句式的相似度。

在一种可能的实现方式中,领域句式判别子模块,具体用于采用基于词类型的相似度确定方式,确定所述目标领域句式与所述目标领域句式对应的种子句式的第二相似度,根据所述目标领域句式与所述目标领域句式对应的种子句式的第二相似度,判别所述目标领域句式是否能够标注在所述目标领域句式对应的知识点下。

其中,所述目标领域句式对应的种子句式为所述目标领域句式对应的知识点下与所述目标领域句式匹配的知识点,所述基于词类型的相似度确定方式为,基于两个句式中所包含词的类型对应的权重和所包含词的词向量确定两个句式的相似度;

在一种可能的实现方式中,所述目标领域句式对应的种子句式根据所述目标领域句式对应的知识下各种子句式分别与所述目标领域句式的第一相似度确定,所述目标领域句式与所述目标领域句式对应的种子句式的第一相似度与第二相似度的确定方式不同;

领域句式判别子模块在根据所述目标领域句式与所述目标领域句式对应的种子句式的第二相似度,判别所述目标领域句式是否能够标注在所述目标领域句式对应的知识点下时,具体用于若所述目标领域句式与所述目标领域句式对应的种子句式的第一相似度大于或等于预设的第一相似度阈值,且所述目标领域句式与所述目标领域句式对应的种子句式的第二相似度大于或等于预设的第二相似度阈值,则判定所述目标领域句式能够标注在所述目标领域句式对应的知识点下。

在一种可能的实现方式中,本实施例提供的领域知识库构建装置还可以包括:领域知识库优化判别模块和第一领域知识库优化模块。

所述领域知识库优化判别模块,用于针对所述指定领域对应的领域知识库,判断是否存在需要进行句式优化的目标知识点;

所述第一领域知识库优化模块,用于在所述领域知识库优化判别模块判定存在需要进行句式优化的目标知识点时,对所述指定领域对应的领域知识库中标注在所述目标知识点下的句式进行优化,以得到优化后的领域知识库。

在一种可能的实现方式中,领域知识库优化判别模块包括:语义理解模型训练子模块、语义理解模型测试子模块和第一知识点判别子模块。

所述语义理解模型训练子模块,用于利用所述指定领域对应的领域知识库中的句式训练语义理解模型;

所述语义理解模型测试子模块,用于利用所述指定领域对应的测试数据集,对训练得到的语义理解模型进行测试,其中,所述指定领域对应的测试数据集中包含所述指定领域的知识点下的测试句式;

所述第一知识点判别子模块,用于根据测试结果确定是否存在语义正确率小于预设正确率阈值的知识点,若是,则将所述语义正确率小于预设正确率阈值的知识点确定为需要进行句式优化的目标知识点。

在一种可能的实现方式中,本实施例提供的领域知识库构建装置还可以包括:挖掘句式删除模块。

所述挖掘句式删除模块,用于在所述第一知识点判别子模块确定存在需要进行句式优化的目标知识点之后,在所述第一领域知识库优化模块对所述指定领域对应的领域知识库中标注在所述目标知识点下的句式进行优化之前,从所述指定领域对应的领域知识库中将标注在所述目标知识点下的挖掘句式删除。

在一种可能的实现方式中,领域知识库优化判别模块包括:句式数量统计子模块和第二知识点判别子模块。

所述句式数量统计子模块,用于统计所述指定领域对应的领域知识库中标注在每个知识点下的句式的数量;

所述第二知识点判别子模块,用于判断是否存在句式的数量小于预设数量阈值的知识点,若是,则将句式的数量小于预设数量阈值的知识点确定为需要进行句式优化的目标知识点。

在一种可能的实现方式中,所述第一领域知识库优化模块包括:种子句式集合获取子模块、扩展句式获子模块、句式挖掘子模块、句式处理子模块和挖掘句式添加子模块。

所述种子句式集合获取子模块,用于获取所述目标知识点对应的种子句式集合,其中,所述目标知识点对应的种子句式集合中包含标注在所述目标知识点下的种子句式。

所述扩展句式获子模块,用于针对所述目标知识点对应的种子句式集合中的每个种子句式,将该种子句式中所包含的业务词替换为对应的模糊词,替换后的句式作为该种子句式对应的扩展句式。

所述句式挖掘子模块,用于基于所述目标知识点对应的种子句式集合中各种子句式分别对应的扩展句式,从所述指定领域对应的领域句式库中挖掘出能够标注在所述目标知识点下的领域句式。

所述句式处理子模块,用于将挖掘出的领域句式中的模糊词替换为对应的业务词,并将替换后的领域句式标注在所述目标知识点下,以得到标注在所述目标知识点下的挖掘句式;

所述挖掘句式添加子模块,用于将标注在所述目标知识点下的挖掘句式添加至所述指定领域对应的领域知识库中。

在一种可能的实现方式中,本实施例提供的领域知识库构建装置还可以包括:语义理解模型优化模块、语义理解模型测试模块和语义理解模型性能判别模块和第二领域知识库优化模块。

语义理解模型优化模块,用于基于所述优化后的领域知识库对基于优化前的领域知识库训练得到的语义理解模型进行优化。

语义理解模型测试模块,用于基于所述指定领域对应的测试数据集对优化后的语义理解模型进行测试。

语义理解模型性能判别模块,用于根据测试结果确定所述优化后的语义理解模型的性能是否满足要求。

所述第二领域知识库优化模块,具体用于在所述优化后的语义理解模型的性能不满足要求时,对所述优化后的领域知识库进行如下三种优化处理中的一种或多种:

以意图接近的多个知识点的界限为依据,从标注在意图接近的多个知识点下的句式中确定标注错误的句式,并将标注错误的句式标注在正确的知识点下;

根据所述优化后的语义理解模型基于所述优化后的领域知识库针对所述测试数据集中的测试句式预测的知识点以及所述测试句式标注的知识点,确定标注错误的句式,并将标注错误的句式标注在正确的知识点下;

在所述优化后的领域知识库中添加优化后的语义理解模型的拒识句式,其中,添加的拒识句式为有效业务的意图句式。

本申请实施例提供的领域知识库构建装置,可构建出指定领域对应的领域知识库,在构建出指定领域对应的领域知识库后,可利用其训练语义理解模型,还可对指定领域对应的领域知识库进行优化,在对领域知识库进行优化后,可基于优化后的领域知识库对训练得到语义理解模型进行优化,还可进一步对优化后的领域知识库进一步优化以提升优化后的语义理解模型的语义理解效果。经由本申请实施例提供的领域知识库构建装置不但可获得质量较佳的领域知识库,还可获得性能较佳的语义理解模型。

第六实施例

本申请实施例还提供了一种领域知识库构建设备,请参阅图6,示出了该评估设备的结构示意图,该评估设备可以包括:至少一个处理器601,至少一个通信接口602,至少一个存储器603和至少一个通信总线604;

在本申请实施例中,处理器601、通信接口602、存储器603、通信总线604的数量为至少一个,且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;

处理器601可能是一个中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器603可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取指定领域对应的种子知识库,其中,所述种子知识库中包含标注在所述指定领域的知识点下的种子句式;

基于所述种子知识库中的种子句式,从所述指定领域对应的领域句式库中挖掘出能够标注在所述指定领域的知识点下的领域句式,并对挖掘出的领域句式进行标注,以得到标注在所述指定领域的知识点下的挖掘句式;

由标注在所述指定领域的知识点下的种子句式和挖掘句式组成所述指定领域对应的领域知识库。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

第七实施例

本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:

获取指定领域对应的种子知识库,其中,所述种子知识库中包含标注在所述指定领域的知识点下的种子句式;

基于所述种子知识库中的种子句式,从所述指定领域对应的领域句式库中挖掘出能够标注在所述指定领域的知识点下的领域句式,并对挖掘出的领域句式进行标注,以得到标注在所述指定领域的知识点下的挖掘句式;

由标注在所述指定领域的知识点下的种子句式和挖掘句式组成所述指定领域对应的领域知识库。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1