知识问答处理方法、装置、设备及存储介质与流程

文档序号:26279343发布日期:2021-08-13 19:36阅读:103来源:国知局
知识问答处理方法、装置、设备及存储介质与流程

本发明涉及一种语言处理技术领域,特别是涉及一种知识问答处理方法、装置、设备及存储介质。



背景技术:

随着自然语言技术的快速发展,基于智能常见问题解答(frequentlyaskedquestions,faq)已经逐步智能化,越来越多的企业利用faq问答系统无人化地解决线上用户的各种问题。针对faq问答系统中常见性的问题解答,属于经常性被用户提出的问题,此类问题一般已经通过大数据处理、机器学习等方法实现完善、准确地解答,但是针对faq问答系统中非常见性的问题,解答的准确性仍然比较低。

目前,现有针对此类非经常性问答语句的识别一般是用过采集问答语句反馈至系统后台进行人工撰写,但是,由于此类问题出现量过大,消耗大量人力资源,且人工编写也很难覆盖全部问答,影响对知识问答进行处理的效率。



技术实现要素:

有鉴于此,本发明提供一种知识问答处理方法、装置、设备及存储介质,主要目的在于解决现有针对非常规性知识问答处理效率低的问题。

依据本发明一个方面,提供了一种知识问答处理方法,包括:

获取待进行知识问答处理的第一类别语句信息,并解析所述第一类别语句信息的数据来源;

根据解析的数据来源匹配完成训练的统一语言模型,所述统一语言模型为按照不同数据来源中的第二类别语句信息进行训练得到的,所述第二类别语句信息与所述第一类别语句信息具有替换关系;

根据匹配到的统一语言模型对所述第一类别语句信息进行问答处理,生成所述第一类别语句信息的问答信息。

依据本发明另一个方面,提供了一种知识问答处理装置,包括:

获取模块,用于获取待进行知识问答处理的第一类别语句信息,并解析所述第一类别语句信息的数据来源;

匹配模块,用于根据解析的数据来源匹配完成训练的统一语言模型,所述统一语言模型为按照不同数据来源中的第二类别语句信息进行训练得到的,所述第二类别语句信息与所述第一类别语句信息具有替换关系;

处理模块,用于根据匹配到的统一语言模型对所述第一类别语句信息进行问答处理,生成所述第一类别语句信息的问答信息。

根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述知识问答处理方法对应的操作。

根据本发明的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述知识问答处理方法对应的操作。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明提供了一种知识问答处理方法、装置、设备及存储介质,与现有技术相比,本发明实施例通过获取待进行知识问答处理的第一类别语句信息,并解析所述第一类别语句信息的数据来源;根据解析的数据来源匹配完成训练的统一语言模型,所述统一语言模型为按照不同数据来源中的第二类别语句信息进行训练得到的,所述第二类别语句信息与所述第一类别语句信息具有替换关系;根据匹配到的统一语言模型对所述第一类别语句信息进行问答处理,生成所述第一类别语句信息的问答信息,实现针对非常规性语句信息的实现问答的全覆盖目的,大大减少了对问答语句识别的人力、物力,从而提高知识问答的处理效率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种知识问答处理方法流程图;

图2示出了本发明实施例提供的一种unilm模型网络构建示意图;

图3示出了本发明实施例提供的一种知识问答处理装置组成框图;

图4示出了本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种知识问答处理方法,如图1所示,该方法包括:

101、获取待进行知识问答处理的第一类别语句信息,并解析所述第一类别语句信息的数据来源。

本发明实施例中,待进行知识问答的第一类别语句信息为已经进行一次常规性问答识别的语句,即第一类别语句信息为未在预置问答库中查找到问答信息的语句信息,第二类别语句信息为已在预置问答库中查找到问答信息的语句信息,预置问答库中存储大量有基于已完成训练的统一语言模型进行运算得到不同语句信息所对应的问答信息,具体的,第一类别语句信息为相对于能够识别到(问,答)对的常规性问答语句,而未识别到的问答语句的,作为非常规性问答语句,可以直接基于已经建立的知识问答库识别出问答信息,因此,非常规性的问答语句为第一类别语句信息,常规性的问答语句为第二类别语句信息。其中,所述数据来源用于表征待识别的第一类别语句信息的数据存储源,包括但不限于问答知识库、知识图谱库、产品列表数据库、产品条款数据库,具体的解析方法可以基于第一类别语句信息的存储路径等进行判断,本发明实施例不做具体限定。

需要说明的是,对于本发明实施例中的知识问答,可以适用于产品交易应用程序,也可以适用网页问答等不同需求的应用场景,只要基于常识性知识问答无法得到识别的语句均可以进行本发明实施例中的知识问答处理。其中,常规性问答语句为基于大数据分析已经得到对应(问,答)对的大量问答语句,非常规性问答语句为还未得到准确处理的大量问答语句,一般的,常规性问答语句、非常规性问答语句均为用户习惯性对不同业务、产品存在疑问而产生的咨询问题,本发明实施例不做具体限定。

102、根据解析的数据来源匹配完成训练的统一语言模型。

针对不同的数据来源对应不同的数据存储结构的特点,本发明实施例中,根据不同数据来源中的训练样本集训练对应的统一语言模型,其中,所述统一语言模型为按照不同数据来源中的第二类别语句信息进行训练得到的,说明不同数据来源对应不同的统一语言模型,因此,根据解析的具体数据来源,可以直接匹配到对应的统一语言模型。另外,第二类别语句信息即为常规性问答语句,以实现基于常规性问答语句已完成训练的统一语言模型作为非常规性问答语句进行问答识别的替换模型。具体的,第二类别语句信息与第一类别语句信息具有替换关系,替换关系用于表征第一类别语句信息作为统一语言模型的输入参数与第二语句信息进行替换的关系,即将第一类别语句信息作为第二类别语句信息所对应的统一语言模型的输入参数进行处理,得到第一类别语句信息的问答信息。

需要说明的是,由于待进行知识问答处理的第一类别语句信息可以为已经存储在不同数据来源数据库中的,也可以为预期存储在对应不同数据来源数据库中的,因此,在对数据来源进行解析时,可以基于已经存储的路径,或者预期存储的路径进行识别,本发明实施例不做具体限定。

103、根据匹配到的统一语言模型对所述第一类别语句信息进行问答处理,生成所述第一类别语句信息的问答信息。

本发明实施例中,当基于第一类别语句信息的数据来源匹配到统一语言模型,基于第一类别语句作为统一语言模型的输入参数进行模型处理,从而得到第一类别语句信息所对应的问答信息,通过将第二类别语句信息所对应完成训练的统一语言模型作为第一类别语句信息处理识别模型,实现对知识问答库的扩充,大大提升了对非常规性问答解答覆盖率,节省大量人力物力。

需要说明的是,本发明实施例中的问答语句为包含需要识别出问题与答案的语句信息,因此,基于统一语言模型进行处理,可以得到的问答信息即包括语句信息所对应的(问,答)对。

在一个本发明实施例中,为了实现基于常规性问答库对非常规性问答的解答覆盖率,所述数据来源包括问答知识库、知识图谱库、产品列表数据库、产品条款数据库,所述根据解析的数据来源匹配完成训练的统一语言模型之前,所述方法还包括:分别获取所述问答知识库、所述知识图谱库、所述产品列表数据库、所述产品条款数据库中第二类别语句信息训练样本集;利用所述第二类别语句信息训练样本集对完成语言网络构建的统一语言模型进行训练,得到分别适用于所述问答知识库、所述知识图谱库、所述产品列表数据库、所述产品条款数据库且完成训练的统一语言模型;建立所述统一语言模型的输入参数与第一类别语句信息之间的替换链路。

具体的,结合本发明实施例中,数据来源至少包括问答知识库、知识图谱库、产品列表数据库、产品条款数据库,为了使第一分类语句信息可以直接替换为第二分类语句信息所对应完成训练的统一语言模型的输入参数,需要预先进行统一语言模型的训练。其中,问答知识库、知识图谱库、产品列表数据库、产品条款数据中分别存储匹配第二类别语句信息的训练样本集,即第二类别语句信息训练样本集,当进行模型训练时,针对不同的数据来源分别获取对应的训练样本即可。然后,利用不同数据来源的第二类别语句信息训练样本集对统一语言模型(uni□edpre-trainedlanguagemodel,unilm)进行训练,首先构建语言网络构建,如图2所示,然后利用训练样本集进行模型训练。完成训练后,为了便于将第一类别语句信息作为输入参数进行替换,建立统一语言模型的输入参数与第一类别语句信息之间的替换链路,以便在进行第一类别语句信息的识别时,直接利用不同数据来源中完成训练的此模型进行处理。

需要说明的是,unilm模型的训练过程包括:1、定义模型函数损失函数,例如,交叉熵;2、通过对损失函数进行梯度下降,更新模型参数;3、当损失函数小于阈值时,模型训练完成。其中,模型函数的结构包括:从下到上经过嵌入层->传输层->输出层,得到最终模型输出,所有的输入都是文本语句形式,通过将文本分词并转换成词向量的临时标识token(每个token对应一个字或标点符号),然后,嵌入层将token映射为向量,通过传输层计算,最终,由输出层计算出输出文本(问,答)对(输出文本答案对的每个token都是概率值最大的token)。另外,模型输入参数x是一串文本序列,可以为一段文本片段,也可以是一对文本片段,在训练过程中,主要网络结构由24层transformer组成,输入向量{xi}被转换成h0=[x1,...,x|x|],传输至此24层transformer网络,从而进行模型训练。

另外,对于本发明实施例,由于输出的问答信息为(问,答)对形式的内容,因此,在进行unilm模型的训练时,预先设定输出的形式为(问,答)对的形式,从而使得无论输入参数是单个词语、单个语句或者文本段落,得到的问答信息均是以(问,答)对形式存在,以提高问答信息的识别覆盖范围。

在一个本发明实施例中,为了进一步地限定及说明,以实现不同数据来源的第一类别语句信息可以适用于所对应已完成训练的统一语言模型,从而实现非常规性知识问答识别的广覆盖效果,所述根据匹配到的统一语言模型对所述第一类别语句信息进行问答处理包括:若所述数据来源为问答知识库,则根据所述替换链路将所述第一类别语句信息作为所述统一语言模型的输入参数进行模型运算处理;若所述数据来源为知识图谱库,则按照知识图谱的三元组形式拆分所述第一类别语句信息,并根据所述替换链路将拆分后的语句主语、语句谓语作为所述统一语言模型的输入参数进行模型运算处理;若所述数据来源为产品列表数据库,则从所述产品列表数据库中提取所述第一类别语句的列表结构化数据,并根据所述替换链路将提取的列表结构化数据作为所述统一语言模型的输入参数进行模型运算处理;若所述数据来源为产品条款数据库,则从所述产品条款数据库中提取所述第一类别语句的条款结构化数据,并根据所述替换链路将提取的条款结构化数据作为所述统一语言模型的输入参数进行模型运算处理。

本发明实施例中,针对具体的问答知识库,如faq问答知识库,若数据来源为问答知识库,则根据替换链路将第一类别语句信息作为统一语言模型的输入参数进行问答处理。具体的,由于faq问答知识库为开发人员已经完成常规性问答语句的知识问答识别处理而得到的数据库,存储有海量作为输入的实体名、问题以及对应输出(问,答)对的问答知识库,因此,在进行识别处理时,按照替换链路将第一类别语句信息作为以第二类别语句信息的训练样本集完成训练的统一语言模型的输入参数,并进行运输处理,得到问答信息。例如,利用第二类别语句信息的训练样本集中的“鑫盛的保险特色”等语句内容训练了unilm模型,针对第一类别语句信息的数据来源确定为faq问答知识库后,以第一类别语句信息为“金瑞人生的卖点是什么”替换作为unilm模型的输入参数进行运算处理,得到问答信息。需要说明的是,faq问答知识库中存储的语句信息大部分适用于保险类产品、以及保险类产品的选取等应用场景中的普遍性问题,例如,**产品怎么理赔?**产品有什么特点?等,以便之间替换相关输入后,得到符合理赔、特点等(问,答)对,提高了问答的覆盖效率。

本发明实施例中,若所述数据来源为知识图谱库,即针对具体的知识图谱库,由于知识图谱库中,数据是按照(s,p,o)三元组的格式存储,其中s表示主语,p表示谓语,o表示宾语,例如:“平安福的等待期是90天”在知识图谱库中就以(平安福,等待期,90天)的格式存储,因此,在对unilm模型训练时,均是以三元组形式作为输入样本完成训练的,对应的,则按照知识图谱的三元组形式拆分所述第一类别语句信息,并根据所述替换链路将拆分后的语句主语、语句谓语作为所述统一语言模型的输入参数进行问答处理。具体的,将第一分类语句信息以知识图谱的三元组形式存储结构进行拆分,拆分得到的主语为实体,谓语为属性,然后将拆分得到的实体以及属性作为unilm模型的输入参数进行运算,从而完成对第一类别语句信息的问答识别。需要说明的是,知识图谱库中存储的语句信息大部分适用于已有的产品的问答、已有的三元组问答识别,包括但不限于产品信息类、投保类的问题,例如,平安福的宽限期等(问,答)对的识别。

本发明实施例中,若数据来源为产品列表数据库,即针对具体的产品列表数据库,由于产品列表数据库中存储的数据为pdf形式的列表,存储的语句均为结构化的,则从产品列表数据库中提取第一类别语句的列表结构化数据,并根据替换链路将提取的列表结构化数据作为统一语言模型的输入参数进行问答处理。具体的,基于pipeline技术提取pdf列表中的结构化数据,即将表格内容转换为结构化的语句内容,完成数据结构化后,将得到的列表结构化数据作为unilm模型的输入参数进行运算,从而完成对第一类别语句信息的问答识别。其中,由于已完成训练的unilm模型是基于第二类别语句信息进行结构化数据提取后完成训练的,从而可以实现将第一类别语句信息进行替换的目的,在替换时,需要遍历结构化数据的列表首列,即表头,作为输入参数,表格内容为对应条件下预先模型得到的输出。

需要说明的是,由于是列表结构化数据中表格内容、表头中均可能是一个语句、或多个语句(文本段落),因此,为了提取出作为实体、意图作为模型输入参数,则基于语义依存分析器对第一类别语句信息进行处理。例如,作为用户问答第一分类语句信息为“16岁的男生买安心人生要多少钱”,基于语义依存分析器中的实体抽取模块抽取出“安心人生”作为实体,并识别会得到“保费咨询”的意图,语义依存分析器还可以进一步解析出“16岁”和“男生”这两个约束条件,因此,将实体、意图作为模型输入参数,并结合2个约束条件确定出输出参数即为“保至80岁144元,保至100岁160元”。

本发明实施例中,若所述数据来源为产品条款数据库,即针对具体的产品条款数据库,由于产品条款数据库中存储的数据为pdf形式,存储的语句均为结构化的,则从产品条款数据库中提取第一类别语句的条款结构化数据,并根据替换链路将提取的条款结构化数据作为统一语言模型的输入参数进行问答处理。具体的,基于pipeline技术提取产品条款数据pdf文件中的结构化数据,即将条款内容转换为结构化的语句内容,完成数据结构化后,将得到的条款结构化数据作为unilm模型的输入参数进行运算,从而完成对第一类别语句信息的问答识别。其中,由于已完成训练的unilm模型是基于第二类别语句信息进行结构化数据提取后完成训练的,从而可以实现将第一类别语句信息进行替换的目的,在基于替换链路进行替换时,需要遍历结构化数据的各个段落文本,结合识别的意图作为模型训练的输入参数进行模型运算,从而完成对第一类别语句信息的问答识别。另外,第一类别语句信息为产品条款数据,并结合产品条款数据中数据内容为大段落文本内容的特征,在完成产品条款数据的结构化处理后,基于模型运行所实现的内容即为根据识别的意图,从段落文本中抽取、生成答案。例如,产品条款中的大段文本内容为“我们在收到保险金给付申请书记上述有关证明材料后...,...指保险单所具有的价值...自您签收本主险合同次日起,有20日犹豫期...”,进行结构化处理后,得到“贷款金额不得超过...”、“每次贷款期限最长不得超过6个月”、“犹豫期是20日”等格式化的文本内容,然后作为模型输入进行模型运算,得到问答信息。

在一个本发明实施例中,为了进一步限定及说明,所述解析所述第一类别语句信息的数据来源包括:获取所述第一类别语句信息的存储路径,并所述存储路径中解析存储位置;依据所述存储位置匹配至少一个数据来源所对应的数据库,确定所述第一类别的数据来源。

本发明实施例中,由于不同的数据来源为按照不同数据形式进行存储的数据源,因此,在解析数据来源时,获取第一类别语句信息的存储路径,存储路径表示第一类别语句信息的数据可以存储的数据库、或者即将存储的数据库所对应的系统路径。具体的,解析出存储路径的存储位置,即筛选存储路径中属于存储位置的字符串、代码标识等内容,从而根据存储位置判断数据来源。

另外,由于不同的数据来源包括问答知识库、知识图谱库、产品列表数据库、产品条款数据库中至少一个,一个数据既可以存储在问答知识库中,也可以存储为知识图谱库中,即存储路径可以为多个,因此,在解析数据来源过程中,若基于存储路径解析出多个数据来源,如问答知识库、知识图谱库、产品列表数据库、产品条款数据库中均存储此语句信息,则按照预先设定问答知识库>知识图谱库>产品列表数据库>产品条款数据库的优先级确定数据来源。

在一个本发明实施例中,为了有效覆盖全部的问答语句,提高对知识性问答的解答效率,所述获取待进行知识问答处理的第一类别语句信息之前,所述方法还包括;采集请求知识问答的至少一个语句信息;从所述第二类别语句信息所对应的问答库中查找是否存在所述语句信息的问答信息;若不存在,则确定所述语句信息为第一类别语句信息,并进行知识问答处理;若存在,则确定查找到的问答信息为所述语句的问答信息。

本发明实施例中,常规性问答语句为已经基于经过大量数据处理、语句识别后得到标准答案的(问,答)对,因此,在用户请求进行知识问答时,首先判断是否为常规性问答语句,即采集请求知识问答的至少一个语句信息,此语句信息即表示用户录入或者选取解答的模板式问答语句。然后,从第二类别语句信息所建立的问答库中查找是否存在语句信息匹配的问答信息,若存在,则说明此语句信息为常规性问答语句,若不存在,则说明此语句为非常规性问答语句,进而将此语句信息确定为第一类别语句信息,以进行步骤101至103中的识别方法。

在一个本发明实施例中,为了进一步限定及说明,所述从所述第二类别语句信息所对应的问答库中查找是否存在所述第一类别语句信息的问答信息包括:分别提取所述第一类别语句、所述第二类别语句中的语义词语,并计算所述语义词语之间的相似度;根据所述相似度判断所述第二类别语句信息的问答信息是否适用于所述第一类别语句信息的知识问答。

由于第二类别语句信息为常规性问答语句,所对应的问答库中存储的均为匹配于常规性问答语句的(问,答)对,因此,在问答库中查找第一类别语句信息所对应的(问,答)对具体方法可以基于相似度。具体的,可以基于自然语言处理技术分别解析第一类别语句信息、第二类别语句信息所对应的语义词语,包括主语词语、谓语词语、宾语词语等,然后计算各语义词语之间的相似度,即第一类别语句信息中主语词语与第二类别语句信息的主语词语的相似度,第一类别语句信息中谓语词语与第二类别语句信息的宾语词语的相似度,第一类别语句信息中宾语词语与第二类别语句信息的宾语词语的相似度。基于计算出的三个相似度判断第二类别语句信息的问答信息是否适用于第一类别语句信息知识问答,即根据词语含义的相近程度预设一个相似度阈值,若三个相似度中任意两个超过此相似度阈值,则确定第二类别语句信息的问答信息适用于第一类别语句信息的知识问答,可以将问答库中相似度匹配所确定的第二类别语句信息所对应的问答信息作为第一类别语句信息的问答信息,完成识别。

在一个本发明实施例中,为了对统一语言模型的优化,以提高知识问答语句的识别准确性,所述方法还包括:接收根据输出所述问答信息得到的问答反馈结果,所述问答反馈结果用于表征所述问答信息的解答满意程度;根据所述问答反馈结果确定将所述第一类别语句信息转换为所述第二类别语句信息,以及确定将所述问答信息更新至第二类别语句信息训练样本集中,以进行模型更新。

具体的,在基于统一语言模型完成对第一类别语句信息的识别后,将得到的问答信息反馈给用户,用户基于问答信息确定是否为想要得到的解答,若为用户得到的解答,则用户反馈的问答反馈结果为满意、不满意、可以接受、无法接受等表示满意程度的信息,即问答反馈结果用于表征问答信息的解答满意程度。当前执行端接收到问答反馈结果后,根据问答反馈结果确定是否将第一类别语句信息转换为第二类别语句信息,如,当问答反馈结果为满足,则说明第一类别语句信息识别的问答信息正确,可以将非常规性问答的第一类别语句信息转换为常规性问答的第二类别语句信息。并且,为了提高模型的训练效率,由于问答信息为第一类别语句信息的对应答案,因此,在转换的同时,将问答信息更新至第二类别语句信息训练样本集中,以便再次进行模型训练时,基于更新后的训练集,从而提高模型训练效率。

本发明实施例提供了一种知识问答处理方法,与现有技术相比,本发明实施例通过获取待进行知识问答处理的第一类别语句信息,并解析所述第一类别语句信息的数据来源;根据解析的数据来源匹配完成训练的统一语言模型,所述统一语言模型为按照不同数据来源中的第二类别语句信息进行训练得到的,所述第二类别语句信息与所述第一类别语句信息具有替换关系;根据匹配到的统一语言模型对所述第一类别语句信息进行问答处理,生成所述第一类别语句信息的问答信息,实现针对非常规性语句信息的实现问答的全覆盖目的,大大减少了对问答语句识别的人力、物力,从而提高知识问答的处理效率。

进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种知识问答处理装置,如图3所示,该装置包括:

获取模块21,用于获取待进行知识问答处理的第一类别语句信息,并解析所述第一类别语句信息的数据来源;

匹配模块22,用于根据解析的数据来源匹配完成训练的统一语言模型,所述统一语言模型为按照不同数据来源中的第二类别语句信息进行训练得到的,所述第二类别语句信息与所述第一类别语句信息具有替换关系;

处理模块23,用于根据匹配到的统一语言模型对所述第一类别语句信息进行问答处理,生成所述第一类别语句信息的问答信息。

进一步地,所述第一类别语句信息为未在预置问答库中查找到问答信息的语句信息,所述第二类别语句信息为已在预置问答库中查找到问答信息的语句信息,所述数据来源包括问答知识库、知识图谱库、产品列表数据库、产品条款数据库,所述装置还包括:训练模块,建立模块,

所述获取模块,还用于分别获取所述问答知识库、所述知识图谱库、所述产品列表数据库、所述产品条款数据库中第二类别语句信息训练样本集;

所述训练模块,用于利用所述第二类别语句信息训练样本集对完成语言网络构建的统一语言模型进行训练,得到分别适用于所述问答知识库、所述知识图谱库、所述产品列表数据库、所述产品条款数据库且完成训练的统一语言模型;

所述建立模块,用于建立所述统一语言模型的输入参数与第一类别语句信息之间的替换链路,以确定所述第一类别语句信息与所述第二类别语句信息的替换关系,所述替换关系用于表征所述第一类别语句信息作为所述统一语言模型的输入参数与第二语句信息进行替换的关系。

进一步地,

所述处理模块,具体用于若所述数据来源为问答知识库,则根据所述替换链路将所述第一类别语句信息作为所述统一语言模型的输入参数进行模型运算处理;

所述处理模块,具体用于若所述数据来源为知识图谱库,则按照知识图谱的三元组形式拆分所述第一类别语句信息,并根据所述替换链路将拆分后的语句主语、语句谓语作为所述统一语言模型的输入参数进行模型运算处理;

所述处理模块,具体用于若所述数据来源为产品列表数据库,则从所述产品列表数据库中提取所述第一类别语句的列表结构化数据,并根据所述替换链路将提取的列表结构化数据作为所述统一语言模型的输入参数进行模型运算处理;

所述处理模块,具体用于若所述数据来源为产品条款数据库,则从所述产品条款数据库中提取所述第一类别语句的条款结构化数据,并根据所述替换链路将提取的条款结构化数据作为所述统一语言模型的输入参数进行模型运算处理。

进一步地,所述获取模块包括:

获取单元,用于获取所述第一类别语句信息的存储路径,并所述存储路径中解析存储位置;

确定单元,用于依据所述存储位置匹配至少一个数据来源所对应的数据库,确定所述第一类别的数据来源。

进一步地,所述装置还包括:

采集模块,用于采集请求知识问答的至少一个语句信息;

查找模块,用于从所述第二类别语句信息所对应的问答库中查找是否存在所述语句信息的问答信息;

第一确定模块,用于若不存在,则确定所述语句信息为第一类别语句信息,并进行知识问答处理;

其二确定模块,用于若存在,则确定查找到的问答信息为所述语句的问答信息。

进一步地,所述查找模块包括:

提取单元,用于分别提取所述第一类别语句、所述第二类别语句中的语义词语,并计算所述语义词语之间的相似度;

判断单元,用于根据所述相似度判断所述第二类别语句信息的问答信息是否适用于所述第一类别语句信息的知识问答。

进一步地,所述装置还包括:

接收模块,用于接收根据输出所述问答信息得到的问答反馈结果,所述问答反馈结果用于表征所述问答信息的解答满意程度;

判断模块,用于根据所述问答反馈结果确定将所述第一类别语句信息转换为所述第二类别语句信息,以及确定将所述问答信息更新至第二类别语句信息训练样本集中,以进行模型更新。

本发明实施例提供了一种知识问答处理装置,与现有技术相比,本发明实施例通过获取待进行知识问答处理的第一类别语句信息,并解析所述第一类别语句信息的数据来源;根据解析的数据来源匹配完成训练的统一语言模型,所述统一语言模型为按照不同数据来源中的第二类别语句信息进行训练得到的,所述第二类别语句信息与所述第一类别语句信息具有替换关系;根据匹配到的统一语言模型对所述第一类别语句信息进行问答处理,生成所述第一类别语句信息的问答信息,实现针对非常规性语句信息的实现问答的全覆盖目的,大大减少了对问答语句识别的人力、物力,从而提高知识问答的处理效率。

根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的知识问答处理方法。

图4示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。

如图4所示,该计算机设备可以包括:处理器(processor)302、通信接口(communicationsinterface)304、存储器(memory)306、以及通信总线308。

其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。

通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器302,用于执行程序310,具体可以执行上述知识问答处理方法实施例中的相关步骤。

具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。

处理器302可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。

存储器306,用于存放程序310。存储器306可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行以下操作:

获取待进行知识问答处理的第一类别语句信息,并解析所述第一类别语句信息的数据来源;

根据解析的数据来源匹配完成训练的统一语言模型,所述统一语言模型为按照不同数据来源中的第二类别语句信息进行训练得到的,所述第二类别语句信息与所述第一类别语句信息具有替换关系;

根据匹配到的统一语言模型对所述第一类别语句信息进行问答处理,生成所述第一类别语句信息的问答信息。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1