知识库文本同步方法、装置、电子设备及存储介质与流程

文档序号:24552087发布日期:2021-04-06 12:04阅读:62来源:国知局
知识库文本同步方法、装置、电子设备及存储介质与流程

本申请涉及数据处理技术领域,尤其涉及一种知识库文本同步方法、装置、电子设备及存储介质。



背景技术:

随着计算机技术的发展,智能技术往往能在很多领域代替人们完成重复的工作,其中一个应用较广泛的就是智能问答系统,比如电商领域的客服系统。用户的问题和提问形式可能多种多样,有的智能问答系统,还需要能回答特定专业领域的问题,为了能满足这样的需求,智能问答系统需要从现实中获取知识,将知识存储于知识库中。

相关技术中,在对知识库数据进行同步时,一般是人工导入、人工收集、标注、整理的方法,费时费力,并且往往需要人工同时维护多份数据的一致性,效率低下且容易出错。



技术实现要素:

本申请提供了一种知识库文本同步方法、装置、电子设备及存储介质,用以解决相关技术中,在对知识库数据进行同步时,效率低下的问题。

第一方面,本申请提供了一种知识库文本同步方法,包括:

在同步任务被触发后,获取目标数据源中的待同步知识库文本;

对所述待同步知识库文本进行文本分割,得到章节数据;以及,提取所述待同步知识库文本中的格式数据,将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据;

将所述章节数据和所述问题数据存储至智能问答系统的知识库,以使所述智能问答系统根据所述知识库中数据进行知识匹配。

可选的,所述将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据之后,还包括:

提取所述问题数据对应的格式数据中的标签信息;

将所述标签信息存储至所述知识库中。

可选的,所述对所述待同步知识库文本进行文本分割,得到章节数据;以及,提取所述待同步知识库文本中的格式数据,将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据之后,还包括:

对所述章节数据和所述问题数据进行中文分词,得到分词结果;

根据所述分词结果计算各所述标签信息的权重,将所述标签信息的权重存储在所述知识库中,以使所述知识库基于所述权重进行知识匹配。

可选的,所述在同步任务被触发后,获取目标数据源中的待同步知识库文本之前,还包括:

获取预设的配置参数,所述配置参数包括数据源地址、数据在所述知识库中的分类、数据源中待同步知识库文本的获取路径中的至少一个;

根据预设的配置参数确定所述目标数据源。

可选的,所述获取目标数据源中的待同步知识库文本,包括:

根据预设的配置参数与所述目标数据源建立连接;

拉取所述目标数据源中的数据全量,将所述数据全量作为所述待同步知识库文本。

可选的,所述获取目标数据源中的待同步知识库文本,包括:

基于所述知识库预先设置在所述目标数据源中的监听程序,获取所述目标数据源中的数据增量,将所述数据增量作为所述待同步知识库文本。

可选的,所述获取目标数据源中的待同步知识库文本之前,还包括:

根据预设的触发条件,检测是否接收到触发信号,所述触发条件包括定时触发或外部触发;

若接收到触发信号,确定所述同步任务被触发。

第二方面,本申请提供了一种知识库文本同步装置,包括:

获取模块,用于在同步任务被触发后,获取目标数据源中的待同步知识库文本;

解析模块,用于对所述待同步知识库文本进行文本分割,得到章节数据;以及,提取所述待同步知识库文本中的格式数据,将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据;

同步模块,用于将所述章节数据和所述问题数据存储至智能问答系统的知识库,以使所述智能问答系统根据所述知识库中数据进行知识匹配。

第三方面,本申请提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的知识库文本同步方法。

第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的知识库文本同步方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,在同步任务被触发后,获取目标数据源中的待同步知识库文本;对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据;将章节数据和问题数据存储至智能问答系统的知识库,以使智能问答系统根据知识库中数据进行知识匹配。如此,不需要人工收集和导入,直接从目标数据源中获取待同步知识库文本,也不需要人为的对数据进行拆解和整理,直接对待同步知识库文本解析,便可以得到章节数据和问题数据,进而将其同步到智能问答系统的知识库中,不仅保证了数据的一致性,而且提高了数据同步的效率和准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1为本申请实施例中智能问答系统的结构示意图;

图2为本申请一实施例中知识库文本同步方法的具体过程示意图;

图3为本申请实施例中知识库文本同步装置结构示意图;

图4为本申请实施例中电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

本申请的知识库文本同步方法具体可以应用在智能问答系统中,如图1所示,智能问答系统包括中间数据库101、数据同步引擎102和知识库103,其中,中间数据库用于在同步任务被触发后,存储从目标数据源中获取的待同步知识库文本,数据同步引擎用于对解析待同步知识库文本,得到章节数据和问题数据,知识库用于同步章节数据和问题数据。

本申请实施例提供了一种知识库文本同步方法,该方法可以应用于任意一种形式的电子设备中,如app的服务器中。如图2所示,该知识库文本同步方法,包括:

步骤201、在同步任务被触发后,获取目标数据源中的待同步知识库文本。

一些实施例中,目标数据源可以通过预设的配置参数确定。预设的配置参数包括但不限于数据源地址、数据在知识库中的分类、数据源中待同步知识库文本的获取路径。

获取目标数据源中的待同步知识库文本的方式有多种,以以下两种方式进行举例说明。

第一种,包括:

根据预设的配置参数与目标数据源建立连接;拉取目标数据源中的数据全量,将数据全量作为待同步知识库文本。

一些实施例中,在同步任务被触发后,便可以根据预设的配置参数中的数据源地址,确定目标数据源,并与其建立连接。目标数据源中会根据预设的配置参数中的待同步知识库文本的获取路径,确定目标数据源中需要拉取的数据,通常,将获取路径中的数据全量作为待同步知识库文本。

可以理解的是,若拉取的数据为目标数据源中的数据全量,在对该数据全量进行解析后,需要将解析后的数据与知识库中已存储的数据进行比对,将未在知识库中存储的解析后的数据存储到知识库中。

第二种,包括:

基于知识库预先设置在目标数据源中的监听程序,获取目标数据源中的数据增量,将数据增量作为待同步知识库文本。

一些实施例中,还可以将智能问答系统提供的监听程序,加入到数据源中,将其作为目标数据源,通过监听程序监听目标数据源中的数据变化,若发生变化,可以将目标数据源中的数据增量作为待同步知识库文本。其中,监听程序可以为代理插件。

在另一些实施例中,步骤201之前,还可以包括:

根据预设的触发条件,检测是否接收到触发信号,触发条件包括定时触发或外部触发;若接收到触发信号,确定同步任务被触发。

其中,确定同步任务被触发的方式有多种,可以通过预设触发条件,根据触发条件检测是否接收到触发信号,在接收到触发信后,便可以确定同步任务被触发。其中,触发条件可以为定时触发或外部触发。定时触发的时间可以根据实际情况进行设置,此处不做限定。外部触发可以为增量触发,在目标数据源中新增数据后,便进行触发。

在另一些实施例中,步骤201之前,还可以包括:

获取预设的配置参数,根据预设的配置参数确定目标数据源。

其中,预设的配置参数可以根据实际情况进行设置,以gitbook为例,配置参数包括git项目地址、在知识库中的分类、git项目名称和需要解析的文档路径。

步骤202、对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据。

一些实施例中,在获取了待同步知识库文本后,智能问答系统中的数据同步引擎便可以根据待同步知识库文本的格式,进行解析。其中,对待同步知识库文本的解析包括两个方面,章节数据和问题数据采用不同的解析方式得到。

进一步的,根据待同步知识库文本得到章节数据的方式有多种,例如,可以对待同步知识库文本进行文本分割,得到章节数据。

一些实施例中,对待同步知识库文本进行文本分割的方式有多种,例如,可以通过识别待同步知识库文本中的标题,将本级标题与其下一级同级标题之前的数据,作为一个章节数据;或者根据自然段落,将待同步知识库文本中的文本拆分为章节数据。

进一步的,根据待同步知识库文本得到问题数据的方式有多种,例如,可以提取待同步知识库文本中的格式数据;判断格式数据的格式与知识库的预设数据格式是否一致;若是,将待同步知识库文本中,与格式数据对应的文本数据作为问题数据。

一些实施例中,格式数据的格式为待同步知识库文本在获取之前,根据预设数据格式配置的。在数据同步引擎对待同步知识库文本进行解析时,先在待同步知识库文本中查找并提取格式数据,然后,将格式数据的格式与预设格式进行比较,判断二者是否一致,若一致,则确定待同步知识库文本中,与格式数据对应的文本数据为问题数据。

具体的,提取待同步知识库文本中的格式数据具体包括,在待同步知识库文本中查询第一符号,若第一符号后为第二符号则认为从第一符号开始到第二符号结束中间的数据为格式数据,若第二符号内包括至少一个词汇,则将各词汇标识为标签,各标签之间以第三符号间隔。其中,第一符号可以为中括号“【】”,第二符号可以为小括号“()”,第三符号可以为逗号“,”;例如,格式数据的格式可以但不限于为“【】(标签1、标签2....标签n)”,其中,n为大于或等于1的正整数,标签表示问题数据的关键字。

进一步的,为了使知识库的更加准确,本实施例中,还会对问题数据进行区分。在确定问题数据后,还会进一步判断,在该问题数据后的文本中是否存在图像数据,若存在,将该问题数据确定为富文本问题数据,若不存在,将该问题数据确定为标准问题数据。其中,问题数据后的文本可以为该问题数据后的第一个至第m个自然段,m大于或等于1,或者问题数据后的文本为本问题数据到下一问题数据之间的文本。

进一步的,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据之后,还包括:

提取问题数据对应的格式数据中的标签信息;将标签信息存储至知识库中。

基于上述相关实施例,在格式数据中包括有符号和标签,其中,标签即为问题数据的关键字,因此,通过提取格式数据中的标签信息,将其存储至知识库中,以使知识库在知识匹配时,更加准确。

更进一步的,对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据之后,还包括:

对章节数据和问题数据进行中文分词,得到分词结果;据分词结果计算各标签信息的权重,将标签信息的权重存储在知识库中,以使知识库基于权重进行知识匹配。

一些实施例中,为了使知识库在进行知识匹配时,匹配结果更加准确,先对章节数据和问题数据进行中文分词,根据分词结果基于tf-idf(termfrequency–inversedocumentfrequency,信息检索数据挖掘的常用加权技术)算法计算标签信息的权重,并将标签信息的权重也对应存储在知识库中,从而使知识库进一步根据标签信息的权重进行知识匹配。

步骤203、将章节数据和问题数据存储至智能问答系统的知识库,以使智能问答系统根据知识库中数据进行知识匹配。

一些实施例中,在对待同步知识库文本进行解析后,将得到的章节数据和问题数据存储在智能问答系统的知识库中,如此,不需要人工收集和导入,直接从目标数据源中获取待同步知识库文本,也不需要人为的对数据进行拆解和整理,直接对待同步知识库文本解析,便可以得到章节数据和问题数据,进而将其同步到智能问答系统的知识库中,不仅保证了数据的一致性,而且提高了数据同步的效率和准确度。

其中,智能问答系统可以但不限于为智能客服系统。

本申请的知识库文本同步方法,通过定时触发或外部触发两种方式,能够建立多种数据源与智能问答系统知识库的数据同步机制,将获取的待同步知识库文本同步时,对待同步知识库文本进行同步解析,将解析得到的问题数据和章节数据录入知识库。本申请的知识库文本同步方法兼顾了增量数据同步和全量数据同步,在数据同步的时效性和完整性上达到较好的平衡。在数据同步的同时,自动化的实现了待同步知识库文本的解析和入库。将信息检索技术与数据同步技术结合,极大减少了运维人员的工作量。另外,本申请通过简单配置后,只需要维护一份数据,如系统的使用手册,而不需要在智能问答系统上再次导入,即可通过智能客服进行知识问答查询,极大减少了开发运维压力。

图2为一个实施例提供的知识库文本同步方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于同一构思,本申请实施例中提供了一种知识库文本同步装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述。如图3所示,该装置主要包括:

获取模块301,用于在同步任务被触发后,获取目标数据源中的待同步知识库文本;

解析模块302,用于对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据;

同步模块303,用于将章节数据和问题数据存储至智能问答系统的知识库,以使智能问答系统根据知识库中数据进行知识匹配。

基于同一构思,本申请实施例中还提供了一种电子设备,如图4所示,该电子设备主要包括:处理器401、通信接口402、存储器403和通信总线404,其中,处理器401、通信接口402和存储器403通过通信总线404完成相互间的通信。其中,存储器403中存储有可被至处理器401执行的程序,处理器401执行存储器403中存储的程序,实现如下步骤:

在同步任务被触发后,获取目标数据源中的待同步知识库文本;

对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据;

将章节数据和问题数据存储至智能问答系统的知识库,以使智能问答系统根据知识库中数据进行知识匹配。

上述电子设备中提到的通信总线404可以时外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该通信总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口402用于上述电子设备与其他设备之间的通信。

存储器403可以包括随机存取存储器(randomaccessmemory,简称ram),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器401的存储装置。

上述的处理器401可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等,还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的知识库文本同步方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如dvd)或者半导体介质(例如固态硬盘)等。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1