自学习的知识库管理方法、装置、终端设备及存储介质与流程

文档序号:19787050发布日期:2020-01-24 13:43阅读:160来源:国知局
自学习的知识库管理方法、装置、终端设备及存储介质与流程

本发明涉及计算机领域,尤其涉及一种自学习的知识库管理方法、装置、终端设备及存储介质。



背景技术:

随着信息化建设的深入发展,信息系统已经成为企业处理核心业务的关键基础建设,知识库也因此而诞生,知识库有两种含义:一种是指专家系统设计所应用的规则集合,包含规则所联系的事实及数据,它们的全体构成知识库,这种知识库是与具体的专家系统有关,不存在知识库的共享问题;另一种是指具有咨询性质的知识库,这种知识库是共享的,不是一家所独有的。

但是目前系统提供的学习是单方面的,即只有人向现有的已存入知识库中的知识学习,而无法主动去学习新的知识,只能被动通过人为方式对知识库进行更新,并且在更新知识的时候,需要有相关经验的技术人员才能对知识库进行管理,耗费人成本以及沟通成本。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

有鉴于此,本发明提出了一种自学习的知识库管理方法、装置、终端设备及存储介质,旨在解决现有技术无法主动去学习新的知识并对新的知识进行管理的技术问题。

本发明的技术方案是这样实现的:

一方面,本发明提供了一种自学习的知识库管理方法,所述自学习的知识库管理方法包括以下步骤:

接收文档查询指令,从文档查询指令中提取待查询关键词以及待查询关键词对应的文档类别;

建立tf-idf算法,根据待查询关键词对应的文档类别,从网络获取相关文档类别的文档对应的关键词,根据tf-idf算法计算待查询关键词的tf-idf值与网络关键词的tf-idf值,根据待查询关键词的tf-idf值与网络关键词的tf-idf值,将待查询关键词的tf-idf值与网络关键词的tf-idf值进行比较,根据比较结果,确定待添加的网络关键词对应的文档;

获取待添加网络文档对应的文件链接以及文件,将待添加网络文档对应的文件链接以及文件存储至知识库中,为该待添加网络文档生成唯一编号,将该唯一编号与待添加网络文档对应的文件链接以及文件进行关联,并将关联完成的唯一编号展示给用户。

在以上技术方案的基础上,优选的,建立tf-idf算法,设定关键词tf-idf值的范围,根据待查询关键词对应的文档类别,从网络获取相关文档类别的文档对应的关键词,根据tf-idf算法计算网络关键词的tf-idf值,将该网络关键词的tf-idf值与关键词tf-idf值的范围进行比较,当该网络关键词的tf-idf值满足关键词tf-idf值的范围时,判定该网络关键词对应的文档真实有效,根据tf-idf算法计算该网络关键词的tf-idf值;当该网络关键词的tf-idf值不满足关键词tf-idf值的范围时,重新从网络获取相关文档类别的文档对应的关键词。

在以上技术方案的基础上,优选的,建立tf-idf算法,根据待查询关键词对应的文档类别,从网络获取相关文档类别的文档对应的关键词,根据tf-idf算法计算待查询关键词的tf-idf值与网络关键词的tf-idf值,根据待查询关键词的tf-idf值与网络关键词的tf-idf值,将待查询关键词的tf-idf值与网络关键词的tf-idf值进行比较,当待查询关键词的tf-idf值小于或者等于网络关键词的tf-idf值时,将该网络关键词对应的文档作为待添加的网络文档;当待查询关键词的tf-idf值大于网络关键词的tf-idf值时,重新从网络获取相关文档类别的文档对应的关键词。

在以上技术方案的基础上,优选的,tf-idf算法为:

其中,p(x)代表待查询关键词以及网络关键词的tf-idf值,tf(x)代表待查询关键词以及网络关键词的词频,n代表网络中文档总数,n(x)代表带有关键词的文档数。

在以上技术方案的基础上,优选的,建立预设语言库,获取待添加网络文档对应的文件,根据预设语言库对待添加网络文档对应的文件的内容进行检索,确定待添加网络文档对应的文件的语言类别,并将该待添加网络文档对应的文件存入对应语言类别的知识库中。

在以上技术方案的基础上,优选的,获取待添加网络文档对应的文件链接,从该文件链接中提取文档标签,所述文档标签包括:网络文档来源网站、网络文档分类、网络文档归属,根据文档标签对待添加网络文档进行标记,并存入知识库中。

在以上技术方案的基础上,优选的,设定预设点击量阈值,获取待添加网络文档的点击量,将待添加网络文档的点击量与预设点击量阈值进行比较,当待添加网络文档的点击量大于预设点击量阈值时,将待添加网络文档存入知识库中并优先推送给用户;当待添加网络文档的点击量小于预设点击量阈值时,将待添加网络文档存入知识库中。

更进一步优选的,所述自学习的知识库管理装置包括:

提取模块,用于接收文档查询指令,从文档查询指令中提取待查询关键词以及待查询关键词对应的文档类别;

计算模块,用于建立tf-idf算法,根据待查询关键词对应的文档类别,从网络获取相关文档类别的文档对应的关键词,根据tf-idf算法计算待查询关键词的tf-idf值与网络关键词的tf-idf值,根据待查询关键词的tf-idf值与网络关键词的tf-idf值,将待查询关键词的tf-idf值与网络关键词的tf-idf值进行比较,根据比较结果,确定待添加的网络关键词对应的文档;

管理模块,用于获取待添加网络文档对应的文件链接以及文件,将待添加网络文档对应的文件链接以及文件存储至知识库中,为该待添加网络文档生成唯一编号,将该唯一编号与待添加网络文档对应的文件链接以及文件进行关联,并将关联完成的唯一编号展示给用户。

第二方面,所述自学习的知识库管理方法还包括一种终端设备,所述终端设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的自学习的知识库管理方法程序,所述自学习的知识库管理方法程序配置为实现如上文所述的自学习的知识库管理方法的步骤。

第三方面,所述自学习的知识库管理方法还包括一种存储介质,所述存储介质为计算机存储介质,所述计算机存储介质上存储有自学习的知识库管理方法程序,所述自学习的知识库管理方法程序被处理器执行时实现如上文所述的自学习的知识库管理方法的步骤。

本发明的一种自学习的知识库管理方法相对于现有技术具有以下有益效果:

(1)通过tf-idf算法对文档关键词进行分析,根据关键词从网络中查找与关键词相关的文本文档,然后对文本文档进行添加,实现自学习的过程,这种方式能够精确根据关键词实现自学习的过程,不用人工操作,节约了人力成本,提高了工作效率;

(2)通过与点击量进行筛选,从大量的文本文档中筛选出点击量高的文本文档,对文本文档进行标记,当用户选择对应的关键词时,优先推荐被标记过的文本文档给用户,通过这样的方式可以改善用户体验,提高用户的查找效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例方案涉及的硬件运行环境的终端设备的结构示意图;

图2为本发明自学习的知识库管理方法第一实施例的流程示意图;

图3为本发明自学习的知识库管理方法第一实施例的功能模块示意图。

具体实施方式

下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

如图1所示,该终端设备可以包括:处理器1001,例如中央处理器(centralprocessingunit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(randomaccessmemory,ram)存储器,也可以是稳定的非易失性存储器(non-volatilememory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对终端设备的限定,在实际应用中终端设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及自学习的知识库管理方法程序。

在图1所示的终端设备中,网络接口1004主要用于建立终端设备与存储自学习的知识库管理方法系统中所需的所有数据的服务器的通信连接;用户接口1003主要用于与用户进行数据交互;本发明自学习的知识库管理方法设备中的处理器1001、存储器1005可以设置在自学习的知识库管理方法设备中,所述自学习的知识库管理方法设备通过处理器1001调用存储器1005中存储的自学习的知识库管理方法程序,并执行本发明实施提供的自学习的知识库管理方法。

结合图2,图2为本发明自学习的知识库管理方法第一实施例的流程示意图。

本实施例中,所述自学习的知识库管理方法包括以下步骤:

s10:接收文档查询指令,从文档查询指令中提取待查询关键词以及待查询关键词对应的文档类别。

应当理解的是,本实施例在接受到文档查询指令后,会从文档查询指令中提取待查询关键词以及待查询关键词对应的文档类别,并从数据库中筛选对应的文档类别展示给用户,同时会从网络中获取与待查询关键词对应的文档类别相关的文档作为待添加文档,添加进数据库。

s20:建立tf-idf算法,根据待查询关键词对应的文档类别,从网络获取相关文档类别的文档对应的关键词,根据tf-idf算法计算待查询关键词的tf-idf值与网络关键词的tf-idf值,根据待查询关键词的tf-idf值与网络关键词的tf-idf值,将待查询关键词的tf-idf值与网络关键词的tf-idf值进行比较,根据比较结果,确定待添加的网络关键词对应的文档。

应当理解的是,本实施中,会预先建立tf-idf算法,并设定关键词tf-idf值的范围,然后通过待查询关键词对应的文档类别从网络中获取与该文档类别相关的文档以及对应的关键词。之后会计算网络关键词的tf-idf值,然后将网络关键词的tf-idf值与预先设定的关键词tf-idf值的范围进行比较,用于判断该网络关键词对应的文档是否真实有效,只有当网络关键词的tf-idf值满足预先设定的关键词tf-idf值的范围时,才能证明该网络关键词对应的文档真实有效,否则,则会重新从网络中获取相关文档以及对应的关键词。

应当理解的是,当确定网络关键词对应的文档真实有效后,会计算待查询关键词的tf-idf值,然后将该待查询关键词的tf-idf值与真实有效的文档对应的关键词的tf-idf值进行比较,进一步筛选能够添加进数据库中的文档,只有当待查询关键词的tf-idf值小于或者等于网络关键词的tf-idf值时,表示此时网络关键词包含了待查询关键词,会将该网络关键词对应的文档作为待添加的网络文档,否则会重新从网络获取相关文档类别的文档对应的关键词。

应当理解的是,tf-idf(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术,tf意思是词频(termfrequency),idf意思是逆文本频率指数(inversedocumentfrequency),同时,tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

应当理解的是,tf-idf算法为:

其中,p(x)代表待查询关键词以及网络关键词的tf-idf值,tf(x)代表待查询关键词以及网络关键词的词频,n代表网络中文档总数,n(x)代表带有关键词的文档数。

s30:获取待添加网络文档对应的文件链接以及文件,将待添加网络文档对应的文件链接以及文件存储至知识库中,为该待添加网络文档生成唯一编号,将该唯一编号与待添加网络文档对应的文件链接以及文件进行关联,并将关联完成的唯一编号展示给用户。

应当理解的是,本实施例中,还包括如下步骤,从网络获取语言包,根据语言包建立语言库,在获取到待添加网络文档对应的文件后,系统会根据语言库对待添加网络文档对应的文件进行语言识别,根据该文件对应的语言,将该文件存入对应语言类别的知识库中。

应当理解的是,本实施例中,还会获取添加网络文档对应的文件链接,从文件链接中提取该文件对应的标签,包括:网络文档来源网站、网络文档分类、网络文档归属,然后会根据这些标签对文件进行相应的标记,并将文件存入系统对应标签的知识库中。

应当理解的是,本实施例中,还会根据待添加网络文档的点击量来对待添加文档做一个热推的标签,当待添加网络文档的点击量大于预设的点击量阈值时,就会给待添加文档进行优先推送的标记,每当有用户筛选到对应的关键词时,就会优先推荐该文档。这种方法可以给用户提供便利,帮助用户更快寻找自己想要的文档。

需要说明的是,以上仅为举例说明,并不对本申请的技术方案构成任何限定。

通过上述描述不难发现,本实施例通过接收文档查询指令,从文档查询指令中提取待查询关键词以及待查询关键词对应的文档类别;建立tf-idf算法,根据算法计算待查询关键词的tf-idf值与网络关键词的tf-idf值,根据待查询关键词的tf-idf值与网络关键词的tf-idf值,确定待添加的网络关键词对应的文档;获取待添加网络文档对应的文件链接以及文件,将待添加网络文档对应的文件链接以及文件存储至知识库中,为该待添加网络文档生成唯一编号,将该唯一编号与待添加网络文档对应的文件链接以及文件进行关联,并将关联完成的唯一编号展示给用户。本实施例通过tf-idf算法自动学习知识,并对新知识进行管理,节约了人力成本,提高了效率。

此外,本发明实施例还提出一种自学习的知识库管理装置。如图3所示,该自学习的知识库管理装置包括:获取模块10、提取模块20、分类模块30、处理模块40。

提取模块10,用于接收文档查询指令,从文档查询指令中提取待查询关键词以及待查询关键词对应的文档类别;

计算模块20,用于建立tf-idf算法,根据待查询关键词对应的文档类别,从网络获取相关文档类别的文档对应的关键词,根据tf-idf算法计算待查询关键词的tf-idf值与网络关键词的tf-idf值,根据待查询关键词的tf-idf值与网络关键词的tf-idf值,将待查询关键词的tf-idf值与网络关键词的tf-idf值进行比较,根据比较结果,确定待添加的网络关键词对应的文档;

管理模块30,用于获取待添加网络文档对应的文件链接以及文件,将待添加网络文档对应的文件链接以及文件存储至知识库中,为该待添加网络文档生成唯一编号,将该唯一编号与待添加网络文档对应的文件链接以及文件进行关联,并将关联完成的唯一编号展示给用户。

此外,需要说明的是,以上所描述的装置实施例仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的,此处不做限制。

另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的自学习的知识库管理方法,此处不再赘述。

此外,本发明实施例还提出一种存储介质,所述存储介质为计算机存储介质,所述计算机存储介质上存储有自学习的知识库管理方法程序,所述自学习的知识库管理方法程序被处理器执行时实现如下操作:

接收文档查询指令,从文档查询指令中提取待查询关键词以及待查询关键词对应的文档类别;

建立tf-idf算法,根据待查询关键词对应的文档类别,从网络获取相关文档类别的文档对应的关键词,根据tf-idf算法计算待查询关键词的tf-idf值与网络关键词的tf-idf值,根据待查询关键词的tf-idf值与网络关键词的tf-idf值,将待查询关键词的tf-idf值与网络关键词的tf-idf值进行比较,根据比较结果,确定待添加的网络关键词对应的文档;

获取待添加网络文档对应的文件链接以及文件,将待添加网络文档对应的文件链接以及文件存储至知识库中,为该待添加网络文档生成唯一编号,将该唯一编号与待添加网络文档对应的文件链接以及文件进行关联,并将关联完成的唯一编号展示给用户。

进一步地,所述自学习的知识库管理方法程序被处理器执行时还实现如下操作:

建立tf-idf算法,设定关键词tf-idf值的范围,根据待查询关键词对应的文档类别,从网络获取相关文档类别的文档对应的关键词,根据tf-idf算法计算网络关键词的tf-idf值,将该网络关键词的tf-idf值与关键词tf-idf值的范围进行比较,当该网络关键词的tf-idf值满足关键词tf-idf值的范围时,判定该网络关键词对应的文档真实有效,根据tf-idf算法计算该网络关键词的tf-idf值;当该网络关键词的tf-idf值不满足关键词tf-idf值的范围时,重新从网络获取相关文档类别的文档对应的关键词。

进一步地,所述自学习的知识库管理方法程序被处理器执行时还实现如下操作:

建立tf-idf算法,根据待查询关键词对应的文档类别,从网络获取相关文档类别的文档对应的关键词,根据tf-idf算法计算待查询关键词的tf-idf值与网络关键词的tf-idf值,根据待查询关键词的tf-idf值与网络关键词的tf-idf值,将待查询关键词的tf-idf值与网络关键词的tf-idf值进行比较,当待查询关键词的tf-idf值小于或者等于网络关键词的tf-idf值时,将该网络关键词对应的文档作为待添加的网络文档;当待查询关键词的tf-idf值大于网络关键词的tf-idf值时,重新从网络获取相关文档类别的文档对应的关键词。

进一步地,所述自学习的知识库管理方法程序被处理器执行时还实现如下操作:

tf-idf算法为:

其中,p(x)代表待查询关键词以及网络关键词的tf-idf值,tf(x)代表待查询关键词以及网络关键词的词频,n代表网络中文档总数,n(x)代表带有关键词的文档数。

进一步地,所述自学习的知识库管理方法程序被处理器执行时还实现如下操作:

建立预设语言库,获取待添加网络文档对应的文件,根据预设语言库对待添加网络文档对应的文件的内容进行检索,确定待添加网络文档对应的文件的语言类别,并将该待添加网络文档对应的文件存入对应语言类别的知识库中。

进一步地,所述自学习的知识库管理方法程序被处理器执行时还实现如下操作:

获取待添加网络文档对应的文件链接,从该文件链接中提取文档标签,所述文档标签包括:网络文档来源网站、网络文档分类、网络文档归属,根据文档标签对待添加网络文档进行标记,并存入知识库中。

进一步地,所述自学习的知识库管理方法程序被处理器执行时还实现如下操作:

设定预设点击量阈值,获取待添加网络文档的点击量,将待添加网络文档的点击量与预设点击量阈值进行比较,当待添加网络文档的点击量大于预设点击量阈值时,将待添加网络文档存入知识库中并优先推送给用户;当待添加网络文档的点击量小于预设点击量阈值时,将待添加网络文档存入知识库中。

以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1