启发式精准知识数据搜索引擎及数据自学习自诊断方法与流程

文档序号:17537492发布日期:2019-04-29 14:09阅读:245来源:国知局
启发式精准知识数据搜索引擎及数据自学习自诊断方法与流程

本发明属于计算机技术领域,特别涉及启发式精准知识数据搜索引擎及数据自学习自诊断方法。



背景技术:

现存的搜索技术中,一类是给定一组关键字,然后以数据和关键字之间的关联度、数据重要性、结果排序、关键字间或数据间的规则(例如满足一定正则表达式)等指标一次性获得搜索结果。提交给搜索起点的是以某种方式排序的搜索结果。此类常见于、数据库、网页、或知识库的搜索引擎中,不支持交互式启发式搜索,并且搜索结果会很多;一类是以机器学习和深度学习为技术手段,从训练数据中总结学习判断模型,然后以该模型做搜索引擎核心。此类常见于知识库和知识图谱的搜索解决方案,通常现在技术手段还不能提供精准搜索结果;另一类是针对知识图谱或语义网按照关联路径推断,其中路径分支可以要求搜索起点做判断,直到搜索结果。此类亦常见于知识图谱或语义网的搜索技术中,要求图谱或语义网有相当高的正确性、准确性、完备性。然而,知识数据通常是通过计算机自动整理得到,其中错误难免,造成对搜索起点启发提问和搜索结果往往是错误的,因而此类方法无法发现错误,无法反复在搜索中做到自学习自诊断数据。

现存的数据搜索和知识搜索无法积累正确的链接数据包含数据间的关系,对搜索过程和数据知识中的错误无法修补,同时缺少启发互动式地与搜索起点沟通。本发明旨在解决这些问题,提供可靠的可信赖的积累知识数据和搜索结果。



技术实现要素:

本发明解决了上述问题而提供启发式精准知识数据搜索引擎及数据自学习自诊断方法,解决了现有的技术和方法所存在的缺点。

为了解决上述问题,本发明提供了一种技术方案:

启发式精准知识数据搜索引擎,包括数据提取、核心数据库、关键字和问题转换、逻辑推理器、逻辑表达式转换器和数据标准化。

作为优选,所述数据提取是从核心数据中检索提取和所有初始关键字及其逻辑关系相关的数据及其关系。

作为优选,所述核心数据库的表现形式是任意组织存储形式,所述核心数据库生成积累方式包括在线积累和离线积累,所述在线积累为在搜索引擎在线服务过程中,通过验证认证的新数据可以被加入核心数据库,所述离线积累为独立于搜索引擎,不需要在搜索引擎服务过程中,核心数据在后台依旧按照离线积累的过程被积累修正,所述离线积累由依次为高质量文本、数据挖掘工具、核心数据、数据提取、逻辑表达式转换器、逻辑验证、有逻辑问题存在和结束组成,所述核心数据连接有常识数据和数据修复修补,所述数据修复修补与专家知识连接。

作为优选,所述关键字和问题转换的转换过程和逻辑表达式转换器的转换过程互为逆过程,即从逻辑表达式依照标准对照词库向核心数据中的标准词语转换,同时,将词语间的逻辑关系从逻辑关系符号向自然语言转换。

作为优选,所述逻辑推理器在于发现从逻辑表达式转换器得到的一系列逻辑表达式本身和表达式间是否有逻辑冲突、缺失和冗余错误。

作为优选,所述逻辑表达式转换器是逻辑表达式转换的基本功能是从提取到的链接数据和关系转换到逻辑推理器和逻辑验证能接受的逻辑表达式。

作为优选,所述数据标准化是能否进行数理逻辑推理和验证的重要部件,所述数据标准化能够提供词汇数据转换,保证所述逻辑表达式转换器能够形成逻辑范式进行后续逻辑推理和验证。

启发式精准知识数据搜索引擎的数据自学习自诊断方法,所述方法为:

1).搜索起点提供初始关键字和关键字之间的逻辑关系给数据提取器和常规数据搜索器,所述常规数据搜索器可以是现有的知识图、知识库搜索工具,或现有的能挖掘数据和关系的文本挖掘和数据挖掘技术,所述数据提取器从核心数据库中提取满足的关键字和关系交与逻辑表达式转换器,所述常规数据搜索器从知识图或知识库以及其他数据中提取满足的关键字和关系,经过所述数据标准化部件转化为标准词库中包含的标准文字;

2).然后将上步获得的结果转交所述逻辑表达式转换器,因为以上得到多组数据和关系,转换器将数据和关系转换为一组逻辑表达式,所述逻辑推理器对这组逻辑表达式进行逻辑运算,这种运算可以是可满足性问题,即sat或satisfiablity的求解器satsolver,也可以是更复杂的问题用其他数理逻辑证明工具theoremprover,取决于应用场景的不同,所述逻辑推理器在进行满足性问题求解后,如果结果是不满足,则可以找出逻辑冲突点、最小冲突逻辑子句、数据或逻辑关系冗余、或尚欠缺的逻辑条件,以此来进行后续的数据和关系的修正修补,但在有逻辑问题存在的判断框中判定有数据和关系修正修补需要后,由所述关键字和问题转换完成从逻辑表达式向数据和关系的转换,亦即产生新的关键字和问题,经由交互逻辑问题判断向搜索起点查问;

3).同时,新的关键字和问题会被发往对应专家证实,一旦专家证实答案,新的数据和关系会被追加或修改核心数据,交互逻辑问题判断或启发新关键字每次询问搜索起点,都会得到新的关键字和关系,然后重复上述过程并在所述逻辑推理器中替换被修改过的逻辑变量和逻辑关系,或补充新的逻辑变量和逻辑关系,直到有逻辑问题存在的判断框中判定全部数据和关系无进一步问题,在搜索结果中,首先得到的是一组逻辑表达式,在将逻辑符号和表达式通过标准词库翻译后,即为搜索结果。

本发明的有益效果:本发明的搜索引擎通过在搜索过程中检查数据和搜索过程的逻辑错误,启发搜索起点提供更多正确的关键词或引导搜索起点回答逻辑关系问题,逐步逼近一个或几个最终搜索结果,该方法可以解决背景技术中,搜索结果精准性问题和搜索结果范围过大的问题,将搜索的到的链接数据转化为逻辑表达式,通过逻辑表达式求解判断链接数据是否为准确搜索结果,以此来进一步解决背景技术中的精准搜索问题,在逻辑表达式求解过程中,如果求解失败,即当前所得搜索结果存在逻辑问题或逻辑关系缺失,这样本发明的搜索引擎可以知道当前搜索过程和结果中的关键逻辑问题,通过数理逻辑证明或专家验证的方式,判断该问题的正确解,以此来修补核心数据的错误和缺失,达到对核心数据和搜索过程的自学习自诊断的效果,这样,本发明可以解决背景技术中按路径搜索时,数据和启发问题的错误。

附图说明:

为了易于说明,本发明由下述的具体实施及附图作以详细描述。

图1为本发明在线搜索引擎总体构成及流程图;

图2为本发明的离线数据积累方法流程图。

图中:101-搜索起点、102-初始关键字及其逻辑关系、103-交互逻辑问题判断或启发新关键字、104-数据提取、105-核心数据库、106-追加或修改核心数据、107-专家证实、108-关键字和问题转换、109-有逻辑问题存、110-逻辑推理器、111-逻辑表达式转换器、112-数据标准化、113-常规数据搜索器、114-知识图、知识库、115-其他数据高、201-质量文本、202-常识数据、203-专家知识、204-数据挖掘工具、205-核心数据、206-数据提取、207-逻辑表达式转换器、208-逻辑验证、209-有逻辑问题存在、210-数据修复修补、211-结束。

具体实施方式:

如图1-2所示,本具体实施方式采用以下技术方案:启发式精准知识数据搜索引擎,包括数据提取104、核心数据库105、关键字和问题转换108、逻辑推理器110、逻辑表达式转换器111和数据标准化112。

其中,所述数据提取104是从核心数据105中检索提取和所有初始关键字及其逻辑关系102相关的数据及其关系。

其中,所述核心数据库105的表现形式是任意组织存储形式,所述核心数据库105生成积累方式包括在线积累和离线积累,所述在线积累为在搜索引擎在线服务过程中,通过验证认证的新数据可以被加入核心数据库105,所述离线积累为独立于搜索引擎,不需要在搜索引擎服务过程中,核心数据在后台依旧按照离线积累的过程被积累修正,所述离线积累由依次为高质量文本201、数据挖掘工具204、核心数据205、数据提取206、逻辑表达式转换器207、逻辑验证208、有逻辑问题存在209和结束211组成,所述核心数据205连接有常识数据202和数据修复修补210,所述数据修复修补210与专家知识203连接。

其中,所述关键字和问题转换108的转换过程和逻辑表达式转换器111的转换过程互为逆过程,即从逻辑表达式依照标准对照词库向核心数据105中的标准词语转换,同时,将词语间的逻辑关系从逻辑关系符号向自然语言转换。

其中,所述逻辑推理器110在于发现从逻辑表达式转换器111得到的一系列逻辑表达式本身和表达式间是否有逻辑冲突、缺失和冗余错误。

其中,所述逻辑表达式转换器111是逻辑表达式转换的基本功能是从提取到的链接数据和关系转换到逻辑推理器110和逻辑验证207能接受的逻辑表达式。

其中,所述数据标准化112是能否进行数理逻辑推理和验证的重要部件,所述数据标准化112能够提供词汇数据转换,保证所述逻辑表达式转换器111能够形成逻辑范式进行后续逻辑推理和验证。

启发式精准知识数据搜索引擎的数据自学习自诊断方法,所述方法为:

1).搜索起点101提供初始关键字和关键字之间的逻辑关系给数据提取器104和常规数据搜索器113,所述常规数据搜索器113可以是现有的知识图、知识库114搜索工具,或现有的能挖掘数据和关系的文本挖掘和数据挖掘技术,所述数据提取器104从核心数据库105中提取满足的关键字和关系交与逻辑表达式转换器111,所述常规数据搜索器113从知识图或知识库114以及其他数据115中提取满足的关键字和关系,经过所述数据标准化112部件转化为标准词库中包含的标准文字;

2).然后将上步获得的结果转交所述逻辑表达式转换器111,因为以上得到多组数据和关系,转换器将数据和关系转换为一组逻辑表达式,所述逻辑推理器110对这组逻辑表达式进行逻辑运算,这种运算可以是可满足性问题,即sat或satisfiablity的求解器satsolver,也可以是更复杂的问题用其他数理逻辑证明工具theoremprover,取决于应用场景的不同,所述逻辑推理器110在进行满足性问题求解后,如果结果是不满足,则可以找出逻辑冲突点、最小冲突逻辑子句、数据或逻辑关系冗余、或尚欠缺的逻辑条件,以此来进行后续的数据和关系的修正修补,但在有逻辑问题存109在的判断框中判定有数据和关系修正修补需要后,由所述关键字和问题转换108完成从逻辑表达式向数据和关系的转换,亦即产生新的关键字和问题,经由交互逻辑问题判断103向搜索起点101查问;

3).同时,新的关键字和问题会被发往对应专家证实107,一旦专家证实答案,新的数据和关系会被追加或修改核心数据106,交互逻辑问题判断或启发新关键字103每次询问搜索起点101,都会得到新的关键字和关系,然后重复上述过程并在所述逻辑推理器110中替换被修改过的逻辑变量和逻辑关系,或补充新的逻辑变量和逻辑关系,直到有逻辑问题存109在的判断框中判定全部数据和关系无进一步问题,在搜索结果116中,首先得到的是一组逻辑表达式,在将逻辑符号和表达式通过标准词库翻译后,即为搜索结果116。

本发明的有益效果:本发明的搜索引擎通过在搜索过程中检查数据和搜索过程的逻辑错误,启发搜索起点101提供更多正确的关键词或引导搜索起点101回答逻辑关系问题,逐步逼近一个或几个最终搜索结果,该方法可以解决背景技术中,搜索结果精准性问题和搜索结果范围过大的问题,将搜索的到的链接数据转化为逻辑表达式,通过逻辑表达式求解判断链接数据是否为准确搜索结果,以此来进一步解决背景技术中的精准搜索问题,在逻辑表达式求解过程中,如果求解失败,即当前所得搜索结果存在逻辑问题或逻辑关系缺失,这样本发明的搜索引擎可以知道当前搜索过程和结果中的关键逻辑问题,通过数理逻辑证明或专家验证的方式,判断该问题的正确解,以此来修补核心数据的错误和缺失,达到对核心数据和搜索过程的自学习自诊断的效果,这样,本发明可以解决背景技术中按路径搜索时,数据和启发问题的错误。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内,本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1