模糊匹配查询系统及方法与流程

文档序号:17442349发布日期:2019-04-17 04:55阅读:377来源:国知局
本申请涉及信息处理领域,具体而言,涉及一种模糊匹配查询系统及方法。
背景技术
::在目前的复杂工业制造中,涉及到繁多的工艺及硬件设备,这些设备,都会具有相应的技术或规格参数,每个设备的制造厂商不同,型号规则也都不同,但同一种类型的设备,无论是哪个厂家的产品,都应具备一些该类型设备的共性参数,也具有一些独特参数。设备型号命名五花八门,参数规则也不尽一致。但项目相关人员经常需要查询这些设备的性能数据是否满足需求,有没有相关类似设备,或某个过去项目曾经使用的设备参数,这时却面临手上的既有资料不够全面,只有少量参数数据,或者不确定残缺的设备名称或型号等等情况。发明人发现,相关技术中只能通过手上掌握的残缺数据在百度和产品官网上查询,但是由于数据的不够全面和型号参数等手头资料不够规范,往往查询不到准确的信息。而且那些技术参数保密,型号名称别名较多,以及部分老设备更是无法查询到。针对相关技术中查询结果不准确的问题,目前尚未提出有效的解决方案。技术实现要素:本申请的主要目的在于提供一种模糊匹配查询系统及方法,以解决相关技术中查询结果不准确的问题。为了实现上述目的,根据本申请的第一方面,本申请实施例提供了一种模糊匹配查询系统,包括高价值信息检测单元、知识链接单元、开放抽取单元和集成验证单元,其中,所述高价值信息检测单元,用于根据预设匹配模板对目标语句进行检测,得到目标文字并发送给所述知识链接单元;所述知识链接单元,用于根据接收到的所述目标文字和预设链接规则,得到知识库中对应的目标知识并发送给所述开放抽取单元;所述开放抽取单元,用于根据预设抽取规则从所述目标知识中抽取并得到目标信息;所述集成验证单元,用于对所述目标信息进行验证操作,将通过验证操作后的所述目标信息与所述知识库进行集成。结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述知识链接单元包括:冗余处理模块,用于对多个所述知识库中存在的同一所述目标知识的冗余表示执行歧义排除处理。结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述知识链接单元包括:实体链接模块,用于根据实体匹配规则,获取所述目标文字中的实体之间的匹配程度,其中,所述实体匹配规则包括先验可能性、上下文相似度和文本主题一致性中的至少一种。结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述实体链接模块包括:知识统计模块,用于根据所述知识库和预设语料库,统计得到支撑所述实体链接模块所需要的知识总量。结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述实体链接模块还包括:统计决策模块,用于根据预设统计模型和所述知识统计模块的知识总量,执行决策处理。结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述实体链接模块包括:网状结构构建模块,用于根据多个所述目标文字之间的关联性构建网状关系结构。结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述开放抽取单元包括:按需抽取模块,用于根据用户预先设置的具体需求信息从所述目标知识中抽取并得到目标信息。结合第一方面,本申请实施例提供了第一方面的第七种可能的实施方式,其中,所述开放抽取单元包括:监督抽取模块,用于根据监督学习算法从所述目标知识中抽取并得到目标信息。结合第一方面,本申请实施例提供了第一方面的第八种可能的实施方式,其中,所述集成验证单元包括:知识图谱验证模块,用于在设定周期内对所述知识库中的目标知识进行准确性验证。为了实现上述目的,根据本申请的第二方面,本申请实施例提供了一种模糊匹配查询方法,所述方法包括:根据预设匹配模板对目标语句进行检测,得到目标文字;根据所述目标文字和预设链接规则,得到知识库中对应的目标知识;根据预设抽取规则从所述目标知识中抽取并得到目标信息;对所述目标信息进行验证操作,将通过验证操作后的所述目标信息与所述知识库进行集成。在本申请实施例中,采用设置知识链接单元的方式,通过从知识库中抽取对应的目标知识,达到了提高模糊匹配查询准确率的目的,进而解决了相关技术中查询结果不准确的问题。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请所述模糊匹配查询系统的结构示意图;图2是本申请所述知识链接单元20的详细示意图;图3是本申请所述实体链接模块22的详细示意图;图4是本申请所述开放抽取单元30的详细示意图;以及图5是本申请所述模糊匹配查询方法的详细流程图。具体实施方式为了使本
技术领域
:的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。考虑到:相关技术中只能通过手上掌握的残缺数据在百度和产品官网上查询,但是由于数据的不够全面和型号参数等手头资料不够规范,往往查询不到准确的信息。而且那些技术参数保密,型号名称别名较多,以及部分老设备更是无法查询到,因此,本申请提供了一种模糊匹配查询系统及方法。如图1所示,该系统包括高价值信息检测单元10、知识链接单元20、开放抽取单元30和集成验证单元40,其中,所述高价值信息检测单元10,用于根据预设匹配模板对目标语句进行检测,得到目标文字并发送给所述知识链接单元20;所述知识链接单元20,用于根据接收到的所述目标文字和预设链接规则,得到知识库中对应的目标知识并发送给所述开放抽取单元30;所述开放抽取单元30,用于根据预设抽取规则从所述目标知识中抽取并得到目标信息;所述集成验证单元40,用于对所述目标信息进行验证操作,将通过验证操作后的所述目标信息与所述知识库进行集成。优选的,所述高价值信息检测单元10针对目标知识,能够找到容易抽取的数据块,大大降低信息抽取的维度,且以目标知识为核心,不需要覆盖所有的文档,具体的,所述高价值信息的数据结构包括但不限于:wikipediainfobox、webtable和list,所述高价值信息的文本包括但不限于:匹配特定模板的文本和概念定义句。优选的,所述知识链接单元20能够将自然语言文本(即所述目标文字)中的信息与预设知识库中的条目进行链接,以使后续信息抽取的结果能够与现有知识图谱集成,并且可以识别不同数据源中同一知识的冗余表示,及时处理表示的歧义性,提升信息抽取性能。优选的,所述开放抽取单元30针对开放域开放语料下的信息抽取,相关技术中采用的“人工标注语料+机器学习算法”的模式产生了语料构建成本高、跨领域跨文本类别时抽取性能严重下降和需要抽取的信息类别通常未预先指定等问题。优选的,所述集成验证单元40针对同一条知识在从多个不同数据源中抽取时,综合多个数据源中的证据来提升抽取的准确度和可靠性,并且由于知识图谱的构建不是一个静态的过程,需要及时更新动态知识并加入新知识,所述集成验证单元40可以实时判断所述新知识的正确性和所述新知识与已有知识的一致性。从以上的描述中,可以看出,本发明实现了如下技术效果:在本申请实施例中,采用设置知识链接单元的方式,通过从知识库中抽取对应的目标知识,达到了提高模糊匹配查询准确率的目的,进而解决了相关技术中查询结果不准确的问题。根据本发明实施例,作为本申请实施例中的优选,如图2所示,所述知识链接单元20包括:冗余处理模块21,用于对多个所述知识库中存在的同一所述目标知识的冗余表示执行歧义排除处理;实体链接模块22,用于根据实体匹配规则,获取所述目标文字中的实体之间的匹配程度,其中,所述实体匹配规则包括先验可能性、上下文相似度和文本主题一致性中的至少一种。优选的,所述冗余处理模块21用于对多个所述知识库中存在的同一所述目标知识的冗余表示执行歧义排除处理,具体的,识别不同数据源中同一知识的冗余表示,处理表示的歧义性,提升信息抽取性能。优选的,所述实体链接模块22用于根据实体匹配规则,获取所述目标文字中的实体之间的匹配程度,具体的,利用多方位的信息,计算文本提及到的实体之间的匹配程度,所述多方位的信息包括但不限于:先验可能性、上下文相似度和文本主题一致性。优选的,所述知识库提供的构建模块包括但不限于:名字-实体词典、实体关系和类别、实体的文本描述和关键特征以及用来构建权重的参数。根据本发明实施例,作为本申请实施例中的优选,如图3所示,所述实体链接模块22包括:知识统计模块221,用于根据所述知识库和预设语料库,统计得到支撑所述实体链接模块所需要的知识总量;统计决策模块222,用于根据预设统计模型和所述知识统计模块的知识总量,执行决策处理;网状结构构建模块223,用于根据多个所述目标文字之间的关联性构建网状关系结构。优选的,使用统计量来表示实体链接所需的知识,使用知识库和大规模语料库来估计上述统计量,设计统计模型综合多个不同的统计量来进行决策,其中,所述统计模型可以为生成式模型(实体-提及模型acl11、实体-主题模型emnlp12)和深度学习模型(heetal.、acl13、sunetal.)。优选的,所述网状关系结构为图结构,构建算法来计算最大似然链接结构,同时考虑一致性和语义关联性。根据本发明实施例,作为本申请实施例中的优选,如图4所示,所述开放抽取单元30包括:按需抽取模块31,用于根据用户预先设置的具体需求信息从所述目标知识中抽取并得到目标信息;监督抽取模块32,用于根据监督学习算法从所述目标知识中抽取并得到目标信息。优选的,所述按需抽取模块31用于根据用户预先设置的具体需求信息从所述目标知识中抽取并得到目标信息,采用bootstrapping算法,对于给定的自然语言处理任务,选取特定的有指导的训练分类模型的方法。然后需要两个数据集,一般是少量的标注数据集l和为标注的数据集u。然后逐步通过未标注的数据集u来扩大标注的数据集。从而训练处最终的分类器实现具体的自然语言处理任务。优选的,所述监督抽取模块32用于根据监督学习算法从所述目标知识中抽取并得到目标信息,采用distantsupervision算法,将已有的知识库对应到丰富的非结构化数据中(比如工业品数据),从而生成大量的训练数据,从而训练出关系抽取器。根据本发明实施例,作为本申请实施例中的优选,所述集成验证单元40包括:知识图谱验证模块31,用于在设定周期内对所述知识库中的目标知识进行准确性验证。优选的,所述知识图谱验证模块31用于在设定周期内对所述知识库中的目标知识进行准确性验证,针对同一条知识在从多个不同数据源中抽取时,综合多个数据源中的证据来提升抽取的准确度和可靠性,并且由于知识图谱的构建不是一个静态的过程,需要及时更新动态知识并加入新知识,实时判断所述新知识的正确性和所述新知识与已有知识的一致性。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。根据本申请的另一个方面,还提供了一种模糊匹配查询方法,如图5所示,所述方法包括如下的步骤s101至步骤s104:步骤s101,根据预设匹配模板对目标语句进行检测,得到目标文字;优选的,针对目标知识,能够找到容易抽取的数据块,大大降低信息抽取的维度,且以目标知识为核心,不需要覆盖所有的文档,具体的,所述高价值信息的数据结构包括但不限于:wikipediainfobox、webtable和list,所述高价值信息的文本包括但不限于:匹配特定模板的文本和概念定义句。步骤s102,根据所述目标文字和预设链接规则,得到知识库中对应的目标知识;优选的,将自然语言文本(即所述目标文字)中的信息与预设知识库中的条目进行链接,以使后续信息抽取的结果能够与现有知识图谱集成,并且可以识别不同数据源中同一知识的冗余表示,及时处理表示的歧义性,提升信息抽取性能。步骤s103,根据预设抽取规则从所述目标知识中抽取并得到目标信息;优选的,针对开放域开放语料下的信息抽取,相关技术中采用的“人工标注语料+机器学习算法”的模式产生了语料构建成本高、跨领域跨文本类别时抽取性能严重下降和需要抽取的信息类别通常未预先指定等问题。步骤s104,对所述目标信息进行验证操作,将通过验证操作后的所述目标信息与所述知识库进行集成。优选的,针对同一条知识在从多个不同数据源中抽取时,综合多个数据源中的证据来提升抽取的准确度和可靠性,并且由于知识图谱的构建不是一个静态的过程,需要及时更新动态知识并加入新知识,实时判断所述新知识的正确性和所述新知识与已有知识的一致性。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1