一种信息匹配方法和信息匹配装置与流程

文档序号:15999242发布日期:2018-11-20 19:14阅读:153来源:国知局

本发明涉及数据处理技术领域,特别涉及一种信息匹配方法和信息匹配装置。



背景技术:

随着互联网的发展,互联网上的信息可能带来的深刻影响和巨大价值逐渐受到人们重视,商业、经济及其他领域的决策制定将日益依赖于信息和分析。因此,如何从众多条信息中获取有用的信息已经成为亟需解决的问题。

目前,非结构化文本往往需要一定的结构化处理之后才能被利用,产生价值。非结构化方式能够呈现出很多有用信息。以招标为例,其中的信息例如生中标单位、中标时间往往是某些企业或者政府机构感兴趣的。而不同来源的非结构化文本可能会用不同的词汇表达这些信息,如,中标单位可能写成中标企业,企业等方式。

但是,目前从非结构化文本中提取有用信息的方式主要依靠人工提取。而非结构化文本中的信息量往往较大,这会使得从非结构化文本中提取有用信息时耗费过多的时间,从而降低从非结构化文本中提取有用信息的效率。



技术实现要素:

本发明实施例提供了一种信息匹配方法和信息匹配装置,能够提高从非结构化文本中提取有用信息的准确性。

第一方面,本发明实施例提供了一种信息匹配方法,包括:

预先获取至少一个非结构化的原始文本;

分别从每一个所述原始文本中提取出至少一个待匹配信息;

接收用户发送的至少一个目标信息;

针对每一个所述原始文本中的每一个所述待匹配信息,确定每一个所述目标信息中是否存在至少一个相近信息,其中,所述待匹配信息的语义与每一个所述相近信息的语义的相似值,大于等于预设的第一阈值;

如果是,标记所述待匹配信息;

在接收到所述用户根据标记的所述待匹配信息发送的反馈结果为匹配正确时,记录所述待匹配信息与每一个所述目标信息相匹配。

优选地,在所述如果是之后,在所述标记所述待匹配信息之前,进一步包括:

S0:确定每一个所述相近信息的数量是否大于等于预设的匹配数量,如果是,执行S1,否则,执行S2;

S1:执行所述标记所述待匹配信息;

S2:将所述待匹配信息录入预设的数据库中;

S2:在接收到所述用户根据所述数据库中的所述待匹配信息,发送的所述反馈结果为匹配正确时,执行所述记录所述待匹配信息与每一个所述目标信息相匹配。

优选地,所述确定每一个所述目标信息中是否存在至少一个相近信息,其中,所述待匹配信息的语义与每一个所述相近信息的语义的相似值,大于等于预设的阈值,如果是,标记所述待匹配信息,包括:

当不存在至少一个所述相近信息时,

确定每一个所述目标信息中是否存在至少一个验证信息,其中,所述待匹配信息的语义与每一个所述验证信息的语义的相似值,大于等于预设的第二阈值,如果是,执行S2,否则,向所述用户发送无匹配信息。

优选地,在所述标记所述待匹配信息之后,进一步包括:

在接收到所述用户根据标记的所述待匹配信息,发送的反馈结果为匹配错误和第三阈值时,将所述第一阈值更新为所述第三阈值;

记录所述待匹配信息与每一个所述目标信息不匹配。

优选地,所述预先获取至少一个非结构化的原始文本,包括:

预先获取至少一个非结构化文本;

针对每一个所述非结构化文本,去除所述非结构化文本的超文本标记语言标签HTML标签,并确定被去除HTML标签的所述非结构化文本为非结构化的原始文本。

第二方面,本发明实施例提供了一种信息匹配装置,包括:

获取单元,用于预先获取至少一个非结构化的原始文本;接收用户发送的至少一个目标信息;

提取单元,用于分别从每一个所述获取单元获取的所述原始文本中提取出至少一个待匹配信息;

匹配单元,用于针对每一个所述原始文本中的每一个所述提取单元提取的所述待匹配信息,确定所述获取单元获取的每一个所述目标信息中是否存在至少一个相近信息,其中,所述待匹配信息的语义与每一个所述相近信息的语义的相似值,大于等于预设的第一阈值;如果是,标记所述待匹配信息;在接收到所述用户根据标记的所述待匹配信息发送的反馈结果为匹配正确时,记录所述待匹配信息与每一个所述目标信息相匹配。

优选地,所述匹配单元,进一步用于执行:

S0:确定每一个所述相近信息的数量是否大于等于预设的匹配数量,如果是,执行S1,否则,执行S2;

S1:执行所述标记所述待匹配信息;

S2:将所述待匹配信息录入预设的数据库中;

S2:在接收到所述用户根据所述数据库中的所述待匹配信息,发送的所述反馈结果为匹配正确时,执行所述记录所述待匹配信息与每一个所述目标信息相匹配。

优选地,所述匹配单元,用于当不存在至少一个所述相近信息时,确定每一个所述目标信息中是否存在至少一个验证信息,其中,所述待匹配信息的语义与每一个所述验证信息的语义的相似值,大于等于预设的第二阈值,如果是,执行S2,否则,向所述用户发送无匹配信息。

优选地,所述匹配单元,用于在接收到所述用户根据标记的所述待匹配信息,发送的反馈结果为匹配错误和第三阈值时,将所述第一阈值更新为所述第三阈值;记录所述待匹配信息与每一个所述目标信息不匹配。

优选地,所述获取单元,用于预先获取至少一个非结构化文本;针对每一个所述非结构化文本,去除所述非结构化文本的超文本标记语言标签HTML标签,并确定被去除HTML标签的所述非结构化文本为非结构化的原始文本。

在本发明实施例中,在获取到至少一个非结构化的原始文本后,需要从每一个原始文本中的提取出至少一个待匹配信息,以使在接收到用户发送的至少一个目标信息时,即可将各个待匹配信息分别与各个目标信息对比,智能匹配出与各个相近信息语义相近的待匹配信息,而无需人工耗费大量的时间从非结构化文本中提取信息,从而能够提高从非结构化文本中提取信息的效率,并且对标记的待匹配信息进行人工校正,还可以不断地提高从非结构化文本中提取信息的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种信息匹配方法的流程图;

图2是本发明一实施例提供的另一种信息匹配方法的流程图;

图3是本发明一实施例提供的一种信息匹配装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供了一种信息匹配方法,包括:

步骤101:预先获取至少一个非结构化的原始文本;

步骤102:分别从每一个所述原始文本中提取出至少一个待匹配信息;

步骤103:接收用户发送的至少一个目标信息;

步骤104:针对每一个所述原始文本中的每一个所述待匹配信息,确定每一个所述目标信息中是否存在至少一个相近信息,其中,所述待匹配信息的语义与每一个所述相近信息的语义的相似值,大于等于预设的第一阈值;

步骤105:如果是,标记所述待匹配信息;

步骤106:在接收到所述用户根据标记的所述待匹配信息发送的反馈结果为匹配正确时,记录所述待匹配信息与每一个所述目标信息相匹配。

在本发明实施例中,在获取到至少一个非结构化的原始文本后,需要从每一个原始文本中的提取出至少一个待匹配信息,以使在接收到用户发送的至少一个目标信息时,即可将各个待匹配信息分别与各个目标信息对比,智能匹配出与各个相近信息语义相近的待匹配信息,而无需人工耗费大量的时间从非结构化文本中提取信息,从而能够提高从非结构化文本中提取信息的效率,并且对标记的待匹配信息进行人工校正,还可以不断地提高从非结构化文本中提取信息的准确率。

综上可见,在匹配与目标信息对应的待匹配信息后通过人工矫正,并记录人工矫正结果,形成闭环反馈信息匹配,以使再次匹配目标信息时,能够提高从非结构化文本中提取信息的准确率。

在本发明一实施例中,在所述如果是之后,在所述标记所述待匹配信息之前,进一步包括:

S0:确定每一个所述相近信息的数量是否大于等于预设的匹配数量,如果是,执行S1,否则,执行S2;

S1:执行所述标记所述待匹配信息;

S2:将所述待匹配信息录入预设的数据库中;

S2:在接收到所述用户根据所述数据库中的所述待匹配信息,发送的所述反馈结果为匹配正确时,执行所述记录所述待匹配信息与每一个所述目标信息相匹配。

在本发明实施例中,在确定各个目标信息中存在至少一个相近信息与待匹配信息语义相近后,还需要确定相近信息的数量是否不小于预设的匹配数量,以使确定待匹配信息与各个目标信息的语义相接近程度,当且仅当在相近信息的数量不小于匹配数量后,即可标记待匹配信息,暂时确定待匹配信息为所需的信息,以使用户根据标记的待匹配信息进行人工校正,从而在提高从非结构化文本中提取信息的效率的同时,不断地提高信息提取的准确率。

在本发明一实施例中,所述确定每一个所述目标信息中是否存在至少一个相近信息,其中,所述待匹配信息的语义与每一个所述相近信息的语义的相似值,大于等于预设的阈值,如果是,标记所述待匹配信息,包括:

当不存在至少一个所述相近信息时,

确定每一个所述目标信息中是否存在至少一个验证信息,其中,所述待匹配信息的语义与每一个所述验证信息的语义的相似值,大于等于预设的第二阈值,如果是,执行S2,否则,向所述用户发送无匹配信息。

在本发明实施例中,当各个目标信息中不存在至少一个相近信息时,还需要确定各个目标信息中,是否存在至少一个与待验证信息语义的相似值大于等于第二阈值且小于第一阈值的验证信息,以使在存在验证信息后将待匹配信息录入数据库中,以使通过人工确定是否与目标信息相匹配,避免在不存在相近信息后将待匹配信息认定为不匹配信息,而影响从非结构化文本中提取有用信息,并且在确定不存在与目标信息相匹配的信息后,需要向用户发送无匹配信息,以使用户确定匹配失败。

在本发明一实施例中,在所述标记所述待匹配信息之后,进一步包括:

在接收到所述用户根据标记的所述待匹配信息,发送的反馈结果为匹配错误和第三阈值时,将所述第一阈值更新为所述第三阈值,其中,所述第三阈值大于所述第一阈值;

记录所述待匹配信息与每一个所述目标信息不匹配。

在本发明实施例中,在接收到用户发送的反馈结果为匹配错误和第三阈值时,说明待匹配信息与各个目标信息不匹配且第一阈值过低,从而导致匹配了错误的待匹配信息,因此,需要将第一阈值更新为第三阈值,避免过低的阈值出现过多错误的匹配,并记录待匹配信息与各个目标信息不匹配,以使更新后台匹配模式,提高再次匹配目标信息时的准确性。

在本发明一实施例中,所述预先获取至少一个非结构化的原始文本,包括:

预先获取至少一个非结构化文本;

针对每一个所述非结构化文本,去除所述非结构化文本的超文本标记语言标签HTML标签,并确定被去除HTML标签的所述非结构化文本为非结构化的原始文本。

在本发明实施例中,在获取到至少一个非结构化文本后,需要先做预处理,即去除非结构化文本的HTML标签,以使降低提取待匹配信息的影响,从而提高提取待匹配信息的准确性。

为了更加清楚的说明本发明的技术方案及优点,对本发明实施例提供了第一种反馈的信息匹配方法进行详细描述,如图2所示,该方法可以包括以下步骤:

步骤201:预先获取至少一个非结构化文本。

具体地,通过获取各个非结构化文本,可以对各个非结构化文本进行划分提取各个待匹配信息,进而提取出有用信息。

举例来说,获取非结构化文本a和非结构化文本b。

步骤202:针对每一个非结构化文本,去除非结构化文本的标签,确定被去除标签的非结构化文本为非结构化的原始文本。

具体地,在获取到非结构化文本后,需要去除各个非结构化文本的标签,以使降低从非结构化文本中提取待匹配信息时的难度。

举例来说,去除非结构化文本a中定义粗字体、定义文字方向和定义文档类型的HTML标签,获取去除HTML标签后的非结构化的原始文本a;

去除非结构化文本a中定义注释、定义文字方向和定义文档类型的HTML标签,获取去除HTML标签后的非结构化的原始文本b。

步骤203:分别从每一个原始文本中提取出至少一个待匹配信息。

具体地,在对各个非结构化文本进行预处理后,即去除非结构化文本的HTML标签后,即可从原始文本中提取至少一个待匹配信息。

举例来说,在原始文本a中提取待匹配信息为中标企业、投标企业和中标金额;

在原始文本b中提取待匹配信息为购买A产品的客户信息和购买B产品的客户信息。

步骤204:接收用户发送的至少一个目标信息;

具体地,用户如需从非结构化的原始文本中获取有用的信息,即可发送至少一个目标信息,以使在接收到各个目标信息后即可进行智能匹配,查找与各个目标信息相匹配的待匹配信息。

举例来说,接收用户发送的目标信息为中标单位和中标公司。

步骤205:针对每一个原始文本中的每一个待匹配信息,确定每一个目标信息中是否存在至少一个相近信息,其中,待匹配信息的语义与每一个相近信息的语义的相似值,大于等于预设的第一阈值,如果是,执行步骤206,否则,执行步骤208。

具体地,在接收到用户发送的目标信息后,即可对从非结构化的原始文本中提取的待匹配进行智能匹配,以使获取与目标信息相匹配的待匹配信息。

举例来说,预设的第一阈值为语义相似度80%。

将中标企业、投标企业和中标金额分别与中标单位和中标公司的语义进行比对,确定待匹配信息中标企业与目标信息为中标单位和中标公司的语义的相似值大于等于80%,所以可以确定目标信息为中标单位和中标公司,均为相近信息。

步骤206:确定每一个相近信息的数量是否大于等于预设的匹配数量,如果是,执行步骤207,否则,执行步骤209。

具体地,当确定存在至少一个与待匹配信息语义相似度大于等于第一阈值后,还需要确定相近信息的数量是否大于等于预设的第二阈值,以使提高确定待匹配信息是否为用户所需信息的准确性。

举例来说,预设的第二阈值为2;

相近信息的数量为2,等于第二阈值2,所以可以标记待匹配信息中标企业。

步骤207:标记待匹配信息,执行步骤210。

具体地,在确定与待匹配信息语义相近的相似信息数量大于等于预设的第二阈值后,即可标记待匹配信息,以使用户根据标记进行校正。

步骤208:确定每一个目标信息中是否存在至少一个验证信息,其中,待匹配信息的语义与每一个验证信息的语义的相似值,大于等于预设的第二阈值,如果是,执行步骤209,否则,执行步骤211。

具体地,当各个目标信息中不存在至少一个相近信息,需要确定是否各个目标信息中是否存在至少一个语义相似值小于第一阈值且大于等于第二阈值的验证信息,如果是则需要将待匹配信息录入数据库,否则可确定待匹配信息非用户所要匹配的信息。

步骤209:将待匹配信息录入预设的数据库中。

具体地,在确定各个目标信息中存在至少一个与待匹配信息语义相似值小于第一阈值,且大于等于第二阈值的验证信息时,以及当各个目标信息中不存在至少一个相近信息,但存在至少一个验证信息时,需要将待匹配信息录入数据库,以使用户从数据库中对信息进行校正,从而提高获取信息的准确性。

步骤210:接收并记录用户发送的反馈结果。

具体地,将待匹配信息录入数据库,或对待匹配信息标记,可以通过人工进行抽查校正,即把认为和匹配阈值相近的匹配信息进行审核,以使返回审核校正结果,以使完善匹配资料库,提高再次匹配目标信息时的准确性,从而所用到的人力也会越来越少。

步骤211:向用户发送无匹配信息。

具体地,当各个目标信息中即不存在至少一个语义相似值大于等于第一阈值的相近信息,或不存在至少一个语义相似值大于等于第二阈值的验证信息时,则可确定待匹配信息与每一个目标信息均不匹配,即可向用户发送无匹配信息,以使用户确定匹配失败。

如图3所示,本发明实施例提供了一种信息匹配装置,包括:

获取单元301,用于预先获取至少一个非结构化的原始文本;接收用户发送的至少一个目标信息;

提取单元302,用于分别从每一个所述获取单元301获取的所述原始文本中提取出至少一个待匹配信息;

匹配单元303,用于针对每一个所述原始文本中的每一个所述提取单元302提取的所述待匹配信息,确定所述获取单元301获取的每一个所述目标信息中是否存在至少一个相近信息,其中,所述待匹配信息的语义与每一个所述相近信息的语义的相似值,大于等于预设的第一阈值;如果是,标记所述待匹配信息;在接收到所述用户根据标记的所述待匹配信息发送的反馈结果为匹配正确时,记录所述待匹配信息与每一个所述目标信息相匹配。

在本发明实施例中,在获取单元获取到至少一个非结构化的原始文本后,需要提取单元从每一个原始文本中的提取出至少一个待匹配信息,以使获取单元在接收到用户发送的至少一个目标信息时,即可通过匹配单元将各个待匹配信息分别与各个目标信息对比,智能匹配出与各个相近信息语义相近的待匹配信息,而无需人工耗费大量的时间从非结构化文本中提取信息,从而能够提高从非结构化文本中提取信息的效率,并且对标记的待匹配信息进行人工校正,还可以不断地提高从非结构化文本中提取信息的准确率。

在本发明一实施例中,所述匹配单元,进一步用于执行:

S0:确定每一个所述相近信息的数量是否大于等于预设的匹配数量,如果是,执行S1,否则,执行S2;

S1:执行所述标记所述待匹配信息;

S2:将所述待匹配信息录入预设的数据库中;

S2:在接收到所述用户根据所述数据库中的所述待匹配信息,发送的所述反馈结果为匹配正确时,执行所述记录所述待匹配信息与每一个所述目标信息相匹配。

在本发明一实施例中,所述匹配单元,用于当不存在至少一个所述相近信息时,确定每一个所述目标信息中是否存在至少一个验证信息,其中,所述待匹配信息的语义与每一个所述验证信息的语义的相似值,大于等于预设的第二阈值,如果是,执行S2,否则,向所述用户发送无匹配信息。

在本发明一实施例中,所述匹配单元,用于在接收到所述用户根据标记的所述待匹配信息,发送的反馈结果为匹配错误和第三阈值时,将所述第一阈值更新为所述第三阈值;记录所述待匹配信息与每一个所述目标信息不匹配。

在本发明一实施例中,所述获取单元,用于预先获取至少一个非结构化文本;针对每一个所述非结构化文本,去除所述非结构化文本的超文本标记语言标签HTML标签,并确定被去除HTML标签的所述非结构化文本为非结构化的原始文本。

本发明各个实施例至少具有如下有益效果:

1、在本发明一实施例中,在获取到至少一个非结构化的原始文本后,需要从每一个原始文本中的提取出至少一个待匹配信息,以使在接收到用户发送的至少一个目标信息时,即可将各个待匹配信息分别与各个目标信息对比,智能匹配出与各个相近信息语义相近的待匹配信息,而无需人工耗费大量的时间从非结构化文本中提取信息,从而能够提高从非结构化文本中提取信息的效率,并且对标记的待匹配信息进行人工校正,还可以不断地提高从非结构化文本中提取信息的准确率。

2、在本发明一实施例中,在确定各个目标信息中存在至少一个相近信息与待匹配信息语义相近后,还需要确定相近信息的数量是否不小于预设的匹配数量,以使确定待匹配信息与各个目标信息的语义相接近程度,当且仅当在相近信息的数量不小于匹配数量后,即可标记待匹配信息,暂时确定待匹配信息为所需的信息,以使用户根据标记的待匹配信息进行人工校正,从而在提高从非结构化文本中提取信息的效率的同时,不断地提高信息提取的准确率。

3、在本发明一实施例中,当各个目标信息中不存在至少一个相近信息时,还需要确定各个目标信息中,是否存在至少一个与待验证信息语义的相似值大于等于第二阈值且小于第一阈值的验证信息,以使在存在验证信息后将待匹配信息录入数据库中,以使通过人工确定是否与目标信息相匹配,避免在不存在相近信息后将待匹配信息认定为不匹配信息,而影响从非结构化文本中提取有用信息,并且在确定不存在与目标信息相匹配的信息后,需要向用户发送无匹配信息,以使用户确定匹配失败。

4、在本发明一实施例中,在接收到用户发送的反馈结果为匹配错误和第三阈值时,说明待匹配信息与各个目标信息不匹配且第一阈值过低,从而导致匹配了错误的待匹配信息,因此,需要将第一阈值更新为第三阈值,避免过低的阈值出现过多错误的匹配,并记录待匹配信息与各个目标信息不匹配,以使更新后台匹配模式,提高再次匹配目标信息时的准确性。

5、在本发明一实施例中,在获取到至少一个非结构化文本后,需要先做预处理,即去除非结构化文本的HTML标签,以使降低提取待匹配信息的影响,从而提高提取待匹配信息的准确性。

需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1