名词匹配方法、装置、设备及计算机可读存储介质与流程

文档序号:17735711发布日期:2019-05-22 03:10阅读:215来源:国知局
名词匹配方法、装置、设备及计算机可读存储介质与流程

本发明主要涉及数据处理技术领域,具体地说,涉及一种名词匹配方法、装置、设备及计算机可读存储介质。



背景技术:

医药领域中涉及到众多表征疾病名称、药品名称、诊断手段的标准词,且各标准词的长度不一,存在某些包含众多字的标准词;医疗人员在将该类包含众多字的标准词输入到就诊人员的病历时,通常写简称,或者省略其中的个别字。医疗机构为了对病历进行规范化管理或者医保机构在依据病历进行医保报销时,均需要先为其中简写或省略的名词匹配标准词。

目前在对医药领域中简写或省略的名词匹配标准词时,通常将各标准词逐个和简写或省略的名词进行对比匹配;因简写或省略的名词以多种形式存在,而标准词则以固定形式存在,使得标准词不能准确的表征各简写或省略的名词含义,导致为简写或省略的名词所匹配的标准词不准确。



技术实现要素:

本发明的主要目的是提供一种名词匹配方法、装置、设备及计算机可读存储介质,旨在解决现有技术中为医药领域中简写或省略的名词所匹配的标准词不准确的问题

为实现上述目的,本发明提供一种名词匹配方法,所述名词匹配方法包括以下步骤:

当接收到待匹配名词时,将所述待匹配名词和预设词链模型对比,确定所述预设词链模型中与所述待匹配名词对应的第一分词集合;

读取预设标准词库中的各标准词,并将各所述标准词逐一和所述预设词链模型对比,确定所述预设词链模型中与各所述标准词对应的第二分词集合;

在所述第一分词集合和各所述第二分词集合之间分别生成并集集合,并调用各所述并集集合分别和所述待匹配名词以及各所述标准词对比,生成各第一对比结果和各第二对比结果;

根据各所述第一对比结果和各所述第二对比结果,确定各所述标准词中与所述待匹配名词匹配的目标标准词,完成所述待匹配名词的匹配。

优选地,所述将所述待匹配名词和预设词链模型对比,确定所述预设词链模型中与所述待匹配名词对应的第一分词集合的步骤包括:

统计所述待匹配名词中所具有的汉字个数,并根据所述汉字个数确定所述待匹配名词的层级级数;

读取所述待匹配名词中的目标汉字,并将各所述目标汉字和所述预设词链模型中的各分词集合对比,确定各所述目标汉字在各层级级数上的关联分词集合;

将各所述关联分词集合基于所述层级级数进行合并,生成所述待匹配名词在各层级级数上的第一分词集合。

优选地,所述在所述第一分词集合和各所述第二分词集合之间分别生成并集集合,并调用各所述并集集合分别和所述待匹配名词以及各所述标准词对比,生成各第一对比结果和各第二对比结果的步骤包括:

将所述第一分词集合分别和各所述第二分词集合基于各所述层级级数进行合并操作,生成各个并集集合;

针对每一个并集集合执行如下步骤:

基于所述层级级数读取所述并集集合中的各标准分词,形成在各所述层级级数上的分词序列,逐一将在各所述层级级数上所述分词序列中的各标准分词和所述待匹配名词对比,生成所述待匹配名词在各所述层级级数上的第一对比结果;

逐一将在各所述层级级数上所述分词序列中的各标准分词和所述并集集合对应的标准词对比,生成所述标准词在各所述层级级数上的第二对比结果。

优选地,所述逐一将在各所述层级级数上所述分词序列中的各标准分词和所述待匹配名词对比,生成所述待匹配名词在各所述层级级数上的第一对比结果的步骤包括:

基于所述层级级数将所述分词序列中的各标准分词分别和所述待匹配名词对比,判断所述分词序列中的各标准分词是否存在于所述待匹配名词中;

若所述分词序列中的标准分词存在于所述待匹配名词中,则生成第一分词值,并将所述第一分词值配置到所述分词序列中该标准分词所在的位置;

若所述分词序列中的标准分词不存在于所述待匹配名词中,则生成第二分词值,并将所述第二分词值配置到所述分词序列中该标准分词所在的位置;

在检测到各所述层级级数上的所述分词序列中各标准分词均和所述待匹配名词对比完成后,基于所述层级级数将配置到所述分词序列中各位置的所述第一分词值和所述第二分词值,形成所述待匹配名词在各所述层级级数上的第一对比结果。

优选地,所述根据各所述第一对比结果和各所述第二对比结果,确定各所述标准词中与所述待匹配名词匹配的目标标准词的步骤包括:

从各所述第一对比结果中任意抓取一项第一对比结果作为目标第一对比结果,并根据与生成所述目标第一对比结果对应的并集集合,从各所述第二对比结果中确定对应的目标第二对比结果;

将所述目标第一对比结果和所述目标第二对比结果基于各所述层级级数形成层级结果对,并将各所述层级结果对传输到预设公式中,根据所述预设公式,生成各所述层级结果对之间的相似度得分;

将各所述相似度得分进行对比,确定各所述相似度得分中的得分最大值,并检测各所述第一对比结果是否均生成对应的得分最大值;

若各所述第一对比结果均生成对应的得分最大值,则根据各所述得分最大值,确定各所述标准词中与所述待匹配名词匹配的目标标准词。

优选地,所述根据各所述得分最大值,确定各所述标准词中与所述待匹配名词匹配的目标标准词的步骤包括:

将各所述得分最大值进行对比,确定各所述得分最大值中数值最大的目标得分值,并将所述目标得分值对应的标准词确定为与所述待匹配名词匹配的目标标准词。

优选地,所述当接收到待匹配名词时,将所述待匹配名词和预设词链模型对比的步骤之前包括:

当接收到对名词进行匹配的触发请求时,读取所述触发请求中的标准库识别码,并将所述标准库识别码和预设标识码对比,确定各所述预设标识码中与所述标准库识别码对应的目标预设标识码;

将与所述目标预设标识码对应的标准词库确定为预设标准词库,并将与所述预设标准词库对应的词链模型确定为预设词链模型。

此外,为实现上述目的,本发明还提出一种名词匹配装置,所述名词匹配装置包括:

对比模块,用于当接收到待匹配名词时,将所述待匹配名词和预设词链模型对比,确定所述预设词链模型中与所述待匹配名词对应的第一分词集合;

读取模块,用于读取预设标准词库中的各标准词,并将各所述标准词逐一和所述预设词链模型对比,确定所述预设词链模型中与各所述标准词对应的第二分词集合;

生成模块,用于在所述第一分词集合和各所述第二分词集合之间分别生成并集集合,并调用各所述并集集合分别和所述待匹配名词以及各所述标准词对比,生成各第一对比结果和各第二对比结果;

匹配模块,用于根据各所述第一对比结果和各所述第二对比结果,确定各所述标准词中与所述待匹配名词匹配的目标标准词,完成所述待匹配名词的匹配。

此外,为实现上述目的,本发明还提出一种名词匹配设备,所述名词匹配设备包括:存储器、处理器、通信总线以及存储在所述存储器上的名词匹配程序;

所述通信总线用于实现处理器和存储器之间的连接通信;

所述处理器用于执行所述名词匹配程序,以实现以下步骤:

当接收到待匹配名词时,将所述待匹配名词和预设词链模型对比,确定所述预设词链模型中与所述待匹配名词对应的第一分词集合;

读取预设标准词库中的各标准词,并将各所述标准词逐一和所述预设词链模型对比,确定所述预设词链模型中与各所述标准词对应的第二分词集合;

在所述第一分词集合和各所述第二分词集合之间分别生成并集集合,并调用各所述并集集合分别和所述待匹配名词以及各所述标准词对比,生成各第一对比结果和各第二对比结果;

根据各所述第一对比结果和各所述第二对比结果,确定各所述标准词中与所述待匹配名词匹配的目标标准词,完成所述待匹配名词的匹配。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:

当接收到待匹配名词时,将所述待匹配名词和预设词链模型对比,确定所述预设词链模型中与所述待匹配名词对应的第一分词集合;

读取预设标准词库中的各标准词,并将各所述标准词逐一和所述预设词链模型对比,确定所述预设词链模型中与各所述标准词对应的第二分词集合;

在所述第一分词集合和各所述第二分词集合之间分别生成并集集合,并调用各所述并集集合分别和所述待匹配名词以及各所述标准词对比,生成各第一对比结果和各第二对比结果;

根据各所述第一对比结果和各所述第二对比结果,确定各所述标准词中与所述待匹配名词匹配的目标标准词,完成所述待匹配名词的匹配。

本实施例的名词匹配方法,通过预先将标准词的标准分词形成为预设词链模型,并设置包括多个标准词的预设标准词库;当接收到待匹配名词,需要为待匹配名词匹配标准词时,将待匹配名词和预设词链模型对比,确定与待匹配名词相关的第一分词集合;同时将预设标准词库中的各标准词逐一和该预设词链模型对比,确定与各标准词对应的第二分词集合;再将第一分词集合和各第二分词集合分别进行合并,生成并集集合,并用各并集集合分别和待匹配名词以及对应的标准词对比,生成各个第一对比结果和第二对比结果;其中各第一对比结果表征了待匹配名词与各并集集合之间的匹配情况,而各第二对比结果表征了各标准词与对应的并集集合之间的匹配情况;当标准词与并集集合的匹配情况和待匹配名词与并集集合的匹配情况越接近,则说明标准词与待匹配名词越接近;从而可根据各第一对比结果和第二对比结果,确定与待匹配名词匹配的目标标准词,完成待匹配名词与标准词之间的匹配。因预设词链模型由标准词的各标准分词所形成,表征了标准词与各标准分词之间的相关性;使得依据预设词链模型所形成的并集集合与待匹配名词以及各标准词对比,所生成的第一对比结果和第二对比结果,精准的体现了待匹配名词和各标准词之间的相关含义;从而依据第一对比结果和第二对比结果所确定的目标标准词具有较高的准确性,提高了待匹配名词匹配的准确度。

附图说明

图1是本发明的名词匹配方法第一实施例的流程示意图;

图2是本发明的名词匹配装置第一实施例的功能模块示意图;

图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种名词匹配方法。

请参照图1,图1为本发明名词匹配方法第一实施例的流程示意图。在本实施例中,所述名词匹配方法包括:

步骤s10,当接收到待匹配名词时,将所述待匹配名词和预设词链模型对比,确定所述预设词链模型中与所述待匹配名词对应的第一分词集合;

本发明的名词匹配方法应用于服务器,适用于通过服务器对医药领域中简写或省略的名词进行标准词的匹配;在医药领域中,各种疾病名称和药品名称均设置有标准词,而各医疗人员在对就诊人员进行确诊时,往往采用简写或省略的名词;需要在简写或省略名词和标准词之间进行匹配,如为省略名词“心梗”匹配标准词“心肌梗塞”。为了实现对各简写或省略名词的匹配,本实施例预先设置有预设词链模型,该预设词链模型为与标准词中各汉字相关的标准分词所形成的集合;其中标准分词为对标准词进行划分而生成的词,如将标准词“高血压性心脏病心力衰竭”拆分为“高血压性”“心脏病”“心力衰竭”的标准分词。各标准词划分有多个不同标准分词,将具有标准词中不同汉字的标准分词形成集合,表征标准词在不同层级上的词链模型;层级表征标准词中汉字的数量,一个汉字对应层级一,两个汉字对应层级二,依次进行类推;如对于标准词“心脏病”,可将具有标准词中汉字“心”的两个汉字标准分词“心脏”、“心病”形成标准词在层级二上的词链模型。针对各个标准词均形成在不同层级上的词链模型,将此各标准词在各层级上的词链模型作为预设词链模型。

服务器与信息录入装置连接,当需要对简写或省略名词进行匹配时,通过该信息录入装置进行录入操作,并将录入的简写或省略名词作为需要匹配的待匹配名词。当服务器接收到该待匹配名词时,对预设词链模型进行调用,并将该待匹配名词和预设词链模型对比;因预设词链模型以分词集合的形式存在,从而经对比操作可确定预设词链模型中与待匹配名词对应的分词集合;其中对应的分词集合为包括待匹配名词中各个数量汉字的集合,且依据分词集合中所包括汉字数量的不同,将该分词集合作为不同层级上的第一分词集合。具体地,将待匹配名词和预设词链模型对比,确定预设词链模型中与待匹配名词对应的第一分词集合的步骤包括:

步骤s11,统计所述待匹配名词中所具有的汉字个数,并根据所述汉字个数确定所述待匹配名词的层级级数;

可理解地,有匹配需求的不同名词由不同的汉字组成,且具有不同的汉字数量,使得所形成第一分词集合的层级级数不相同;对待匹配名词中所具有的汉字个数进行统计,并将统计的汉字个数确定为待匹配名词所具有层级的最大级数。如统计到待匹配名词的汉字个数为四个,则该待匹配名词的最大层级级数为四,待匹配名词在层级二上对应有第一分词集合、在层级三上对应有第一分词集合、在层级四上也对应有第一分词集合。实现根据汉字个数确定待匹配名词的层级级数,进而将待匹配名词和预设词链模型对比确定各层级级数上的第一分词集合。

步骤s12,读取所述待匹配名词中的目标汉字,并将各所述目标汉字和所述预设词链模型中的各分词集合对比,确定各所述目标汉字在各层级级数上的关联分词集合;

因待匹配名词中不同的汉字在预设词链模型中对应有不同的标准分词,为了确定待匹配名词在各层级级数上的第一分词集合,读取待匹配名词中的汉字作为目标汉字,并将读取的各目标汉字和预设词链模型中的各分词集合对比,确定在各层级级数上与各目标汉字对应的分词集合。如对于待匹配名词“高血压”,目标汉字“高”、“血”、“压”,将该目标汉字分别和预设词链模型中的各分词集合对比,确定“高”在层级二和三上的分词集合分别为a1和a2,“血”在层级二和三上的分词集合分别为b1和b2,“压”在层级二和三上的分词集合分别为c1和c2。因各目标汉字共同组成了待匹配名词,各目标汉字之间具有关联性,而将各目标汉字在各层级级数上的分词集合作为关联分词集合。

步骤s13,将各所述关联分词集合基于所述层级级数进行合并,生成所述待匹配名词在各层级级数上的第一分词集合。

进一步地,将各关联分词集合进行合并,且合并依据层级级数进行,将各目标汉字在相同层级级数上的关联分词集合进行合并。合并时检测各关联分词集合中是否存在重复标准分词,即同样的标准分词存在于不同的关联分词集合中,若存在重复标准分词,则将重复的标准分词从各关联分词集合中删除,生成待匹配名词在各层级级数上的第一分词集合。如对于上述待匹配名词“高血压”,将在层级二上的关联分词集合a1、b1和c1进行合并,同时将在层级三上的关联分词集合a2、b3和c2进行合并,生成“高血压”在层级二和三上的第一分词集合。因合并操作和数学领域中的并集运算原理一致,从而可用并集运算来表征各层级级数上的第一分词集合,如层级二上的第一分词集合d1=a1∪b1∪c1,层级三上的第一分词集合d2=a2∪b2∪c2。

步骤s20,读取预设标准词库中的各标准词,并将各所述标准词逐一和所述预设词链模型对比,确定所述预设词链模型中与各所述标准词对应的第二分词集合;

更进一步地,本实施例还预先设置有预设标准词库,该预设标准词库为医药领域中各标准词的集合;即预先将各标准词添加到预设标准词库,形成标准词集合。为了从预设标准词库的各标准词中为待匹配名词匹配标准词,需要针对各标准词生成第二分词集合;具体地,读取预设标准词库中的各标准词,并将各标准词逐一和预设字链模型对比,确定预设词链模型中与标准词对应的在各层级上的第二分词集合;在一个标准词对比完成生成各层级上的分词集合后,继续读取下一个标准词进行对比,直到预设标准词库中所有标准词均进行对比,生成各个标准词在各个层级上的第二分词集合。其中第二分词集合和第一分词集合的生成过程相似;读取标准词中的标准汉字,并用该标准汉字和预设字链模型中的分词集合对比,确定各标准汉字在各层级级数上的分词集合,进而将各分词集合基于层级级数进行合并,生成标准词在各层级级数上的第二分词集合;具体的生成第二分词集合的过程和生成第一分词集合的过程类似,在此不做赘述。

步骤s30,在所述第一分词集合和各所述第二分词集合之间分别生成并集集合,并调用各所述并集集合分别和所述待匹配名词以及各所述标准词对比,生成各第一对比结果和各第二对比结果;

在生成待匹配名词的第一分词集合和各个标准词的第二分词集合后,将第一分词集合和各个第二分词集合分别作并集运算,并将进行运算的第一分词集合和第二分词集合中的重复标准分词删除,生成并集集合。并集集合的数量和第二分词集合的数量一致,即与预设标准词库中所具有标准词的数量一致。用各并集集合和待匹配名词对比,生成各个第一对比结果;同时用各并集集合和各标准词对比,生成各个第二对比结果。其中因并集集合和标准词均涉及到多个,且各并集集合均对应由一个标准词生成,两者之间的数量一致;从而在将并集集合和标准词对比,生成第二对比结果时,在具有对应关系的标准词和并集集合之间进行对比,即将生成并集集合的标准词和该并集集合对比,生成第二对比结果。如待匹配名词w1所形成的第一分词集合为w1,标准词p1、p2和p3对应所生成的第二分词集合为p1、p2和p3;w1和p1之间所形成的并集集合为k1,w1和p2之间所形成的并集集合为k2,w1和p3之间所形成的并集集合为k3。将w1分别和k1、k2、k3对比生成各个第一对比结果,并将p1和k1对比、p2和k2对比、p3和k3对比生成各个第二对比结果。具体地,步骤s30包括:

步骤s31,将所述第一分词集合分别和各所述第二分词集合基于各所述层级级数进行合并操作,生成各个并集集合;

因第一分词集合和第二分词集合分别涉及到多个层级,在将两者进行合并时,需要基于层级级数进行,即将相同层级上的第一分词集合和第二分词集合进行合并,生成各个并集集合,且各个并集集合对应多个层级。如对于上述第一分词集合w1和第二分词集合p1,在形成并集集合k1的过程中,将在层级二上的第一分词集合和第二分词集合进行合并,生成层级二上的并集集合,将在层级三上的第一分词集合和第二分词集合进行合并,生成层级三上的并集集合,将此层级二上的并集集合和层级三上的并集集合均作为并集集合k1。在生成各个并集集合后,需要依据该并集集合生成第一对比结果和第二对比结果;具体地,针对每一个并集集合均执行如下步骤:

步骤s32,基于所述层级级数读取所述并集集合中的各标准分词,形成在各所述层级级数上的分词序列,逐一将在各所述层级级数上所述分词序列中的各标准分词和所述待匹配名词对比,生成所述待匹配名词在各所述层级级数上的第一对比结果;

进一步地,因并集集合是各标准分词的集合,且不同层级级数所对应的并集集合不同;在将待匹配名词和并集集合进行对比,生成第一对比结果的过程中,需要依据层级级数,将待匹配名词和各层级上并集集合中的标准分词进行对比。具体地,按照层级级数,对并集集合中的各标准分词进行读取,并对读取的各标准分词按照任意顺序进行排列,形成分词序列;也可直接按照读取各标准分词的顺序形成分词序列;在对待匹配名词匹配过程中,位于该分词序列中各标准分词的位置顺序不能变动,以使待匹配名词、各标准词均和具有同样位置顺序的各标准分词进行对比匹配。在各个层级级数上的并集集合均形成分词序列后,逐一将各层级级数上分词序列中的各标准分词和待匹配名词对比,生成待匹配名词的第一对比结果,直到待匹配名词在各层级级数上均生成第一对比结果。具体地,逐一将在各层级级数上分词序列中的各标准分词和待匹配名词对比,生成待匹配名词在各层级级数上的第一对比结果的步骤包括:

步骤s321,基于所述层级级数将所述分词序列中的各标准分词分别和所述待匹配名词对比,判断所述分词序列中的各标准分词是否存在于所述待匹配名词中;

按照层级级数,将分词序列中的各标准分词分别和待匹配名词对比;如将与层级二对应分词序列中的各标准分词和待匹配名词对比,在与层级二对应分词序列中的各标准分词均待匹配名词对比完成后;则将与层级三对应分词序列中的各标准分词和待匹配名词对比,直到与所有层级对应的分词序列中的各标准分词均与待匹配名词对比完成;通过该对比操作,判断分词序列中的各个标准分词是否存在于待匹配名词中。

步骤s322,若所述分词序列中的标准分词存在于所述待匹配名词中,则生成第一分词值,并将所述第一分词值配置到所述分词序列中该标准分词所在的位置;

步骤s323,若所述分词序列中的标准分词不存在于所述待匹配名词中,则生成第二分词值,并将所述第二分词值配置到所述分词序列中该标准分词所在的位置;

因分词序列中涉及到多个标准分词,各标准分词不全部存在于待匹配名词中,针对标准分词存在和不存在于待匹配名词的两种情况,生成不同的分词值。具体地,当经对比判读出分词序列中的标准分词存在于待匹配名词中,则生成第一分词值;而当判断出分词序列中的标准分词不存在于待匹配名词中,则生成第二分词值。按照各第一分词值和第二分词值各自所来源标准分词在分词序列中的位置,将各第一分词值和第二分词值分别配置到分词序列中。其中第一分词值和第二分词值均可用预先设定的预设值表征,如用预设值1表征第一分词值,而用预设值0表征第二分词;当判断出标准分词存在于待匹配名词中,则将预设值1确定为第一分词值,并对该预设值进行调用,配置到标准分词所在分词序列的位置;当判断出标准分词不存在于待匹配名词中,则将预设值0确定为第二分词值,并对该预设值进行调用,配置到标准分词所在分词序列的位置。如在层级级数二上的分词序列为[a1、a2、a3、a4],则将待匹配名词分别与a1、a2、a3、a4对比,判断出a1存在于待匹配名词中,a2不存在于待匹配名词中;则分别生成第一分词值1和第二分词值0,并将该1和0分别配置到a1和a2所在分词序列中的位置。

此外对于第一分词值也可通过预设公式生成,预先设定预设公式:

其中,p表示所述第一分词值、w表示所述标准分词、len表示长度计算函数、abs表示绝对值函数、n表示幂次方。

第一分词值的生成与标准分词的长度相关,当经判断出分词序列中的标准分词存在于待匹配名词中时,则进一步将标准分词传输到预设公式中,替换其中的w,经预设公式计算所得到的p即为第一分词值。其中预设公式中幂次方n为经多次测试而确定的预设测试值。

将针对标准分词所生成的第一分词值或第二分词值配置到标准分词所在分词序列中的位置,并读取分词序列中下一标准分词判断其是否存在于待匹配名词中,生成下一第一分词值或第二分词值,直到分词序列中所有标准分词均生成第一分词值或第二分词值。

步骤s324,在检测到各所述层级级数上的所述分词序列中各标准分词均和所述待匹配名词对比完成后,基于所述层级级数将配置到所述分词序列中各位置的所述第一分词值和所述第二分词值,形成所述待匹配名词在各所述层级级数上的第一对比结果。

进一步地,在检测到待匹配名词和各层级级数上分词序列中的各标准分词均进行对比,生成各层级级数上的第一分词值或第二分词值,并将在相同层级级数上所生成的第一分词值和第二分词值均配置到分词序列各标准分词所在位置之后,由配置的第一分词值和第二分词值所形成的数值序列即为各层级级数上的第一对比结果。如对于上述层级级数二上的分词序列[a1、a2、a3、a4],若判断出a3和a4均存在于待匹配名词中,则将预设值1配置到a3和a4所在分词序列中的位置,使得所形成的数值序列为[1、0、1、1],此数值序列即为待匹配名词和各标准分词进行对比所生成的在层级二上的第一对比结果。当各个层级级数上的分词序列和待匹配名词均对比完成,在各个层级级数上所生成的第一对比结果,即形成待匹配名词在各层级级数上的第一对比结果;进而读取下一个并集集合,并针对该下一个并集集合生成在各层级上的第一对比结果。

步骤s33,逐一将在各所述层级级数上所述分词序列中的各标准分词和所述并集集合对应的标准词对比,生成所述标准词在各所述层级级数上的第二对比结果。

同样地,因并集集合是各标准分词的集合,且不同层级级数所对应的并集集合不同;用各并集集合和各标准词对比,生成各个第二对比结果的过程中,仍然需要依据层级级数进行。逐一将各层级级数上分词序列中的各标准分词和标准词对比,其中对比的标准词和并集集合之间具有对应关系;并集集合由第一分词集合和第二分词集合合并生成,而第二分词集合由标准词和预设词链模型对比生成;将该由标准词生成第二分词集合,并由第二分词集合生成并集集合之间的标准词和并集集合形成对应关系。在针对并集集合形成分词序列,并将分词序列中的标准分词和标准词对比的过程中,先由对应关系确定与并集集合对应的标准词,再按照各层级级数,将分词序列中的标准分词和该与并集集合对应的标准词对比,生成标准词在各层级级数上的第二对比结果。其中第二对比结果和第一对比结果的生成过程相似,读取在对待匹配名词对比过程中所生成的分词序列,用该分词序列中的各标准分词分别和标准词对比,判断各标准分词是否存在于标准词中,并基于判断结果生成第二对比结果;具体的生成第二对比结果的过程和生成第一对比结果的过程类似,在此不做赘述。

步骤s40,根据各所述第一对比结果和各所述第二对比结果,确定各所述标准词中与所述待匹配名词匹配的目标标准词,完成所述待匹配名词的匹配。

更进一步地,在生成各第一对比结果和各第二对比结果后,第一对比结果表征了待匹配名词与并集集合中各标准分词之间的匹配情况,而各第二对比结果表征了各个标准词与对应的并集集合中各标准分词之间的匹配情况;当标准词与标准分词的匹配情况和待匹配名词与标准分词的匹配情况越接近,则说明标准词与待匹配名词越接近。根据第一对比结果与各第二对比结果之间的匹配情况,确定与待匹配名词最为接近的标准词;因第一对比结果和各第二对比结果均为数值序列,当两者之间的数值序列越接近,则说明第一对比结果和第二对比结果越匹配,将匹配程度最高的第二对比结果所对应的标准词确定为与待匹配名词最为接近的目标标准词,完成为待匹配名词匹配标准词。具体地,根据各第一对比结果和各第二对比结果,确定各标准词中与待匹配名词匹配的目标标准词的步骤包括:

步骤s41,从各所述第一对比结果中任意抓取一项第一对比结果作为目标第一对比结果,并根据与生成所述目标第一对比结果对应的并集集合,从各所述第二对比结果中确定对应的目标第二对比结果;

可理解地,因第二对比结果由标准词和依据该标准词所生成的并集集合对比生成,不同的标准词和所进行对比的并集集合不相同;从而在确定第一对比结果和第二对比结果之间的匹配情况时,需要在由相同并集集合所生成的第一对比结果和第二对比结果之间进行对比,以确保对第一对比结果和第二对比结果之间匹配情况判定的准确性。具体地,在对比时,从待匹配名词和各并集集合所形成的第一对比结果中任意抓取一项第一对比结果,并将该第一对比结果作为目标第一对比结果;生成该目标第一对比结果的并集集合对应有标准词,该对应的标准词和并集集合之间对比生成第二对比结果,将该第二对比结果作为目标第二对比结果;目标第一对比结果和目标第二对比结果均由相同的并集集合生成,对应相同的标准词,表征待匹配名词和该标准之间的匹配情况。

步骤s42,将所述目标第一对比结果和所述目标第二对比结果基于各所述层级级数形成层级结果对,并将各所述层级结果对传输到预设公式中,根据所述预设公式,生成各所述层级结果对之间的相似度得分;

进一步地,目标第一对比结果和目标第二对比结果均涉及到多个层级级数,从而基于层级级数将各目标第一对比结果和目标第二对比结果形成层级结果对,即将相同层级级数上的目标第一对比结果和目标第二对比结果形成层级结果对。如各目标第一对比结果中层级三上的目标第一对比结果为aa1,层级四上的目标第一对比结果为bb1;各目标第二对比结果中层级三上的目标第二对比结果为aa2,层级四上的目标第二对比结果为bb2;则将aa1和aa2形成层级三上的层级结果对,而将bb1和bb2形成层级四上的层级结果对。此后,将层级结果对传输到预设公式中,由预设公式的计算,生成各层级结果对之间的相似度得分。具体地,预设公式为:

其中,yi表示各层级级数上的相似度得分、ki表示各目标第二对比结果、xi表示各目标第一对比结果、len表示长度计算函数,i表示层级数,取值为1、2、3···。

因层级结果对由目标第一对比结果和目标第二对比结果形成,将层级结果对传输到预设公式其实质为以层级结果对的组合形式,将层级结果对中的目标第一对比结果和目标第二对比结果传输到预设公式中。将表征各层级级数上目标第一对比结果的数值序列和目标第二对比结果的各数值序列,分别传输到预设的第一预设公式中,替换其中的xi和ki,计算所得到的结果yi即为各层级级数上目标第一对比结果和目标第二对比结果之间的相似度得分。i的取值为1、2、3等正整数,其不同取值表征不同的层级级数,所得到的相似度得分也与各个层级级数对应;当目标第一对比结果和目标第二对比结果越接近,则所得到的层级结果对之间的相似度得分越大。

步骤s43,将各所述相似度得分进行对比,确定各所述相似度得分中的得分最大值,并检测各所述第一对比结果是否均生成对应的得分最大值;

更进一步地,所得到的相似度得分数量和层级级数相同,将各个相似度得分进行对比,确定各相似度得分中的最大得分值;相似度得分依据层级级数生成,最大值得分表征了待匹配名词与标准词最接近的层级级数。在针对抓取的第一对比结果确定相似度得分中的最大值之后,继续抓取下一项第一对比结果作为目标第一对比结果,并确定与该目标第一对比结果对应的目标第二对比结果,将两者形成各层级级数上的层级结果对,进而生成在各个层级上的相似度得分,确定得分最大值。针对各第一对比结果中经过抓取并生成得分最大值的第一对比结果,配置完成标识符,并检测所生成的各个第一对比结果是否均携带有完成标识符,以判断各第一对比结果是否均生成对应的得分最大值。

步骤s44,若各所述第一对比结果均生成对应的得分最大值,则根据各所述得分最大值,确定各所述标准词中与所述待匹配名词匹配的目标标准词。

当检测到所生成的各个第一对比结果均携带有完成标识符时,则说明各第一对比结果均生成对应的得分最大值,各个得分最大值表征了待匹配名词与标准词之间的匹配情况;得分最大值的数值越大,则待匹配名词与标准词之间越匹配。从而根据各个得分最大值之间数值的大小关系,确定各标准词中与待匹配名词最为匹配的目标标准词。具体地,根据各得分最大值,确定各标准词中与待匹配名词匹配的目标标准词的步骤包括:

将各所述得分最大值进行对比,确定各所述得分最大值中数值最大的目标得分值,并将所述目标得分值对应的标准词确定为与所述待匹配名词匹配的目标标准词。

将各个得分最大值的数值进行对比,确定其中数值最大的目标得分值;因各个得分最大值来源于各相似度得分,各相似度得分与第二对比结果相关,而第二对比结果又由标准词生成,从而目标得分值必然存在对应的标准词。该对应的标准词即为与待匹配名词最为匹配的标准词,而将其确定为与待匹配名词匹配的目标标准词,完成待匹配名词的匹配操作。

本实施例的名词匹配方法,通过预先将标准词的标准分词形成为预设词链模型,并设置包括多个标准词的预设标准词库;当接收到待匹配名词,需要为待匹配名词匹配标准词时,将待匹配名词和预设词链模型对比,确定与待匹配名词相关的第一分词集合;同时将预设标准词库中的各标准词逐一和该预设词链模型对比,确定与各标准词对应的第二分词集合;再将第一分词集合和各第二分词集合分别进行合并,生成并集集合,并用各并集集合分别和待匹配名词以及对应的标准词对比,生成各个第一对比结果和第二对比结果;其中各第一对比结果表征了待匹配名词与各并集集合之间的匹配情况,而各第二对比结果表征了各标准词与对应的并集集合之间的匹配情况;当标准词与并集集合的匹配情况和待匹配名词与并集集合的匹配情况越接近,则说明标准词与待匹配名词越接近;从而可根据各第一对比结果和第二对比结果,确定与待匹配名词匹配的目标标准词,完成待匹配名词与标准词之间的匹配。因预设词链模型由标准词的各标准分词所形成,表征了标准词与各标准分词之间的相关性;使得依据预设词链模型所形成的并集集合与待匹配名词以及各标准词对比,所生成的第一对比结果和第二对比结果,精准的体现了待匹配名词和各标准词之间的相关含义;从而依据第一对比结果和第二对比结果所确定的目标标准词具有较高的准确性,提高了待匹配名词匹配的准确度。

进一步地,在本发明名词匹配方法另一实施例中,所述当接收到待匹配名词时,将所述待匹配名词和预设词链模型对比的步骤之前包括:

步骤s50,当接收到对名词进行匹配的触发请求时,读取所述触发请求中的标准库识别码,并将所述标准库识别码和预设标识码对比,确定各所述预设标识码中与所述标准库识别码对应的目标预设标识码;

可理解地,在医学领域中涉及到多种类型的标准词,如与诊断相关的标准词、与手术操作相关的标准词以及与药品相关的标准词等。不同类型的标准词对应于不同的标准词库,其中对应诊断相关的标准词库为icd10诊断编码库,对应手术操作相关的标准词库为icd9-cm手术操作编码库,对应药品相关的标准词库为药品atc编码库等,也可以依据需求将不同类型的标准词形成标准词库。将此类在医学领域中所使用的标准词库均作为预设标准词库,且不同的标准词库用不同的预设标识码进行标识区分。考虑到不同标准词库中所具有的标准词不同,为了便于区分对比,针对各标准词库中的标准词均预先形成词链模型,使得一个标准词库对应一个词链模型。在接收到需要匹配的待匹配名词,而需要调用预设标准词库及对应的预设词链模型进行匹配前,需要先确定预设标准词库的具体类型。具体地,通过与服务器连接的信息录入装置发送对名词进行匹配的触发请求,并将用于匹配的预设编码库的标准库识别码添加到该触发请求中;服务器在接收到该对名词进行匹配的触发请求后,读取其中的标准库识别码,并将读取的标准库识别码和预先设置的各预设标识码进行对比,确定各预设标识码中与该标准库识别码一致的目标预设识别码。

步骤s60,将与所述目标预设标识码对应的标准词库确定为预设标准词库,并将与所述预设标准词库对应的词链模型确定为预设词链模型。

因预设标识码和标准词库之间具有对应关系,从而根据所确定的目标预设标识码可确定对应的标准词库,该对应的标准库即为对待匹配名词进行匹配所需要使用的预设标准词库。同时标准词库和词链模型之间具有对应关系,而将与所确定的预设标准词库对应的词链模型确定为预设词链模型;以在接收到待匹配名词,而具有对待匹配名词的匹配需求时,对该预设标准词库以及预设词链模型进行调用,用预设词链模型分别和待匹配名词以及预设标准词库中的标准词进行对比匹配,确定与待匹配名词匹配程度最高的标准词。

此外,请参照图2,本发明提供一种名词匹配装置,在本发明名词匹配装置第一实施例中,所述名词匹配装置包括:

对比模块10,用于当接收到待匹配名词时,将所述待匹配名词和预设词链模型对比,确定所述预设词链模型中与所述待匹配名词对应的第一分词集合;

读取模块20,用于读取预设标准词库中的各标准词,并将各所述标准词逐一和所述预设词链模型对比,确定所述预设词链模型中与各所述标准词对应的第二分词集合;

生成模块30,用于在所述第一分词集合和各所述第二分词集合之间分别生成并集集合,并调用各所述并集集合分别和所述待匹配名词以及各所述标准词对比,生成各第一对比结果和各第二对比结果;

匹配模块40,用于根据各所述第一对比结果和各所述第二对比结果,确定各所述标准词中与所述待匹配名词匹配的目标标准词,完成所述待匹配名词的匹配。

本实施例的名词匹配装置,通过预先将标准词的标准分词形成为预设词链模型,并设置包括多个标准词的预设标准词库;当接收到待匹配名词,需要为待匹配名词匹配标准词时,对比模块10将待匹配名词和预设词链模型对比,确定与待匹配名词相关的第一分词集合;同时读取模块20将预设标准词库中的各标准词逐一和该预设词链模型对比,确定与各标准词对应的第二分词集合;生成模块30再将第一分词集合和各第二分词集合分别进行合并,生成并集集合,并用各并集集合分别和待匹配名词以及对应的标准词对比,生成各个第一对比结果和第二对比结果;其中各第一对比结果表征了待匹配名词与各并集集合之间的匹配情况,而各第二对比结果表征了各标准词与对应的并集集合之间的匹配情况;当标准词与并集集合的匹配情况和待匹配名词与并集集合的匹配情况越接近,则说明标准词与待匹配名词越接近;从而匹配模块40可根据各第一对比结果和第二对比结果,确定与待匹配名词匹配的目标标准词,完成待匹配名词与标准词之间的匹配。因预设词链模型由标准词的各标准分词所形成,表征了标准词与各标准分词之间的相关性;使得依据预设词链模型所形成的并集集合与待匹配名词以及各标准词对比,所生成的第一对比结果和第二对比结果,精准的体现了待匹配名词和各标准词之间的相关含义;从而依据第一对比结果和第二对比结果所确定的目标标准词具有较高的准确性,提高了待匹配名词匹配的准确度。

进一步地,在本发明名词匹配装置另一实施例中,所述对比模块包括:

统计单元,用于统计所述待匹配名词中所具有的汉字个数,并根据所述汉字个数确定所述待匹配名词的层级级数;

读取单元,用于读取所述待匹配名词中的目标汉字,并将各所述目标汉字和所述预设词链模型中的各分词集合对比,确定各所述目标汉字在各层级级数上的关联分词集合;

合并单元,用于将各所述关联分词集合基于所述层级级数进行合并,生成所述待匹配名词在各层级级数上的第一分词集合。

进一步地,在本发明名词匹配装置另一实施例中,所述生成模块包括:

生成单元,用于将所述第一分词集合分别和各所述第二分词集合基于各所述层级级数进行合并操作,生成各个并集集合;

针对每一个并集集合执行如下步骤:

形成单元,用于基于所述层级级数读取所述并集集合中的各标准分词,形成在各所述层级级数上的分词序列,逐一将在各所述层级级数上所述分词序列中的各标准分词和所述待匹配名词对比,生成所述待匹配名词在各所述层级级数上的第一对比结果;

对比单元,用于逐一将在各所述层级级数上所述分词序列中的各标准分词和所述并集集合对应的标准词对比,生成所述标准词在各所述层级级数上的第二对比结果。

进一步地,在本发明名词匹配装置另一实施例中,所述形成单元还用于:

基于所述层级级数将所述分词序列中的各标准分词分别和所述待匹配名词对比,判断所述分词序列中的各标准分词是否存在于所述待匹配名词中;

若所述分词序列中的标准分词存在于所述待匹配名词中,则生成第一分词值,并将所述第一分词值配置到所述分词序列中该标准分词所在的位置;

若所述分词序列中的标准分词不存在于所述待匹配名词中,则生成第二分词值,并将所述第二分词值配置到所述分词序列中该标准分词所在的位置;

在检测到各所述层级级数上的所述分词序列中各标准分词均和所述待匹配名词对比完成后,基于所述层级级数将配置到所述分词序列中各位置的所述第一分词值和所述第二分词值,形成所述待匹配名词在各所述层级级数上的第一对比结果。

进一步地,在本发明名词匹配装置另一实施例中,所述匹配模块还包括:

抓取单元,用于从各所述第一对比结果中任意抓取一项第一对比结果作为目标第一对比结果,并根据与生成所述目标第一对比结果对应的并集集合,从各所述第二对比结果中确定对应的目标第二对比结果;

传输单元,用于将所述目标第一对比结果和所述目标第二对比结果基于各所述层级级数形成层级结果对,并将各所述层级结果对传输到预设公式中,根据所述预设公式,生成各所述层级结果对之间的相似度得分;

检测单元,用于将各所述相似度得分进行对比,确定各所述相似度得分中的得分最大值,并检测各所述第一对比结果是否均生成对应的得分最大值;

确定单元,用于若各所述第一对比结果均生成对应的得分最大值,则根据各所述得分最大值,确定各所述标准词中与所述待匹配名词匹配的目标标准词。

进一步地,在本发明名词匹配装置另一实施例中,所述确定单元还用于:

将各所述得分最大值进行对比,确定各所述得分最大值中数值最大的目标得分值,并将所述目标得分值对应的标准词确定为与所述待匹配名词匹配的目标标准词。

进一步地,在本发明名词匹配装置另一实施例中,所述名词匹配装置还包括:

接收模块,用于当接收到对名词进行匹配的触发请求时,读取所述触发请求中的标准库识别码,并将所述标准库识别码和预设标识码对比,确定各所述预设标识码中与所述标准库识别码对应的目标预设标识码;

确定模块,用于将与所述目标预设标识码对应的标准词库确定为预设标准词库,并将与所述预设标准词库对应的词链模型确定为预设词链模型。

其中,上述名词匹配装置的各虚拟功能模块存储于图3所示名词匹配设备的存储器1005中,处理器1001执行名词匹配程序时,实现图2所示实施例中各个模块的功能。

参照图3,图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。

本发明实施例名词匹配设备可以是pc(personalcomputer,个人计算机),也可以是智能手机、平板电脑、电子书阅读器、便携计算机等终端设备。

如图3所示,该名词匹配设备可以包括:处理器1001,例如cpu(centralprocessingunit,中央处理器),存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram(randomaccessmemory,随机存取存储器),也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,该名词匹配设备还可以包括用户接口、网络接口、摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi(wirelessfidelity,无线宽带)模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。

本领域技术人员可以理解,图3中示出的名词匹配设备结构并不构成对名词匹配设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图3所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及名词匹配程序。操作系统是管理和控制名词匹配设备硬件和软件资源的程序,支持名词匹配程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与名词匹配设备中其它硬件和软件之间通信。

在图3所示的名词匹配设备中,处理器1001用于执行存储器1005中存储的名词匹配程序,实现上述名词匹配方法各实施例中的步骤。

本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述名词匹配方法各实施例中的步骤。

还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1