一种资料集的同义词识别方法及系统与流程

文档序号:17825787发布日期:2019-06-05 22:38阅读:189来源:国知局
一种资料集的同义词识别方法及系统与流程
本发明涉及语义识别
技术领域
,特别涉及一种资料集的同义词识别方法及系统。
背景技术
:人机交互是研究系统与用户之间的交互关系的科学。其中,上述系统可以是各种各样的机器,也可以是计算机的系统和软件。例如,智能检索系统、语义理解系统等等。同义词是人机交互的重要组成部分。同义词的自动识别是知识库研究的重要组成部分,同义词自动识别的方式很多,常见的方法有基于词形相似识别法、基于定义识别法等等。前者只能识别词形相近的同义词,不能识别出词形完全不同的同义词;后者需要依靠特定的结构文本,如果某些关键词没有在文本中进行定义,就不能识别出来,因此,在具体应用中受到很大的限制。综上所述可以看出,如何提高同义词的识别效果是目前有待解决的问题。技术实现要素:有鉴于此,本发明的目的在于提供一种资料集的同义词识别方法及系统,提高了同义词的识别效果。其具体方案如下:一种资料集的同义词识别方法,包括:获取包括N份资料的资料集,N为正整数;分别提取每份资料中的所有关键词;分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词。优选的,任意两个关键词之间的同生值的计算公式为:Eij=Cij2/(Ci×Cj);式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。优选的,在所述分别确定每个关键词的高值词群的过程之后,还包括:分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。优选的,在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值的情况下,还包括:若所述第一关键词和所述第二关键词之间的同生值不为0,则计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。优选的,所述预设相似度阈值为80%,所述预设比值阈值为10。本发明还公开了一种资料集的同义词识别系统,包括:资料集获取模块,用于获取包括N份资料的资料集,N为正整数;关键词提取模块,用于分别提取每份资料中的所有关键词;同生词确定模块,用于分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;同生值计算模块,用于分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;高值词群确定模块,用于分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;同义词识别模块,用于对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词。优选的,所述同生值计算模块在计算任意两个关键词之间的同生值时,相应的计算公式为:Eij=Cij2/(Ci×Cj);式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。优选的,所述同义词识别系统,还包括:同生指数计算模块,用于在所述高值词群确定模块分别确定每个关键词的高值词群之后,分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。优选的,所述同义词识别模块还包括:平均值计算单元,用于在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值,并且,所述第一关键词和所述第二关键词之间的同生值不为0的情况下,计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;比值计算单元,用于计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;比值判断单元,用于判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。优选的,所述预设相似度阈值为80%,所述预设比值阈值为10。可见,本发明在对资料集中的任意两个关键词是否为同义词进行识别之前,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,而任一个关键词的高值词群是指按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。可以理解的是,若任意两个关键词各自所对应的高值词群较为相似,则意味着这两个关键词很有可能是同义词,在此基础上,若这两个关键词之间同生值为0,也即,若这两个关键词并没有出现在同一份资料中,由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,在通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词,显然,上述同义词的识别过程中无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果,也即,提高了同义词的识别准确率,并且上述同义词的识别方法不会受限于资料类型的不同,能够广泛地应用于各类文本资料,具有非常广阔的应用前景。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本发明实施例公开的一种资料集的同义词识别方法流程图;图2为本发明实施例公开的一种资料集的同义词识别系统结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例公开了一种资料集的同义词识别方法,参见图1所示,该方法包括:步骤S11:获取包括N份资料的资料集,N为正整数。其中,本发明实施例中的资料集包括通过网络途径和/或人工收集的途径来获取到的各种专题和/或学科资料,例如科技文献、专利文献、病案病例、事实数据等。另外,需要说明的是,上述资料集中包括的资料的数量越多,最终的同义词识别准确率则越高。步骤S12:分别提取每份资料中的所有关键词。其中,每份资料中的关键词既可以是人工标引的关键词,也可以是由后台系统自动标引的关键词。步骤S13:分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词。本实施例中,若关键词A和关键词B同时出现在同一份资料中,则关键词A称为关键词B的同生词,同理,关键词B也称为关键词A的同生词,可以理解的是,上述关键词A和关键词B构成了一组同生词对。另外,为了便于对同生词进行管理,本发明实施例可以将确定出的所有同生词保存至关系型数据库中,或者以矩阵的形式保存下来以形成相应的同生词矩阵。步骤S14:分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率。本实施例中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,也即用来衡量任意两个关键字能否构成同生词对的概率。如果在步骤S14之前,已经将所有的同生词保存为同生词矩阵或保存至上述关系型数据库中,则本发明实施例还可以进一步将步骤S14中计算出的每个同生值标注在上述同生词矩阵或关系型数据库中的相应位置上,由此构成一张由同生词以及相应同生值构成的同生词网。步骤S15:分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。本实施例中某个关键词的高值词群是指将该关键词的所有同生词按照同生值从大到小的顺序排列后得到的词群。例如,下面表一记录了A资料中关键词“5-氟尿嘧啶”所对应的高值词群;另外,下面表二记录了B资料中关键词“5-FU”所对应的高值词群。其中,表一中显示出关键词“5-氟尿嘧啶”和“5-FU”之间的同生值为0,这意味着关键词“5-FU”并没有出现在A资料中。同理,表二中显示出关键词“5-FU”与“5-氟尿嘧啶”之间的同生值为0,这意味着关键词“5-氟尿嘧啶”并没有出现在B资料中。表一关键词关键词同生值5-氟尿嘧啶抗肿瘤联合化疗方案0.03145-氟尿嘧啶顺铂0.02725-氟尿嘧啶醛氢叶酸0.01975-氟尿嘧啶抗肿瘤药0.00155-氟尿嘧啶5-FU0表二关键词关键词同生值5-FU抗肿瘤联合化疗方案0.03025-FU顺铂0.02815-FU醛氢叶酸0.01885-FU抗肿瘤药0.00195-FU5-氟尿嘧啶0步骤S16:对资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。可以理解的是,上述第一关键词和上述第二关键均是资料集中任意的关键词。本发明实施例在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值的情况下,若第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。以上述表一和表二为例,表一中的关键词“5-氟尿嘧啶”和表二中的关键词“5-FU”各自所对应的高值词群非常类似,在这种情况下,进一步比较关键词“5-氟尿嘧啶”和“5-FU”之间的同生值,通过上述表一和表二可知,关键词“5-氟尿嘧啶”和“5-FU”之间的同生值为0。由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,本实施例将上述关键词“5-氟尿嘧啶”和“5-FU”确定为了同义词。另外需要说明的是,上述步骤S16所创建出来的同义词库可以直接应用到数据资源的组织与利用,以及人工智能等领域。可见,本发明实施例在对资料集中的任意两个关键词是否为同义词进行识别之前,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,而任一个关键词的高值词群是指按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。可以理解的是,若任意两个关键词各自所对应的高值词群较为相似,则意味着这两个关键词很有可能是同义词,在此基础上,若这两个关键词之间同生值为0,也即,若这两个关键词并没有出现在同一份资料中,由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,在通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词,显然,上述同义词的识别过程中无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果,也即,提高了同义词的识别准确率,并且上述同义词的识别方法不会受限于资料类型的不同,能够广泛地应用于各类文本资料,具有非常广阔的应用前景。本发明实施例公开了一种具体的资料集的同义词识别方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:上一实施例步骤S14中,需要计算每个关键词与该关键词所对应的同生词之间的同生值。本实施例中,任意两个关键词之间的同生值的计算公式具体为:Eij=Cij2/(Ci×Cj);式中,Cij表示资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示资料集中出现关键词Ki的资料的总份数;Cj表示资料集中出现关键词Kj的资料的总份数;Eij表示关键词Ki和关键词Kj之间的同生值。上一实施例步骤S15中,需要分别确定每个关键词的高值词群。本实施例中,在分别确定每个关键词的高值词群的过程之后,还可以进一步包括:分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。另外,上一实施例步骤S16中公开了如下的技术方案:在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0的情况下,将第一关键词和第二关键词识别为同义词。由于在同一份资料中,无法完全排除资料的作者前后采用两种不同的关键词来表述同一种含义。为了进一步提升同义词的识别准确率,本实施例中,在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值的情况下,还包括下面步骤S17至步骤S19,其中:步骤S17:若第一关键词和第二关键词之间的同生值不为0,则计算第一关键词的同生指数和第二关键词的同生指数之间的平均值,得到相应的平均同生指数;步骤S18:计算上述平均同生指数与当前同生值之间的比值,其中,当前同生值为第一关键词和第二关键词之间的同生值;步骤S19:判断上述比值是否不小于预设比值阈值,如果是,则将第一关键词和第二关键词识别为同义词,如果否,则将第一关键词和第二关键词识别为非同义词。本实施例中,优先将上述预设相似度阈值设为80%,以及,将上述预设比值阈值设为10。相应的,本发明实施例还公开了一种资料集的同义词识别系统,参见图2所示,该系统包括:资料集获取模块21,用于获取包括N份资料的资料集,N为正整数;关键词提取模块22,用于分别提取每份资料中的所有关键词;同生词确定模块23,用于分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;同生值计算模块24,用于分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;高值词群确定模块25,用于分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;同义词识别模块26,用于对资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。可见,本发明实施例在对资料集中的任意两个关键词是否为同义词进行识别之前,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,而任一个关键词的高值词群是指按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。可以理解的是,若任意两个关键词各自所对应的高值词群较为相似,则意味着这两个关键词很有可能是同义词,在此基础上,若这两个关键词之间同生值为0,也即,若这两个关键词并没有出现在同一份资料中,由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,在通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词,显然,上述同义词的识别过程中无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果,也即,提高了同义词的识别准确率,并且上述同义词的识别方法不会受限于资料类型的不同,能够广泛地应用于各类文本资料,具有非常广阔的应用前景。进一步的,上述同生值计算模块在计算任意两个关键词之间的同生值时,相应的计算公式为:Eij=Cij2/(Ci×Cj);式中,Cij表示资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示资料集中出现关键词Ki的资料的总份数;Cj表示资料集中出现关键词Kj的资料的总份数;Eij表示关键词Ki和关键词Kj之间的同生值。另外,本实施例中的同义词识别系统,还可以进一步包括:同生指数计算模块,用于在高值词群确定模块分别确定每个关键词的高值词群之后,分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。进一步的,上述同义词识别模块还可以进一步包括平均值计算单元、比值计算单元和比值判断单元;其中,平均值计算单元,用于在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且,第一关键词和第二关键词之间的同生值不为0的情况下,计算第一关键词的同生指数和第二关键词的同生指数之间的平均值,得到相应的平均同生指数;比值计算单元,用于计算平均同生指数与当前同生值之间的比值,其中,当前同生值为第一关键词和第二关键词之间的同生值;比值判断单元,用于判断比值是否不小于预设比值阈值,如果是,则将第一关键词和第二关键词识别为同义词,如果否,则将第一关键词和第二关键词识别为非同义词。优选的,上述预设相似度阈值为80%,预设比值阈值为10。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上对本发明所提供的一种资料集的同义词识别方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1