企业全称与简称匹配方法、装置、计算机设备和存储介质与流程

文档序号:17442899发布日期:2019-04-17 05:02阅读:674来源:国知局
企业全称与简称匹配方法、装置、计算机设备和存储介质与流程

本申请涉及大数据技术领域,特别是涉及一种企业全称与简称匹配方法、装置、计算机设备和存储介质。



背景技术:

随着大数据技术的发展,出现了舆情分析技术,在未知企业全简称对应关系的情况下,从文本中挖掘企业全简称对应关系一直是舆情类分析绕不开的工作。在日常生活中,对于全称较长的企业名称,习惯用其约定俗成的简称来代替,如“中国银行股份有限公司”经常以简称的形式出现,如“中国银行”或“中行”。

简称的出现,为舆情分析带来了一定的难度,传统的全称与简称对应匹配的处理方式,主要是从网页中根据文本搜索,根据相似度或者其他规则筛选候选文本对,或是根据企业全称根据字向量或词向量生成简称,会有简称错误和错误对应的问题,造成企业全称与简称匹配精确度不高的问题



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够提高匹配精确度的企业全称与简称匹配方法、装置、计算机设备和存储介质。

一种企业全称与简称匹配方法,所述方法包括:

对包含待识别简称的文本进行简称识别处理,获得备选简称集合;

获取所述备选简称集合中各备选简称在预设文本库中的词频,根据所述各备选简称的词频,确定目标简称;

根据所述目标简称,遍历预设缩写简称库,获取与所述目标简称匹配的缩写简称;

获取与所述缩写简称对应的企业全称;

当查找到所述目标简称与所述企业全称共现的文本时,确定所述企业全称与所述目标简称匹配成功。

在其中一个实施例中,所述对包含待识别简称的文本进行简称识别处理,获得备选简称集合之前,还包括:

获取包含企业简称的多个样本数据;

根据各所述样本数据对应的已知简称,对各所述样本数据进行简称标注处理,获取携带有简称标注的样本数据集;

根据所述样本数据集,训练得到命名实体识别模型,所述命名实体识别模型用于进行简称识别处理。

在其中一个实施例中,所述获取所述备选简称集合中各备选简称在预设文本库中的词频,根据所述各备选简称的词频,确定目标简称包括:

当所述包含待识别简称的文本中存在多类备选简称时,根据备选简称的词语序列,对所述备选简称集合中的备选简称进行分类;

获取每一类别的各个备选简称在预设文本库中的词频,

根据所述每一类别的各个备选简称的词频,确定每一类别的目标简称。

在其中一个实施例中,所述根据所述目标简称,遍历预设缩写简称库,获取与所述目标简称匹配的缩写简称之前,还包括:

获取企业全称库,根据企业全称的组成模式,对所述企业全称库中的企业全称进行分类;

根据与所述组成模式对应的预设缩写规则,对各类所述企业全称进行缩写处理,获得与所述企业全称对应的缩写简称集合;

根据所述缩写简称集合,构建与所述企业全称库对应的所述预设缩写简称库。

在其中一个实施例中,所述根据与所述组成模式对应的预设缩写规则,对各类所述企业全称进行缩写处理,获得与所述企业全称对应的缩写简称集合之前,还包括:

获取包含企业全称与简称匹配关系的样本数据;

分析所述样本数据中所述企业全称的组成模式,根据所述样本数据中所述企业简称,确定所述与组成模式对应的预设缩写规则。

在其中一个实施例中,所述当查找到所述目标简称与所述企业全称共现的文本时,确定所述企业全称与所述目标简称匹配成功之后,还包括:

将匹配成功的所述企业全称与所述目标简称更新至预设的企业全简称匹配数据库。

在其中一个实施例中,所述将匹配成功的所述企业全称与所述目标简称更新至预设的企业全简称匹配数据库之后,还包括:

根据预设关键词,搜索包含企业全称与企业简称匹配关系的文本;

提取所述文本中匹配的所述企业全称与企业简称,更新至所述预设的企业全简称匹配数据库。

一种企业全称与简称匹配装置,所述装置包括:

备选简称集合获得模块,用于对包含待识别简称的文本进行简称识别处理,获得备选简称集合;

目标简称确定模块,用于获取所述备选简称集合中各备选简称在预设文本库中的词频,根据所述各备选简称的词频,确定目标简称;

缩写简称获取模块,用于根据所述目标简称,遍历预设缩写简称库,获取与所述目标简称匹配的缩写简称;

企业全称获取模块,用于获取与所述缩写简称对应的企业全称;

匹配结果确定模块,用于当查找到所述目标简称与所述企业全称共现的文本时,确定所述企业全称与所述目标简称的匹配成功。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

对包含待识别简称的文本进行简称识别处理,获得备选简称集合;

获取所述备选简称集合中各备选简称在预设文本库中的词频,根据所述各备选简称的词频,确定目标简称;

根据所述目标简称,遍历预设缩写简称库,获取与所述目标简称匹配的缩写简称;

获取与所述缩写简称对应的企业全称;

当查找到所述目标简称与所述企业全称共现的文本时,确定所述企业全称与所述目标简称匹配成功。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

对包含待识别简称的文本进行简称识别处理,获得备选简称集合;

获取所述备选简称集合中各备选简称在预设文本库中的词频,根据所述各备选简称的词频,确定目标简称;

根据所述目标简称,遍历预设缩写简称库,获取与所述目标简称匹配的缩写简称;

获取与所述缩写简称对应的企业全称;

当查找到所述目标简称与所述企业全称共现的文本时,确定所述企业全称与所述目标简称匹配成功。

上述企业全称与简称匹配方法、装置、计算机设备和存储介质,通过对包含待识别简称的文本进行简称识别处理,获得备选简称集合,根据备选简称的词频,获取目标简称,通过遍历与企业简称对应的预设缩写简称库,得到与目标简称匹配的企业全称,并通过查找文本确认目标简称与企业全称是否共现于同一文本,确认企业全称与简称是否匹配成功。整个方案中,一方面通过对识别的简称进行筛选,提高了在简称识别阶段的数据准确性,另一方面在获取与目标简称对应的企业全称后,通过确认目标简称与对应的企业全称是否共现于同一文本,确认是否匹配成功,提高了匹配结果的精确度。

附图说明

图1为一个实施例中企业全称与简称匹配方法的应用场景图;

图2为一个实施例中企业全称与简称匹配方法的流程示意图;

图3为另一个实施例中企业全称与简称匹配方法的流程示意图;

图4为一个实施例中企业全称与简称匹配装置的结构框图;

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的企业全称与简称匹配方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104对包含待识别简称的文本进行简称识别处理,获得备选简称集合,获取备选简称集合中各备选简称在预设文本库中的词频,根据各备选简称的词频,确定目标简称,根据目标简称,遍历预设缩写简称库,获取与目标简称匹配的缩写简称,获取与缩写简称对应的企业全称,当查找到目标简称与企业全称共现的文本时,确定企业全称与目标简称匹配成功,并将匹配成功的企业全称与目标简称推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种企业全称与简称匹配方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤s200,对包含待识别简称的文本进行简称识别处理,获得备选简称集合。

简称是指由长的、复杂的名称压缩成的简短的词语形式,其中,对于涉及到特有名词如特定企业,简称也属于官方正式承认的官方称谓,为表达的简洁,对于全称较长的企业名称,一般使用简称的方式进行描述,特别是在新闻标题等字数要求严格的舆情文本出现中,往往采用企业简称的形式进行记载。包含待识别简称的文本可以采用网络爬虫算法,获取包含待识别的舆情文本,通过对于舆情文本进行分句处理,得到包含待识别简称的文本,在一些实施例中,包含待识别简称的文本可以是包括待识别简称的新闻类舆情文本的标题,或是新闻中导语部分包括待识别简称的句子等。简称识别是指通过用于简称识别处理的命名实体识别模型,对包含待识别简称的文本进行特征向量的提取和命名实体识别,得到该文本中可能包含的多个备选简称的过程。命名实体识别模型通过携带简称标注的样本数据集训练得到,根据文本的特征向量,识别的命名实体为文本中的简称。其中,由于包含待识别简称的文本的简洁表达,被识别的简称存在多个,例如,包含待识别简称的文本为:“航天动力:拟公开挂牌转让西航铝业70.94%股权”,经过简称识别处理获得的备选简称可能包括“航天”、“动力”、“航天动力”以及“西航铝业”、“西航铝”、“西航”等。在实施例中,采用命名实体识别模型进行简称识别处理,通过将包含待识别简称的文本进行分词处理,获取包含待识别简称的文本的词语序列,根据包含待识别简称的文本的词语序列,生成特征向量,将特征向量输入预先训练好的命名实体识别模型,识别出包含待识别简称的文本中可能包含的多个简称,形成备选简称集合。

步骤s300,获取备选简称集合中各备选简称在预设文本库中的词频,根据各备选简称的词频,确定目标简称。

备选简称集合中的多个备选简称可以是从同一文本中提取出来的,例如“神火煤电”,“南神火煤电”,“神火煤”中,其中只有一个是正确的,获取与备选简称相关的预设文本库,获取各备选简称在预设文本库中的词频,当在同一文本中的不同备选简称的词频相同或者接近时,取字符串长度最长的备选简称作为目标简称,词频低的则成为目标简称的可能性小,例如,在“神火煤电”与“火煤电”的词频相同,“南神火煤电”的词频较低,故,将“神火煤电”作为目标简称。

步骤s400,根据目标简称,遍历预设缩写简称库,获取与目标简称匹配的缩写简称。

预设缩写简称库是指根据已有的企业全称数据,按照设定的缩写规则,进行缩写处理后得到的缩写简称数据构成的数据库,在实施例中,可以通过设置缩写规则或是通过简称缩写模型来实现企业全称的缩写处理。通过遍历预设缩写简称库,获取与目标简称相同的缩写简称时,通过从包含待识别简称的文本中识别的目标简称与从企业全称缩写得到的缩写简称的匹配,实现企业全称与企业简称的关联。

步骤s500,获取与缩写简称对应的企业全称。

获取与预设缩写简称库相关联的企业全称库,根据企业全称与缩写简称的映射关系,根据确定的缩写简称,可以确定与该缩写简称对应的企业全称,在实施例中,可以通过获取各企业的工商数据获取到企业全称,根据各企业的企业全称数据,构建企业全称库。

步骤s600,当查找到目标简称与企业全称共现的文本时,确定企业全称与目标简称匹配成功。

共现是指特征词汇共同出现的现象,这里的特征词汇可以是目标简称和企业全称,以目标简称和企业全称为搜索目标,对舆情数据进行搜索,当获取到同时包含目标简称与企业全称的文本时,确定目标简称与企业全称匹配成功,反之,若不存在同时包含目标简称与企业全称的文本,匹配失败。

上述企业全称与简称匹配方法,通过对包含待识别简称的文本进行简称识别处理,获得备选简称集合,根据备选简称的词频,获取目标简称,通过遍历与企业简称对应的预设缩写简称库,得到与目标简称匹配的企业全称,并通过查找文本确认目标简称与企业全称是否共现于同一文本,确认企业全称与简称是否匹配成功。整个方案中,一方面通过对识别的简称进行筛选,提高了在简称识别阶段的数据准确性,另一方面在获取与目标简称对应的企业全称后,通过确认目标简称与对应的企业全称是否共现于同一文本,确认是否匹配成功,避免了仅仅根据企业全称的字向量或词向量生成简称,以及直接进行企业全称库与企业简称库的匹配带来的误差,提高了匹配结果的精确度。

在一些实施例中,上述方法还可以运用于依法设立的机关、事业、企业、社团及其他依法成立的单位,可以包括政府部门、科研单位、各类院校、公司企业、国际组织等的全称与简称的匹配。

在一个实施例中,如图3所示,步骤s200,对包含待识别简称的文本进行简称识别处理,获得备选简称集合之前,还包括:

步骤s120,获取包含企业简称的多个样本数据。

步骤s140,根据各样本数据对应的已知简称,对各样本数据进行简称标注处理,获取携带有简称标注的样本数据集。

步骤s160,根据样本数据集,训练得到命名实体识别模型,命名实体识别模型用于进行简称识别处理。

包含企业简称的样本数据是指已知简称的文本,简称标注是指将样本数据进行分词处理,并将已知简称对样本数据进行标注,并将标注后的样本数据训练成词向量,该词向量携带有简称标注标签,将多个样本数据对应的词向量作为命名实体识别模型的输入数据,对命名实体识别模型进行训练,命名实体识别模型为bi-lstm+crf模型,其中,bi-lstm+crf模型是用crf获取全局最优的输出序列,相当于对lstm信息的再利用,bi-lstm又叫双向lstm,同时考虑了过去的特征(通过前向过程提取)和未来的特征(通过后向过程提取),相当于两个lstm,一个正向输入序列,一个反向输入序列,再将两者的输出结合起来作为最终的结果。词向量的训练工具可以是gensimword2vec、glove等。利用输入数据训练得到命名实体识别模型,当训练完成后,将准确率作为命名实体识别模型的评价参数,当准确率未达到设定阈值范围时,对模型参数进行调整,进行命名实体识别模型的优化。命名实体识别模型可以用于输入包含待识别简称的文本的词向量,识别包含待识别简称的文本中可能包含的简称,并输出可能存在的备选简称,形成备选简称集合。

在一个实施例中,如图3所示,步骤s300,获取备选简称集合中各备选简称在预设文本库中的词频,根据各备选简称的词频,确定目标简称包括:

步骤s320,当包含待识别简称的文本中存在多类备选简称时,根据备选简称的词语序列,对备选简称集合中的备选简称进行分类。

步骤s330,获取每一类别的各个备选简称在预设文本库中的词频,

步骤s340,根据每一类别的各个备选简称的词频,确定每一类别的目标简称。

词语序列是指组成词的多个字以及各字之间的关联关系,可以采用序列标注法确定词语序列,根据词语序列,将备选简称进行归类。命名实体识别模型的初步处理过程中不可避免的会产生一些噪音,得到的多个备选简称中存在部分噪音数据,为了去噪,通过预设文本库文本进行交叉去噪处理。以其中一类备选简称为例,分别获取该类中每个备用简称在预设文本库的多个文本中的词频,根据词语序列的长度和词频高低,筛选出每一类备用简称中的目标简称,这一步骤是去噪过程,在其中一个实施例中,可以先聚一类相似词,如当存在包含相同词语序列的词语时,将其归为一起,例如将“神火煤电”,“南神火煤电”,“神火煤”归为一类,然后,需要统计这一类中的每一个词语在多个新闻文本中的词频,当在同一新闻文本中的不同词语的词频相同或者接近时,取词语序列长度最长的作为目标简称,词频低的则成为目标简称的可能性小,词频低的备用简称可以留存简称数据和词频信息。

在一个实施例中,如图3所示,步骤s400,根据目标简称,遍历预设缩写简称库,获取与目标简称匹配的缩写简称之前,还包括:

步骤s360,获取企业全称库,根据企业全称的组成模式,对企业全称库中的企业全称进行分类。

步骤s370,根据与组成模式对应的预设缩写规则,对各类企业全称进行缩写处理,获得与企业全称对应的缩写简称集合。

步骤s380,根据缩写简称集合,构建与企业全称库对应的预设缩写简称库。

在实施例中,通过获取各企业的工商数据获取到企业全称,根据各企业的企业全称数据,构建企业全称库。根据企业全称的组成模式,可以将全称的组成模式可以分为几类,第一类是“地点+名字+行业类别+公司属性”,例如符合这个模式的有“深圳市腾讯计算机系统有限公司”,“江苏亚邦燃料股份有限公司”;第二类是“名字+行业类别+公司属性”,还有“名字+地点+公司属性”,以及“名字+公司属性”等等。全称数据通过缩写生成简称时,可以将限定字数为五个字及以下。这类全称直接生成的备用简称的缩写规则通常有几类,一类是仅名字,如“腾讯”、“亚邦”;一类是名字+行业,如“腾讯计算机”、“亚邦染料”、“海通证券”;一类是地点/地点缩写+名字,如“中国平安”;还有一类是名字+公司属性缩写,如“腾讯控股”,“苹果公司”。一般来说,当名字、行业属性等超过四个字时,常常会采用缩写,或用前两字或间隔抽字,如“中石化”(中国石油化工集团公司)。根据这种生成逻辑,对于一个全称,会生成一系列的生成式备用简称的集合,如长安福特汽车有限公司,就会生成“福特”,“福特汽车”,“长安福特”,“福特公司”这些简称,从而形成与企业全称对应的缩写简称集合。由于企业全称库存在多个企业全称,根据企业全称的缩写简称集合,构建与企业全称库对应的预设缩写简称库,预设缩写简称库与企业全称库存在映射关系。

在一个实施例中,步骤s370,根据与组成模式对应的预设缩写规则,对各类企业全称进行缩写处理,获得与企业全称对应的缩写简称集合之前,还包括:

获取包含企业全称与简称匹配关系的样本数据。

分析样本数据中企业全称的组成模式,根据样本数据中企业简称,确定与组成模式对应的预设缩写规则。

根据已知企业简称与企业全称的样本数据,可以获取企业简称与企业全称的匹配关系,根据企业全称的组成模式和对应的企业简称,可以获取该样本数据中企业全称的缩写规则,通过统计多个样本数据中对企业全称的缩写规则,确定对企业全称的预设缩写规则,在一些实施例中,一个企业全称,可以存在多个对应的预设缩写规则。

在一个实施例中,如图3所示,步骤s600,当查找到目标简称与企业全称共现的文本时,确定企业全称与目标简称匹配成功之后,还包括:

步骤s720,将匹配成功的企业全称与目标简称更新至预设的企业全简称匹配数据库。

将匹配成功的企业全称与企业简称更新至预设的企业全简称匹配数据库,可以便于对各类包含数据进行舆情分析时,快速确定与企业简称对应的企业全称,提高了舆情分析效率。

在一个实施例中,如图3所示,步骤s600,将匹配成功的企业全称与目标简称更新至预设的企业全简称匹配数据库之后,还包括:

步骤s740,根据预设关键词,搜索包含企业全称与企业简称匹配关系的文本。

步骤s760,提取文本中匹配的企业全称与企业简称,更新至预设的企业全简称匹配数据库。

文本可以是新闻等舆情文本等,预设关键词可以是用于识别企业全简称的词语,例如“…简称…”在实施例中,通过扫描新闻文档,特别是新闻标题等,通过预设规则直接提取全简称匹配结果,例如“a简称b”等,将这类数据对应的实体,更新至预设的企业全简称匹配数据库。当搜索到在面对有大量舆情数据和大量企业全称数据的情况,但是无法将文本中的企业简称找到对应的全称的问题时,通过查找预设的企业全简称匹配数据库,可以避免出现一个简称对应多个全称、简称与全称的对应存在歧义甚至全简称完全不相关的情况,提高了匹配的准确度。

应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图4所示,提供了一种企业全称与简称匹配装置,包括:

备选简称集合获得模块200,用于对包含待识别简称的文本进行简称识别处理,获得备选简称集合;

目标简称确定模块300,用于获取备选简称集合中各备选简称在预设文本库中的词频,根据各备选简称的词频,确定目标简称;

缩写简称获取模块400,用于根据目标简称,遍历预设缩写简称库,获取与目标简称匹配的缩写简称;

企业全称获取模块500,用于获取与缩写简称对应的企业全称;

匹配结果确定模块600,用于当查找到目标简称与企业全称共现的文本时,确定企业全称与目标简称的匹配成功。

在一个实施例中,企业全称与简称匹配装置,还包括命名实体识别模型训练模块,用于获取包含企业简称的多个样本数据,根据各样本数据对应的已知简称,对各样本数据进行简称标注处理,获取携带有简称标注的样本数据集,根据样本数据集,训练得到命名实体识别模型,命名实体识别模型用于进行简称识别处理。

在一个实施例中,目标简称确定模块300,还用于当包含待识别简称的文本中存在多类备选简称时,根据备选简称的词语序列,对备选简称集合中的备选简称进行分类,获取每一类别的各个备选简称在预设文本库中的词频,根据每一类别的各个备选简称的词频,确定每一类别的目标简称。

在一个实施例中,企业全称与简称匹配装置,还包括预设缩写简称库构建模块,用于获取企业全称库,根据企业全称的组成模式,对企业全称库中的企业全称进行分类,根据与组成模式对应的预设缩写规则,对各类企业全称进行缩写处理,获得与企业全称对应的缩写简称集合,根据缩写简称集合,构建与企业全称库对应的预设缩写简称库。

在一个实施例中,预设缩写简称库构建模块,还用于获取包含企业全称与简称匹配关系的样本数据,分析样本数据中企业全称的组成模式,根据样本数据中企业简称,确定与组成模式对应的预设缩写规则。

在一个实施例中,企业全称与简称匹配装置,还包括企业全简称匹配数据库更新模块,用于将匹配成功的企业全称与目标简称更新至预设的企业全简称匹配数据库。

在一个实施例中企业全简称匹配数据库更新模块,还用于根据预设关键词,搜索包含企业全称与企业简称匹配关系的文本,提取文本中匹配的企业全称与企业简称,更新至预设的企业全简称匹配数据库。

上述企业全称与简称匹配装置,通过对包含待识别简称的文本进行简称识别处理,获得备选简称集合,根据备选简称的词频,获取目标简称,通过遍历与企业简称对应的预设缩写简称库,得到与目标简称匹配的企业全称,并通过查找文本确认目标简称与企业全称是否共现于同一文本,确认企业全称与简称是否匹配成功。整个方案中,一方面通过对识别的简称进行筛选,提高了在简称识别阶段的数据准确性,另一方面在获取与目标简称对应的企业全称后,通过确认目标简称与对应的企业全称是否共现于同一文本,确认是否匹配成功,提高了匹配结果的精确度。

关于企业全称与简称匹配装置的具体限定可以参见上文中对于企业全称与简称匹配方法的限定,在此不再赘述。上述企业全称与简称匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种企业全称与简称匹配方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

对包含待识别简称的文本进行简称识别处理,获得备选简称集合;

获取备选简称集合中各备选简称在预设文本库中的词频,根据各备选简称的词频,确定目标简称;

根据目标简称,遍历预设缩写简称库,获取与目标简称匹配的缩写简称;

获取与缩写简称对应的企业全称;

当查找到目标简称与企业全称共现的文本时,确定企业全称与目标简称匹配成功。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取包含企业简称的多个样本数据;

根据各样本数据对应的已知简称,对各样本数据进行简称标注处理,获取携带有简称标注的样本数据集;

根据样本数据集,训练得到命名实体识别模型,命名实体识别模型用于进行简称识别处理。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

当包含待识别简称的文本中存在多类备选简称时,根据备选简称的词语序列,对备选简称集合中的备选简称进行分类;

获取每一类别的各个备选简称在预设文本库中的词频,

根据每一类别的各个备选简称的词频,确定每一类别的目标简称。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取企业全称库,根据企业全称的组成模式,对企业全称库中的企业全称进行分类;

根据与组成模式对应的预设缩写规则,对各类企业全称进行缩写处理,获得与企业全称对应的缩写简称集合;

根据缩写简称集合,构建与企业全称库对应的预设缩写简称库。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取包含企业全称与简称匹配关系的样本数据;

分析样本数据中企业全称的组成模式,根据样本数据中企业简称,确定与组成模式对应的预设缩写规则。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

将匹配成功的企业全称与目标简称更新至预设的企业全简称匹配数据库。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据预设关键词,搜索包含企业全称与企业简称匹配关系的文本;

提取文本中匹配的企业全称与企业简称,更新至预设的企业全简称匹配数据库。

上述用于实现企业全称与简称匹配方法的计算机设备,通过对包含待识别简称的文本进行简称识别处理,获得备选简称集合,根据备选简称的词频,获取目标简称,通过遍历与企业简称对应的预设缩写简称库,得到与目标简称匹配的企业全称,并通过查找文本确认目标简称与企业全称是否共现于同一文本,确认企业全称与简称是否匹配成功。整个方案中,一方面通过对识别的简称进行筛选,提高了在简称识别阶段的数据准确性,另一方面在获取与目标简称对应的企业全称后,通过确认目标简称与对应的企业全称是否共现于同一文本,确认是否匹配成功,提高了匹配结果的精确度。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

对包含待识别简称的文本进行简称识别处理,获得备选简称集合;

获取备选简称集合中各备选简称在预设文本库中的词频,根据各备选简称的词频,确定目标简称;

根据目标简称,遍历预设缩写简称库,获取与目标简称匹配的缩写简称;

获取与缩写简称对应的企业全称;

当查找到目标简称与企业全称共现的文本时,确定企业全称与目标简称匹配成功。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取包含企业简称的多个样本数据;

根据各样本数据对应的已知简称,对各样本数据进行简称标注处理,获取携带有简称标注的样本数据集;

根据样本数据集,训练得到命名实体识别模型,命名实体识别模型用于进行简称识别处理。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

当包含待识别简称的文本中存在多类备选简称时,根据备选简称的词语序列,对备选简称集合中的备选简称进行分类;

获取每一类别的各个备选简称在预设文本库中的词频,

根据每一类别的各个备选简称的词频,确定每一类别的目标简称。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取企业全称库,根据企业全称的组成模式,对企业全称库中的企业全称进行分类;

根据与组成模式对应的预设缩写规则,对各类企业全称进行缩写处理,获得与企业全称对应的缩写简称集合;

根据缩写简称集合,构建与企业全称库对应的预设缩写简称库。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取包含企业全称与简称匹配关系的样本数据;

分析样本数据中企业全称的组成模式,根据样本数据中企业简称,确定与组成模式对应的预设缩写规则。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

将匹配成功的企业全称与目标简称更新至预设的企业全简称匹配数据库。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据预设关键词,搜索包含企业全称与企业简称匹配关系的文本;

提取文本中匹配的企业全称与企业简称,更新至预设的企业全简称匹配数据库。

上述用于实现企业全称与简称匹配方法的计算机可读存储介质,通过对包含待识别简称的文本进行简称识别处理,获得备选简称集合,根据备选简称的词频,获取目标简称,通过遍历与企业简称对应的预设缩写简称库,得到与目标简称匹配的企业全称,并通过查找文本确认目标简称与企业全称是否共现于同一文本,确认企业全称与简称是否匹配成功。整个方案中,一方面通过对识别的简称进行筛选,提高了在简称识别阶段的数据准确性,另一方面在获取与目标简称对应的企业全称后,通过确认目标简称与对应的企业全称是否共现于同一文本,确认是否匹配成功,提高了匹配结果的精确度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1