基于补全策略的企业关联关系信息提取方法和装置与流程

文档序号:11323204阅读:170来源:国知局
基于补全策略的企业关联关系信息提取方法和装置与流程

本发明涉及计算机技术领域,特别涉及一种基于补全策略的企业关联关系信息提取方法和装置。



背景技术:

当今金融市场瞬息万变,企业管理者想要在指定战略决策中运筹帷幄,就需要快速准确的掌握企业之间的关联关系。通过企业之间的关联关系,企业管理者可以尽可能的规避投资风险,做出更合理的决策。

现有技术中一般是人工去网络上查找经济类的新闻报道,从中确定各个企业之间的关联关系,随着企业的增多,企业之间的关联关系变的错综复杂,人工查找会花费大量的时间,效率比较低。



技术实现要素:

为了解决现有技术的问题,本发明实施例提供了一种基于补全策略的企业关联关系信息提取方法和装置。所述技术方案如下:

第一方面,提供了一种基于补全策略的企业关联关系信息提取方法,所述方法包括:

获取待检测文本;

对所述待检测文本进行拆分处理,得到至少一个分句;

在所述至少一个分句中,确定包含预设的关联关键词的分句;

对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息;

如果所述企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数小于或等于第一预设数值,则在所述分句中,基于所述企业名称后缀之前的各字符,补全所述目标企业名称,将补全后的所述目标企业名称更新至所述企业关联关系信息中。

可选的,所述在所述分句中,基于所述企业名称后缀之前的各字符,补全所述目标企业名称,包括:

在所述分句中,如果所述企业名称后缀之前存在地名,则截取所述地名的开始位置处至所述企业名称后缀的结束位置处的字符串,确定为补全后的所述目标企业名称。

可选的,所述在所述分句中,如果所述企业名称后缀之前存在地名,则截取所述地名的开始位置处至所述企业名称后缀的结束位置处的字符串,确定为补全后的所述目标企业名称,包括:

在所述分句中,如果所述企业名称后缀之前存在地名,则确定所述地名是否被括号标注;

如果所述地名未被所述括号标注,则截取所述地名的开始位置处至所述企业名称后缀的结束位置处的字符串,确定为补全后的所述目标企业名称;如果所述地名被所述括号标注,则确定所述目标企业名称之前存在的多个相邻的名词短语,将所述地名、所述多个相邻的名词短语按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称。

可选的,所述在所述分句中,基于所述企业名称后缀之前的各字符,补全所述目标企业名称,包括:

在所述分句中,如果所述目标企业名称之前存在多个相邻的名词短语,则将所述多个相邻的名词短语,按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称;或者,

在所述分句中,如果所述目标企业名称之前存在多个相邻的名词短语与动词短语,则将所述多个相邻的名词短语与动词短语,按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称。

可选的,所述方法还包括:

对包含关联关键词且未确定出企业关联关系信息的任一分句,将所述任一分句中包括的字符数大于第二预设数值的分词,与预设的企业名称词库中包括的企业名称进行匹配;

如果匹配到所述预设的企业名称词库中包括的至少两个企业名称,则基于所述关联关键词的词性、所述任一分句的句式类型、以及所述关联关键词在所述任一分句中的位置,确定所述至少两个企业名称的企业关联关系信息。

第二方面,提供了一种基于补全策略的企业关联关系信息提取装置,所述装置包括:

获取模块,用于获取待检测文本;

拆分模块,用于对所述待检测文本进行拆分处理,得到至少一个分句;

确定模块,用于在所述至少一个分句中,确定包含预设的关联关键词的分句;

所述确定模块,用于对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息;

补全模块,用于如果所述企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数小于或等于第一预设数值,则在所述分句中,基于所述企业名称后缀之前的各字符,补全所述目标企业名称,将补全后的所述目标企业名称更新至所述企业关联关系信息中。

可选的,所述补全模块,用于:

在所述分句中,如果所述企业名称后缀之前存在地名,则截取所述地名的开始位置处至所述企业名称后缀的结束位置处的字符串,确定为补全后的所述目标企业名称。

可选的,所述补全模块包括确定子模块和补全子模块,其中:

所述确定子模块,用于在所述分句中,如果所述企业名称后缀之前存在地名,则确定所述地名是否被括号标注;

所述补全子模块,用于如果所述地名未被所述括号标注,则截取所述地名的开始位置处至所述企业名称后缀的结束位置处的字符串,确定为补全后的所述目标企业名称;如果所述地名被所述括号标注,则确定所述目标企业名称之前存在的多个相邻的名词短语,将所述地名、所述多个相邻的名词短语按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称。

可选的,所述补全模块,用于:

在所述分句中,如果所述目标企业名称之前存在多个相邻的名词短语,则将所述多个相邻的名词短语,按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称;或者,

在所述分句中,如果所述目标企业名称之前存在多个相邻的名词短语与动词短语,则将所述多个相邻的名词短语与动词短语,按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称。

可选的,所述装置还包括:

匹配模块,用于对包含关联关键词且未确定出企业关联关系信息的任一分句,将所述任一分句中包括的字符数大于第二预设数值的分词,与预设的企业名称词库中包括的企业名称进行匹配;

所述确定模块,还用于如果匹配到所述预设的企业名称词库中包括的至少两个企业名称,则基于所述关联关键词的词性、所述任一分句的句式类型、以及所述关联关键词在所述任一分句中的位置,确定所述至少两个企业名称的企业关联关系信息。

本发明实施例提供的技术方案带来的有益效果是:

本发明实施例中,获取待检测文本,对待检测文本进行拆分处理,得到至少一个分句,在至少一个分句中,确定包含预设的关联关键词的分句,对于包含关联关键词的每个分句,确定分句的句式类型,根据分句的句式类型、关联关键词的词性、以及关联关键词在分句中的位置,确定分句中包含的企业关联关系信息,如果企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数小于或等于第一预设数值,则在分句中,基于企业名称后缀之前的各字符,补全目标企业名称,将补全后的目标企业名称更新至企业关联关系信息中。这样,对于待检测文本,可以直接获取到待检测文本中包含的企业关联关系信息,而不需要人工去查看,提高了提取企业关联关系信息的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于补全策略的企业关联关系信息提取方法的流程图;

图2是本发明实施例提供的一种企业关联关系信息的显示示意图;

图3是本发明实施例提供的一种基于补全策略的企业关联关系信息提取装置的结构示意图;

图4是本发明实施例提供的一种基于补全策略的企业关联关系信息提取装置的结构示意图;

图5是本发明实施例提供的一种基于补全策略的企业关联关系信息提取装置的结构示意图;

图6是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种基于补全策略的企业关联关系信息提取方法,该方法的执行主体可以是服务器。其中,服务器是企业关联关系的识别应用程序的后台服务器,该服务器中可以设置有处理器、存储器和收发器等,处理器可以用于提取企业关联关系信息的过程的处理,存储器可以用于提取企业关联关系信息的过程中需要的数据以及产生的数据,收发器可以用于接收以及发送消息等。

如图1所示,该方法的处理流程可以包括如下的步骤:

步骤101,获取待检测文本。

在实施中,技术人员在服务器中预先存储了多个网址,如新闻媒体网站的网址等,服务器可以每隔预设时长访问这些网址,确定这些网址中是否有新的公告,如果有新的公告,则对新的公告进行复制,复制出的新的公告可以称为待检测文本。

另外,也可以由技术人员操作终端向服务器发送待检测文本,本发明实施例不做限定。

步骤102,对待检测文本进行拆分处理,得到至少一个分句。

在实施中,服务器获取到待检测文本后,可以从待检测文本的开始位置处查找其中包括的预设标点符号,将两个预设标点符号之间的字符确定为一个分句,得到至少一个分句。其中,预设标点符号可以是句与句之间的分隔符,可以包括句号、逗号、感叹号、分号等。

步骤103,在至少一个分句中,确定包含预设的关联关键词的分句。

其中,技术人员可以在服务器中预先存储关联关键词的词库,在该词库中包含多个预设的关联关键词,关联关键词是可以表征两个对象之间的关系的词语,如a公司收购b公司,a公司是c公司的子公司等,关联关键词可以有“投资”、“控股人”、“收购”、“母公司”等。

在实施中,服务器得到多个分句后,可以按照预设的分词规则对每个分句进行分词处理,使用分词得到的多个词语匹配预设的关联关键词,如果某个分句分词得到的多个词语中包括任一关联关键词,则将该分句确定为包含预设的关联关键词的分句,这样可以确定出包含预设的关联关键词的分句。例如,某个分句是“**有限责任公司投资了##有限责任公司”,进行分词后得到的词语是“**有限责任公司”、“投资”、“了”、“##有限责任公司”,预设的关联关键词中包括“投资”,所以这个分句为包含预设的关联关键词的分句。

需要说明的是,上述提到的预设的分词规则可以为任一分词规则,如crf(conditionalrandomfield,条件随机场)模型等,本发明实施例不做限定。

步骤104,对于包含关联关键词的每个分句,确定分句的句式类型,根据分句的句式类型、关联关键词的词性、以及关联关键词在分句中的位置,确定分句中包含的企业关联关系信息。

其中,在预先存储的关联关键词的词库中,各个关联关键词对应有自己的词性,关联关键词的词性有动词、名词等,如动词有投资、增资、收购等,名词有控股人、子公司、母公司、控股股东等。企业关联关系信息包括基于关联关键词,构建的多个企业之间的关联关系,如关联关键词为“收购”,关联关系信息为实施对象—收购—受施对象、实施对象—母公司—受施对象等。

在实施中,对于包含关联关键词的某个分句,服务器可以首先确定分句的句式类型,然后使用分句的句式类型、关联关键词的词性、以及关联关键词在分句中的位置,来确定出该分句中包含的企业关联关系信息。

可选的,服务器可以使用关联关键词的句式模板,来确定包含预设的关联关键词的分句的句式类型,相应的处理可以如下:

根据预设的关联关键词、关联关键词的句式模板与句式类型的对应关系,确定分句的句式类型。

在实施中,关联关键词、关联关键词的句式模板与句式类型的对应关系可以由技术人员预设,并且存储至服务器中,技术人员确定关联关键词后,可以设计出不同的关联关键词的句式模板,如关联关键词为“投资”,句式模板可以为“(向|为|给|对)……(投资)”、“(被)……(投资)”“……(投资)……”等,关联关键词为“母公司”句式模板可以为“(作为|为)……(母公司)”等。技术人员还定义了几种句式类型,如被动句式类型、隐藏关系句式类型和明显关系句式类型,技术人员为关联关键词的句式模板都确定了句式类型,如关联关键词为“投资”,句式模板为“(向|为|给|对)……(投资)”,句式类型为隐藏关系句式类型,关联关键词为“投资”,句式模板为“(被)……(投资)”,句式类型为被动句式类型等,关联关键词为“投资”,句式模板为“……(投资)……”,句式类型为明显关系句式类型。然后将上述内容分别存储至关联关键词、关联关键词的句式模板与句式类型的对应关系中,如表一所示。

表一

服务器在确定出包含预设的关联关键词的分句后,对于某个分句,可以使用关联关键词的句式模板匹配包含预设的关联关键词的分句,匹配到某个关联关键词的句式模板,可以将该关联关键词的句式模板对应的句式类型,确定为该分句的句式类型。例如,分句为“**有限责任公司被##有限责任公司收购”,分词后为“**有限责任公司”、“被”、“##有限责任公司”、“收购”,该分句中包括的关联关键词为“投资”,从“投资”对应的句式模板中,匹配到“(被)……(投资)”,所以该分句的句式类型为被动句式类型。

需要说明的是,句式模板中除关联关键词之外的词可以称为分句类型词,例如,句式模板为“(被)……(投资)”,分句类型词为“被”。

可选的,如果分句中包含预设的并列词语,步骤104的处理可以如下:

如果分句中包含预设的并列词语,则将分句中包含的预设的并列关键词替换为预设字符,基于替换后的分句的句式类型,关联关键词在替换后的分句中的位置、以及替换后的分句中包含的关联关键词的词性,确定替换后的分句中包含的企业关联关系信息。

其中,预设的并列词语可以由技术人员预设,并且存储至服务器中,预设的并列词语是体现多个对象是并列关系的词语,如“联手”、“联合”、“和”、“与”、“、”等。预设字符也是由技术人员预设,并且存储至服务器中,如“&”、“、”等。

在实施中,服务器确定出某个分句中包括预设的并列词语,可以基于该分句分词处理后得到的词语,在该分句中查看是否包括预设的并列词语,如果包括预设的并列词语,则替换为预设字符,例如,分句为“a公司和b公司联手开发了o产品”,可以将该分句中的“和”、“联手”替换为预设字符“&”,替换后的分句为“a公司&b公司&开发了o产品”。然后使用分句的句式类型、关联关键词的词性和关联关键词在替换后的分句中的位置,确定替换后的分句中包含的企业关联关系信息。

可选的,如果分句的句式类型为被动句式类型或隐藏关系句式类型,可以先对分句进行调整,然后再确定调整后的分句中包含的企业关联关系信息。相应的步骤104的处理可以如下:

如果分句的句式类型为被动句式类型或隐藏关系句式类型,则将分句中包含的关联关键词调整至第一位置处,基于关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息,其中,所述第一位置为所述分句包含的句式模板中的句式类型词之前与句式类型词相邻的位置,如分句为“**有限责任公司被##有限责任公司收购”,第一位置为“被”之前与“被”相邻的位置,句式类型词为关联关键词的句式模板中除关联关键词之外的词语。

在实施中,如果分句的句式类型为被动句式或隐藏关系句式,服务器可以将该分句中包含的关联关键词的位置进行调整,可以将关联关键词调整至该第一位置。然后使用关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息。例如,分句的句式类型为被动句式类型,分句为“**有限责任公司被##有限责任公司收购”,分词后为“**有限责任公司”、“被”、“##有限责任公司”、“收购”,该分句中第一位置处为“被”之前,可以将“收购”调整至“被”之前,这样,调整后的分句为“**有限责任公司收购被##有限责任公司”,然后可以基于“收购”的词性和“收购”在调整后的分句中的位置,确定出该分句中包含的企业关联关系信息。再例如,分句的句式类型为隐藏关系句式,分句为“**有限责任公司向##有限责任公司增资”,分词后为“**有限责任公司”、“向”、“##有限责任公司”、“增资”,可以将“增资”调整至“向”的前面,调整后的分句为“**有限责任公司增资向##有限责任公司”,然后可以基于“增资”的词性和“增资”在调整后的分句中的位置,确定出该分句中包含的企业关联关系信息。

可选的,如果分句的句式类型为被动句式类型,且分句中包含的关联关键词的词性为动词,基于关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息的方法如下:

从关联关键词在调整后的分句中的位置处开始,向后识别,将识别到的第一企业名称,确定为关联关键词的实施对象的名称,并向前识别,将识别到的第二企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

在实施中,分句的句式类型为被动句式类型,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个分词的词性,从关联关键词在调整后的分句的位置处开始,结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词所在位置处向后识别关联关键词之后被标注为名词的词语,如果能识别到第一企业名称,则将第一企业名称确定为关联关键词的实施对象,并结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词在调整后的分句的位置处开始,向前识别关联关键词之前被标注为名词的词语,将识别得到的第一企业名称,确定为关联关键词的受施对象的名称,确定出的企业关联关系信息为“第一企业名称”—“关联关键词”—“第二企业名称”。

例如,分句为“a公司被b公司收购”,“收购”的词性为动词,调整后的分句为“a公司收购被b公司”,从“收购”向后识别,识别到b公司,将b公司确定为“收购”的实施对象的名称,向前识别,识别到a公司,将a公司确定为“收购”的受施对象的名称,企业关联关系信息为“b公司”—“收购”—“a公司”。

可选的,如果分句的句式类型为被动句式类型,且分句中包含的关联关键词的词性为名词,基于关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息的方法如下:

从关联关键词在调整后的分句中的位置处开始,向前识别,将识别到的第三企业名称,确定为关联关键词的实施对象的名称,并向后识别,将识别到的第四企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

在实施中,分句的句式类型为被动句式类型,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个分词的词性,从关联关键词在调整后的分句的位置处开始,结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词所在位置处向前识别,关联关键词之前被标注为名词的词语,如果能识别到第三企业名称,则将第三企业名称确定为关联关键词的实施对象,并结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词在调整后的分句的位置处开始,向后识别关联关键词之后被标注为名词的词语,将识别得到的第四企业名称,确定为关联关键词的受施对象的名称,确定出的企业关联关系信息为“第三企业名称”—“关联关键词”—“第四企业名称”。

例如,分句为“a公司作为c公司的母公司”,“母公司”的词性为名词,调整后的分句为“a公司母公司作为c公司的”,从“母公司”向前识别,识别到a公司,将a公司确定为“母公司”的实施对象的名称,向后识别,识别到c公司,将c公司确定为“母公司”的受施对象的名称,企业关联关系信息为“a公司”—“母公司”—“c公司”。

可选的,如果分句的句式类型为隐藏关系句式类型,且分句中包含的关联关键词的词性为动词,基于关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息的方法如下:

从关联关键词在调整后的分句中的位置处开始,向前识别,将识别到的第五企业名称,确定为关联关键词的实施对象的名称,并向后识别,将识别到的第六企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

在实施中,分句的句式类型为隐藏关系句式类型,在使用crf模型对每个分句进行分词处理时,同时可以标注出分词的词性,从关联关键词在调整后的分句的位置处开始,结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词所在位置处向前识别,关联关键词之前被标注为名词的词语,如果能识别到第五企业名称,则将第五企业名称确定为关联关键词的实施对象,并结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词在调整后的分句的位置处开始,向后识别关联关键词之后被标注为名词的词语,将识别得到的第六企业名称,确定为关联关键词的受施对象的名称,确定出的企业关联关系信息为“第五企业名称”—“关联关键词”—“第六企业名称”。

例如,分句为“e公司向c公司增资300万元”,“增资”的词性为动词,调整后的分句为“e公司增资向c公司300万元”,从“增资”向前识别,识别到e公司,将e公司确定为“增资”的实施对象的名称,向后识别,识别到c公司,将c公司确定为“增资”的受施对象的名称,企业关联关系信息为“e公司”—“增资”—“c公司”。

可选的,如果分句的句式类型为明显关系句式类型,则需要判断关联关键词的词性,如果词性为名词,步骤104的处理可以如下:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向后识别,如果识别到第七企业名称,则将第七企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向前识别,将识别到的第八企业名称,确定为关联关键词的受施对象的名称;基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

其中,在此处关联关键词的词性为名词,如“控股股东”、“控股人”、“母公司”、“子公司”等。第七企业名称和第八企业名称为任一企业名称。

在实施中,服务器确定出包含预设的关联关键词的分句后,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个分词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词所在位置处向后识别,关联关键词之后被标注为名词的词语,如果能识别到第七企业名称,则将第七企业名称确定为关联关键词的实施对象,并结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词的位置处开始,向前识别关联关键词之前被标注为名词的词语,将识别得到的第八企业名称,确定为关联关键词的受施对象的名称。然后使用关联关键词,得到的企业关联关系信息为第七企业名称—关联关键词—第八企业名称,这样,就可以确定出这个分句中包含的企业关联关系信息,依此类推可以确定出包含关联关键词的每个分句中包含的企业关联关系信息。

例如,包含关联关键词的分句为“a公司的子公司为f公司”,进行分句处理后,得到的词语从前往后为“a公司”、“的”、“子公司”、“f公司”,服务器可以从“子公司”向后识别,识别到“f公司”,将“f公司”确定为关联关键词的实施对象的名称,然后可以从“子公司”向后识别,识别到“a公司”,这样确定出的企业关联关系信息为“f公司”—“子公司”—“a公司”。

可选的,如果分句的句式类型为明显关系句式类型,则需要判断关联关键词的词性,如果词性为动词,步骤104的处理可以如下:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向前识别,如果识别到第九企业名称,则将第九企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向后识别,将识别到的第十企业名称,确定为关联关键词的受施对象的名称;基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

其中,关联关键词的词性为动词,如“投资”、“增资”、“收购”等。第九企业名称和第十企业名称为任一企业名称。

在实施中,服务器确定出包含预设的关联关键词的分句后,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个分词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词所在位置处向前识别,关联关键词之前被标注为名词的词语,如果能识别到第九企业名称,则将第九企业名称确定为关联关键词的实施对象,并结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词的位置处开始,向后识别关联关键词之后被标注为名词的词语,将识别得到的第十企业名称,确定为关联关键词的受施对象的名称。然后使用关联关键词,得到的企业关联关系信息为第九企业名称—关联关键词—第十企业名称,这样,就可以确定出这个分句中包含的企业关联关系信息,依此类推可以确定出包含关联关键词的每个分句中包含的企业关联关系信息。

例如,包含关联关键词的分句为“a公司投资了d公司”,进行分句处理后,得到的词语从前往后为“a公司”、“投资”、“了”、“d公司”,服务器可以从“投资”向前识别,识别到“a公司”,将“a公司”确定为关联关键词的实施对象的名称,然后可以从“投资”向后识别,识别到“d公司”,这样确定出的企业关联关系信息为“a公司”—“投资”—“d公司”。

需要说明的是,在本发明实施例中,也可以先将预设的并列词语替换为预设字符,然后判断分句的句式类型,如果分句的句式类型为明显关系句式类型,且分句中包含的关联关键词的词性为动词,从关联关键词在调整后的分句的位置处开始,可以向前识别关联关键词之前被标注为名词的词语,如果识别到第十一企业名称,且第十一企业名称的前面存在预设字符,则继续向前识别被标注为名词的词语,如果识别到第十二企业名称,且前面没有预设字符,则将第十一企业名称和第十二企业名称,确定为关联关键词的实施对象的名称。并且从关联关键词在调整后的分句的位置处开始,向后向前识别关联关键词之后被标注为名词的词语,如果识别到第十三企业名称,且第十三企业名称的后面不存在预设字符,则将第十三企业名称确定为关联关键词的受施对象的名称。确定出的企业关联关系信息为“第十一企业名称、第十二企业名称”—“关联关键词”—“第十三企业名称”。

例如,预设字符为&,分句为“a公司与s公司联手增资p公司”,替换后的分句为“a公司&s公司&增资p公司”,向前识别,在识别到s公司后,前面有预设符号&,继续向前识别,识别到a公司,a公司的前面没有预设符号,则停止识别,然后从“增资”向后识别,识别到“p公司”,“p公司”的后面没有预设字符&,停止识别,确定出的企业关联关系信息为“a公司、s公司—“增资”—p公司”。

需要说明的是,此处仅以先判断是否包含预设的并列词语,再判断句式类型,同样也可以先判断句式类型,再判断是否包含预设的并列词语,本发明实施例不做限定。另外,此处仅以分句的句式类型为明显关系句式类型为例进行说明,同样,对于被动句式类型和隐藏关系句式类型,还需要进行调整关联关键词的位置,基于调整后的分句,进行企业关联关系信息的识别,基于调整后的分句,进行企业关联关系信息的识别与明显关系句式类型中的处理方法相同,此处不再赘述。

还需要说明的是,如果某个分句中包括预设的并列词语,且关联关键词为某些预设词语,这些关联关键词不会存在受施对象,如合作伙伴、战略合作关系等,服务器在分句中检测到这些关联关键词后,可以将并列词语替换为预设字符,然后由关联关键词所在位置处,向前识别关联关键词之前被标注为名词的词语,如果识别到企业名称,可以确定该企业名称之前是否存在预设字符,如果存在预设字符,则继续向前识别被标注为名词的词语,识别到另一企业名称,可以确定另一企业名称之前是否存在预设字符,如果不存在预设字符,则将这两个企业名称确定为关联关键词的实施对象的名称,如果存在预设字符,直到不存在预设字符为止。例如,分句为“a公司和g公司是合作伙伴”,存在并列词语“和”,将“和”替换为&,替换后的分句为“a公司&g公司是合作伙伴”,确定出的企业关联关系信息可以是“a公司、g公司—合作伙伴”,表示a公司和g公司为合作伙伴。

可选的,在确定分句中包含的企业关联关系信息后,再基于分句中包含的否定词语来确定企业关联关系信息是否准确,相应的处理可以如下:

如果分句中包括的任意两个企业名称之间不包括预设的否定词语,则存储确定出的企业关联关系信息,如果分句中包括的任意两个企业名称之间包括预设的否定词语,则不存储确定出的企业关联关系信息。

其中,预设的否定词语指包含否定意思的词语,可以由技术人员预设,并且存储至服务器中,如并非、并未、拟等。

在实施中,服务器确定某个分句中包含的企业关联关系信息后,可以进一步使用预设的否定词语去匹配该分句,确定该分句中是否包含预设的否定词语,如果包含预设的否定词语,则进一步判断预设的否定词语是否在任意两个企业名称之间,如果在任意两个企业名称之间,则不存储该分句中包含的企业关联关系信息,如果不在任意两个企业名称之间,则存储该分句中包含的企业关联关系信息。

例如,分句为“a公司拟投资b公司”,确定出的企业关联关系信息为“a公司—投资—b公司”,服务器确定出该分句中包括预设的否定词语“拟”,并且“拟”在两个企业名称之间,则不存储该分句中包含的企业关联关系信息。再例如,分句为“a公司收购f公司的消息并非是我们发布的”,确定出的企业关联关系信息为“a公司—收购—f公司”,服务器中确定出该分句中包括预设的否定词语“并非”,但是“并非”不在两个企业名称之间,可以存储该分句中包含的企业关联关系信息。

可选的,本发明实施例中还提供了在确定包含的企业的关联关系信息之前,对包含预设的关联关键词的分句进行过滤,相应的处理可以如下:

基于预设的干扰过滤关键词,对包含关联关键词的分句进行过滤。

在实施中,技术人员在服务器中预先存储了干扰过滤关键词,干扰过滤关键词是可能出现在句子中的新闻报道相关的词语,如报道、刊登、披露、记者和新闻等。

服务器在确定出包含预设的关联关键词的分句后,可以使用预设的干扰过滤词匹配包含预设的关联关键词的每个分句,如果某个分句中匹配到任一干扰过滤关键词,则将该分句过滤,不对该分句进行确定企业关联关系信息的处理。例如,某个分句为“##新闻传媒有限公司报道了**有限责任公司的控股股东为##有限责任公司”,该分句被分词处理后得到的词语为“##新闻传媒有限公司”、“报道”“了”、“**有限责任公司”、“的”“控股股东”、“为”、“##有限责任公司”,由于该分句匹配到干扰过滤关键词“报道”,所以可以将该分句过滤。这样,由于怕误识别到新闻媒体类的企业名称,使确定出的企业关联关系信息不准确,所以对包含新闻报道相关的词语进行过滤。

另外,还可以使用干扰过滤关键词组成的句式模板,对包含预设的关联关键词的分句进行过滤,相应的处理可以如下:

技术人员在服务器中预先存储了干扰过滤关键词组成的预设句式模板,如“据……报道/披露/发布/透露”、“……广播披露/发布/透露”等,服务器可以使用干扰过滤关键词组成的预设句式模板,对包含预设的关联关键词的分句进行过滤,凡是包含干扰过滤关键词组成的预设句式模板的分句,都被过滤,不对这些分句进行确定包含的企业关联关系信息的处理。

需要说明的是,本发明实施例中,确定出的企业关联关系信息使用“实施对象—关联关键词—受施对象”这种形式保存企业关联关系信息,同样也可以使用其它方式来保存企业关联关系信息,本发明实施例不做限定。

本发明实施例中,在待检测文本的各个包含预设的关联关键词的分句中,确定出包含的企业关联关系信息,服务器可以进行查重处理,将重复的企业关联关系信息删除,并且将确定出有矛盾的企业关联关系信息发送至技术人员所使用的终端,由技术人员进行确认。

另外,在确定企业关联关系信息之前,还可以对待检测文本进行预处理,相应的处理可以如下:

技术人员在服务器中预先存储了多个指示代词,指示代词可以分为回指类指示代词和预指类指示代词,回指类指示代词指该代词所要指示的对象在该代词之前,预指类指示代词指该代词所要指示的对象在该代词之后,回指类指示代词可以分为全局回指类指示代词和局部回指类指示代词,全局回指类指示代词有“本公司”等,局部回指类指示代词有“该公司”、“上述公司”等,预指类指示代词有“母公司”、“子公司”等。

如果待检测文本中出现全局回指类指示代词,可以从全局回指类指示代词的位置处,向前识别,直到待检测文本中最早出现该代词的位置,然后向前识别与该代词最近的企业名称。将后续全局回指类指示代词出现的位置都替换为识别出的企业名称。例如,识别到“本公司”对应的企业名称为“abc有限责任公司”,可以将待检测文本中出现的“本公司”替换为“abc有限责任公司”。

如果待检测文本中出现局部回指类指示代词,可以从局部回指类指示代词的位置处,向前识别,识别距离该位置处最近的企业名称,然后将局部回指类指示代词替换为识别到的企业名称,例如,局部回指类指示代词为“该公司”,向前识别到的企业名称为“d有限责任公司”,可以将“该公司”替换为“d有限责任公司”。

如果待检测文本中出现预指类指示代词,可以向后识别,识别距离该位置处最近的企业名称,然后将预指类指示代词替换为识别到的企业名称,并将待检测文本中后续出现的预指类指示代词替换为识别到的企业名称。例如,预指类指示代词为“子公司”,待检测文本中出现“子公司”的位置处的句子为“e公司的子公司为f公司”,可以确定子公司代表“f公司”,可以将待检测文本中后续出现的“子公司”替换为“f公司”。需要说明的,这种处理方法仅使用于待检测文本中的预指类指示代词仅表示一个公司,如果待检测文本中出现“e公司的子公司为f公司,a公司的子公司为d公司”,这种情况不适用。

技术人员还在服务器中存储了句式模板,如(…称…)、(…简称…)等。如果分句中存在这样的句式模板,可以向前识别,将识别到的企业名称与句式模板中“称”之后的企业名称,确定为同一企业名称。句式模板还可以是(…称…或称…),如果分句中存在这样的句式模板,可以向前识别,将识别到的企业名称与句式模板中“称”、“或称”之后的企业名称,确定为同一企业名称。

经过对待检测文本进行上述预处理,可以使待检测文本中包含的企业名称更全,进而确定出的企业关联关系信息更全。

步骤105,如果企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数小于或等于第一预设数值,则在分句中,基于企业名称后缀之前的各字符,补全目标企业名称,将补全后的目标企业名称更新至企业关联关系信息中。

其中,企业名称后缀由技术人员预先存储至服务器中,如有限责任公司、有限公司、股份有限公司等,此处提到的企业名称后缀的确定方法如下:将40000个企业名称全称作为训练集,一般企业名称后缀出现在企业名称全称的最后,所以从企业名称全称的最后开始,匹配任意两个企业名称全称,直到没有相同的字符,将确定出的相同的字符串记录下来,直到40000个企业名称全称中任意两个都匹配完,记录下多个不同的字符串,这多个不同的字符串即为企业名称后缀。另外,为了防止确定出的企业名称后缀有错误,技术人员可以进行人工筛选,确定出最终的企业名称后缀。

目标企业名称为分句中包括的企业关联关系信息中的任一企业名称。第一预设数值可以由技术人员预设,并且存储至服务器中,如第一预设数值为3等,一般企业名称的全称中除去包括的企业名称后缀后字符数也应该大于一定数值,该数值为第一预设数值,如果企业名称的全称中除去包括的企业名称后缀后字符数比较小,说明企业名称为全称缺失的企业名称。

在实施中,对于每个分句,在确定出企业关联关系信息后,可以使用预设的企业名称后缀与企业关联关系信息中的企业名称进行匹配,可以从企业名称的最后边进行匹配,如果企业关联关系信息中的目标企业名称匹配到企业名称后缀,可以确定目标企业名称除去包括的企业名称后缀后的字符数,如果该字符数小于或等于第一预设数值,可以确定目标企业名称为全称缺失的企业名称。然后使用该分句中企业名称后缀之前的各字符,来补全目标企业名称,然后将补全后的目标企业名称更新至企业关联关系信息中。这样,企业关联关系信息中的目标企业名称为全称,会使企业关联关系信息中的企业名称更统一,更方便统计。例如,分句为“据报道网络创新科技有限责任公司收购了网络共享有限责任公司”,第一预设数值为3,企业关联关系信息中目标企业名称为科技有限责任公司,除去有限责任公司后的字符为“科技”,字符数小于3,则确定目标企业名称为全称缺失的企业名称,可以使用有限责任公司之前的各字符补全目标企业名称。

另外,如果企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数大于第一预设数值,则确定目标企业名称不是全称缺失的企业名称,则不对该企业关联关系信息中的企业名称进行补全。

可选的,可以使用企业名称后缀之前存在的地名,来补全目标企业名称,相应的处理可以如下:

在分句中,如果企业名称后缀之前存在地名,则截取地名的开始位置处至企业名称后缀的结束位置处的字符串,确定为补全后的目标企业名称。

在实施中,在步骤102中,对分句使用crf模型进行分词处理时,还可以标注出分句中存在的地名,如果目标企业名称中的企业名称后缀之前存在地名,服务器可以截取地名的开始位置至企业名称后缀的结束位置处的字符串,然后将该字符串,确定为补全后的目标企业名称。例如,分句为“北京创新传媒有限责任公司投资了山东新型传媒有限责任公司”,企业关联关系信息为“北京创新传媒有限责任公司—投资—传媒有限责任公司”“传媒有限责任公司”除去企业名称后缀后的字符为“传媒”,字符数小于第一预设数值,可以截取“山东”至“有限责任公司”的字符串,为目标企业名称的全称,补全后的目标企业名称为“山东新型传媒有限责任公司”,进而企业关联关系信息为“北京创新传媒有限责任公司—投资—山东新型传媒有限责任公司”。

可选的,如果目标企业名称包括的企业名称后缀之前存在地名,还需要考虑地名是否被括号标注,相应的处理可以如下:

在分句中,如果企业名称后缀之前存在地名,则确定地名是否被括号标注;

如果地名未被括号标注,则截取地名的开始位置处至企业名称后缀的结束位置处的字符串,确定为补全后的目标企业名称;如果地名被括号标注,则确定所述目标企业名称之前存在的多个相邻的名词短语,将地名、多个相邻的名词短语按照在分句中的位置顺序,添加到目标企业名称之前,组成补全后的目标企业名称。

在实施中,在步骤102中,对分句使用crf模型进行分词处理时,还可以标注出分句中存在的地名,以及分句分词处理后的多个词语的词性。如果目标企业名称中的企业名称后缀之前存在地名,然后再判断地名是否被括号标注,如括号是中英文小括号“()”,形式为(北京)、(山西)、(海南)等。如果地名未被括号标注,可以截取地名的开始位置至企业名称后缀的结束位置处的字符串,然后将该字符串,确定为补全后的目标企业名称。

如果地名被括号标注,可以确定分句中目标企业名称之前被标注为名词的名词短语,然后判断被标注为名词的名词短语是否相邻,如果相邻,可以将地名、多个相邻的名词短语按照在分句中的位置顺序,添加到目标企业名称之前,这样就可以组成补全后的目标企业名称。例如,分句为“网络科技(上海)创新有限责任公司投资了山东新型传媒有限责任公司”,得到的企业关联关系信息为“创新有限责任公司—投资—山东新型传媒有限责任公司”,目标企业名称为“创新有限责任公司”,“有限责任公司”之前存在地名,并且被括号标注,在分句中,目标企业名称之前存在两个相邻的名词短语“网络”、“科技”,可以将“网络”、“科技”“(上海)”添加到目标企业名称之前,得到补全后的目标企业名称为“网络科技(上海)创新有限责任公司”,进而得到最终的企业关联关系信息为“网络科技(上海)创新有限责任公司—投资—山东新型传媒有限责任公司”。

另外,如果地名被括号标注,可以确定分句中企业名称后缀之前被标注为名词或动词的词语,然后判断被标注为名词的名词短语或标注为动词的动词短语是否相邻,如果相邻,可以将地名、多个相邻的名词短语与动词短语按照在分句中的位置顺序,添加到目标企业名称之前,这样就可以组成补全后的目标企业名称。例如,分句为“创新科技(上海)传媒有限责任公司投资了山东新型传媒有限责任公司”,得到的企业关联关系信息为“传媒有限责任公司—投资—山东新型传媒有限责任公司”,目标企业名称为“传媒有限责任公司”,“有限责任公司”之前存在地名,并且被括号标注,在分句中,目标企业名称之前存在两个相邻的名词短语与动词短语“创新”、“科技”,可以将“创新”、“科技”“(上海)”添加到目标企业名称之前,得到补全后的目标企业名称为“创新科技(上海)传媒有限责任公司”,进而得到最终的企业关联关系信息为“创新科技(上海)传媒有限责任公司—投资—山东新型传媒有限责任公司”。

另外,如果企业名称后缀之前不存在地名,可以直接确定目标企业名称之前存在的多个相邻的名词短语,则将多个相邻的名词短语,按照在分句中的位置顺序,添加到目标企业名称之前,组成补全后的目标企业名称,或者,直接确定目标企业名称之前存在的多个相邻的名词短语与动词短语,则将多个相邻的名词短语与动词短语,按照在分句中的位置顺序,添加到目标企业名称之前,组成补全后的目标企业名称,具体处理过程在后面详细叙述。

可选的,可以基于目标企业名称之前的名词短语与动词短语,补全目标企业名称,相应的处理可以如下:

在分句中,如果目标企业名称之前存在多个相邻的名词短语,则将多个相邻的名词短语,按照在分句中的位置顺序,添加到目标企业名称之前,组成补全后的目标企业名称;或者,

在分句中,如果目标企业名称之前存在多个相邻的名词短语与动词短语,则将多个相邻的名词短语与动词短语,按照在分句中的位置顺序,添加到目标企业名称之前,组成补全后的目标企业名称。

在实施中,在确定出分句中包含的企业关联关系信息后,可以在分句分词处理后得到的多个词语中,查找目标企业名称之前被标注为名词的名词短语,如果多个被标注为名词的名词短语相邻,可以将多个相邻的名词短语添加到目标企业名称之前,组成补全后的目标企业名称。例如,分句为“网络科技创新有限责任公司投资了山东新型传媒有限责任公司”,得到的企业关联关系信息为“创新有限责任公司—投资—山东新型传媒有限责任公司”,目标企业名称为“创新有限责任公司”,在分句中,目标企业名称之前存在两个相邻的名词短语“网络”、“科技”,可以将“网络”、“科技”添加到目标企业名称之前,得到补全后的目标企业名称为“网络科技创新有限责任公司”,进而得到最终的企业关联关系信息为“网络科技创新有限责任公司—投资—山东新型传媒有限责任公司”。

或者,在确定出分句中包含的企业关联关系信息后,可以在分句分词处理后得到的多个词语中,查找目标企业名称之前被标注为名词的名词短语与被标注为动词的动词短语,如果多个被标注的名词短语与动词短语相邻,可以将多个相邻的名词短语与动词短语,添加到目标企业名称之前,组成补全后的目标企业名称。例如,分句为“创新科技传媒有限责任公司投资了山东新型传媒有限责任公司”,得到的企业关联关系信息为“传媒有限责任公司—投资—山东新型传媒有限责任公司”,目标企业名称为“传媒有限责任公司”,目标企业名称之前存在两个相邻的名词短语与动词短语“创新”、“科技”,可以将“创新”、“科技”添加到目标企业名称之前,得到补全后的目标企业名称为“创新科技传媒有限责任公司”,进而得到最终的企业关联关系信息为“创新科技传媒有限责任公司—投资—山东新型传媒有限责任公司”。

可选的,为了更准确的补全目标企业名称,可以执行如下处理:

在分句中,如果目标企业名称之前的预设字符数范围内存在多个相邻的名词短语,则将多个相邻的名词短语,按照在分句中的位置顺序,添加到目标企业名称之前,组成补全后的目标企业名称;或者,

在分句中,如果目标企业名称之前的预设字符数范围内存在多个相邻的名词短语与动词短语,则将多个相邻的名词短语与动词短语,按照在分句中的位置顺序,添加到目标企业名称之前,组成补全后的目标企业名称。

其中,预设字符数范围可以由技术人员预设,并且存储至服务器中,如目标企业名称之前的6个字符内等。

在实施中,在确定出分句中包含的企业关联关系信息后,可以在分句分词处理后得到的多个词语中,查找目标企业名称之前预设字符数范围内,被标注为名词的名词短语,如果多个被标注为名词的名词短语相邻,可以将多个相邻的名词短语添加到目标企业名称之前,组成补全后的目标企业名称。这样,限定目标企业名称之前预设字符数范围内的名词短语,可以为了尽可能的将不是企业名称所包括的短语排除在外,使补全后的目标企业名称更准确。

或者,在确定出分句中包含的企业关联关系信息后,可以在分句分词处理后得到的多个词语中,查找目标企业名称之前预设字符数范围内,被标注为名词的名词短语与被标注为动词的动词短语,如果多个被标注的名词短语与动词短语相邻,可以将多个相邻的名词短语与动词短语,添加到目标企业名称之前,组成补全后的目标企业名称。这样,限定目标企业名称之前预设字符数范围内的名词短语与动词短语,可以为了尽可能的将不是企业名称所包括的短语排除在外,使补全后的目标企业名称更准确。

另外,在补全目标企业名称之后,可以将补全后的企业名称发送至技术人员所使用的终端,技术人员可以对补全后的目标企业名称进行审核,如果是正确的,可以将补全后的目标企业名称存储至crf模型中的词典模型中,后续在分句中,进行分词时,就可以直接将补全后的目标企业名称作为一个分词。

另外,企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数小于或等于第一预设数值,但是在分句中,目标企业名称的企业名称后缀之前不存在地名,也不存在多个相邻的名词短语,也不存在多个相邻的名词短语与动词短语,可以不保存该分句中包含的企业关联关系信息。

可选的,本发明实施例中还提供了重新提取企业关联关系信息的方法,相应的处理可以如下:

对包含关联关键词且未确定出企业关联关系信息的任一分句,将任一分句中包括的字符数大于第二预设数值的分词,与预设的企业名称词库中包括的企业名称进行匹配;如果匹配到预设的企业名称词库中包括的至少两个企业名称,则基于关联关键词的词性、任一分句的句式类型、以及关联关键词在任一分句中的位置,确定至少两个企业名称的企业关联关系信息。

其中,第二预设数值可以由技术人员预设,并且存储至服务器中,如第二预设数值可以是2。预设的企业名称词库包含大量的企业名称的简称、企业名称的全称、以及企业名称的简称和全称的对应关系。

在实施中,在待检测文本中的多个包含关联关键词的分句中,确定包含关联关键词且未确定出企业关联关系信息的分句,对于这些分句可以重新提取企业关联关系信息,对于这些分句中的任一分句,可以确定分词处理后字符数大于第二预设数值的分词,然后将每个分词与预设的企业名称词库中包括的企业名称进行匹配。如果分句中包含的分词匹配到至少两个企业名称,且匹配到的是企业名称的全称,可以使用关联关键词的词性、该任一分句的句式类型、以及关联关键词在该任一分句中的位置,确定这至少两个企业名称的企业关联关系信息。如果分句中包含的分词匹配到至少两个企业名称,且匹配到的是企业名称的简称,可以使用关联关键词的词性、该任一分句的句式类型、以及关联关键词在该任一分句中的位置,确定这至少两个企业名称的企业关联关系信息,然后从预设的企业名称词库中,确定企业名称的简称对应的全称,将企业关联关系信息中的企业名称的简称替换为企业名称的全称。

需要说明的是,在任一分句中匹配到至少两个企业名称后,确定这至少两个企业名称的企业关联关系信息的方法与步骤104的处理相同,都是首先确定任一分句的句式类型,然后使用关联关键词的词性和关联关键词在分句中的位置确定该任一分句中包含的企业关联关系信息,具体处理过程可以参见步骤104的处理,此处不再赘述。

另外,用户要查看企业关联关系信息可以在终端中安装企业关联关系的识别应用程序,并打开该识别应用程序,终端会显示该识别应用程序的主界面,主界面中显示有搜索框和搜索选项,用户可以在搜索框中输入待搜索的企业名称,然后点击搜索选项,终端则会检测到搜索选项的点击指令,向服务器发送该企业名称的关联关系查询请求。服务器接收到后,可以查找该与该企业名称相关的关联关系,然后发送至终端,终端可以对该企业名称对应的企业关联关系信息进行显示,显示方式可以是以图表的形式显示,例如,m公司投资了n公司,m公司的子公司是o公司,m收购了p公司和s公司,m公司增资了u公司,以上关联关系信息也可以由表格的形式显示,如图2所示。

需要说明的,本发明实施例中,服务器中预先存储了企业名称的全称与企业名称的简称的对应关系,上述企业关联关系信息中包括的企业名称为企业名称的全称,如果在分句中识别出企业名称的简称,可以将企业名称的简称对应到企业名称的全称上,将企业名称的全称存储至企业关联关系信息中。

本发明实施例中,获取待检测文本,对待检测文本进行拆分处理,得到至少一个分句,在至少一个分句中,确定包含预设的关联关键词的分句,对于包含关联关键词的每个分句,确定分句的句式类型,根据分句的句式类型、关联关键词的词性、以及关联关键词在分句中的位置,确定分句中包含的企业关联关系信息,如果企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数小于或等于第一预设数值,则在分句中,基于企业名称后缀之前的各字符,补全目标企业名称,将补全后的目标企业名称更新至企业关联关系信息中。这样,对于待检测文本,可以直接获取到待检测文本中包含的企业关联关系信息,而不需要人工去查看,提高了提取企业关联关系信息的效率。

基于相同的技术构思,本发明实施例还提供了一种基于补全策略的企业关联关系信息提取装置,如图3所示,该装置包括:

获取模块310,用于获取待检测文本;

拆分模块320,用于对所述待检测文本进行拆分处理,得到至少一个分句;

确定模块330,用于在所述至少一个分句中,确定包含预设的关联关键词的分句;

所述确定模块330,用于对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息;

补全模块340,用于如果所述企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数小于或等于第一预设数值,则在所述分句中,基于所述企业名称后缀之前的各字符,补全所述目标企业名称,将补全后的所述目标企业名称更新至所述企业关联关系信息中。

可选的,所述补全模块340,用于:

在所述分句中,如果所述企业名称后缀之前存在地名,则截取所述地名的开始位置处至所述企业名称后缀的结束位置处的字符串,确定为补全后的所述目标企业名称。

可选的,如图4所示,所述补全模块340包括确定子模块341和补全子模块342,其中:

所述确定子模块341,用于在所述分句中,如果所述企业名称后缀之前存在地名,则确定所述地名是否被括号标注;

所述补全子模块342,用于如果所述地名未被所述括号标注,则截取所述地名的开始位置处至所述企业名称后缀的结束位置处的字符串,确定为补全后的所述目标企业名称;如果所述地名被所述括号标注,则确定所述目标企业名称之前存在的多个相邻的名词短语,将所述地名、所述多个相邻的名词短语按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称。

可选的,所述补全模块340,用于:

在所述分句中,如果所述目标企业名称之前存在多个相邻的名词短语,则将所述多个相邻的名词短语,按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称;或者,

在所述分句中,如果所述目标企业名称之前存在多个相邻的名词短语与动词短语,则将所述多个相邻的名词短语与动词短语,按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称。

可选的,如图5所示,所述装置还包括:

匹配模块650,用于对包含关联关键词且未确定出企业关联关系信息的任一分句,将所述任一分句中包括的字符数大于第二预设数值的分词,与预设的企业名称词库中包括的企业名称进行匹配;

所述确定模块340,还用于如果匹配到所述预设的企业名称词库中包括的至少两个企业名称,则基于所述关联关键词的词性、所述任一分句的句式类型、以及所述关联关键词在所述任一分句中的位置,确定所述至少两个企业名称的企业关联关系信息。

本发明实施例中,获取待检测文本,对待检测文本进行拆分处理,得到至少一个分句,在至少一个分句中,确定包含预设的关联关键词的分句,对于包含关联关键词的每个分句,确定分句的句式类型,根据分句的句式类型、关联关键词的词性、以及关联关键词在分句中的位置,确定分句中包含的企业关联关系信息,如果企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数小于或等于第一预设数值,则在分句中,基于企业名称后缀之前的各字符,补全目标企业名称,将补全后的目标企业名称更新至企业关联关系信息中。这样,对于待检测文本,可以直接获取到待检测文本中包含的企业关联关系信息,而不需要人工去查看,提高了提取企业关联关系信息的效率。

需要说明的是:上述实施例提供的提取企业关联关系信息的装置在提取企业关联关系信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的提取企业关联关系信息的装置与提取企业关联关系信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

请参考图6,其示出了本发明实施例所涉及的服务器的结构示意图,该服务器可以用于实施上述实施例中提供的基于补全策略的企业关联关系信息的提取方法。具体来讲:

该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器600上执行存储介质1930中的一系列指令操作。

服务器600还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

服务器600可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

获取待检测文本;

对所述待检测文本进行拆分处理,得到至少一个分句;

在所述至少一个分句中,确定包含预设的关联关键词的分句;

对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息;

如果所述企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数小于或等于第一预设数值,则在所述分句中,基于所述企业名称后缀之前的各字符,补全所述目标企业名称,将补全后的所述目标企业名称更新至所述企业关联关系信息中。

可选的,所述在所述分句中,基于所述企业名称后缀之前的各字符,补全所述目标企业名称,包括:

在所述分句中,如果所述企业名称后缀之前存在地名,则截取所述地名的开始位置处至所述企业名称后缀的结束位置处的字符串,确定为补全后的所述目标企业名称。

可选的,所述在所述分句中,如果所述企业名称后缀之前存在地名,则截取所述地名的开始位置处至所述企业名称后缀的结束位置处的字符串,确定为补全后的所述目标企业名称,包括:

在所述分句中,如果所述企业名称后缀之前存在地名,则确定所述地名是否被括号标注;

如果所述地名未被所述括号标注,则截取所述地名的开始位置处至所述企业名称后缀的结束位置处的字符串,确定为补全后的所述目标企业名称;如果所述地名被所述括号标注,则确定所述目标企业名称之前存在的多个相邻的名词短语,将所述地名、所述多个相邻的名词短语按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称。

可选的,所述在所述分句中,基于所述企业名称后缀之前的各字符,补全所述目标企业名称,包括:

在所述分句中,如果所述目标企业名称之前存在多个相邻的名词短语,则将所述多个相邻的名词短语,按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称;或者,

在所述分句中,如果所述目标企业名称之前存在多个相邻的名词短语与动词短语,则将所述多个相邻的名词短语与动词短语,按照在所述分句中的位置顺序,添加到所述目标企业名称之前,组成补全后的所述目标企业名称。

可选的,所述方法还包括:

对包含关联关键词且未确定出企业关联关系信息的任一分句,将所述任一分句中包括的字符数大于第二预设数值的分词,与预设的企业名称词库中包括的企业名称进行匹配;

如果匹配到所述预设的企业名称词库中包括的至少两个企业名称,则基于所述关联关键词的词性、所述任一分句的句式类型、以及所述关联关键词在所述任一分句中的位置,确定所述至少两个企业名称的企业关联关系信息。

本发明实施例中,获取待检测文本,对待检测文本进行拆分处理,得到至少一个分句,在至少一个分句中,确定包含预设的关联关键词的分句,对于包含关联关键词的每个分句,确定分句的句式类型,根据分句的句式类型、关联关键词的词性、以及关联关键词在分句中的位置,确定分句中包含的企业关联关系信息,如果企业关联关系信息中目标企业名称除去包括的企业名称后缀后的字符数小于或等于第一预设数值,则在分句中,基于企业名称后缀之前的各字符,补全目标企业名称,将补全后的目标企业名称更新至企业关联关系信息中。这样,对于待检测文本,可以直接获取到待检测文本中包含的企业关联关系信息,而不需要人工去查看,提高了提取企业关联关系信息的效率。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1