一种提取企业关联关系信息的方法和装置与流程

文档序号:13005966阅读:293来源:国知局
一种提取企业关联关系信息的方法和装置与流程

本发明涉及计算机技术领域,特别涉及一种提取企业关联关系信息的方法和装置。



背景技术:

当今金融市场瞬息万变,企业管理者想要在指定战略决策中运筹帷幄,就需要快速准确的掌握企业之间的关联关系。通过企业之间的关联关系,企业管理者可以尽可能的规避投资风险,做出更合理的决策。

现有技术中一般是人工去网络上查找经济类的新闻报道,从中确定各个企业之间的关联关系,随着企业的增多,企业之间的关联关系变的错综复杂,人工查找会花费大量的时间,效率比较低。



技术实现要素:

为了解决现有技术的问题,本发明实施例提供了一种提取企业关联关系信息的方法和装置。所述技术方案如下:

第一方面,提供了一种提取企业关联关系信息的方法,所述方法包括:

获取待检测文本;

对所述待检测文本进行拆分处理,得到至少一个分句;

在所述至少一个分句中,确定包含预设的关联关键词的分句;

对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息。

可选的,所述确定所述分句的句式类型,包括:

根据预先存储的关联关键词、关联关键词的句式模板与句式类型的对应关系,确定所述分句的句式类型。

可选的,所述根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息,包括:

如果所述分句的句式类型为被动句式类型或隐藏关系句式类型,则将所述分句中包含的关联关键词调整至第一位置,基于所述关联关键词在调整后的分句中的位置、以及所述调整后的分句中包含的关联关键词的词性,确定所述调整后的分句中包含的企业关联关系信息,其中,所述第一位置为所述分句包含的句式模板中的句式类型词之前与句式类型词相邻的位置,句式类型词为关联关键词的句式模板中除关联关键词之外的词语。

可选的,所述根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息,包括:

如果所述分句中包含预设的并列词语,则将所述分句中包含的预设的并列关键词替换为预设字符,基于替换后的分句的句式类型,所述关联关键词在所述替换后的分句中的位置、以及所述替换后的分句中包含的关联关键词的词性,确定所述替换后的分句中包含的企业关联关系信息。

可选的,所述确定所述分句中包含的企业关联关系信息之后,还包括:

如果所述分句中包括的任意两个企业名称之间不包括否定词语,则存储确定出的企业关联关系信息,如果所述分句中包括的任意两个企业名称之间包括否定词语,则不存储确定出的企业关联关系信息。

第二方面,提供了一种提取企业关联关系信息的装置,所述装置包括:

获取模块,用于获取待检测文本;

拆分模块,用于对所述待检测文本进行拆分处理,得到至少一个分句;

第一确定模块,用于在至少一个分句中,确定包含预设的关联关键词的分句;

第二确定模块,用于对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息。

可选的,所述第二确定模块,用于:

根据预先存储的关联关键词、关联关键词的句式模板与句式类型的对应关系,确定所述分句的句式类型。

可选的,所述第二确定模块,用于:

如果所述分句的句式类型为被动句式类型或隐藏关系句式类型,则将所述分句中包含的关联关键词调整至第一位置,基于所述关联关键词在调整后的分句中的位置、以及所述调整后的分句中包含的关联关键词的词性,确定所述调整后的分句中包含的企业关联关系信息,其中,所述第一位置为所述分句包含的句式模板中的句式类型词之前与句式类型词相邻的位置,句式类型词为关联关键词的句式模板中除关联关键词之外的词语。

可选的,所述第二确定模块,用于:

如果所述分句中包含预设的并列词语,则将所述分句中包含的预设的并列关键词替换为预设字符,基于替换后的分句的句式类型,所述关联关键词在所述替换后的分句中的位置、以及所述替换后的分句中包含的关联关键词的词性,确定所述替换后的分句中包含的企业关联关系信息。

可选的,所述装置还包括:

存储模块,用于:

如果所述分句中包括的任意两个企业名称之间不包括否定词语,则存储确定出的企业关联关系信息,如果所述分句中包括的任意两个企业名称之间包括否定词语,则不存储确定出的企业关联关系信息。

本发明实施例提供的技术方案带来的有益效果是:

本发明实施例中,获取待检测文本,对所述待检测文本进行拆分处理,得到至少一个分句,确定包含预先存储的关联关键词的分句,对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息。这样,不需要人工去分析待检测文本,就能确定出企业关联关系信息,从而可以提高确定企业关联关系信息的效率。

附图说明

图1是本发明实施例提供的一种提取企业关联关系信息的方法的流程图;

图2是本发明实施例提供的一种企业关联关系信息的显示示意图;

图3是本发明实施例提供的一种企业关联关系信息的显示示意图;

图4是本发明实施例提供的一种提取企业关联关系信息的装置的结构示意图;

图5是本发明实施例提供的一种提取企业关联关系信息的装置的结构示意图;

图6是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种提取企业关联关系信息的方法,该方法的执行主体可以是服务器。其中,服务器是企业关联关系的识别应用程序的后台服务器,该服务器中可以设置有处理器、存储器和收发器等,处理器可以用于提取企业关联关系信息的过程的处理,存储器可以用于提取企业关联关系信息的过程中需要的数据以及产生的数据,收发器可以用于接收以及发送消息等。

如图1所示,该方法的处理流程可以包括如下的步骤:

步骤101,获取待检测文本。

在实施中,技术人员在服务器中预先存储了多个网址,如新闻媒体网站的网址等,服务器可以每隔预设时长访问这些网址,确定这些网址中是否有新的公告,如果有新的公告,则对新的公告进行复制,复制出的新的公告可以称为待检测文本。

另外,也可以由技术人员操作终端向服务器发送待检测文本,本发明实施例不做限定。

步骤102,对待检测文本进行拆分处理,得到至少一个分句。

在实施中,服务器获取到待检测文本后,可以从待检测文本的开始位置处查找其中包括的预设标点符号,将两个预设标点符号之间的字符确定为一个分句,得到至少一个分句。其中,预设标点符号可以是句与句之间的分隔符,可以包括句号、逗号、感叹号、分号等。

步骤103,在至少一个分句中,确定包含预设的关联关键词的分句。

其中,技术人员可以在服务器中预先存储关联关键词的词库,在该词库中包含多预设的个关联关键词,关联关键词是可以表征两个对象之间的关系的词语,如a公司收购b公司,a公司是c公司的子公司等,关联关键词可以有“投资”、“控股人”、“收购”、“合作伙伴”等。

在实施中,服务器得到多个分句后,可以按照预设的分词规则对每个分句进行分词处理,使用分词得到的多个词语匹配预设的关联关键词,如果某个分句分词得到的多个词语中包括任一关联关键词,则将该分句确定为包含预设的关联关键词的分句,这样可以确定出包含预设的关联关键词的分句。例如,某个分句是“**有限责任公司投资了##有限责任公司”,进行分句后得到的词语是“**有限责任公司”、“投资”、“了”、“##有限责任公司”,预设的关联关键词中包括“投资”,所以这个分句为包含预设的关联关键词的分句。

需要说明的是,上述提到的预设的分词规则可以为任一分词规则,如crf(conditionalrandomfield,条件随机场)模型等,本发明实施例不做限定。

步骤104,对于包含关联关键词的每个分句,确定分句的句式类型,根据分句的句式类型、关联关键词的词性、以及关联关键词在分句中的位置,确定分句中包含的企业关联关系信息。

其中,在预先存储的关联关键词的词库中,各个关联关键词对应有自己的词性,关联关键词的词性有动词、名词等,如动词有投资、增资、收购等,名词有控股人、子公司、母公司、控股股东等。企业关联关系信息包括基于关联关键词,构建的多个企业之间的关联关系,如关联关键词为“收购”,关联关系信息为实施对象—收购—受施对象、实施对象—母公司—受施对象等。

在实施中,对于包含关联关键词的某个分句,服务器可以首先确定分句的句式类型,然后使用分句的句式类型、关联关键词的词性、以及关联关键词在分句中的位置,来确定出该分句中包含的企业关联关系信息。

可选的,服务器可以使用关联关键词的句式模板,来确定包含预设的关联关键词的分句的句式类型,相应的处理可以如下:

根据预先存储的关联关键词、关联关键词的句式模板与句式类型的对应关系,确定分句的句式类型。

在实施中,关联关键词、关联关键词的句式模板与句式类型的对应关系可以由技术人员预设,并且存储至服务器中,技术人员确定关联关键词后,可以设计出不同的关联关键词的句式模板,如关联关键词为“投资”,句式模板可以为“(向|为|给|对)……(投资)”、“(被)……(投资)”“……(投资)……”等,关联关键词为“母公司”句式模板可以为“(作为|为)……(母公司)”等。技术人员还定义了几种句式类型,如被动句式类型、隐藏关系句式类型和明显关系句式类型,技术人员为关联关键词的句式模板都确定了句式类型,如关联关键词为“投资”,句式模板为“(向|为|给|对)……(投资)”,句式类型为隐藏关系句式类型,关联关键词为“投资”,句式模板为“(被)……(投资)”,句式类型为被动句式类型等,关联关键词为“投资”,句式模板为“……(投资)……”,句式类型为明显关系句式类型。然后将上述内容分别存储至关联关键词、关联关键词的句式模板与句式类型的对应关系中,如表一所示。

表一

服务器在确定出包含预设的关联关键词的分句后,对于某个分句,可以使用关联关键词的句式模板匹配包含预先存储的关联关键词的分句,匹配到某个关联关键词的句式模板,则将该关联关键词的句式模板对应的句式类型,确定为该分句的句式类型。例如,分句为“**有限责任公司被##有限责任公司收购”,分词后为“**有限责任公司”、“被”、“##有限责任公司”、“收购”,该分句中包括的关联关键词为“投资”,从“投资”对应的句式模板中,匹配到“(被)……(投资)”,所以该分句的句式类型为被动句式类型。

需要说明的是,句式模板中除关联关键词之外的词可以称为分句类型词,例如,句式模板为“(被)……(投资)”,分句类型词为“被”。

可选的,如果分句中包含预设的并列词语,步骤104的处理可以如下:

如果分句中包含预设的并列词语,则将分句中包含的预设的并列关键词替换为预设字符,基于替换后的分句的句式类型,关联关键词在替换后的分句中的位置、以及替换后的分句中包含的关联关键词的词性,确定替换后的分句中包含的企业关联关系信息。

其中,预设的并列词语可以由技术人员预设,并且存储至服务器中,预设的并列词语是体现多个对象是并列关系的词语,如“联手”、“联合”、“和”、“与”、“、”等。预设字符也是由技术人员预设,并且存储至服务器中,如“&”、“、”等。

在实施中,服务器确定出某个分句中包括预设的并列词语,可以基于该分句分词处理后得到的词语,在该分句中查看是否包括预设的并列词语,如果包括预设的并列词语,则替换为预设字符,例如,分句为“a公司和b公司联手开发了o产品”,可以将该分句中的“和”、“联手”替换为预设字符“&”,替换后的分句为“a公司&b公司&开发了o产品”。然后使用分句的句式类型、关联关键词的词性和关联关键词在替换后的分句中的位置,确定替换后的分句中包含的企业关联关系信息。

可选的,如果分句的句式类型为被动句式类型或隐藏关系句式类型,可以先对分句进行调整,然后再确定调整后的分句中包含的企业关联关系信息。相应的步骤104的处理可以如下:

如果分句的句式类型为被动句式类型或隐藏关系句式类型,则将分句中包含的关联关键词调整至第一位置,基于关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息。

其中,第一位置为分句包含的句式模板中的句式类型词之前与句式类型词相邻的位置,如分句为“**有限责任公司被##有限责任公司收购”,第一位置为“被”之前与“被”相邻的位置,句式类型词为关联关键词的句式模板中除关联关键词之外的词语。

在实施中,如果分句的句式类型为被动句式或隐藏关系句式,服务器可以将该分句中包含的关联关键词的位置进行调整,可以将关联关键词调整至第一位置。然后使用关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息。例如,分句的句式类型为被动句式类型,分句为“**有限责任公司被##有限责任公司收购”,分词后为“**有限责任公司”、“被”、“##有限责任公司”、“收购”,该分句中第一位置处为“被”之前,可以将“收购”调整至“被”之前,这样,调整后的分句为“**有限责任公司收购被##有限责任公司”,然后可以基于“收购”的词性和“收购”在调整后的分句中的位置,确定出该分句中包含的企业关联关系信息。再例如,分句的句式类型为隐藏关系句式,分句为“**有限责任公司向##有限责任公司增资”,分词后为“**有限责任公司”、“向”、“##有限责任公司”、“增资”,可以将“增资”调整至“向”的前面,调整后的分句为“**有限责任公司增资向##有限责任公司”,然后可以基于“增资”的词性和“增资”在调整后的分句中的位置,确定出该分句中包含的企业关联关系信息。

可选的,如果分句的句式类型为被动句式类型,且分句中包含的关联关键词的词性为动词,基于关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息的方法如下:

从关联关键词在调整后的分句中的位置处开始,向后识别,将识别到的第一企业名称,确定为关联关键词的实施对象的名称,并向前识别,将识别到的第二企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

在实施中,分句的句式类型为被动句式类型,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个分词的词性,从关联关键词在调整后的分句的位置处开始,结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词所在位置处向后识别关联关键词之后被标注为名词的词语,如果能识别到第一企业名称,则将第一企业名称确定为关联关键词的实施对象,并结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词在调整后的分句的位置处开始,向前识别关联关键词之前被标注为名词的词语,将识别得到的第二企业名称,确定为关联关键词的受施对象的名称,确定出的企业关联关系信息为“第一企业名称”—“关联关键词”—“第二企业名称”。

例如,分句为“a公司被b公司收购”,“收购”的词性为动词,调整后的分句为“a公司收购被b公司”,从“收购”向后识别,识别到b公司,将b公司确定为“收购”的实施对象的名称,向前识别,识别到a公司,将a公司确定为“收购”的受施对象的名称,企业关联关系信息为“b公司”—“收购”—“a公司”。

可选的,如果分句的句式类型为被动句式类型,且分句中包含的关联关键词的词性为名词,基于关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息的方法如下:

从关联关键词在调整后的分句中的位置处开始,向前识别,将识别到的第三企业名称,确定为关联关键词的实施对象的名称,并向后识别,将识别到的第四企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

在实施中,分句的句式类型为被动句式类型,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个分词的词性,从关联关键词在调整后的分句的位置处开始,结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词所在位置处向前识别关联关键词之前被标注为名词的词语,如果能识别到第三企业名称,则将第三企业名称确定为关联关键词的实施对象,并结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词在调整后的分句的位置处开始,向后识别关联关键词之后被标注为名词的词语,将识别得到的第四企业名称,确定为关联关键词的受施对象的名称,确定出的企业关联关系信息为“第三企业名称”—“关联关键词”—“第四企业名称”。

例如,分句为“a公司作为c公司的母公司”,“母公司”的词性为名词,调整后的分句为“a公司母公司作为c公司的”,从“母公司”向前识别,识别到a公司,将a公司确定为“母公司”的实施对象的名称,向后识别,识别到c公司,将c公司确定为“母公司”的受施对象的名称,企业关联关系信息为“a公司”—“母公司”—“c公司”。

可选的,如果分句的句式类型为隐藏关系句式类型,且分句中包含的关联关键词的词性为动词,基于关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息的方法如下:

从关联关键词在调整后的分句中的位置处开始,向前识别,将识别到的第五企业名称,确定为关联关键词的实施对象的名称,并向后识别,将识别到的第六企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

在实施中,分句的句式类型为隐藏关系句式类型,在使用crf模型对每个分句进行分词处理时,同时可以标注出分词的词性,从关联关键词在调整后的分句的位置处开始,结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词所在位置处向前识别关联关键词之前被标注为名词的词语,如果能识别到第五企业名称,则将第五企业名称确定为关联关键词的实施对象,并结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词在调整后的分句的位置处开始,向后识别关联关键词之后被标注为名词的词语,将识别得到的第六企业名称,确定为关联关键词的受施对象的名称,确定出的企业关联关系信息为“第五企业名称”—“关联关键词”—“第六企业名称”。

例如,分句为“e公司向c公司增资300万元”,“增资”的词性为动词,调整后的分句为“e公司增资向c公司300万元”,从“增资”向前识别,识别到e公司,将e公司确定为“增资”的实施对象的名称,向后识别,识别到c公司,将c公司确定为“增资”的受施对象的名称,企业关联关系信息为“e公司”—“增资”—“c公司”。

可选的,如果分句的句式类型为明显关系句式类型,则需要判断关联关键词的词性,如果词性为名词,步骤104的处理可以如下:在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向后识别,如果识别到第七企业名称,则将第七企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向前识别,将识别到的第八企业名称,确定为关联关键词的受施对象的名称;基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

其中,在此处关联关键词的词性为名词,如“控股股东”、“控股人”、“母公司”、“子公司”等。第七企业名称和第八企业名称为任一企业名称。

在实施中,服务器确定出包含预先存储的关联关键词的分句后,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个分词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词所在位置处向后识别关联关键词之后被标注为名词的词语,如果能识别到第七企业名称,则将第七企业名称确定为关联关键词的实施对象,并结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词的位置处开始,向前识别关联关键词之前被标注为名词的词语,将识别得到的第八企业名称,确定为关联关键词的受施对象的名称。然后使用关联关键词,得到的企业关联关系信息为第七企业名称—关联关键词—第八企业名称,这样,就可以确定出这个分句中包含的企业关联关系信息,依此类推可以确定出包含关联关键词的每个分句中包含的企业关联关系信息。

例如,包含关联关键词的分句为“a公司的子公司为f公司”,进行分句处理后,得到的词语从前往后为“a公司”、“的”、“子公司”、“f公司”,服务器可以从“子公司”向后识别,识别到“f公司”,将“f公司”确定为关联关键词的实施对象的名称,然后可以从“子公司”向后识别,识别到“a公司”,这样确定出的企业关联关系信息为“f公司”—“子公司”—“a公司”。

可选的,如果分句的句式类型为明显关系句式类型,则需要判断关联关键词的词性,如果词性为动词,步骤104的处理可以如下:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向前识别,如果识别到第九企业名称,则将第九企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向后识别,将识别到的第十企业名称,确定为关联关键词的受施对象的名称;基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

其中,关联关键词的词性为动词,如“投资”、“增资”、“收购”等。第九企业名称和第十企业名称为任一企业名称。

在实施中,服务器确定出包含预先存储的关联关键词的分句后,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个分词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词所在位置处向前识别关联关键词之前被标注为名词的词语,如果能识别到第九企业名称,则将第九企业名称确定为关联关键词的实施对象,并结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词的位置处开始,向后识别关联关键词之后被标注为名词的词语,将识别得到的第十企业名称,确定为关联关键词的受施对象的名称。然后使用关联关键词,得到的企业关联关系信息为第九企业名称—关联关键词—第十企业名称,这样,就可以确定出这个分句中包含的企业关联关系信息,依此类推可以确定出包含关联关键词的每个分句中包含的企业关联关系信息。

例如,包含关联关键词的分句为“a公司投资了d公司”,进行分句处理后,得到的词语从前往后为“a公司”、“投资”、“了”、“d公司”,服务器可以从“投资”向前识别,识别到“a公司”,将“a公司”确定为关联关键词的实施对象的名称,然后可以从“投资”向后识别,识别到“d公司”,这样确定出的企业关联关系信息为“a公司”—“投资”—“d公司”。

需要说明的是,在本发明实施例中,也可以先将预设的并列词语替换为预设字符,然后判断分句的句式类型,如果分句的句式类型为明显关系句式类型,且分句中包含的关联关键词的词性为动词,从关联关键词在调整后的分句的位置处开始,可以向前识别关联关键词之前被标注为名词的词语,如果识别到第十一企业名称,且第十一企业名称的前面存在预设字符,则继续向前识别被标注为名词的词语,如果识别到第十二企业名称,且前面没有预设字符,则将第十一企业名称和第十二企业名称,确定为关联关键词的实施对象的名称。并且从关联关键词在调整后的分句的位置处开始,向后向前识别关联关键词之后被标注为名词的词语,如果识别到第十三企业名称,且第十三企业名称的后面不存在预设字符,则将第十三企业名称确定为关联关键词的受施对象的名称。确定出的企业关联关系信息为“第十一企业名称、第十二企业名称”—“关联关键词”—“第十三企业名称”。

例如,预设字符为&,分句为“a公司与s公司联手增资p公司”,替换后的分句为“a公司&s公司&增资p公司”,向前识别,在识别到s公司后,前面有预设符号&,继续向前识别,识别到a公司,a公司的前面没有预设符号,则停止识别,然后从“增资”向后识别,识别到“p公司”,“p公司”的后面没有预设字符&,停止识别,确定出的企业关联关系信息为“a公司、s公司—“增资”—p公司”。

需要说明的是,此处仅以先判断是否包含预设的并列词语,再判断句式类型,同样也可以先判断句式类型,再判断是否包含预设的并列词语,本发明实施例不做限定。另外,此处仅以分句的句式类型为明显关系句式类型为例进行说明,同样,对于被动句式类型和隐藏关系句式类型,还需要进行调整关联关键词的位置,基于调整后的分句,进行企业关联关系信息的识别,基于调整后的分句,进行企业关联关系信息的识别与明显关系句式类型中的处理方法相同,此处不再赘述。

还需要说明的是,如果某个分句中包括预设的并列词语,且关联关键词为某些预设词语,这些关联关键词不会存在受施对象,如合作伙伴、战略合作关系等,服务器在分句中检测到这些关联关键词后,可以将并列词语替换为预设字符,然后由关联关键词所在位置处,向前识别关联关键词之前被标注为名词的词语,如果识别到企业名称,可以确定该企业名称之前是否存在预设字符,如果存在预设字符,则继续向前识别被标注为名词的词语,识别到另一企业名称,可以确定另一企业名称之前是否存在预设字符,如果不存在预设字符,则将这两个企业名称确定为关联关键词的实施对象的名称,如果存在预设字符,直到不存在预设字符为止。例如,分句为“a公司和g公司是合作伙伴”,存在并列词语“和”,将“和”替换为&,替换后的分句为“a公司&g公司是合作伙伴”,确定出的企业关联关系信息可以是“a公司、g公司—合作伙伴”,表示a公司和g公司为合作伙伴。

可选的,在确定分句中包含的企业关联关系信息后,再基于分句中包含的否定词语来确定企业关联关系信息是否准确,相应的处理可以如下:

如果分句中包括的任意两个企业名称之间不包括否定词语,则存储确定出的企业关联关系信息,如果分句中包括的任意两个企业名称之间包括否定词语,则不存储确定出的企业关联关系信息。

其中,否定词语指包含否定意思的词语,可以由技术人员预设,并且存储至服务器中,如并非、并未、拟等,也可以在分句中提取关联关系信息时,由crf模型基于语义识别得到,此处在分句中识别否定词可以是使用crf模型,也可以使用其它方法,本发明实施例不做限定。

在实施中,服务器确定某个分句中包含的企业关联关系信息后,可以进一步使用预设的否定词语去匹配该分句,确定该分句中是否包含预设的否定词语,如果包含预设的否定词语,则进一步判断预设的否定词语是否在任意两个企业名称之间,如果在任意两个企业名称之间,则不存储该分句中包含的企业关联关系信息,如果不在任意两个企业名称之间,则存储该分句中包含的企业关联关系信息。

例如,分句为“a公司拟投资b公司”,确定出的企业关联关系信息为“a公司—投资—b公司”,服务器确定出该分句中包括预设的否定词语“拟”,并且“拟”在两个企业名称之间,则不存储该分句中包含的企业关联关系信息。再例如,分句为“a公司收购f公司的消息并非是我们发布的”,确定出的企业关联关系信息为“a公司—收购—f公司”,服务器中确定出该分句中包括预设的否定词语“并非”,但是“并非”不在两个企业名称之间,可以存储该分句中包含的企业关联关系信息。

或者,服务器确定某个分句中包含的企业关联关系信息后,可以进一步对该分句中的各字符进行语义识别,如果识别到否定词语,则进一步判断否定词语是否在任意两个企业名称之间,如果在任意两个企业名称之间,则不存储该分句中包含的企业关联关系信息,如果不在任意两个企业名称之间,则存储该分句中包含的企业关联关系信息。

可选的,本发明实施例中还提供了在确定包含的企业的关联关系信息之前,对包含预先存储的关联关键词的分句进行过滤,相应的处理可以如下:

基于预设的干扰过滤关键词,对包含关联关键词的分句进行过滤。

在实施中,技术人员在服务器中预先存储了干扰过滤关键词,干扰过滤关键词是可能出现在句子中的新闻报道相关的词语,如报道、刊登、披露、记者和新闻等。

服务器在确定出包含预先存储的关联关键词的分句后,可以使用预设的干扰过滤词匹配包含预先存储的关联关键词的每个分句,如果某个分句中匹配到任一干扰过滤关键词,则将该分句过滤,不对该分句进行确定企业关联关系信息的处理。例如,某个分句为“##新闻传媒有限公司报道了**有限责任公司的控股股东为##有限责任公司”,该分句被分词处理后得到的词语为“##新闻传媒有限公司”、“报道”“了”、“**有限责任公司”、“的”“控股股东”、“为”、“##有限责任公司”,由于该分句匹配到干扰过滤关键词“报道”,所以可以将该分句过滤。这样,由于怕误识别到新闻媒体类的企业名称,使确定出的企业关联关系信息不准确,所以对包含新闻报道相关的词语进行过滤。

另外,还可以使用干扰过滤关键词组成的句式模板,对包含预先存储的关联关键词的分句进行过滤,相应的处理可以如下:

技术人员在服务器中预先存储了干扰过滤关键词组成的预设句式模板,如“据……报道/披露/发布/透露”、“……广播披露/发布/透露”等,服务器可以使用干扰过滤关键词组成的预设句式模板,对包含预先存储的关联关键词的分句进行过滤,凡是包含干扰过滤关键词组成的预设句式模板的分句,都被过滤,不对这些分句进行确定包含的企业关联关系信息的处理。

需要说明的是,本发明实施例中,确定出的企业关联关系信息使用“实施对象—关联关键词—受施对象”这种形式保存企业关联关系信息,同样也可以使用其它方式来保存企业关联关系信息,本发明实施例不做限定。

本发明实施例中,在待检测文本的各个包含预先存储的关联关键词的分句中,确定出包含的企业关联关系信息,服务器可以进行查重处理,将重复的企业关联关系信息删除,并且将确定出有矛盾的企业关联关系信息发送至技术人员所使用的终端,由技术人员进行确认。

另外,用户要查看企业关联关系信息可以在终端中安装企业关联关系的识别应用程序,并打开该识别应用程序,终端会显示该识别应用程序的主界面,主界面中显示有搜索框和搜索选项,用户可以在搜索框中输入待搜索的企业名称,然后点击搜索选项,终端则会检测到搜索选项的点击指令,向服务器发送该企业名称的关联关系查询请求。服务器接收到后,可以查找该与该企业名称相关的关联关系,然后发送至终端,终端可以对该企业名称对应的企业关联关系信息进行显示,显示方式可以是以图表的形式显示,例如,m公司投资了n公司,m公司的子公司是o公司,m收购了p公司和s公司,m公司增资了u公司,以上关联关系可以由图形形式显示,如图2所示,以上关联关系信息也可以由表格的形式显示,如图3所示。

需要说明的,本发明实施例中,服务器中预先存储了企业全称与企业简称的对应关系,上述企业关联关系信息中包括的企业名称为企业全称,如果在分句中识别出企业简称,可以将企业简称对应到企业全称上,将企业全称存储至企业关联关系信息中。

本发明实施例中,获取待检测文本,对所述待检测文本进行拆分处理,得到至少一个分句,确定包含预先存储的关联关键词的分句,对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息。这样,不需要人工去分析待检测文本,就能确定出企业关联关系信息,从而可以提高确定企业关联关系信息的效率。

基于相同的技术构思,本发明实施例还提供了一种提取企业关联关系信息的装置,如图4所示,该装置包括:

获取模块410,用于获取待检测文本;

拆分模块420,用于对所述待检测文本进行拆分处理,得到至少一个分句;

第一确定模块430,用于在至少一个分句中,确定包含预先存储的关联关键词的分句;

第二确定模块440,用于对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息。

可选的,所述第二确定模块440,用于:

根据预先存储的关联关键词、关联关键词的句式模板与句式类型的对应关系,确定所述分句的句式类型。

可选的,所述第二确定模块440,用于:

如果所述分句的句式类型为被动句式类型或隐藏关系句式类型,则将所述分句中包含的关联关键词调整至第一位置,基于所述关联关键词在调整后的分句中的位置、以及所述调整后的分句中包含的关联关键词的词性,确定所述调整后的分句中包含的企业关联关系信息,其中,所述第一位置为所述分句包含的句式模板中的句式类型词之前与句式类型词相邻的位置,句式类型词为关联关键词的句式模板中除关联关键词之外的词语。

可选的,所述第二确定模块440,用于:

如果所述分句中包含预设的并列词语,则将所述分句中包含的预设的并列关键词替换为预设字符,基于替换后的分句的句式类型,所述关联关键词在所述替换后的分句中的位置、以及所述替换后的分句中包含的关联关键词的词性,确定所述替换后的分句中包含的企业关联关系信息。

可选的,如图5所示,所述装置还包括:

存储模块450,用于:

如果所述分句中包括的任意两个企业名称之间不包括否定词语,则存储确定出的企业关联关系信息,如果所述分句中包括的任意两个企业名称之间包括否定词语,则不存储确定出的企业关联关系信息。

本发明实施例中,获取待检测文本,对所述待检测文本进行拆分处理,得到至少一个分句,确定包含预先存储的关联关键词的分句,对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息。这样,不需要人工去分析待检测文本,就能确定出企业关联关系信息,从而可以提高确定企业关联关系信息的效率。

需要说明的是:上述实施例提供的提取企业关联关系信息的装置在提取企业关联关系信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的提取企业关联关系信息的装置与提取企业关联关系信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

请参考图6,其示出了本发明实施例所涉及的服务器的结构示意图,该服务器可以用于实施上述实施例中提供的提取企业关联关系信息的方法。具体来讲:

该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器600上执行存储介质1930中的一系列指令操作。

服务器600还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

服务器600可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

获取待检测文本;

对所述待检测文本进行拆分处理,得到至少一个分句;

在所述至少一个分句中,确定包含预先存储的关联关键词的分句;

对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息。

可选的,所述确定所述分句的句式类型,包括:

根据预先存储的关联关键词、关联关键词的句式模板与句式类型的对应关系,确定所述分句的句式类型。

可选的,所述根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息,包括:

如果所述分句的句式类型为被动句式类型或隐藏关系句式类型,则将所述分句中包含的关联关键词调整至第一位置,基于所述关联关键词在调整后的分句中的位置、以及所述调整后的分句中包含的关联关键词的词性,确定所述调整后的分句中包含的企业关联关系信息,其中,所述第一位置为所述分句包含的句式模板中的句式类型词之前与句式类型词相邻的位置,句式类型词为关联关键词的句式模板中除关联关键词之外的词语。

可选的,所述根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息,包括:

如果所述分句中包含预设的并列词语,则将所述分句中包含的预设的并列关键词替换为预设字符,基于替换后的分句的句式类型,所述关联关键词在所述替换后的分句中的位置、以及所述替换后的分句中包含的关联关键词的词性,确定所述替换后的分句中包含的企业关联关系信息。

可选的,所述确定所述分句中包含的企业关联关系信息之后,还包括:

如果所述分句中包括的任意两个企业名称之间不包括否定词语,则存储确定出的企业关联关系信息,如果所述分句中包括的任意两个企业名称之间包括否定词语,则不存储确定出的企业关联关系信息。

本发明实施例中,获取待检测文本,对所述待检测文本进行拆分处理,得到至少一个分句,确定包含预先存储的关联关键词的分句,对于包含所述关联关键词的每个分句,确定所述分句的句式类型,根据所述分句的句式类型、所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定所述分句中包含的企业关联关系信息。这样,不需要人工去分析待检测文本,就能确定出企业关联关系信息,从而可以提高确定企业关联关系信息的效率。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1