一种提取企业关联关系信息的方法和装置与流程

文档序号:13005971阅读:295来源:国知局
一种提取企业关联关系信息的方法和装置与流程

本发明涉及计算机技术领域,特别涉及一种提取企业关联关系信息的方法和装置。



背景技术:

当今金融市场瞬息万变,企业管理者想要在指定战略决策中运筹帷幄,就需要快速准确的掌握企业之间的关联关系。通过企业之间的关联关系,企业管理者可以尽可能的规避投资风险,做出更合理的决策。

现有技术中一般是人工去网络上查找经济类的新闻报道,从中确定各个企业之间的关联关系,随着企业的增多,企业之间的关联关系变的错综复杂,人工查找会花费大量的时间,效率比较低。



技术实现要素:

为了解决现有技术的问题,本发明实施例提供了一种提取企业关联关系信息的方法和装置。所述技术方案如下:

第一方面,提供了一种提取企业关联关系信息的方法,所述方法包括:

获取待检测文本;

对所述待检测文本进行拆分处理,得到至少一个分句;

在所述至少一个分句中,确定包含预设的关联关键词的分句;

在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息。

可选的,所述在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息之前,还包括:

基于预设的干扰过滤关键词,对包含所述关联关键词的分句进行过滤;

所述在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息,包括:

在过滤后的包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业的关联关系信息。

这样,可以使提取出的企业关联关系信息更准确。

可选的,所述关联关键词为单向关联关键词,且词性为动词;

所述在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息,包括:

在包含所述关联关键词的每个分句中,从所述关联关键词在所述分句中的位置处开始,向前识别,如果识别到第一企业名称,则将所述第一企业名称确定为所述关联关键词的实施对象的名称,并从所述关联关键词在所述分句中的位置处开始,向后识别,将识别到的第二企业名称,确定为所述关联关键词的受施对象的名称;

基于所述关联关键词,生成所述实施对象的名称与所述受施对象的名称之间的企业关联关系信息。

可选的,所述方法还包括:

在包含所述关联关键词的每个分句中,从所述关联关键词在所述分句中的位置处开始,向前识别,如果未识别到任一企业名称,则将所述分句中包含的关联关键词之前字符数大于预设数值的分词,与预设的企业名称词库中的企业名称进行匹配,如果未匹配到任一企业名称,则结束对所述分句中企业关联关系信息的识别。

这样,可以提高提取企业关联关系信息的效率。

可选的,所述关联关键词为单向关联关键词,且词性为名词;

所述在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息,包括:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向后识别,如果识别到第三企业名称,则将第三企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向前识别,将识别到的第四企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

第二方面,提供了一种提取企业关联关系信息的装置,所述装置包括:

获取模块,用于获取待检测文本;

分句模块,用于对所述待检测文本进行拆分处理,得到至少一个分句;

第一确定模块,用于在所述至少一个分句中,确定包含预设的关联关键词的分句;

第二确定模块,用于在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息。

可选的,所述装置还包括:

过滤模块,用于基于预设的干扰过滤关键词,对包含所述关联关键词的分句进行过滤;

所述第二确定模块,用于:

在过滤后的包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业的关联关系信息。

可选的,所述关联关键词为单向关联关键词,且词性为动词;

所述第二确定模块包括第一确定子模块和第一生成子模块,其中:

所述第一确定子模块,用于在包含所述关联关键词的每个分句中,从所述关联关键词在所述分句中的位置处开始,向前识别,如果识别到第一企业名称,则将所述第一企业名称确定为所述关联关键词的实施对象的名称,并从所述关联关键词在所述分句中的位置处开始,向后识别,将识别到的第二企业名称,确定为所述关联关键词的受施对象的名称;

所述第一生成模块,用于基于所述关联关键词,生成所述实施对象的名称与所述受施对象的名称之间的企业关联关系信息。

可选的,所述装置还包括:

结束模块,用于在包含所述关联关键词的每个分句中,从所述关联关键词在所述分句中的位置处开始,向前识别,如果未识别到任一企业名称,则将所述分句中包含的关联关键词之前字符数大于预设数值的分词,与预设的企业名称词库中的企业名称进行匹配,如果未匹配到任一企业名称,则结束对所述分句中企业关联关系信息的识别。

可选的,所述关联关键词为单向关联关键词,且词性为名词;

所述第二确定模块包括第二确定子模块和第二生成子模块,其中:

所述第二确定子模块,用于在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向后识别,如果识别到第三企业名称,则将第三企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向前识别,将识别到的第四企业名称,确定为关联关键词的受施对象的名称;

所述第二生成子模块,用于基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

本发明实施例提供的技术方案带来的有益效果是:

本发明实施例中,在获取到待检测文本,可以对待检测文本进行拆分处理,得到至少一个分句,在至少一个分句中,确定包含预设的关联关键词的分句,在包含关联关键词的每个分句中,根据关联关键词的词性、以及关联关键词在分句中的位置,确定包含的企业关联关系信息。这样,无需用户去待检测文本中查找企业关联关系信息,就可以确定出待检测文本中包括的企业关联关系信息,从而可以提高提取企业关联关系信息的效率。

附图说明

图1是本发明实施例提供的一种提取企业关联关系信息的方法的流程图;

图2是本发明实施例提供的一种企业关联关系信息的显示示意图;

图3是本发明实施例提供的一种企业关联关系信息的显示示意图;

图4是本发明实施例提供的一种提取企业关联关系信息的装置的结构示意图;

图5是本发明实施例提供的一种提取企业关联关系信息的装置的结构示意图;

图6是本发明实施例提供的一种提取企业关联关系信息的装置的结构示意图;

图7是本发明实施例提供的一种提取企业关联关系信息的装置的结构示意图;

图8是本发明实施例提供的一种提取企业关联关系信息的装置的结构示意图;

图9是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种提取企业关联关系信息的方法,该方法的执行主体可以是服务器。其中,服务器是企业关联关系的识别应用程序的后台服务器,该服务器中可以设置有处理器、存储器和收发器等,处理器可以用于提取企业关联关系信息的过程的处理,存储器可以用于提取企业关联关系信息的过程中需要的数据以及产生的数据,收发器可以用于接收以及发送消息等。

如图1所示,该方法的处理流程可以包括如下的步骤:

步骤101,获取待检测文本。

在实施中,技术人员在服务器中预先存储了多个网址,如新闻媒体网站的网址等,服务器可以每隔预设时长访问这些网址,确定这些网址中是否有新的公告,如果有新的公告,则对新的公告进行复制,复制出的新的公告可以称为待检测文本。

另外,也可以由技术人员操作终端向服务器发送待检测文本,本发明实施例不做限定。

步骤102,对待检测文本进行拆分处理,得到至少一个分句。

在实施中,服务器获取到待检测文本后,可以从待检测文本的开始位置处查找其中包括的预设标点符号,将两个预设标点符号之间的字符确定为一个分句,得到至少一个分句。其中,预设标点符号可以是句与句之间的分隔符,可以包括句号、逗号、感叹号、分号等。

步骤103,在至少一个分句中,确定包含预设的关联关键词的分句。

其中,技术人员可以在服务器中预先存储关联关键词的词库,在该词库中存储有多个预设的关联关键词,关联关键词可以分为两类,单向关联关键词和双向关联关键词,单向关联关键词是表示两个对象之间是控制关系的词语,如“投资”、“增资”、“收购”等,双关联关键词是表示多个对象之间是并列关系的词语,如“共同开创”、“共同投资”、“合作伙伴”等。

在实施中,服务器得到多个分句后,可以按照预设的分词规则对每个分句进行分词处理,使用分词得到的多个词语匹配预设的关联关键词,如果某个分句分词得到的多个词语中包括任一关联关键词,则将该分句确定为包含预设的关联关键词的分句,这样可以确定出包含预设的关联关键词的分句。例如,某个分句是“**有限责任公司投资了##有限责任公司”,进行分句后得到的词语是“**有限责任公司”、“投资”、“了”、“##有限责任公司”,预设的关联关键词中包括“投资”,所以这个分句为包含预设的关联关键词的分句。

需要说明的是,上述提到的预设的分词规则可以为任一分词规则,如crf(conditionalrandomfield,条件随机场)模型等,本发明实施例不做限定。

步骤104,在包含关联关键词的每个分句中,根据关联关键词的词性、以及关联关键词在分句中的位置,确定包含的企业关联关系信息。

其中,关联关键词的词性有动词、名词等,如动词有投资、增资、收购等,名词有控股人、子公司、母公司、控股股东等。企业关联关系信息包括基于关联关键词,构建的多个企业之间的关联关系,如关联关键词为“收购”,关联关系信息为实施对象—收购—受施对象、实施对象—母公司—受施对象等。

在实施中,服务器确定出包含预设的关联关键词的分句后,可以在每个分句中,可以对每个分句进行分词处理,并使用crf模型标注每个分词的词性,然后根据关联关键词的词性、和关联关键词在分句中的位置,确定出该分句包含的企业关联关系信息。

可选的,关联关键词为单向关联关键词,且词性为动词时,相应的处理可以如下:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向前识别,如果识别到第一企业名称,则将第一企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向后识别,将识别到的第二企业名称,确定为关联关键词的受施对象的名称;基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

其中,在此处关联关键词为单向关联关键词,词性为动词,如“投资”、“增资”、“收购”等。第一企业名称和第二企业名称为任一企业名称。

在实施中,服务器确定出包含预设的关联关键词的分句后,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词所在位置处向前识别关联关键词之前被标注为名词的词语,如果能识别到第一企业名称,则将第一企业名称确定为关联关键词的实施对象,并结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词的位置处开始,向后识别关联关键词之后被标注为名词的词语,将识别得到的第二企业名称,确定为关联关键词的受施对象的名称。然后使用关联关键词,得到的企业关联关系信息为第一企业名称—关联关键词—第二企业名称,这样,就可以确定出这个分句中包含的企业关联关系信息,依此类推可以确定出包含关联关键词的每个分句中包含的企业关联关系信息。

例如,包含关联关键词的分句为“**有限责任公司投资了##有限责任公司”,进行分词处理后,得到的词语从前往后为“**有限责任公司”、“投资”、“了”、“##有限责任公司”,“**有限责任公司”为名词,“投资”为动词,“了”为助词,“##有限责任公司”为名词,服务器可以从“投资”向前识别,识别到“**有限责任公司”,将“**有限责任公司”确定为关联关键词的实施对象的名称,然后可以从“投资”向后识别,识别到“##有限责任公司”,这样确定出的企业关联关系信息为“**有限责任公司”—“投资”—“##有限责任公司”。

需要说明的是,如果向后识别,未识别到任一企业名称,则进行下一分句的识别。

可选的,对于关联关键词是单向关联关键词、且词性为动词的某个分句,在结束对分句中包含的企业关联关系信息的识别,还可以先判断是否分句中关联关键词之前的字符是否能匹配到预设的企业名称词库中的企业名称,相应的处理可以如下:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向前识别,如果未识别到任一企业名称,则将分句中包含的关联关键词之前字符数大于预设数值的分词,与预设的企业名称词库中的企业名称进行匹配,如果未匹配到任一企业名称,则结束对分句中企业关联关系信息的识别。

其中,预设数值可以由技术人员预设,并且存储至服务器中,如1等。预设的企业名称词库可以由技术人员预设,并且存储至服务器中,该企业名词词库中包括大量的企业名称的全称与简称,并且还有企业名称的全称与简称的对应关系。

在实施中,对于某个分句,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,从该位置处向前识别关联关键词之前被标注为名词的词语,如果未识别到任一企业名称,服务器可以使用关联关键词之前字符数大于预设数值的分词,去匹配预设的的企业名称词库中的企业名称,如果未匹配到任一企业名称,可以结束对该分句中企业关联关系信息的识别。然后对下一个包含关联关键词的分句进行识别。例如,预设数值为1,包含关联关键词的分句为“并对此公司进行了投资”,分词后为“并”、“对”、“此”、“公司”、“进行”、“了”、“投资”,从“投资”位置处向前识别,未识别到任一企业名称,而且也未匹配到预设的企业名称词库中的任一企业名称,可以结束对该分句中的企业关联关系的识别。

另外,对于某个分句,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,从该位置处向前识别关联关键词之前被标注为名词的词语,如果未识别到任一企业名称,服务器可以使用关联关键词之前字符数大于预设数值的分词,去匹配预设的的企业名称词库中的企业名称,如果匹配到企业名称,可以将该企业名称确定为实施对象的名称,然后继续从关联关键词的位置处向后识别,如果识别到企业名称,则可以将该企业名称确定为受施对象的名称,这样,就可以确定该分句中包含的企业关联关系信息。

另外,如果从关联关键词的位置处向后识别,如果未识别到企业名称,也可以使用关联关键词之后字符数大于预设数值的分词,去匹配预设的的企业名称词库中的企业名称,具体处理过程与向前识别类似,此处不再赘述。

可选的,关联关键词为单向关联关键词,且词性为名词时,相应的处理可以如下:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向后识别,如果识别到第三企业名称,则将第三企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向前识别,将识别到的第四企业名称,确定为关联关键词的受施对象的名称;基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

其中,在此处关联关键词为单向关联关键词,词性为名词,如“控股股东”、“控股人”、“母公司”、“子公司”等。第三企业名称和第四企业名称为任一企业名称。

在实施中,服务器确定出包含预设的关联关键词的分句后,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词所在位置处向后识别关联关键词之后被标注为名词的词语,如果能识别到第三企业名称,则将第三企业名称确定为关联关键词的实施对象,并结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词的位置处开始,向前识别关联关键词之前被标注为名词的词语,将识别得到的第四企业名称,确定为关联关键词的受施对象的名称。然后使用关联关键词,得到的企业关联关系信息为第三企业名称—关联关键词—第四企业名称,这样,就可以确定出这个分句中包含的企业关联关系信息,依此类推可以确定出包含关联关键词的每个分句中包含的企业关联关系信息。

例如,包含关联关键词的分句为“**有限责任公司的控股股东为##有限责任公司”,进行分句处理后,得到的词语从前往后为“**有限责任公司”、“投资”、“了”、“##有限责任公司”,“**有限责任公司”为名词,“的”“投资”为动词,“了”为助词,“##有限责任公司”为名词,服务器识别到的关联关键词为“控股股东”,可以从“控股股东”向后识别,识别到“##有限责任公司”,将“##有限责任公司”确定为关联关键词的实施对象的名称,然后可以从“控股股东”向前识别,识别到“**有限责任公司”,这样确定出的企业关联关系信息为“##有限责任公司”—“控股股东”—“**有限责任公司”。

可选的,对于关联关键词是单向关联关键词、且词性为名词的某个分句,如果向后识别,未识别到任一企业名称,可以结束对该分句中企业关联关系信息的识别,相应的处理可以如下:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向后识别,如果未识别到任一企业名称,则将分句中包含的关联关键词之后字符数大于预设数值的分词,与预设的企业名称词库中的企业名称进行匹配,如果未匹配到任一企业名称,则结束对分句中企业关联关系信息的识别。

其中,预设数值可以由技术人员预设,并且存储至服务器中,如1等。预设的企业名称词库可以由技术人员预设,并且存储至服务器中,该企业名词词库中包括大量的企业名称的全称与简称,并且还有企业名称的全称与简称的对应关系。

在实施中,对于某个分句,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,从该位置处向后识别关联关键词之后被标注为名词的词语,如果未识别到任一企业名称,服务器可以使用关联关键词之后字符数大于预设数值的分词,去匹配预设的的企业名称词库中的企业名称,如果未匹配到任一企业名称,可以结束对该分句中企业关联关系信息的识别,然后对下一个包含关联关键词的分句进行识别。例如,预设数值为1,包含关联关键词的分句为“她作为控股人是最合适的”,分词后为“她”、“作为”、“控股人”、“是”、“最”、“合适”、“的”,从“控股人”位置处向后识别,未识别到任一企业名称,而且也未匹配到预设的企业名称词库中的任一企业名称,可以结束对该分句中的企业关联关系的识别。

另外,对于某个分句,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,从该位置处向后识别关联关键词之前被标注为名词的词语,如果未识别到任一企业名称,服务器可以使用关联关键词之后字符数大于预设数值的分词,去匹配预设的的企业名称词库中的企业名称,如果匹配到企业名称,可以将该企业名称确定为实施对象的名称,然后继续从关联关键词的位置处向前识别,如果识别到企业名称,则可以将该企业名称确定为受施对象的名称,这样,就可以确定该分句中包含的企业关联关系信息。

另外,如果从关联关键词的位置处向前识别,如果未识别到企业名称,也可以使用关联关键词之前字符数大于预设数值的分词,去匹配预设的的企业名称词库中的企业名称,具体处理过程与向后识别类似,此处不再赘述。

可选的,关联关键词为双向关联关键词时,相应的处理可以如下:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向前识别,将识别到的多个企业名称确定为关联关键词的并列实施对象;基于关联关键词,生成所述多个企业名称之间的企业关联关系信息。

其中,在此处关联关键词为双向关联关键词,词性可以为名词或动词,例如,词性为名词时,双向关联关键词有“战略合作关系”、“合作伙伴”、“竞争关系”等,词性为动词时,双向关联关键词有“共同开创”、“联合承办”、“共同投资”。

在实施中,服务器确定出包含预设的关联关键词的分句后,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词所在位置处向前识别关联关键词之前被标注为名词的词语,在识别得到第一个企业名称后,继续向前识别直到这个分句中识别不到企业名称,然后使用这个分句中包括的关联关键词,得到的企业关联关系信息为多个企业的名称—关联关键词,这样,就可以确定出这个分句中包含的企业关联关系信息,依此类推可以确定出包含关联关键词的每个分句中包含的企业关联关系信息。

例如,包含关联关键词的分句为“**有限责任公司和##有限责任公司为战略合作关系”,进行分句处理后,得到的词语从前往后为“**有限责任公司”、“##有限责任公司”、“为”、“战略合作关系”,服务器识别到的关联关键词为“战略合作关系”,可以从“战略合作关系”向前识别,识别到“**有限责任公司”和“##有限责任公司”,这样确定出的企业关联关系信息为“**有限责任公司”&“##有限责任公司”—“战略合作关系”。

可选的,关联关键词为双向关联关键词,且词性为动词时,某些分句中还会包括实施对象的名称和受施对象的名称,相应的处理可以如下:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向前识别,将识别到的企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向后识别,将识别到的企业名称,确定为关联关键词的受施对象的名称;基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

在实施中,服务器确定出包含预设的关联关键词的分句后,在使用crf模型对每个分句进行分词处理时,同时可以标注出每个词的词性,然后可以将每个分句分词处理得到的词语按照分句原来的词语顺序从前向后排列。对于某个分句,服务器可以确定该分句中的关联关键词的位置,结合关联关键词之前被标注为名词的词语的上下文信息,从关联关键词所在位置处向前识别关联关键词之前被标注为名词的词语,在识别得到第一个企业名称后,继续向前识别直到这个分句中识别不到企业名称,将识别到的企业名称确定为实施对象的名称,然后结合关联关键词之后被标注为名词的词语的上下文信息,从关联关键词在分句中的位置处开始,向后识别,将识别到的企业名称,确定为关联关键词的受施对象的名称,然后使用关联关键词,确定出这个分句的企业关联关系信息为向前识别到的企业名称—关联关键词—向后识别到的企业名称。

例如,包含关联关键词的分句为“**有限责任公司和##有限责任公司共同投资了*#有限责任公司”,进行分句处理后,得到的词语从前往后为“**有限责任公司”、“##有限责任公司”、“共同投资”、“了”、“*#有限责任公司”,服务器识别到的关联关键词为“共同投资”,可以从“共同投资”向前识别,识别到“**有限责任公司”和“##有限责任公司”,将“**有限责任公司”和“##有限责任公司”都确定为关联关键词的实施对象的名称,然后向后识别,识别到“*#有限责任公司”,将“*#有限责任公司”确定为关联关键词的受施对象的名称,这样确定出的企业关联关系信息为“**有限责任公司”&“##有限责任公司”—“共同投资”—“*#有限责任公司”。

需要说明的是,本发明实施例中是以crf模型来识别企业名称,凡是可以用于识别企业名称的方法都可以用于本发明实施例,本发明实施例不做限定。

还需要说明的是,上述提到的识别出的企业名称,如果是简称,可以基于预设的企业的全称和简称的对应关系,查找到该简称对应的全称,将全称存储至企业关联关系信息中。

可选的,本发明实施例中还提供了在确定包含的企业的关联关系信息之前,对包含预设的关联关键词的分句进行过滤,相应的处理可以如下:

基于预设的干扰过滤关键词,对包含关联关键词的分句进行过滤。

在实施中,技术人员在服务器中预先存储了干扰过滤关键词,干扰过滤关键词是可能出现在句子中的新闻报道相关的词语,如报道、刊登、披露、记者和新闻等。

服务器在确定出包含预设的关联关键词的分句后,可以使用预设的干扰过滤词匹配包含预设的关联关键词的每个分句,如果某个分句中匹配到任一干扰过滤关键词,则将该分句过滤,即不对该分句进行确定包含的企业关联关系信息的处理。例如,某个分句为“##新闻传媒有限公司报道了**有限责任公司的控股股东为##有限责任公司”,该分句被分词处理后得到的词语为“##新闻传媒有限公司”、“报道”“了”、“**有限责任公司”、“的”“控股股东”、“为”、“##有限责任公司”,由于该分句匹配到干扰过滤关键词“报道”,所以可以将该分句过滤。这样,由于怕误识别到新闻媒体类的企业名称,使确定出的企业关联关系不准确,所以对包含新闻报道相关的词语进行过滤。

另外,还可以使用干扰过滤关键词组成的句式模板,对包含预设的关联关键词的分句进行过滤,相应的处理可以如下:

技术人员在服务器中预先存储了干扰过滤关键词组成的预设句式模板,如“据……报道/披露/发布/透露”、“……广播披露/发布/透露”等,服务器可以使用干扰过滤关键词组成的预设句式模板,对包含预设的关联关键词的分句进行过滤,凡是包含干扰过滤关键词组成的预设句式模板的分句,都被过滤,不对这些分句进行确定包含的企业关联关系信息的处理。

基于上述对包含预设的关联关键词的分句进行过滤的处理,步骤104的处理可以如下:

在过滤后的包含关联关键词的每个分句中,根据关联关键词的词性、以及关联关键词在分句中的位置,确定包含的企业的关联关系信息。

此处的具体处理的描述与前面相同,此处不再赘述。

需要说明的是,本发明实施例中,确定出的企业关联关系信息使用“实施对象—关联关键词—受施对象”这种形式保存企业关联关系信息,同样也可以使用其它方式来保存企业关联关系信息,本发明实施例不做限定。

本发明实施例中,在待检测文本的各个包含预设的关联关键词的分句中,确定出包含的企业关联关系信息,服务器可以进行查重处理,将重复的企业关联关系信息删除,并且将确定出有矛盾的企业关联关系信息发送至技术人员所使用的终端,由技术人员进行确认。

另外,用户要查看企业关联关系信息可以在终端中安装企业关联关系的识别应用程序,并打开该识别应用程序,终端会显示该识别应用程序的主界面,主界面中显示有搜索框和搜索选项,用户可以在搜索框中输入待搜索的企业名称,然后点击搜索选项,终端则会检测到搜索选项的点击指令,向服务器发送该企业名称的关联关系查询请求。服务器接收到后,可以查找该与该企业名称相关的关联关系,然后发送至终端。终端可以对该企业名称对应的企业关联关系信息进行显示,显示方式可以是以图表的形式显示,例如,m公司投资了n公司,m公司的子公司是o公司,m收购了p公司和s公司,m公司增资了u公司,以上关联关系可以由图形形式显示,如图2所示,以上关联关系信息也可以由表格的形式显示,如图3所示。

可选的,本发明实施例中,为了更全面的识别到分句中包含的企业关联关系信息,还考虑了基于句式类型进行识别,相应的处理可以如下:

如果分句的句式类型为被动句式类型或隐藏关系句式类型,则将分句中包含的关联关键词调整至第一位置,基于关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息。

其中,关联关键词、关联关键词的句式模板与句式类型的对应关系可以由技术人员预设,并且存储至服务器中,技术人员确定关联关键词后,可以设计出不同的关联关键词的句式模板,如关联关键词为“投资”,句式模板可以为“(向|为|给|对)……(投资)”、“(被)……(投资)”“……(投资)……”等,关联关键词为“母公司”句式模板可以为“(作为|为)……(母公司)”等。技术人员还定义了几种句式类型,如被动句式类型、隐藏关系句式类型等,技术人员为关联关键词的句式模板都确定了句式类型,如关联关键词为“投资”,句式模板为“(向|为|给|对)……(投资)”,句式类型为隐藏关系句式类型,关联关键词为“投资”,句式模板为“(被)……(投资)”,句式类型为被动句式类型等。第一位置为分句包含的句式模板中的句式类型词之前与句式类型词相邻的位置,句式类型词为关联关键词的句式模板中除关联关键词之外的词语。

在实施中,服务器确定包含关联关键词的分句后,对于某个分句,可以使用关联关键词、关联关键词的句式模板与句式类型的对应关系,确定出该分句中包含的句式模板,进而确定出该分句的句式类型,如果分句的句式类型为被动句式或隐藏关系句式,服务器可以将该分句中包含的关联关键词的位置进行调整,可以将关联关键词调整至第一位置。然后使用关联关键词在调整后的分句中的位置、以及调整后的分句中包含的关联关键词的词性,确定调整后的分句中包含的企业关联关系信息。例如,分句的句式类型为被动句式类型,分句为“**有限责任公司被##有限责任公司收购”,分词后为“**有限责任公司”、“被”、“##有限责任公司”、“收购”,该分句中匹配到的关联关键词的句式模板的起始位置处为“被”之前,可以将“收购”调整至“被”之前,这样,调整后的分句为“**有限责任公司收购被##有限责任公司”,然后可以基于“收购”的词性和“收购”在调整后的分句中的位置,确定出该分句中包含的企业关联关系信息。

对于被动句式类型的分句,在调整后的分句中,如果关联关键词为动词,可以执行以下的处理来确定企业关联关系信息:

从关联关键词在调整后的分句中的位置处开始,向后识别,将识别到的第五企业名称,确定为关联关键词的实施对象的名称,并向前识别,将识别到的第六企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

此过程与前面关联关键词为动词时确定企业关联关系信息的方法相同,此处不再赘述。

对于被动句式类型的分句,在调整后的分句中,如果关联关键词为名词,可以执行以下的处理来确定企业关联关系信息:

从关联关键词在调整后的分句中的位置处开始,向前识别,将识别到的第七企业名称,确定为关联关键词的实施对象的名称,并向后识别,将识别到的第八企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

此过程与前面前面关联关键词为名词时确定企业关联关系信息的方法相同,此处不再赘述。

对于隐藏句式类型的分句,在调整后的分句中,如果关联关键词为动词,可以执行以下的处理来确定企业关联关系信息:

从关联关键词在调整后的分句中的位置处开始,向前识别,将识别到的第九企业名称,确定为关联关键词的实施对象的名称,并向后识别,将识别到的第十企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

此过程与前面关联关键词为动词时确定企业关联关系信息的方法相同,此处不再赘述。

本发明实施例中,在获取到待检测文本,可以对待检测文本进行拆分处理,得到至少一个分句,在至少一个分句中,确定包含预设的关联关键词的分句,在包含关联关键词的每个分句中,根据关联关键词的词性、以及关联关键词在分句中的位置,确定包含的企业关联关系信息。这样,无需用户去待检测文本中查找企业关联关系信息,就可以确定出待检测文本中包括的企业关联关系信息,从而可以提高提取企业关联关系信息的效率。

基于相同的技术构思,本发明实施例还提供了一种提取企业关联关系信息的装置,如图4所示,该装置包括:

获取模块410,用于获取待检测文本;

分句模块420,用于对所述待检测文本进行拆分处理,得到至少一个分句;

第一确定模块430,用于在所述至少一个分句中,确定包含预设的关联关键词的分句;

第二确定模块440,用于在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息。

可选的,如图5所示,所述装置还包括:

过滤模块450,用于基于预设的干扰过滤关键词,对包含所述关联关键词的分句进行过滤;

所述第二确定模块440,用于:

在过滤后的包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业的关联关系信息。

可选的,所述关联关键词为单向关联关键词,且词性为动词;

如图6所示,所述第二确定模块440包括第一确定子模块441和第二生成子模块442,其中:

所述第一确定子模块441,用于在包含所述关联关键词的每个分句中,从所述关联关键词在所述分句中的位置处开始,向前识别,如果识别到第一企业名称,则将所述第一企业名称确定为所述关联关键词的实施对象的名称,并从所述关联关键词在所述分句中的位置处开始,向后识别,将识别到的第二企业名称,确定为所述关联关键词的受施对象的名称;

所述第二生成模块442,用于基于所述关联关键词,生成所述实施对象的名称与所述受施对象的名称之间的企业关联关系信息。

可选的,如图7所示,所述装置还包括:

结束模块460,用于在包含所述关联关键词的每个分句中,从所述关联关键词在所述分句中的位置处开始,向前识别,如果未识别到任一企业名称,则将所述分句中包含的关联关键词之前字符数大于预设数值的分词,与预设的企业名称词库中的企业名称进行匹配,如果未匹配到任一企业名称,则结束对所述分句中企业关联关系信息的识别。

可选的,所述关联关键词为单向关联关键词,且词性为名词;

如图8所示,所述第二确定模块440包括第二确定子模块443和第二生成子模块444,其中:

所述第二确定子模块443,用于在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向后识别,如果识别到第三企业名称,则将第三企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向前识别,将识别到的第四企业名称,确定为关联关键词的受施对象的名称;

所述第二生成子模块444,用于基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

本发明实施例中,在获取到待检测文本,可以对待检测文本进行拆分处理,得到至少一个分句,在至少一个分句中,确定包含预设的关联关键词的分句,在包含关联关键词的每个分句中,根据关联关键词的词性、以及关联关键词在分句中的位置,确定包含的企业关联关系信息。这样,无需用户去待检测文本中查找企业关联关系信息,就可以确定出待检测文本中包括的企业关联关系信息,从而可以提高提取企业关联关系信息的效率。

需要说明的是:上述实施例提供的提取企业关联关系信息的装置在提取企业关联关系信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的提取企业关联关系信息的装置与提取企业关联关系信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

请参考图9,其示出了本发明实施例所涉及的服务器的结构示意图,该服务器可以用于实施上述实施例中提供的提取企业关联关系信息的方法。具体来讲:

该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器900上执行存储介质1930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

服务器900可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

获取待检测文本;

对所述待检测文本进行拆分处理,得到至少一个分句;

在所述至少一个分句中,确定包含预设的关联关键词的分句;

在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息。

可选的,所述在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息之前,还包括:

基于预设的干扰过滤关键词,对包含所述关联关键词的分句进行过滤;

所述在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息,包括:

在过滤后的包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业的关联关系信息。

可选的,所述关联关键词为单向关联关键词,且词性为动词;

所述在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息,包括:

在包含所述关联关键词的每个分句中,从所述关联关键词在所述分句中的位置处开始,向前识别,如果识别到第一企业名称,则将所述第一企业名称确定为所述关联关键词的实施对象的名称,并从所述关联关键词在所述分句中的位置处开始,向后识别,将识别到的第二企业名称,确定为所述关联关键词的受施对象的名称;

基于所述关联关键词,生成所述实施对象的名称与所述受施对象的名称之间的企业关联关系信息。

可选的,所述方法还包括:

在包含所述关联关键词的每个分句中,从所述关联关键词在所述分句中的位置处开始,向前识别,如果未识别到任一企业名称,则将所述分句中包含的关联关键词之前字符数大于预设数值的分词,与预设的企业名称词库中的企业名称进行匹配,如果未匹配到任一企业名称,则结束对所述分句中企业关联关系信息的识别。

可选的,所述关联关键词为单向关联关键词,且词性为名词;

所述在包含所述关联关键词的每个分句中,根据所述关联关键词的词性、以及所述关联关键词在所述分句中的位置,确定包含的企业关联关系信息,包括:

在包含关联关键词的每个分句中,从关联关键词在分句中的位置处开始,向后识别,如果识别到第三企业名称,则将第三企业名称确定为关联关键词的实施对象的名称,并从关联关键词在分句中的位置处开始,向前识别,将识别到的第四企业名称,确定为关联关键词的受施对象的名称;

基于关联关键词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

本发明实施例中,在获取到待检测文本,可以对待检测文本进行拆分处理,得到至少一个分句,在至少一个分句中,确定包含预设的关联关键词的分句,在包含关联关键词的每个分句中,根据关联关键词的词性、以及关联关键词在分句中的位置,确定包含的企业关联关系信息。这样,无需用户去待检测文本中查找企业关联关系信息,就可以确定出待检测文本中包括的企业关联关系信息,从而可以提高提取企业关联关系信息的效率。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1