一种企业关联关系信息挖掘方法及装置与流程

文档序号:16209401发布日期:2018-12-08 07:32阅读:204来源:国知局
一种企业关联关系信息挖掘方法及装置与流程

本申请涉及数据挖掘领域,尤其涉及一种企业关联关系信息挖掘方法及装置。

背景技术

近年来,随着互联网、物联网和云计算三大技术的快速发展,关于企业的新闻和舆情信息量迅速增长。在企业信息量过载的情况下,为了使企业管理者可以洞察商机,做出更合理的决策,企业管理者全面准确的掌握相关领域企业的概况就显得尤为重要。

现有技术中一般通过人工在网络上查找相关企业的新闻报道等信息,从中确定企业关联关系信息,即企业与企业之间的关联关系,以及企业与个人之间的关联关系。但是互联网上的信息错综复杂,标准不统一,人工查找很难快速直接从大量的信息中提取有价值的数据信息来挖掘企业关联关系信息,导致花费大量时间,效率较低,并且人工查找极易受工作者主观影响,从而造成挖掘出来的企业关联关系信息不准确。



技术实现要素:

本申请提供了一种企业关联关系信息挖掘方法及装置,以解决互联网上的信息错综复杂,标准不统一,人工查找很难快速直接从大量的信息中提取有价值的数据信息来挖掘企业关联关系信息,导致花费大量时间,效率较低,并且人工查找极易受工作者主观影响,从而造成挖掘出来的企业关联关系信息不准确的问题。

第一方面,本申请提供一种企业关联关系信息挖掘方法,所述方法包括:

获取待检测文本;

对所述待检测文本进行拆分处理,得到至少一个分句;

对每个所述分句进行分词并词性标注;

识别每个所述分句中的关联关系词;

判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。

第二方面,本申请提供一种企业关联关系信息挖掘装置,所述装置包括:

获取模块,用于获取待检测文本;

拆句模块,用于对所述待检测文本进行拆分处理,得到至少一个分句;

词性标注模块,用于对每个所述分句进行分词并词性标注;

第一识别模块,用于识别每个所述分句中的关联关系词;

第一确定模块,判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。

由以上技术方案可知,本申请提供了一种企业关联关系信息挖掘方法及装置,获取待检测文本;对所述待检测文本进行拆分处理,得到至少一个分句;对每个所述分句进行分词并词性标注;识别每个所述分句中的关联关系词;判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。因此,本申请无需工作人员在待检测文本中查找企业关联关系信息,提高企业关联关系信息挖掘的效率,并且,无需工作人员主观判断,提高挖掘的准确性。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的一种企业关联关系信息挖掘方法的方法流程图;

图2为本申请另一实施例提供的一种企业关联关系信息挖掘方法的方法流程图;

图3为图2步骤214之后的方法流程图;

图4为图3步骤307之后的方法流程图;

图5为图4步骤411之后的方法流程图;

图6为本申请一实施例提供的一种企业关联关系信息挖掘装置的结构示意图;

图7为第一确定单元的结构示意图;

图8为筛选单元的结构示意图;

图9为本申请另一实施例提供的一种企业关联关系信息挖掘装置的结构示意图;

图10为本申请又一实施例提供的一种企业关联关系信息挖掘装置的结构示意图;

图11为组织图谱示意图。

具体实施方式

参见图1,第一方面,本申请一实施例提供一种企业关联关系信息挖掘方法,所述方法包括如下步骤:

步骤101:获取待检测文本。

待检测文本可从新闻网站等网络获得或由技术人员操作终端向服务器发送待检测文本,也可由工作人员走访工商局获得的资料,本发明实施例不做限定。

步骤102:对所述待检测文本进行拆分处理,得到至少一个分句。

待检测文本的拆句方式可从待检测文本的开始位置处,查找其中包括的预设标点符号,将两个预设标点符号之间的字符确定为一个分句,得到至少一个分句,其中,预设标点符号可以是句与句之间的分隔符、句号、逗号、感叹号和分号等。

步骤103:对每个所述分句进行分词并词性标注。

在本实施例中,可采用nlp(naturallanguageprocessing,自然语言处理)系统对每个分句进行分词处理,同时标出出每个分词的词性,然后可以将每个分句的分词处理得到的词语按照分句原来的词语顺序从前向后排列。

步骤104:识别每个所述分句中的关联关系词。

工作人员可根据实际挖掘需求建立数据模型,该模型包括关联关系词的类型、关联关系词的类型下属的关联关系词和关联关系词对应的多个扩展表达式,其中,扩展表达式可为正则表达式。通过数据模型中的关联关系词以及对应的多个扩展表达式依次对每个分词进行匹配,从而识别出分句中的关联关系词。

步骤105:判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则执行步骤106。

步骤106:根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。

关联关系词的类型包括多种,如组织关系类型、投资关系类型等,组织关系类型包括董事长、总经理等词语,投资关系类型包括投资、融资等词语。

由以上技术方案可知,本申请提供了一种企业关联关系挖掘方法,获取待检测文本;对所述待检测文本进行拆分处理,得到至少一个分句;对每个所述分句进行分词并词性标注;识别每个所述分句中的关联关系词;判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。因此,本申请无需工作人员在待检测文本中查找企业关联关系信息,提高企业关联关系信息挖掘的效率,并且,无需工作人员主观判断,提高挖掘的准确性。

参见图2,本申请另一实施例提供一种企业关联关系信息挖掘方法,所述方法包括如下步骤:

步骤201:获取待检测文本。

待检测文本可从新闻网站等网络获得或由技术人员操作终端向服务器发送待检测文本,也可由工作人员走访工商局获得的资料,本发明实施例不做限定。

在获取待检测文本后,可利用etl对待检测文本进行预处理,即去除待检测文本中的乱码、广告和非法字符,以及将字母、括号等进行同一化处理,以方便后续的信息处理,并提高挖掘的准确性。

etl是数据抽取、转换、加载的过程,etl将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起。

步骤202:对所述待检测文本进行拆分处理,得到至少一个分句。

待检测文本的拆句方式可从待检测文本的开始位置处,查找其中包括的预设标点符号,将两个预设标点符号之间的字符确定为一个分句,得到至少一个分句,其中,预设标点符号可以是句与句之间的分隔符、句号、逗号、感叹号和分号等。

步骤203:对每个所述分句进行分词并词性标注。

在本实施例中,可采用nlp(naturallanguageprocessing,自然语言处理)技术对每个分句进行分词处理,同时标出出每个分词的词性,然后可以将每个分句的分词处理得到的词语按照分句原来的词语顺序从前向后排列。

步骤204:识别每个所述分句中的关联关系词。

工作人员可根据实际挖掘需求建立数据模型,该模型包括关联关系词的类型、关联关系词的类型下属的关联关系词和关联关系词对应的多个扩展表达式,其中,关联关系词的类型包括多种,如组织关系类型、投资关系类型等,组织关系类型包括董事长、总经理等词语,投资关系类型包括投资、融资等词语;另外,扩展表达式可为正则表达式。正则表达式由一些普通字符和元字符组成,普通字符包括大小写的字母和数字,元字符具有特殊的含义,元字符包括如下11个文字字符:[]\︿﹩.∣?*()。元字符用于特殊用途,例如,“.”用于匹配换行字符“\n”和“\r”以外的任意字符;“?”表示匹配0或1个正好在它之前的那个字符,当字符紧跟在任何一个其他限制符(*,+,?,{n},{n,},{n,m})后面时,匹配模式是非贪婪的,非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串;“∣”表示将两个匹配条件进行逻辑“或”运算。

通过数据模型中的关联关系词以及对应的多个扩展表达式依次对每个分词进行匹配,从而识别出分句中的关联关系词。具体匹配方式本实施例不做限定。例如,在分句“北京神州泰岳软件股份有限公司的董事长是王宁”,利用nlp技术系统对其分词处理后得到,“北京神州泰岳股份有限公司”、“董事长”和“王宁”这三个分词,同时进行词性标出,其中,“北京神州泰岳股份有限公司”为实体机构名称,“王宁”为人名名称,“董事长”为名词。然后,利用工作人员预先建立的数据模型,该数据模型包括关联关系词的类型为组织关系词语,关联关系词为总裁、董事长和总经理等,关联关系词“董事长”的正则表达式为“(是|担任).{0,20}董事长”。利用数据模型中的关联关系词和对应的正则表达式分别与分词相匹配,从而可以确定分词“董事长”为分句中的关联关系词。

步骤205:判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则执行步骤206。

关联关系词的类型包括多种,如组织关系类型、投资关系类型等,组织关系类型包括董事长、总经理等词语,投资关系类型包括投资、融资等词语。

步骤206:提取所述关联关系词所在分句中名词为实体机构名称的分词和人名名称的分词。

具体地,名词可细分为实体机构名称、人名名称、地理名称等,在本申请实施例中,仅需提取所在分句中的名词为实体机构名称和人名名称的分词即可。

继续以上例为例,如果关联关系词的类型为组织关系词语,如高管信息等,则提取关联关系词所在的分句中的名词为实体机构名称的分词“北京神州泰岳股份有限公司”,以及名词为人名名称的分词“王宁”。

步骤207:如果所述名词为实体机构名称的分词的数量和人名名称的分词的数量均为一个,则生成所述名词为实体机构名称的分词与人名名称的分词之间的企业关联关系信息。

如上例示出,名词为实体机构名称的分词和人名名称的分词的数量各为一个,则直接生成企业关联关系信息“北京神州泰岳股份有限公司-董事长-王宁”。

步骤208:如果所述名词为实体机构名称的分词的数量和/或人名名称的分词的数量至少两个,则生成第一集合和第二集合,所述第一集合和第二集合均为所有所述名词为实体机构名称的分词和人名名称的分词组成的集合。

当一个分句中,名词为实体机构名称的分词的数量和/或人名名称的分词的数量至少两个时,例如,分句为“北京###有限公司的董事长为王xx和李xx”,经分词和词性标注后,词性为人名名称的分词有“王xx”和“李xx”,名词为实体机构名称的分词为“北京###有限公司”,则需将上述分词组形成两个集合,即第一集合{北京###有限公司,王xx,李xx},第二集合{北京###有限公司,王xx,李xx}。

步骤209:将所述第一集合和第二集合做笛卡尔积,得到多个子集合。

笛卡尔积是指在数学中,两个集合相乘的结果。以上例为例,将第一集合{北京###有限公司,王xx,李xx}和第二集合{北京###有限公司,王xx,李xx}做笛卡尔积,得到多个子集合分别为<北京###有限公司,北京###有限公司>,<北京###有限公司,王xx>,<北京###有限公司,李xx>,<王xx,北京###有限公司>,<王xx,王xx>,<王xx,李xx>,<李xx,北京###有限公司>,<李xx,王xx>,<李xx,李xx>。

步骤210:判断每个所述子集合内的分词是否相同,如果所述子集合内的分词相同,则执行步骤211。

步骤211:丢弃所述子集合。

例如,上例中,子集合<北京###有限公司,北京###有限公司>,<王xx,王xx>和<李xx,李xx>中的分词相同,需将这三个子集合丢弃。

步骤212:在所有由所述名词为实体机构名称的分词和人名名称的分词组成的子集合中,判断是否有相同的子集合,如果有相同的子集合,则执行步骤212。

步骤213:丢弃所述名词为实体机构名称的分词在词性为人名名称的分词之后的子集合。

在所有由名词为实体机构名称的分词和人名名称的分词组成的子集合中,相同的子集合为含有相同的分词的两个以上的子集合,例如,继续以上述例子为例,<北京###有限公司,王xx>和<王xx,北京###有限公司>为相同的子集合,同理,<北京###有限公司,李xx>和<李xx,北京###有限公司>为相同的子集合。在上述子集合中,将名词为实体机构名称的分词在人名名称的分词之后的子集合丢弃,即将<王xx,北京###有限公司>和<李xx,北京###有限公司>丢弃。

步骤214:在剩余的仅由所述名词为实体机构名称的分词或人名名称的分词组成的子集合中,按照所述名词为实体机构名称的分词或人名名称的分词在所述分句的位置,丢弃反向排序的子集合,得到目标集合。

反向排序为与阅读顺序相反的排序方式,例如,分句“北京###有限公司的董事长为王xx和李xx”,按照阅读顺序,分词“王xx”在“李xx”之前,则子集合<李xx,王xx>为反向排序,因此将该子集合丢弃。剩余的子集合为<北京###有限公司,王xx>,<北京###有限公司,李xx>,<王xx,李xx>,即目标集合为<北京###有限公司,王xx>,<北京###有限公司,李xx>,<王xx,李xx>。

步骤215:根据所述目标子集合和关联关系词,确定第一企业关联关系信息。

将目标子集合和关联关系词生成第一企业关联关系信息,例如,目标集合为<北京###有限公司,王xx>,<北京###有限公司,李xx>,<王xx,李xx>,则可得到第一企业关联关系信息为“北京###有限公司-董事长-王xx”,“北京###有限公司-董事长-李xx”和“董事长-王xx,李xx”。

由以上技术方案可知,本申请提供了一种企业关联关系信息挖掘方法,获取待检测文本;对所述待检测文本进行拆分处理,得到至少一个分句;对每个所述分句进行分词并词性标注;识别每个所述分句中的关联关系词;判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。因此,本申请无需工作人员在待检测文本中查找企业关联关系信息,提高企业关联关系信息挖掘的效率,并且,无需工作人员主观判断,提高挖掘的准确性。

参见图3,在本申请的又一实施例中,上述实施例中步骤215之后还包括:

步骤301:判断所述待检测文本中是否存在内容相同且词性不同的歧义关联关系词,如果所述待检测文本中存在内容相同且词性不同的歧义关联关系词,则执行步骤302。

步骤302:将所述歧义关联关系词所在位置之前或之后添加词性标签。

词性是以此的特点作为划分词类的依据,现代汉语的词可分为实词和虚词两类,实词通常包括名词、量词、形容词和动词等,虚词包括副词、介词和连词等。由于中文的含义丰富,一个词可能因为语境的不同而具有不同的词性,这样对于关系关联词的确定容易产生错误,为了消除由于歧义产生的错误,本实施例中需要对待检测文本消除歧义,以得到更准确的企业关联关系信息。

例如,待检测文本为“北京##公司投资了沈阳##公司,投资资金为一百万元”,在利用数据模型简单匹配时,这两个分词“投资”均可被确定为关联关系词,但是由语义可以看出,“投资资金”中的“投资”不是所需的关联关系词,所以为了避免这种情况出现,本实施例将根据“投资”的词性区分,第一个“投资”为动词vt,第二个“投资”与后面的“资金”组成名词,即将该“投资”定义为动名词vn,然后在“北京##公司投资了沈阳##公司,投资资金为一百万元”中的“投资”之前或之后加上词性标签,即“北京##公司[vt]投资了沈阳##公司,[vn]投资资金为一百万元”。

步骤303:根据所述词性标签,识别出目标关联关系词。

在待检测文本添加词性标签后,将数据模型中对应关联关系词也添加上相应的词性标签,例如,将投资类型下的关联关系词“投资”添加上词性标签,得到“[vt]投资”。然后利用数据模型中的“[vt]投资”,与待检测文本进行匹配,得到待检测文本中准确的目标关联关系词“[vt]投资”。

步骤304:提取所述目标关联关系词所在的分句,并去除词性标签。

继续以上例为例,提取出的分句为“北京##公司[vt]投资了沈阳##公司”,然后再将词性标签[vt]去掉,得到“北京##公司投资了沈阳##公司”,以便进行后续的关联关系挖掘。

步骤305:对于包含所述目标关联关系词的每个分句,根据所述目标关联关系词的词性,以及所述目标关联关系词在分句中的位置,确定第二企业关联关系信息。

目标关联关系词的词性有动词、名词等,如动词有投资、增资、收购等,名词有控股人、子公司、母公司、控股股东等。企业关联关系信息包括基于目标关联关系词,构建的多个企业之间的关联关系,如目标关联关系词为“收购”,企业关联关系信息为实施对象—收购—受施对象。

在包含目标关联关系词的每个分句中,从目标关联关系词在分句中的位置处开始,向前识别,如果识别到第一企业名称,则将第一企业名称确定为关联关系词的实施对象的名称,并从目标关联关系词在分句中的位置处开始,向后识别,将识别到的第二企业名称,确定为目标关联关系词的受施对象的名称;基于目标关联关系词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

其中,在此处关联关系词为单向关联关系词,词性为动词,如“投资”、“增资”、“收购”等。第一企业名称和第二企业名称为任一企业名称。

在实施中,服务器确定出包含预设的关联关系词的分句后,对于某个分句,服务器可以确定该分句中的目标关联关系词的位置,结合目标关联关系词之前被标注为名词的词语的上下文信息,从目标关联关系键词所在位置处向前识别目标关联关系词之前被标注为名词的词语,如果能识别到第一企业名称,则将第一企业名称确定为关联关系词的实施对象,并结合目标关联关系词之后被标注为名词的词语的上下文信息,从目标关联关系词的位置处开始,向后识别目标关联关系词之后被标注为名词的词语,将识别得到的第二企业名称,确定为目标关联关系词的受施对象的名称。然后使用目标关联关系词,得到的企业关联关系信息为第一企业名称—关联关系词—第二企业名称,这样,就可以确定出这个分句中包含的企业关联关系信息,依此类推可以确定出包含目标关联关系词的每个分句中包含的企业关联关系信息。

例如,包含目标关联关系词的分句为“**有限责任公司投资了##有限责任公司”,进行分词处理后,得到的词语从前往后为“**有限责任公司”、“投资”、“了”、“##有限责任公司”,“**有限责任公司”为名词,“投资”为动词,“了”为助词,“##有限责任公司”为名词,服务器可以从“投资”向前识别,识别到“**有限责任公司”,将“**有限责任公司”确定为目标关联关系词的实施对象的名称,然后可以从“投资”向后识别,识别到“##有限责任公司”,这样确定出的企业关联关系信息为“**有限责任公司—投资—“##有限责任公司”。

需要说明的是,如果向后识别,未识别到任一企业名称,则进行下一分句的识别。

当目标关联关系词为单向目标关联关系词,且词性为名词时,相应的处理可以如下:

在包含目标关联关系词的每个分句中,从目标关联关系词在分句中的位置处开始,向后识别,如果识别到第三企业名称,则将第三企业名称确定为目标关联关系词的实施对象的名称,并从目标关联关系词在分句中的位置处开始,向前识别,将识别到的第四企业名称,确定为目标关联关系词的受施对象的名称;基于目标关联关系词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

其中,在此处目标关联关系词为单向目标关联关系词,词性为名词,如“控股股东”、“控股人”、“母公司”、“子公司”等。第三企业名称和第四企业名称为任一企业名称。

在实施中,服务器确定出包含预设的目标关联关系词的分句后,对于某个分句,服务器可以确定该分句中的目标关联关系词的位置,结合目标关联关系词之后被标注为名词的词语的上下文信息,从目标关联关系词所在位置处向后识别目标关联关系词之后被标注为名词的词语,如果能识别到第三企业名称,则将第三企业名称确定为目标关联关系词的实施对象,并结合目标关联关系词之前被标注为名词的词语的上下文信息,从目标关联关系词的位置处开始,向前识别目标关联关系词之前被标注为名词的词语,将识别得到的第四企业名称,确定为目标关联关系词的受施对象的名称。然后使用目标关联关系词,得到的企业关联关系信息为第三企业名称—目标关联关系词—第四企业名称,这样,就可以确定出这个分句中包含的企业关联关系信息,依此类推可以确定出包含关联关系词的每个分句中包含的企业关联关系信息。

例如,包含目标关联关系词的分句为“**有限责任公司的控股股东为##有限责任公司”,进行分句处理后,服务器识别到的目标关联关系词为“控股股东”,可以从“控股股东”向后识别,识别到“##有限责任公司”,将“##有限责任公司”确定为目标关联关系词的实施对象的名称,然后可以从“控股股东”向前识别,识别到“**有限责任公司”,这样确定出的企业关联关系信息为“##有限责任公司—控股股东—**有限责任公司”。

当目标关联关系词为双向目标关联关系词时,相应的处理可以如下:

在包含目标关联关系词的每个分句中,从目标关联关系词在分句中的位置处开始,向前识别,将识别到的多个企业名称确定为目标关联关系词的并列实施对象;基于目标关联关系词,生成所述多个企业名称之间的企业关联关系信息。

其中,在此处目标关联关系词为双向目标关联关系词,词性可以为名词或动词,例如,词性为名词时,双向目标关联关系词有“战略合作关系”、“合作伙伴”、“竞争关系”等,词性为动词时,双向目标关联关系词有“共同开创”、“联合承办”、“共同投资”。

需要说明的是,上述提到的识别出的企业名称,如果是简称,可以基于预设的企业的全称和简称的对应关系,查找到该简称对应的全称,将全称存储至企业关联关系信息中。

在本实施例中,服务器确定出包含预设的目标关联关系词的分句后,对于某个分句,服务器可以确定该分句中的目标关联关系词的位置,结合目标关联关系词之前被标注为名词的词语的上下文信息,从目标关联关系词所在位置处向前识别目标关联关系词之前被标注为名词的词语,在识别得到第一个企业名称后,继续向前识别直到这个分句中识别不到企业名称,然后使用这个分句中包括的关联关系词,得到的企业关联关系信息为多个企业的名称—目标关联关系词,这样,就可以确定出这个分句中包含的企业关联关系信息,依此类推可以确定出包含目标关联关系词的每个分句中包含的企业关联关系信息。

例如,包含目标关联关系词的分句为“**有限责任公司和##有限责任公司为战略合作关系”,进行分句处理后,得到的词语从前往后为“**有限责任公司”、“##有限责任公司”、“为”、“战略合作关系”,服务器识别到的目标关联关系词为“战略合作关系”,可以从“战略合作关系”向前识别,识别到“**有限责任公司”和“##有限责任公司”,这样确定出的企业关联关系信息为“**有限责任公司&##有限责任公司—“战略合作关系”。

可选的,目标关联关系词为双向目标关联关系词,且词性为动词时,某些分句中还会包括实施对象的名称和受施对象的名称,相应的处理可以如下:

在包含目标关联关系词的每个分句中,从目标关联关系词在分句中的位置处开始,向前识别,将识别到的企业名称确定为目标关联关系词的实施对象的名称,并从目标关联关系词在分句中的位置处开始,向后识别,将识别到的企业名称,确定为目标关联关系词的受施对象的名称;基于目标关联关系词,生成实施对象的名称与受施对象的名称之间的企业关联关系信息。

在实施中,服务器确定出包含预设的目标关联关系词的分句后,对于某个分句,服务器可以确定该分句中的目标关联关系词的位置,结合目标关联关系词之前被标注为名词的词语的上下文信息,从目标关联关系词所在位置处向前识别目标关联关系词之前被标注为名词的词语,在识别得到第一个企业名称后,继续向前识别直到这个分句中识别不到企业名称,将识别到的企业名称确定为实施对象的名称,然后结合目标关联关系词之后被标注为名词的词语的上下文信息,从目标关联关系词在分句中的位置处开始,向后识别,将识别到的企业名称,确定为目标关联关系词的受施对象的名称,然后使用目标关联关系词,确定出这个分句的企业关联关系信息为向前识别到的企业名称—目标关联关系词—向后识别到的企业名称。

例如,包含目标关联关系词的分句为“**有限责任公司和##有限责任公司共同投资了*#有限责任公司”,进行分词处理后,得到的词语从前往后为“**有限责任公司”、“##有限责任公司”、“共同投资”、“了”、“*#有限责任公司”,服务器识别到的目标关联关系词为“共同投资”,可以从“共同投资”向前识别,识别到“**有限责任公司”和“##有限责任公司”,将“**有限责任公司”和“##有限责任公司”都确定为目标关联关系词的实施对象的名称,然后向后识别,识别到“*#有限责任公司”,将“*#有限责任公司”确定为目标关联关系词的受施对象的名称,这样确定出的企业关联关系信息为“**有限责任公司&##有限责任公司”—“共同投资”-“*#有限责任公司”。

需要说明的是,上述提到的识别出的企业名称,如果是简称,可以基于预设的企业的全称和简称的对应关系,查找到该简称对应的全称,将全称存储至企业关联关系信息中。

步骤306:判断所述第二企业关联关系信息与第一企业关联关系信息是否相同,如果相同,则执行步骤307。

步骤307:丢弃与所述第一企业关联关系信息相同的第二企业关联关系信息。

将得到的第二企业关联信息与第一企业关联关系信息进行匹配,如果相同,则将第二企业关联关系信息丢弃,以防止重复存储。

参见图4,在本申请提供的另一实施例中,上述实施例步骤307之后还包括:

步骤401:判断所述待检测文本中除关联关系词之外存在否有至少两个内容相同且词性相同的分词,如果存在,则执行步骤402-406。

步骤402:记录至少两个内容相同且词性相同的分词的位置索引。

例如,待检测文本中含有“2018年5月28号,**有限责任公司做出决定,**有限责任公司选举王xx作为**有限责任公司新的董事长,王xx表示会为该企业负责”。其中,“**有限责任公司”为三个,“王xx”为两个。服务器分别记录上述分词的位置。

步骤403:根据至少两个内容相同且词性相同的分词的位置索引,按照距离关联关系词的最短路径优先原则,确定目标分词和所述目标分词对应的位置索引。

最短路径优先原则是从关联关系词的位置开始向前识别至第一预设标点符号为止,再由关联关系词的位置开始向后识别至第二预设标点符号位置,在第一预设标点符号与第二预设标点符号之间的文本,从中选择距离关联关系词最近的分词确定为目标分词,第一预设标点符号和第二预设标点符号包括句号、分号或逗号。继续以上例为例,其中,上述例子中有三个“**有限责任公司”和两个“王xx”,按照距离关联关系词最短路径优先原则,则从关联关系词的位置开始向前识别至第一个逗号为止,再由关联关系词的位置向后识别至第二个逗号为止,即得到“*有限责任公司选举王xx作为**有限责任公司新的董事长”,由此可以看出,在此文本中,距离董事长最近的“王xx”和第二个“**有限责任公司”可最为目标分词。

步骤404:根据所述目标分词的位置索引和关联关系词的位置,确定有效短句范围。

例如,上例中,将第三个“**有限责任公司”和第一个“王xx”确定为目标分词之后,根据它们的位置索引和关联关系词的位置,将两个目标分词之间的部分确定为有效短句范围,即“王xx作为**有限责任公司新的董事长”。

步骤405:在有效短句范围内,如果有效短句的关系句式为正向关系居中句式,则从所述关联关系词在所述有效短句范围内的位置处开始向前识别,将识别到的第一个企业名称或人名名称确定为第一实体,并从所述关联关系词在所述有效短句范围内的位置处开始向后识别,将识别到的第一个企业名称或人名名称确定为第二实体。

关系句式类型的确定,可通过工作人员确定数据模型中关联关系词后,设计出不同的关联关系词的句式模板,如关联关系词为“投资”,句式模板可为“……投资……”,“……被投资……”,“向……投资”,利用句式模板与有效短句进行匹配,将与其相匹配的句式模板对应的关系句式类型确定为有效短句的关系句式类型,关系句式类型包括正向关系居中句式、正向关系后置句式、反向关系居中句式和反向关系后置句式。

正向关系居中句式为主谓宾的正常句式,例如,“北京###公司收购北京***公司”,从关联关系词“收购”开始,向前识别,识别到“北京###公司”,将“北京###公司”确定为第一实体,并从关联关系词“收购”开始向后识别,将识别到的“北京***公司”确定为第二实体。

步骤406:在有效短句范围内,如果有效短句的关系句式为正向关系后置句式,则从关联关系词在所述有效短句范围内的位置处开始向前识别,将识别到的第一个企业名称或人名名称确定为第二实体,并继续向前识别,将识别到的第二个企业名称或人名名称确定为第一实体。

正向关系后置句式为主谓宾的正常句式,但关联关系词通常为名词,且在所有企业名称或人名名称之后,例如“王xx是北京###公司的董事长”,从关联关系词“董事长”开始向前识别,将“北京###公司”确定为第二实体,将“王xx”确定为第一实体。

步骤407:在有效短句范围内,如果有效短句的关系句式为反向关系居中句式,则从所述关联关系词在所述有效短句范围内的位置处开始向后识别,将识别到的第一个企业名称或人名名称确定为第一实体,并从所述关联关系词在所述有效短句范围内的位置处开始向前识别,将识别到的第一个企业名称或人名名称确定为第二实体。

反向关系居中句式为明显式被动句式,例如“北京###公司被投资北京***公司”,从关联关系词“投资”开始向后识别,将“北京***公司”确定为第一实体,并从“投资”处向前识别,将“北京###公司”确定为第二实体。

步骤408:在有效短句范围内,如果有效短句的关系句式为反向关系后置句式,则从所述关联关系词在所述有效短句范围内的位置处开始向前识别,将识别到的第一个企业名称或人名名称确定为第一实体,并继续向前识别,将识别到的第二个企业名称或人名名称确定为第二实体。

反向关系后置句式为隐藏式被动句式,关联关系词通常为动词,且在所有企业名称或人名名称之后,例如“北京###公司向北京***公司投资100万”,从关联关系词“投资”开始向前识别,将“北京***公司”确定为第一实体,并继续向前识别,将“北京###公司”确定为第二实体。

步骤409:根据所述第一实体、第二实体和关联关系词,确定第三企业关联关系信息。

基于关联关系词,生成第一实体与第二实体之间的企业关联关系信息,例如,“**有限责任公司-董事长-王xx”,“北京***公司-投资-北京###公司”。

步骤410:判断所述第三企业关联关系信息与第一企业关联关系信息是否相同,或者所述第三企业关联关系信息与第二企业关联关系信息是否相同,如果所述第三企业关联关系信息与第一企业关联关系信息相同,或者所述第三企业关联关系信息与第二企业关联关系信息相同,则执行步骤411。

步骤411:丢弃所述与所述第一企业关联关系信息相同的第三企业关联关系信息,以及与所述第二企业关联关系信息相同的第三企业关联关系信息。

将得到的第三企业关联信息分别与第一企业关联关系信息和第二企业关联关系信息进行匹配,如果,如果所述第三企业关联关系信息与第一企业关联关系信息相同,或者所述第三企业关联关系信息与第二企业关联关系信息相同,则将该第二企业关联关系信息丢弃,以防止重复存储。

参见图5,在本申请提供的另一实施例中,上述实施例步骤411之后还包括:

步骤501:根据第一企业关联关系、第二企业关联关系以及第三企业关联关系中的关联关系词,将所述第一企业关联关系、第二企业关联关系以及第三企业关联关系中的企业名称或人名名称建立关联路径,并存储至对应的数据库内。

由于关联关系词包括很多类型,如组织关系类型和投资关联关系类型等,工作人员可预先根据关联关系词的类型建立多个与其对应的数据库,例如,组织关联关系的关联关系词,则需建立股东信息的数据库和公司名称数据库。将所述第一企业关联关系、第二企业关联关系以及第三企业关联关系中的企业名称或人名名称建立关联路径之后,同时将企业名称或人名名称存储至对应的数据库内。例如:***公司-股东-王xx,则将***公司与王xx建立关联路径,并将***公司存储至公司名称数据库内,将王xx存储至股东信息的数据库内。

步骤502:获取用户输入的请求信息,所述请求信息包括用户待查询的企业名称或人名名称。

步骤503:判断所述请求信息与数据库内的存储信息是否匹配,所述数据库内的存储信息为第一企业关联关系、第二企业关联关系以及第三企业关联关系中的企业名称或人名名称,若匹配,则执行步骤504。

步骤504:根据所述存储信息的关联路径,提取与所述存储信息对应的关联关系信息,形成组织关系图谱。

例如,用户输入的是北京神州泰有软件股份有限公司,则将该信息与工作人员预设的数据库内的存储信息相匹配,如果查找到匹配的存储信息,则将与该存储信息建立关联路径的关联信息进行提取,得到如图11所示的组织关系图谱,以方便用户直接方便的了解该公司的组织构成。

由以上技术方案可知,本申请提供了一种企业关联关系挖掘方法,获取待检测文本;对所述待检测文本进行拆分处理,得到至少一个分句;对每个所述分句进行分词并词性标注;识别每个所述分句中的关联关系词;判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。因此,本申请无需工作人员在待检测文本中查找企业关联关系信息,提高企业关联关系信息挖掘的效率,并且,无需工作人员主观判断,提高挖掘的准确性。

第二方面,参见图6,本申请实施例提供了一种企业关联关系信息挖掘装置,所述装置包括:

获取模块601,用于获取待检测文本;

拆句模块602,用于对所述待检测文本进行拆分处理,得到至少一个分句;

词性标注模块603,用于对每个所述分句进行分词并词性标注;

第一识别模块604,用于识别每个所述分句中的关联关系词;

第一确定模块605,用于判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。

由以上技术方案可知,本申请提供了一种企业关联关系挖掘装置,通过获取待检测文本;对所述待检测文本进行拆分处理,得到至少一个分句;对每个所述分句进行分词并词性标注;识别每个所述分句中的关联关系词;判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。因此,本申请无需工作人员在待检测文本中查找企业关联关系信息,提高企业关联关系信息挖掘的效率,并且,无需工作人员主观判断,提高挖掘的准确性。

进一步地,参见图7,当所述关联关系词的类型为组织关系词语时,所述第一确定模块505包括:

提取单元701,用于提取所述关联关系词所在分句中名词为实体机构名称的分词和人名名称的分词;

第一判断单元702,用于如果所述名词为实体机构名称的分词的数量和人名名称的分词的数量均为一个,则生成所述实体机构名称的分词与人名名称的分词之间的企业关联关系信息;

第二判断单元703,用于如果所述名词为实体机构名称的分词的数量和/或人名名称的分词的数量至少两个,则生成第一集合和第二集合,所述第一集合和第二集合均为所有所述实体机构名称的分词和人名名称的分词组成的集合;

笛卡尔积单元704,用于将所述第一集合和第二集合做笛卡尔积,得到多个子集合;

筛选单元705,用于根据预设的筛选规则进行筛选,对多个所述子集合进行筛选,得到目标集合;

第一确定单元706,用于根据所述目标子集合,确定第一企业关联关系信息。

进一步地,参见图8,所述筛选单元605包括:

第一判断子单元801,用于判断每个所述子集合内的分词是否相同,如果所述子集合内的分词相同,则丢弃所述子集合;

第二判断子单元802,用于在所有由名词为实体机构名称的分词和人名名称的分词组成的子集合中,判断是否有相同的子集合,如果有相同的子集合,则丢弃所述名词为实体机构名称的分词在词性为人名名称的分词之后的子集合;

目标集合确定子单元803,用于在剩余的仅由所述名词为实体机构名称的分词或人名名称的分词组成的子集合中,按照所述名词为实体机构名称的分词或人名名称的分词在所述分句的位置,丢弃反向排序的子集合,得到目标集合。

进一步地,参见图9,所述装置还包括:

第一判断模901,用于判断所述待检测文本中是否存在内容相同且词性不同的歧义关联关系词,如果所述待检测文本中存在内容相同且词性不同的歧义关联关系词,则将所述歧义关联关系词所在位置之前或之后添加词性标签;

第二识别模块902,用于根据所述词性标签,识别出目标关联关系词;

提取分句模块903,用于提取所述目标关联关系词所在的分句,并去除词性标签;

第二确定模块904,用于对于包含所述目标关联关系词的每个分句,根据所述目标关联关系词的词性,以及所述目标关联关系词在分句中的位置,确定第二企业关联关系信息;

第二判断模块905,用于判断所述第二企业关联关系信息与第一企业关联关系信息是否相同,如果相同,则丢弃与所述第一企业关联关系信息相同的第二企业关联关系信息。

进一步地,参见图10,所述装置还包括:

第三判断模块1001,用于判断所述待检测文本中除关联关系词之外存在否有至少两个内容相同且词性相同的分词,如果存在,则记录至少两个内容相同且词性相同的分词的位置索引;

确定位置索引模块1002,用于根据至少两个内容相同且词性相同的分词的位置索引,按照距离关联关系词的最短路径优先原则,确定目标分词和所述目标分词对应的位置索引;

有效短句范围确定模块1003,用于根据所述目标分词的位置索引和关联关系词的位置,确定有效短句范围;

实体确定模块1004,用于在有效短句范围内,如果有效短句的关系句式为正向关系居中句式,则从所述关联关系词在所述有效短句范围内的位置处开始向前识别,将识别到的第一个企业名称或人名名称确定为第一实体,并从所述关联关系词在所述有效短句范围内的位置处开始向后识别,将识别到的第一个企业名称或人名名称确定为第二实体;

如果有效短句的关系句式为正向关系后置句式,则从所述关联关系词在所述有效短句范围内的位置处开始向前识别,将识别到的第一个企业名称或人名名称确定为第二实体,并继续向前识别,将识别到的第二个企业名称或人名名称确定为第一实体;

如果有效短句的关系句式为反向关系居中句式,则从所述关联关系词在所述有效短句范围内的位置处开始向后识别,将识别到的第一个企业名称或人名名称确定为第一实体,并从所述关联关系词在所述有效短句范围内的位置处开始向前识别,将识别到的第一个企业名称或人名名称确定为第二实体;

如果有效短句的关系句式为反向关系后置句式,则从所述关联关系词在所述有效短句范围内的位置处开始向前识别,将识别到的第一个企业名称或人名名称确定为第一实体,并继续向前识别,将识别到的第二个企业名称或人名名称确定为第二实体;

第三确定模块1005,用于根据第一实体、第二实体和关联关系词,确定第三企业关联关系信息;

第三判断模块1006,用于判断所述第三企业关联关系信息与第一企业关联关系信息是否相同,或者所述第三企业关联关系信息与第二企业关联关系信息是否相同,如果所述第三企业关联关系信息与第一企业关联关系信息相同,或者所述第三企业关联关系信息与第二企业关联关系信息相同,则丢弃所述与所述第一企业关联关系信息相同的第三企业关联关系信息,以及与所述第二企业关联关系信息相同的第三企业关联关系信息。

由以上技术方案可知,本申请提供了一种企业关联关系信息挖掘方法及装置,获取待检测文本;对所述待检测文本进行拆分处理,得到至少一个分句;对每个所述分句进行分词并词性标注;识别每个所述分句中的关联关系词;判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。因此,本申请无需工作人员在待检测文本中查找企业关联关系信息,提高企业关联关系信息挖掘的效率,并且,无需工作人员主观判断,提高挖掘的准确性。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以似的一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分可相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处,尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1