企业实体的识别方法、装置、计算机设备及存储介质与流程

文档序号:15271676发布日期:2018-08-28 22:30阅读:201来源:国知局

本发明涉及互联网技术领域,尤其涉及一种企业实体的识别方法、装置、计算机设备及存储介质。



背景技术:

网络舆情是指通过互联网表达和传播的、公众对自己关心或与自身利益紧密相关的事件所持有的情绪、态度、意见和观点的集合。企业实体在网络舆情中通常承载着关键信息,对企业实体进行识别是挖掘网络舆情的关键。

然而,企业实体命名规律性不强,使用比较随意,且经常以简称的形式出现,如何从网络舆情文本中提取出企业实体成为亟待解决的问题。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的第一个目的在于提出一种企业实体的识别方法,通过分别进行企业全称识别和企业简称识别,得到企业全称和企业简称,进而将识别出的企业全称和企业简称确定为企业实体的名称,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。

本发明的第二个目的在于提出一种装置企业实体的识别装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机程序产品。

本发明的第五个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的,本发明第一方面实施例提出了一种企业实体的识别方法,包括:

采集舆情文本进行分词处理,得到分词结果;

根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;

根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;

将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。

本发明实施例的企业实体的识别方法,通过对采集的舆情文本进行分词处理得到分词结果,根据分词结果进行企业全称识别,获取舆情文本中包括的第一企业全称,根据分词结果进行企业简称识别,获取舆情文本中包括的第一企业简称,进而将识别出的第一企业全称和第一企业简称确定为企业实体的名称。由此,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。

为达上述目的,本发明第二方面实施例提出了一种企业实体的识别装置,包括:

分词模块,用于采集舆情文本进行分词处理,得到分词结果;

全称识别模块,用于根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;

简称识别模块,用于根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;

确定模块,用于将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。

本发明实施例的企业实体的识别装置,通过对采集的舆情文本进行分词处理得到分词结果,根据分词结果进行企业全称识别,获取舆情文本中包括的第一企业全称,根据分词结果进行企业简称识别,获取舆情文本中包括的第一企业简称,进而将识别出的第一企业全称和第一企业简称确定为企业实体的名称。由此,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。

为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的企业实体的识别方法。

为达上述目的,本发明第四方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时实现如第一方面实施例所述的企业实体的识别方法。

为达上述目的,本发明第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的企业实体的识别方法。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明实施例所提供的第一种企业实体的识别方法的流程示意图;

图2为本发明实施例所提供的第二种企业实体的识别方法的流程示意图;

图3为本发明实施例所提供的第三种企业实体的识别方法的流程示意图;

图4为构建企业简称字典树的方法流程示意图;

图5为本发明实施例所提供的第四种企业实体的识别方法的流程示意图;

图6为本发明实施例所提供的第一种企业实体的识别装置的结构示意图;

图7为本发明实施例所提供的第二种企业实体的识别装置的结构示意图;

图8为本发明实施例所提供的第三种企业实体的识别装置的结构示意图;

图9为本发明实施例所提供的第四种企业实体的识别装置的结构示意图;以及

图10为本发明一实施例提出的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的企业实体的识别方法、装置、计算机设备及存储介质。

目前,为了识别出网络舆情中的企业实体,现有的识别方法多是基于隐马尔可夫模型、条件随机场模型或者特定的字典树来识别企业名称。

然而,基于隐马尔可夫模型和条件随机场模型的识别方法需要预先构建训练模型,利用训练后的模型识别中舆情文本中的企业实体,这两种识别方法仅能识别出命名较为规范的企业全称,无法识别出简称或者代称。

针对上述问题,本发明提出了一种企业实体的识别方法,以准确识别舆情文本中的企业实体,提高企业实体识别的准确率。图1为本发明实施例所提供的第一种企业实体的识别方法的流程示意图。

如图1所示,该企业实体的识别方法包括以下步骤:

步骤101,采集舆情文本进行分词处理,得到分词结果。

网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。

网络舆情以网络为载体进行表达和传播,从而,本实施例中,可以从网络中获取需要进行企业实体识别的网络舆情文本,并对获取的舆情文本进行切词、剔除标点符号、去停用词等预处理操作。其中,可以采用相关的切词工具对舆情文本进行切词,切词粒度比如可以为basic粒度。

步骤102,根据分词结果进行企业全称识别,获取舆情文本中包括的第一企业全称。

本实施例中,对舆情文本进行分词得到分词结果后,可以根据分词结果进行企业全称识别,以获取舆情文本中包括的第一企业全称。

作为一种可能的实现方式,可以利用已知的企业实体名称对机器模型进行训练,得到训练后的机器模型,进而基于训练后的机器模型,将分词结果输入至训练后的机器模型中,得到输出的企业实体名称,作为获取的舆情文本的第一企业全称。

步骤103,根据分词结果进行企业简称识别,获取舆情文本中包括的第一企业简称。

目前现有的企业实体识别方法均仅关注企业名称,未考虑与企业相关的属性特征,不利于企业实体的准确识别。本实施例中,获取了舆情文本的分词结果之后,还可以根据分词结果进行企业简称识别,以获取舆情文本中包括的第一企业简称。比如,可以预先挖掘出不同企业的企业简称以及与企业对应的属性信息,根据属性信息和企业简称,从分词结果中识别出舆情文本中包括的第一企业简称。

此处需要说明的是,本实施例中根据分词结果进行企业简称识别以获取舆情文本中包括的第一企业简称的具体实现过程将在后续内容中进行说明,为避免重复,此处不作详细描述。

步骤104,将识别出的第一企业全称和第一企业简称确定为企业实体的名称。

本实施例中,根据分词结果分别获取了舆情文本中包括的第一企业全称和第一企业简称之后,可以将第一企业全称和第一企业简称确定为企业实体的名称。

本实施例的企业实体的识别方法,通过对采集的舆情文本进行分词处理得到分词结果,根据分词结果进行企业全称识别,获取舆情文本中包括的第一企业全称,根据分词结果进行企业简称识别,获取舆情文本中包括的第一企业简称,进而将识别出的第一企业全称和第一企业简称确定为企业实体的名称。由此,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。

为了更加清楚地描述前述实施例中对分词结果进行企业全称识别,获取舆情文本中包括的第一企业全称的具体实现过程,本发明实施例提出了另一种企业实体的识别方法,图2为本发明实施例所提供的第二种企业实体的识别方法的流程示意图。

如图2所示,在如图1所示实施例的基础上,步骤102可以包括以下步骤:

步骤201,根据分词结果中分词的语义,对分词结果中的分词进行标注。

企业名称通常具有固定的组成结构,一般由行政区划、字号、行业和组织形式构成,其中,字号是企业名称中最重要的组成部分,能够标识企业本身并显著区别于其他企业,具有表意性、独占性等特点。比如,“深圳有财金融有限公司”中,“深圳”为行政区划,“有财”为字号,“金融”为行业,“有限公司”为组织形式。本实施例中,对采集的舆情文本进行分词得到分词结果后,可以进一步根据分词结果中各个分词的语义,对分词进行标注。

作为一种可能的实现方式,可以由人工判断分词结果中各个分词的语义,并根据语义对舆情文本的分词结果中包括的企业名称的分词进行标注,将舆情文本中包括的企业名称的分词分别标注行政区划、字号、行业等标签,将舆情文本中剩余的分词标注为非实体部分,非实体部分不包括企业实体的名称。

作为一种可能的实现方式,可以利用语言模型对分词结果中的各个分词进行标注,此时需要先训练得到语言模型。具体地,可以从互联网中收集大量的舆情文本,并对舆情文本进行分词、去停用词、剔除标点符号等预处理操作,得到分词结果,并对分词结果进行标注,识别出舆情文本中包括的企业名称,对企业名称的各个分词标注字号、行业等标签。进而,将舆情文本的分词结果作为机器学习模型的输入,将企业名称的分词以及对应的标签作为机器学习模型的输出,对机器学习模型进行训练,得到语言模型。从而,再后续对企业实体进行识别的过程中,可以将舆情文本的分词结果输入至语言模型中,得到分词的标注结果。

步骤202,将分词和分词的标注信息,连续输入到条件随机场模型中进行企业全称识别,得到分词的识别结果;其中,识别结果中包括第一信息和第二信息,第一信息用于表示分词为第一企业全称中的词语,第二信息为分词在第一企业全称中的位置信息。

本实施例中,对舆情文本的分词结果进行标注之后,可以将所得的分词和分词的标注信息,连续输入至条件随机场模型中进行企业全称识别,得到分词的识别结果。其中,分词的标注信息即为对分词进行标注的标签,条件随机场模型是预先训练得到的。

条件随机场(conditionalrandomfields,crf)模型是在输入一组随机变量的条件下输出另一组随机变量的条件概率分布模型,其特点是假设输出的随机变量构成马尔可夫随机场。crf模型不同于产生式模型,可以使用丰富的、彼此重叠的观察序列的特征,而且没有特别严格的前提假设;也不同于最大熵马尔科夫模型等概率模型,crf模型并非是对单一标志归一化之后再进行全局搜索,而是在整个观测序列上求解一个最优的标志序列,能够预防标志偏见的问题。

本实施例中,可以预先构建训练语料,并利用构建的训练语料对crf模型进行训练。在构建训练语料时,可以从网上获取大量的舆情文本,并根据已知的企业全称构建企业全称字典树,利用企业全称字典树对获取的舆情文本进行遍历,得到包含企业全称的舆情文本。进而,将包含企业全称的舆情文本划分为实体部分和非实体部分,并对实体部分进一步结构化为行政区划、字号、行业等,即对实体部分进行分词并标注。其中,对舆情文本的实体部分进行分词及标注的过程可以由人工实现,也可以利用训练后的模型实现。将分词及分词的标注信息作为输入,将用于表示某一分词为企业全称中的词语的第一信息以及该分词在企业全称中的位置信息作为输出,对crf模型进行训练,得到训练后的crf模型,以用于后续的企业全称识别。

在识别舆情文本中包含的企业全称时,将舆情文本的分词及标注信息输入至训练后的crf模型中,可以得到第一企业全称包含的分词的第一信息以及该分词在第一企业全称中的位置信息。通过第一信息可以指示出分词是否为构成第一企业全称的词语,而通过位置信息可以得知该分词在第一企业全称中的开头、中间或者结尾。例如,可以通过s、m和e分别表示出分词在第一企业全称中的位置。其中,s表示开头,m表示中间,e表示结尾。

crf模型能够同时利用核心词的前n个词和后m个词作为该核心词的上下文信息(m、n均为正整数),最终核心词标记的结果将会是前后词语信息共同影响的结果,更加符合企业全称识别的实际情况。从而,在本发明实施例一种可能的实现方式中,可以为crf模型设置预设长度的观察窗,其中,预设长度可以自行设置,比如设置预设长度为5,即n和m均为5。从而,在将分词和分词的标注信息输入至条件随机场模型中进行企业全称识别时,可以在条件随机场模型对分词识别的过程中,通过观察窗确定与分词存在上下文关系的第一分词,获取第一分词和第一分词的标注信息,进而,基于分词和分词的标注信息以及第一分词和第一分词的标注信息进行企业全称识别,得到分词的识别结果。由此,能够使得企业全称识别过程更加匹配企业名称的结构。

步骤203,如果第一信息指示包括第一企业全称,则根据位置信息,从分词中提取出第一企业全称。

本实施例中,识别获得分词的识别结果之后,可以根据分词结果中的第一信息确定舆情文本中是否包括企业全称,当第一信息指示包括第一企业全称时,则可以根据第二信息指示的分词的位置信息,从分词中提取出第一企业全称。

进一步地,在本发明实施例一种可能的实现方式中,如图2所示,步骤203之后还可以包括:

步骤204,利用预先构建的企业全称字典树,在企业全称字典库中查询第一企业全称。

本实施例中,从舆情文本中识别出第一企业全称之后,可以进一步判断第一企业全称是否存在于企业全称字典库中。其中,企业全称字典库中存储的企业全称与预先构建的企业全称字典树中的企业全称一致。

在获取了第一企业全称之后,可以在企业全称字典树中匹配第一企业全称。首先,在企业全称字典树中查询与第一企业全称的第一个字或词语一致的节点,若未查询到与第一企业全称的第一个字或词语一致的节点,则表明企业全称字典库中不存在该第一企业全称;否则,继续查询该节点的子节点是否与该第一企业全称的第二个字或词语一致,若不一致,则表明企业全称字典库中不存在该第一企业全称;否则,继续查询该子节点的子节点是否与该第一企业全称的下一个字或词语一致,重复上述步骤,直至遍历完该第一企业全称。如果该第一企业全称的最后一个字或词语在企业全称字典树的子节点中查询到,则可以确定该第一企业全称存在于企业全称字典库中。

步骤205,如果企业全称字典库中未查询到第一企业全称,则将第一企业全称增加到企业全称字典库中,对企业全称字典库进行更新。

步骤206,利用第一企业全称,对企业全称字典树进行更新。

本实施例中,如果在企业全称字典库中未查询到识别出的第一企业全称,则将第一企业全称添加至企业全称字典库中,以实现对企业全称字典库的更新,并利用第一企业全称对企业全称字典树进行更新。

具体地,在利用第一企业全称更新企业全称字典树时,可以从企业全称字典树的根节点开始搜索,查询到第一企业全称的第一个字所在的节点,并利用第一企业全称的第二个字查找第一个字所在节点的子节点,若未找到包含第二个字的子节点,则在第一个字所在节点处增加子节点,该子节点的字为第一企业全称的第二个字,并利用第一企业全称中剩余的字依次构建新的子节点;若在第一个字所在节点处找到第二个字所在的节点,则继续在第二个字所在节点处查找第一企业全称的第三个字所在的节点,若未找到,则新增节点;若找到,则继续查找下一个字所在的节点,直至将第一企业全称添加至企业全称字典树中。

本实施例的企业全称的识别方法,通过根据分词的语义对分词进行标注,将分词和分词的标注信息连续输入至条件随机场模型中进行企业全称识别,得到包含第一信息和第二信息的识别结果,在第一信息指示包括第一企业全称时,根据第二信息中的位置信息从分词中提取出第一企业全称,能够准确识别舆情文本中的企业全称。通过利用预先构建的企业全称字典树,在企业全称字典库中查询第一企业全称,并在未查询到时将第一企业全称添加至企业全称字典库中,对企业全称字典库进行更新,并利用第一企业全称对企业全称字典树进行更新,能够实现企业全称字典树的自迭代,自动化扩展企业实体库,减少人工干预,提高企业实体识别的召回率。

为了更加清楚地描述前述实施例中,对分词结果进行企业简称识别,获取舆情文本中包括的第一企业简称的具体实现过程,本发明实施例提出了另一种企业实体的识别方法,图3为本发明实施例所提供的第三种企业实体的识别方法的流程示意图。

如图3所示,在如图1所示实施例的基础上,步骤103可以包括以下步骤:

步骤301,利用预先构建的企业简称字典库,匹配出分词结果中包括的第二企业简称。

其中,第二企业简称为存在于预先构建的企业简称字典库中的企业简称,企业简称字典库是根据历史搜索词的点击日志和/或企业的字号信息确定出的。

本实施例中,利用企业简称字典库匹配出分词结果中的第二企业简称之前,可以先构建企业简称字典库。进而,利用预先构建的企业简称字典库,匹配出分词结果中包括的第二企业简称。比如,可以利用企业简称字典库对舆情文本的分词结果进行遍历,从分词结果中筛选出与企业简称字典库中的简称匹配的分词作为第二企业简称。

此处需要说明的是,企业简称字典库的构建过程将在后续内容中给出,为避免重复,此处不作详细描述。

步骤302,从舆情文本中,获取包括第二企业简称的上下文句子,根据上下文句子构建第一词向量。

具体地,从舆情文本的分词结果中匹配出第二企业简称之后,可以根据第二企业简称,从舆情文本中获取包含第二企业简称的上下文句子,并根据上下文句子构建第一词向量。

比如,可以对舆情文本中包含第二企业简称的上下文句子进行分词、剔除停用词等预处理操作,将上下文句子转换为词集,进而将词集中的词转换为第一词向量。例如,可以利用word2vector获取词向量。

步骤303,计算第一词向量与第二企业简称的企业属性词的第二词向量之间的第一相似度。

比如,可以利用余弦相似度计算第一词向量和企业属性词的第二词向量之间的第一相似度,计算公式如公式(1)所示。

其中,d表示第一相似度;xi和yi分别表示第一词向量和第二词向量中的第i个元素,n表示第一词向量和第二词向量的维度;θ表示第一词向量和第二词向量之间的夹角。

此处需要说明的是,企业属性词的获取过程将在后续内容中给出,为避免重复,此处不作详细描述。

步骤304,如果第一相似度超出了预设的阈值,则将第二企业简称作为舆情文本中的第一企业简称。

其中,第一相似度的阈值可以预先设定,阈值设定越高,将第二企业简称确定为第一企业简称的门槛越高,识别的第一企业简称的准确率越高。

本实施例中,当计算所得的第一词向量和第二词向量之间的第一相似度高于预设的阈值时,则将匹配出的第二企业简称作为舆情文本的第一企业简称。

本实施例的企业实体的识别方法,通过利用预先建立的企业简称字典库匹配出第二企业简称,从舆情文本中获取包含第二企业简称的上下文句子,并根据上下文句子构建第一词向量,计算第一词向量和企业属性词的第二词向量之间的第一相似度,将第一相似度超出预设的阈值的第二企业简称作为舆情文本的第一企业简称,能够从舆情文本中识别出企业简称,提高企业实体识别的准确率。

为了能够利用企业简称字典库匹配出第二企业简称,可以先构建出企业简称字典库,具体地,可以从两个方面构建企业简称字典库。

一方面,可以根据点击日志确定出企业的简称,并利用确定的简称构建企业简称字典库。图4为构建企业简称字典树的方法流程示意图。如图4所示,在如图3所示实施例的基础上,在步骤301之前,还可以包括以下步骤:

步骤401,获取历史搜索词的点击日志。

用户的点击日志可以作为用户搜索需求的表现形式,同时,也可以表明用户对企业的认识及称呼,因此,可以根据点击日志确定出企业的简称。本实施例中,可以从搜索引擎的服务器中获取历史搜索词的点击日志,其中,历史搜索词与企业有关,比如可以是企业的行业类型、企业的简称等。

步骤402,从点击日志中提取出与企业的统一资源定位符url存在链接关系的第一历史搜索词。

点击日志中,可能存在多个历史搜索词对应同一个企业的统一资源定位符(uniformresourcelocator,url)的情况,即利用不同的历史搜索词进行搜索时,能够链接至同一个企业的url。本实施例中,可以从获取的点击日志中提取出与同一个企业的url存在链接关系的所有的历史搜索词,作为第一搜索词。

步骤403,获取指定url对应的第一历史搜索词之间的公共前缀;其中,指定url为所有企业的url中的任意一个。

针对任意一个企业的url,可以获取与该url对应的第一历史搜索词之间的公共前缀,即获取第一历史搜索词中包含的共同的词语。

步骤404,将第一历史搜索词和/或公共前缀子串作为企业简称,添加到企业简称字典库中。

本实施例中,可以将获取的公共前缀子串和/或第一历史搜索词作为企业简称,并将企业简称添加至企业简称字典库中。例如,当提取的第一历史搜索词仅有一个时,可以将该第一历史搜索词作为企业简称;当提取的第一历史搜索词为多个且均存在公共前缀子串时,将公共前缀子串作为企业简称;当提取的第一历史搜索词为多个且至少有一个第一历史搜索词与其他第一历史搜索词不存在公共前缀子串时,可以将第一历史搜索词和公共前缀子串作为企业简称。

在本发明实施例一种可能的实现方式中,可以获取第一历史搜索词或者公共前缀子串在指定url下的权重,根据权重对第一历史搜索词或者公共前缀子串进行筛选,将筛选后的第一历史搜索词和/或公共前缀子串作为企业简称,添加到企业简称字典库中。

具体地,获取第一历史搜索词或者公共前缀子串在指定url下的权重时,可以先获取在指定url的条件下,点击第一历史搜索词或者公共前缀子串链接到指定url的第一条件概率,以及获取在点击第一历史搜索词或者公共前缀子串的条件下,跳转到指定url的第二条件概率,进而根据第一条件概率和第二条件概率,得到权重。权重的计算公式如公式(2)所示。

w(query|url)=p(query|url)*p(url|query)(2)

其中,w(query|url)表示第一历史搜索词或公共前缀子串在指定url下的权重;p(query|url)表示第一条件概率,p(url|query)表示第二条件概率,第一条件概率和第二条件概率可以统计获得。比如,在获取第一条件概率时,可以统计能够链接至指定url的所有历史搜索词或者公共前缀子串的总个数,并从中确定出第一历史搜索词和第一历史搜索词的公共前缀子串的个数,两者的比值(个数/总个数)即为第一条件概率。在获取第二条件概率时,可以统计出点击第一历史搜索词或者公共前缀子串能够跳转至的所有url的总个数,并从中筛选出指定url的个数,两者的比值(个数/总个数)即为第二条件概率。

进而,可以根据所得的权重对第一历史搜索词获取公共前缀子串进行筛选,比如,可以将权重未达到预设的权重阈值的第一历史搜索词或者公共前缀子串筛选掉,保留权重达到权重阈值的第一历史搜索词和/或公共前缀子串添加至企业简称字典库中。

综上所述,通过获取历史搜索词的点击日志,从点击日志中提取出与企业的url存在链接关系的第一历史搜索词,获取指定url对应的第一历史搜索词之间的公共前缀,并将公共前缀和/或第一历史搜索词作为企业简称添加至企业简称字典库中,能够构建出用户认可的企业简称字典库,为企业简称识别奠定基础。

另一方面,可以利用企业的字号构建企业简称字典树。如前文所述,字号是企业名称中最重要的组成部分,能够标识企业本身并显著区别于其他企业,从而,本实施例中,可以从已知的企业全称中获取企业的字号信息,将企业的字号信息作为企业简称,并添加至企业简称字典库中。

由于字号并非一定能够被用户认可,进一步地,在本发明实施例一种可能的实现方式中,还可以对获取的字号信息进行筛选。具体地,可以获取与字号信息对应的企业的统一资源定位符url以及url的点击比重,根据点击比重对所有的字号信息进行过滤,滤除企业表征能力较弱的字号信息,将过滤后保留的字号信息作为企业简称,添加至企业简称字典库中。

通过获取字号信息作为企业简称构建企业简称字典库,能够识别出具有标志性的企业简称,为企业简称识别奠定了基础。

此处需要说明的是,可以仅采用如图4所示实施例所述的方式构建企业简称字典库,也可以采用获取字号信息的方式构建企业简称字典库,但为了尽可能扩大企业简称字典库的覆盖范围,优选地,采用两种方式结合的方法构建企业全称字典库,以识别尽可能多的简称。

为了能够计算第一词向量与企业属性词的第二词向量之间的第一相似度,可以先获取企业简称的企业属性词以及企业属性词的第二词向量。需要说明的是,获取企业属性词及第二词向量的实现过程可以在计算第一相似度之前的任意时刻执行,本发明实施例仅以在利用预先构建的企业简称字典树匹配出分词结果中包括的第二企业简称之前获取企业属性词及第二词向量为例进行说明。图5为本发明实施例所提供的第四种企业实体的识别方法的流程示意图。

如图5所示,在如图3所示实施例的基础上,步骤301之前还可以包括以下步骤:

步骤501,针对企业简称字典库中的企业简称,从企业简称中挖掘对应的企业类型词。

如前文所述,企业名称通常由行政区划、字号、行业和组织形式构成,其中,行业能够在一定程度上表现企业类型或经营方式。为了避免企业简称不能唯一标识企业的情况,可以获取更多的信息对企业简称进行补充。比如,可以挖掘出企业名称中的企业类型来补充企业简称。

本实施例中,针对企业简称字典库中的企业简称,可以从企业简称中挖掘对应的企业类型词。具体地,针对企业简称字典库中的每一个企业简称,可以先获取企业简称对应的企业全称,再从企业全称中挖掘出企业的行业作为与企业简称对应的企业类型词。

步骤502,将企业简称作为种子词,从历史舆情文本中,挖掘包括种子词的历史点击搜索词。

针对企业简称字典库中的每一个企业简称,将该企业简称作为种子词,对获取的每一个历史舆情文本进行遍历,以从历史舆情文本中挖掘出包含该种子词的历史点击搜索词。

进一步地,在本发明实施例一种可能的实现方式中,还可以对历史点击搜索词进行筛选,从中筛选出点击比重较高的历史点击搜索词,以使后续获取的企业属性词与企业简称之间的相关度较高。

步骤503,利用历史点击搜索词中除种子词之外的词,生成第三词向量。

本实施例中,挖掘出历史点击搜索词之后,可以对历史点击搜索词进行剔除标点符号、去除停用词等预处理操作,并对预处理后的历史点击搜索词中,除种子词之外的词进行转换,利用word2vector将词转化成为词向量,得到第三词向量。

步骤504,计算第三词向量与预先根据行业类型词构建的第四词向量之间的第二相似度。

本实施例中,可以预先针对企业简称获取匹配的行业类型词,并利用word2vector将行业类型词转化成为词向量,得到第四词向量,进而,计算第三词向量与第四词向量之间的第二相似度。比如,可以计算第三词向量与第四词向量之间的余弦相似度作为第二相似度。

步骤505,选取最高的第二相似度对应的行业类型词作为企业简称的行业类型词。

针对包含任意一个种子词的历史点击搜索词,利用除该种子词之外的词的第三词向量以及预先构建的第四词向量,计算得到至少一个第二相似度之后,可以比较所得的第二相似度的大小,将最大的第二相似度对应的行业类型词作为企业简称的行业类型词。

步骤506,利用企业类型词和行业类型词,形成企业简称的企业属性词。

步骤507,根据企业属性词形成第二词向量。

本实施例中,确定了企业简称的行业类型词之后,可以利用企业类型词和行业类型词形成企业简称的企业属性词。进而,根据企业属性词可以获取第二词向量。比如,可以利用word2vector根据企业属性词形成第二词向量。

本实施了的企业实体的识别方法,通过从企业简称中挖掘企业类型词,以及从历史舆情文本中挖掘包含企业简称的历史点击搜索词,并利用历史点击搜索词中除企业简称之外的词生成第三词向量,计算第三词向量与预先根据行业类型词构建的第四词向量之间的第二相似度,筛选出第二相似度最高的行业类型词,根据行业类型词和企业类型词形成企业简称的企业属性词,根据企业属性词形成第二词向量,能够获取与企业具有一定关系的企业属性词,进而根据企业属性词从舆情文本中识别出企业简称,能够提高企业简称识别的准确率。

为了实现上述实施例,本发明还提出一种企业实体的识别装置。

图6为本发明实施例所提供的第一种企业实体的识别装置的结构示意图。

如图6所示,该企业实体的识别装置60包括:分词模块610、全称识别模块620、简称识别模块630,以及确定模块640。其中,

分词模块610,用于采集舆情文本进行分词处理,得到分词结果。

全称识别模块620,用于根据分词结果进行企业全称识别,获取舆情文本中包括的第一企业全称。

简称识别模块630,用于根据分词结果进行企业简称识别,获取舆情文本中包括的第一企业简称。

确定模块640,用于将识别出的第一企业全称和第一企业简称确定为企业实体的名称。

进一步地,在本发明实施例一种可能的实现方式中,如图7所示,在如图6所示实施例的基础上,全称识别模块620包括:

标注单元621,用于根据分词结果中分词的语义,对分词结果中的分词进行标注。

识别单元622,用于将分词和分词的标注信息,连续输入到条件随机场模型中进行企业全称识别,得到分词的识别结果;其中,识别结果中包括第一信息和第二信息,第一信息用于表示分词为第一企业全称中的词语,第二信息为分词在第一企业全称中的位置信息。

在本发明实施例一种可能的实现方式中,条件随机场模型中设置有预设长度的观察窗,此时,识别单元622具体用于在条件随机场模型对分词识别的过程中,通过观察窗确定与分词存在上下文关系的第一分词,获取第一分词和第一分词的标注信息;基于分词和分词的标注信息以及第一分词和第一分词的标注信息进行企业全称识别,得到分词的识别结果。

提取单元623,用于在第一信息指示包括第一企业全称时,则根据位置信息,从分词中提取出第一企业全称。

通过根据分词的语义对分词进行标注,将分词和分词的标注信息连续输入至条件随机场模型中进行企业全称识别,得到包含第一信息和第二信息的识别结果,在第一信息指示包括第一企业全称时,根据第二信息中的位置信息从分词中提取出第一企业全称,能够准确识别舆情文本中的企业全称。

在本发明实施例一种可能的实现方式中,如图7所示,该企业实体的识别装置60还可以包括:

更新模块650,用于在从分词中提取出第一企业全称之后,利用预先构建的企业全称字典树,在企业全称字典库中查询第一企业全称,并在从企业全称字典库中未查询到第一企业全称时,则将第一企业全称增加到企业全称字典库中,对企业全称字典库进行更新;以及,利用第一企业全称,对企业全称字典树进行更新。

通过利用预先构建的企业全称字典树,在企业全称字典库中查询第一企业全称,并在未查询到时将第一企业全称添加至企业全称字典库中,对企业全称字典库进行更新,并利用第一企业全称对企业全称字典树进行更新,能够实现企业全称字典树的自迭代,自动化扩展企业实体库,减少人工干预,提高企业实体识别的召回率。

在本发明实施例一种可能的实现方式中,如图8所示,在如图6所示实施例的基础上,简称识别模块630包括:

简称匹配单元631,用于利用预先构建的企业简称字典库,匹配出分词结果中包括的第二企业简称;其中,第二企业简称为存在于预先构建的企业简称字典库中的企业简称,企业简称字典库是根据历史搜索词的点击日志和/或企业的字号信息确定出的。

获取单元632,用于从舆情文本中,获取包括第二企业简称的上下文句子,根据上下文句子构建第一词向量。

计算单元633,用于计算第一词向量与第二企业简称的企业属性词的第二词向量之间的第一相似度。

确定单元634,用于在第一相似度超出了预设的阈值时,则将第二企业简称作为舆情文本中的第一企业简称。

通过利用预先建立的企业简称字典库匹配出第二企业简称,从舆情文本中获取包含第二企业简称的上下文句子,并根据上下文句子构建第一词向量,计算第一词向量和企业属性词的第二词向量之间的第一相似度,将第一相似度超出预设的阈值的第二企业简称作为舆情文本的第一企业简称,能够从舆情文本中识别出企业简称,提高企业实体识别的准确率。

进一步地,在本发明实施例一种可能的实现方式中,如图9所示,在如图8所示实施例的基础上,该企业实体的识别装置60还包括:

企业简称字典库构建模块601,用于获取历史搜索词的点击日志,从点击日志中提取出与企业的统一资源定位符url存在链接关系的第一历史搜索词;获取指定url对应的第一历史搜索词之间的公共前缀子串;其中,指定url为所有企业的url中的任意一个;将第一历史搜索词和/或公共前缀子串作为企业简称,添加到企业简称字典库中。

具体地,企业简称字典库构建模块601在将第一历史搜索词和/或公共前缀子串作为企业简称添加到企业简称字典库中时,可以获取第一历史搜索词或者公共前缀子串在指定url下的权重;根据权重对第一历史搜索词或者公共前缀子串进行筛选;将筛选后的第一历史搜索词和/或公共前缀子串作为企业简称,添加到企业简称字典库中。

作为一种可能的实现方式,企业简称字典库构建模块601在获取第一历史搜索词或者公共前缀子串在指定url下的权重时,可以获取在指定url的条件下,点击第一历史搜索词或者公共前缀子串链接到指定url的第一条件概率,以及获取在点击第一历史搜索词或者公共前缀子串的条件下,跳转到指定url的第二条件概率;根据第一条件概率和第二条件概率,得到权重。

通过获取历史搜索词的点击日志,从点击日志中提取出与企业的url存在链接关系的第一历史搜索词,获取指定url对应的第一历史搜索词之间的公共前缀,并将公共前缀和/或第一历史搜索词作为企业简称添加至企业简称字典库中,能够构建出用户认可的企业简称字典库,为企业简称识别奠定基础。

在本发明实施例一种可能的实现方式中,企业简称字典库构建模块601还可以获取企业的字号信息,将字号信息作为企业简称,添加到企业简称字典库中。

由于字号并非一定能够被用户认可,进一步地,在本发明实施例一种可能的实现方式中,企业简称字典库构建模块601还可以对获取的字号信息进行筛选。具体地,企业简称字典库构建模块601可以获取与字号信息对应的企业的统一资源定位符url以及url的点击比重,根据点击比重对所有的字号信息进行过滤,滤除企业表征能力较弱的字号信息,将过滤后保留的字号信息作为企业简称,添加至企业简称字典库中。

通过获取字号信息作为企业简称构建企业简称字典库,能够识别出具有标志性的企业简称,为企业简称识别奠定了基础。

企业属性词获取模块602,用于针对企业简称字典库中的企业简称,从企业简称中挖掘对应的企业类型词;将企业简称作为种子词,从历史舆情文本中,挖掘包括种子词的历史点击搜索词;利用历史点击搜索词中除种子词之外的词,生成第三词向量;计算第三词向量与预先根据行业类型词构建的第四词向量之间的第二相似度;选取最高的第二相似度对应的行业类型词作为企业简称的行业类型词;利用企业类型词和行业类型词,形成企业简称的企业属性词;根据企业属性词形成第二词向量。

通过从企业简称中挖掘企业类型词,以及从历史舆情文本中挖掘包含企业简称的历史点击搜索词,并利用历史点击搜索词中除企业简称之外的词生成第三词向量,计算第三词向量与预先根据行业类型词构建的第四词向量之间的第二相似度,筛选出第二相似度最高的行业类型词,根据行业类型词和企业类型词形成企业简称的企业属性词,根据企业属性词形成第二词向量,能够获取与企业具有一定关系的企业属性词,进而根据企业属性词从舆情文本中识别出企业简称,能够提高企业简称识别的准确率。

需要说明的是,前述对企业实体的识别方法实施例的解释说明也适用于该实施例的企业实体的识别装置,其实现原理类似,此处不再赘述。

本实施例的企业实体的识别装置,通过对采集的舆情文本进行分词处理得到分词结果,根据分词结果进行企业全称识别,获取舆情文本中包括的第一企业全称,根据分词结果进行企业简称识别,获取舆情文本中包括的第一企业简称,进而将识别出的第一企业全称和第一企业简称确定为企业实体的名称。由此,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。

为了实现上述实施例,本发明还提出一种计算机设备,包括:处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述实施例所述的企业实体的识别方法。

图10为本发明一实施例提出的计算机设备的结构示意图,示出了适于用来实现本发明实施方式的示例性计算机设备90的框图。图10显示的计算机设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示,计算机设备90以通用计算设备的形式表现。计算机设备90的组件可以包括但不限于:一个或者多个处理器或者处理单元906,系统存储器910,连接不同系统组件(包括系统存储器910和处理单元906)的总线908。

总线908表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industrystandardarchitecture;以下简称:isa)总线,微通道体系结构(microchannelarchitecture;以下简称:mac)总线,增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation;以下简称:vesa)局域总线以及外围组件互连(peripheralcomponentinterconnection;以下简称:pci)总线。

计算机设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备90访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器910可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(randomaccessmemory;以下简称:ram)911和/或高速缓存存储器912。计算机设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统913可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(compactdiscreadonlymemory;以下简称:cd-rom)、数字多功能只读光盘(digitalvideodiscreadonlymemory;以下简称:dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线908相连。系统存储器910可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。

具有一组(至少一个)程序模块9140的程序/实用工具914,可以存储在例如系统存储器910中,这样的程序模块9140包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9140通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备90也可以与一个或多个外部设备10(例如键盘、指向设备、显示器100等)通信,还可与一个或者多个使得用户能与该计算机设备90交互的设备通信,和/或与使得该计算机设备90能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口902进行。并且,计算机设备90还可以通过网络适配器900与一个或者多个网络(例如局域网(localareanetwork;以下简称:lan),广域网(wideareanetwork;以下简称:wan)和/或公共网络,例如因特网)通信。如图10所示,网络适配器900通过总线908与计算机设备90的其它模块通信。应当明白,尽管图10中未示出,可以结合计算机设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元906通过运行存储在系统存储器910中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的企业实体的识别方法。

为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时实现如前述实施例所述的企业实体的识别方法。

为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述实施例所述的企业实体的识别方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1