一种基于模糊匹配的新闻主体名称提取方法与流程

文档序号:15981720发布日期:2018-11-17 00:24阅读:507来源:国知局

本发明涉及数据处理领域,尤其涉及一种基于模糊匹配的新闻主体名称提取方法。

背景技术

随着互联网的发展,信息的累积速度早已超过个人所能处理的范畴。在不同的垂直领域中,大量的新闻使得舆情分析成为可能,对原始新闻文本的新闻主体提取是该任务必不可少的步骤。在已有大量主体名称列表的前提下,如何从新闻中自动地提取主体名称,将一篇新闻对应到一个新闻主体,减少人工标注的工作量,兼顾准确度和效率,是实现舆情分析的重要部分。

对于不同的垂直领域,从新闻中提取主体名称,现有的主流方法是将新闻文本分词后的每个词在已有的主体名称表中匹配,若在主体列表中出现过,就标记该词为新闻侯选主体,然后通过一些启发式信息(例如词频、tf-idf等)对新闻侯选主体进一步筛选,选择得分最高的主体名称作为新闻对应的主体。以财经新闻为例,通过精确匹配得到三个侯选的企业主体“腾讯”、“阿里巴巴”、“百度”,然后分别计算这三个词的tf-idf值,选择tf-idf值最大的作为该新闻对应的主体。但该方法存在一些问题。首先,新闻中会经常出现对主体名称的非标准化简称,精确匹配效果堪忧,人工扩展主体列表工作量太大,例如腾讯被称作企鹅、鹅厂等。其次,在构建主体列表时,不能有相同的主体简称,否则会出现匹配冲突,但大量的主体列表中难免不会出现类似或者完全一致的主体简称。

综上所述,现有技术方案为:将新闻文本进行分词,对分词处理后的每个词做精确匹配,判断该词是否出现在主体名称表中,如果出现,则作为新闻侯选主体,然后通过一些启发式信息对侯选主体进一步筛选,选择得分最高的作为新闻对应的主体。该方案存在以下不足:对于非标准化的主体简称,精确匹配效果堪忧;此外,主体列表中不能有相同的主体名称,当某些主体具有相同的简称时,会出现匹配冲突的情况。



技术实现要素:

针对现有技术之不足,本发明提出了一种基于模糊匹配的新闻主体名称提取方法,其包括以下步骤:

步骤1:采集大量的领域新闻,所述领域新闻的新闻内容尽可能多样,以覆盖不同的相关新闻网站;

步骤2:对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻;

步骤3:使用分词工具对新闻进行分词,向分词工具中导入主体列表,以提升分词效果;

步骤4:使用词嵌入工具在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量;

步骤5:使用主体列表构建知识图谱,所述知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称联系起来,其中主体简称隶属于主体名称;

步骤6:将知识图谱中每个节点的主体名称分词后做各种拆分组合,然后将拆分组合的结果用词嵌入向量表示;

步骤7:计算词嵌入相似度,将第i篇新闻的词嵌入向量ti与第j个主体的第k个组合方式ejk做相似度计算,ci为与第i篇新闻最相关的主体名称:

取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体名称。

根据一个优选实施方式,在模糊匹配的过程中,将新闻词嵌入向量与由主体名称的各种组合对应的词向量做相似度计算,加权平均后得到该主体名称对应的得分,最后选择得分最高的主体名称作为该新闻匹配的主体。

本发明具有以下有益效果:

本发明针对垂直领域新闻中主体名称匹配,设计了一种基于模糊匹配的主体名称提取方法。该方法使用该领域已有的主体名称列表建立知识图谱,知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称等联系起来。对知识图谱每个节点的主体名称分词后做各种拆分组合,然后用词嵌入向量表示所有可能的组合形式,与新闻的词嵌入向量做相似度计算,取距离最近的匹配作为新闻对应的主体。该方法能够有效地克服基于精确匹配对非标准化主体简称识别的缺陷,在遇到某些主体具有相同的简称时,也可以根据整篇新闻的语义信息匹配到最相近的主体。该方法通过语义信息来匹配与新闻语义最相近的主体,相比于精确匹配方法,能够适应更多的场景,匹配准确度更高。

附图说明

图1示出了本发明的流程图;

图2示出了本发明中词嵌入模型的示意图;

图3示出了本发明中模糊匹配过程的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

如图1所示,本发明的基于模糊匹配的新闻主体名称提取方法包括以下步骤:

步骤1:采集大量的领域新闻,新闻内容尽可能多样,覆盖不同的相关新闻网站。

步骤2:对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻。

步骤3:使用分词工具对新闻进行分词,向分词工具中导入主体列表,提升分词效果。

步骤4:使用词嵌入工具(例如word2vec、glove等)在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量。

步骤5:使用主体列表构建知识图谱,知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称等联系起来,其中主体简称隶属于主体名称。

步骤6:将知识图谱每个节点的主体名称分词后做各种拆分组合,以财经领域企业名为例,深圳市腾讯计算机系统有限公司可能的组合方式有腾讯、腾讯公司、深圳腾讯等。然后将这些组合的结果用词嵌入向量表示。

步骤7:将第i篇新闻的词嵌入向量ti与第j个主体的第k个组合方式ejk做相似度计算,ci为与第i篇新闻最相关的主体名称。

取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体。

具体地,如图2所示为嵌入模型的示意图。词嵌入可以理解为寻找一个函数或映射,生成新的空间上的表达,把单词one-hot所表达的x空间信息映射到y的多维空间向量。由此将one-hot高维稀疏的向量表示变为低维稠密的向量表示,同时词嵌入向量还可以不同词之间的相似度,每个纬度上的值可以近似的看作每个词在某个属性值的大小。每一篇新闻的词嵌入向量是由所有词的词嵌入向量加权平均得到,进而寻找与该新闻词嵌入向量距离最近的主体,也就是在寻找与该新闻语义信息最相似的主体。该模型可以解决精确匹配中对非标准化主体简称匹配的缺陷,而且实现简单,效果更优。

图3示出了模糊匹配过程的示意图。在模糊匹配的过程中,将新闻词嵌入向量与由主体名称的各种组合对应的词向量做相似度计算,加权平均后得到该主体名称对应的得分,最后选择得分最高的主体名称作为该新闻匹配的主体。需要说明的是,图3中所示出的具体实施方式为示例性的,其用于说明本发明中的模糊匹配过程,并非构成对本发明的限制。

本发明针对垂直领域新闻中主体名称匹配,设计了一种基于模糊匹配的主体名称提取方法。该方法使用该领域已有的主体名称列表建立知识图谱,知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称等联系起来。对知识图谱每个节点的主体名称分词后做各种拆分组合,然后用词嵌入向量表示所有可能的组合形式,与新闻的词嵌入向量做相似度计算,取距离最近的匹配作为新闻对应的主体。该方法能够有效地克服基于精确匹配对非标准化主体简称识别的缺陷,在遇到某些主体具有相同的简称时,也可以根据整篇新闻的语义信息匹配到最相近的主体。该方法通过语义信息来匹配与新闻语义最相近的主体,相比于精确匹配方法,能够适应更多的场景,匹配准确度更高。

需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1