相似新闻信息的识别方法和装置与流程

文档序号:11950240阅读:377来源:国知局
相似新闻信息的识别方法和装置与流程

本发明涉及信息技术领域,特别涉及一种相似新闻信息的识别方法和装置。



背景技术:

随着互联网的发展,网络新闻、文章等网络信息量急增。由于发布新闻信息的网站众多,同一个新闻信息往往存在于多个网站中。新闻信息汇聚系统将可将众多新闻信息从不同的网站上汇聚到本地,但大量重复的新闻信息给用户阅读信息带来了极大不便。因此,如何识别重复新闻信息成为一个亟待解决的问题。



技术实现要素:

本发明旨在至少在一定程度上解决上述技术问题。

为此,本发明的第一个目的在于提出一种相似新闻信息的识别方法,能够准确、快速地从众多信息中识别出相似信息。

本发明的第二个目的在于提出一种相似新闻信息的识别装置。

为达上述目的,根据本发明第一方面实施例提出了一种相似新闻信息的识别方法,包括以下步骤:获取待识别的任两个新闻信息,所述新闻信息包括新闻标题;判断两个新闻标题的相似度是否满足第一预设条件;在所述两个新闻标题的相似度满足所述第一预设条件时,确定所述两个新闻信息为相似新闻信息。

另外,根据本发明的相似新闻信息的识别方法还可以具有如下附加技术特征:

在本发明的一个实施例中,所述方法还包括:

在所述两个新闻标题的相似度不满足所述第一预设条件时,判断所述新闻信息是否包含对应的原始新闻标题;

在所述新闻信息包含原始新闻标题时,判断一个新闻标题与另一个原始新闻标题的相似度是否满足第二预设条件;

在所述一个新闻标题与另一个原始新闻标题的相似度满足所述第二预设条件时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,所述新闻信息还包括新闻正文,所述方法还包括:

在所述新闻信息不包含对应的原始新闻标题时或在一个新闻标题与另一个原始新闻标题的相似度不满足所述第二预设条件时,判断两个新闻正文的相似度是否满足第三预设条件;

在所述两个新闻正文的相似度满足所述第三预设条件时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,所述判断两个新闻标题的相似度是否满足第一预设条件,包括:

判断所述两个新闻标题是否相同;

对应地,在所述两个新闻标题的相似度满足所述第一预设条件时,确定所述两个新闻信息为相似新闻信息,包括:

在所述两个新闻标题相同时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,还包括:

在所述两个新闻标题不相同时,获取对每个新闻标题进行分词处理后的词汇集合,所述词汇集合包括对新闻标题进行分词后的若干词语;

判断一个词汇集合是否包含另一个词汇集合中的所有词语;

对应地,在所述两个新闻标题的相似度满足所述第一预设条件时,确定所述两个新闻信息为相似新闻信息,包括:

在所述一个词汇集合包含另一个词汇集合中的所有词语时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,还包括:

在所述一个词汇集合不包含另一个词汇集合中的所有词语时,判断所述一个词汇集合中的词语与另一个词汇集合中的词语的第一匹配度是否大于第一阈值;且根据依存文法关系判断所述一个词汇集合中的词语与另一个词汇集合中的词语的第二匹配度是否大于第二阈值;

对应地,在所述两个新闻标题的相似度满足所述第一预设条件时,确定所述两个新闻信息为相似新闻信息,包括:

在所述第一匹配度大于第一阈值且所述第二匹配度大于第二阈值时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,所述判断一个新闻标题与另一个原始新闻标题的相似度是否满足第二预设条件,包括:

判断所述一个新闻标题与另一个原始新闻标题是否相同;

对应地,在所述一个新闻标题与另一个原始新闻标题的相似度满足所述第二预设条件时,确定所述两个新闻信息为相似新闻信息,包括:

在所述述一个新闻标题与另一个原始新闻标题相同时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,所述判断两个新闻正文的相似度是否满足第三预设条件,包括:

分别提取与所述两个新闻标题对应的新闻正文的关键词,得到第一关键词集合和第二关键词集合;

确定所述第一关键词集合和所述第二关键词集合中每个关键词的权重;

根据所述每个关键词的名称和权重确定所述第一关键词集合与所述第二关键词集合中的相同关键词;

根据所述相同关键词确定所述第一关键词集合与所述第二关键词集合的关键词重复率;

判断所述重复率是否大于预设概率;

对应地,在所述两个新闻正文的相似度满足所述第三预设条件时,确定所述两个新闻信息为相似新闻信息,包括:

在所述重复率大于预设概率时,确定所述两个新闻信息为相似新闻信息。

本发明第二方面实施例提出了一种相似新闻信息的识别装置,包括:

获取模块,用于获取待识别的任两个新闻信息,所述新闻信息包括新闻标题;

第一判断模块,用于判断两个新闻标题的相似度是否满足第一预设条件;

第一确定模块,用于在所述两个新闻标题的相似度满足所述第一预设条件时,确定所述两个新闻信息为相似新闻信息。

另外,根据本发明的相似新闻信息的识别装置还可以具有如下附加技术特征:

在本发明的一个实施例中,所述装置还包括:

第二判断模块,用于在所述两个新闻标题的相似度不满足所述第一预设条件时,判断所述新闻信息是否包含对应的原始新闻标题;

第三判断模块,用于在所述新闻信息包含原始新闻标题时,判断一个新闻标题与另一个原始新闻标题的相似度是否满足第二预设条件;

第二确定模块,用于在所述一个新闻标题与另一个原始新闻标题的相似度满足所述第二预设条件时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,所述新闻信息还包括新闻正文,所述装置还包括:

第四判断模块,用于在所述新闻信息不包含对应的原始新闻标题时或在一个新闻标题与另一个原始新闻标题的相似度不满足所述第二预设条件时,判断两个新闻正文的相似度是否满足第三预设条件;

第三确定模块,用于在所述两个新闻正文的相似度满足所述第三预设条件时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,所述第一判断模块用于:

判断所述两个新闻标题是否相同;

对应地,在所述两个新闻标题的相似度满足所述第一预设条件时,确定所述两个新闻信息为相似新闻信息,包括:

在所述两个新闻标题相同时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,所述第一判断模块用于:

在所述两个新闻标题不相同时,获取对每个新闻标题进行分词处理后的词汇集合,所述词汇集合包括对新闻标题进行分词后的若干词语;

判断一个词汇集合是否包含另一个词汇集合中的所有词语;

对应地,所述第一确定模块用于:

在所述一个词汇集合包含另一个词汇集合中的所有词语时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,所述第一判断模块用于:

在所述一个词汇集合不包含另一个词汇集合中的所有词语时,判断所述一个词汇集合中的词语与另一个词汇集合中的词语的第一匹配度是否大于第一阈值;且根据依存文法关系判断所述一个词汇集合中的词语与另一个词汇集合中的词语的第二匹配度是否大于第二阈值;

对应地,所述第一确定模块用于:

在所述第一匹配度大于第一阈值且所述第二匹配度大于第二阈值时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,所述第三判断模块用于:

判断所述一个新闻标题与另一个原始新闻标题是否相同;

对应地,所述第二确定模块用于:

在所述述一个新闻标题与另一个原始新闻标题相同时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,所述第四判断模块用于:

分别提取与所述两个新闻标题对应的新闻正文的关键词,得到第一关键词集合和第二关键词集合;

确定所述第一关键词集合和所述第二关键词集合中每个关键词的权重;

根据所述每个关键词的名称和权重确定所述第一关键词集合与所述第二关键词集合中的相同关键词;

根据所述相同关键词确定所述第一关键词集合与所述第二关键词集合的关键词重复率;

判断所述重复率是否大于预设概率;

对应地,所述第三确定模块用于:

在所述重复率大于预设概率时,确定所述两个新闻信息为相似新闻信息。

本发明实施例的相似新闻信息的识别方法和装置,通过获取任意两个待识别的新闻信息,并在判断两个新闻信息的新闻标题判断的相似度满足第一预设条件时,确定两个新闻信息为相似新闻信息,能够准确、快速地从众多新闻信息中识别出相似新闻信息,从而能够为新闻信息去重及比对提供依据。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本发明一个实施例的相似新闻信息的识别方法的流程图;

图2为根据本发明另一个实施例的相似新闻信息的识别方法的流程图;

图3为根据本发明另一个实施例的相似新闻信息的识别方法的流程图;

图4a为根据本发明一个实施例的标题一的分析结果示意图;

图4b为根据本发明一个实施例的标题二的分析结果示意图;

图5为根据本发明另一个实施例的相似新闻信息的识别方法的流程图;

图6a为根据本发明一个实施例的新闻正文的词性分析结果示意图;

图6b为根据本发明一个实施例的新闻正文的实体类别识别结果示意图;

图7为根据本发明一个实施例的关键词提取结果示意图;

图8为根据本发明一个实施例的相似新闻信息的识别装置的结构示意图;

图9为根据本发明另一个实施例的相似新闻信息的识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

下面参考附图描述根据本发明实施例的相似新闻信息的识别方法和装置。

通过本发明的实施例可识别出相似的新闻信息,以便于后续对相似的新闻进行去重。

图1为根据本发明一个实施例的相似新闻信息的识别方法的流程图。

如图1所示,根据本发明实施例的相似新闻信息的识别方法,包括以下步骤。

S101,获取待识别的任两个新闻信息,所述新闻信息包括新闻标题。

本发明的实施例可应用于不同场景,在不同的场景下可通过对应的方式获取待识别的多个新闻信息,本实施例在对多个新闻信息的相似性进行判断时,需先对任意获取到的两个待识别的新闻信息进行相似性判断,判断完成后再获取另一新闻信息进行下次判断。下面通过以下几个应用场景对获取待识别的多个新闻信息的方式进行说明。

场景一

用户通过新闻客户端向服务器发送新闻搜索请求,服务器基于用户的搜索请求获取对应的多个新闻信息。

场景二

服务器按照预设规则向客户端的用户推送新闻信息时,可获取多个新闻信息,如热点新闻、用户关注领域的新闻等。

场景三

用户浏览新闻时,如果希望对一些新闻信息中的相似新闻进行识别或筛选,则可向服务器发送相似新闻识别请求,并将这些新闻信息的标识提交至服务器,进而服务器可根据接收到的标识获取新闻信息。

需要说明的是,上述场景仅为示例性的,不应理解为对本发明的限制。本发明的实施例还可应用于其他场景,在此不一一进行说明。

S102,判断两个新闻标题的相似度是否满足第一预设条件。

其中,当两个新闻标题满足一下条件至少之一时,即可判断两个新闻的相似度满足第一预设条件:

两个新闻标题相同;

或者,其中一个新闻标题分词处理后的词汇集合是否包含另一个新闻标题分词处理后的词汇集合中的所有词语;

或者,两个新闻标题中的词语及其依存文法关系的匹配度满足预设条件。

S103,在所述两个新闻标题的相似度满足所述第一预设条件时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,可通过图2所示实施例通过判断两个新闻标题的相似度是否满足第一预设条件,确定两个新闻信息是否为相似新闻信息。具体地,如图2所示,包括步骤S201-S207。

S201,判断所述两个新闻标题是否相同。

S202,在所述两个新闻标题相同时,确定所述两个新闻信息为相似新闻信息。

S203,在所述两个新闻标题不相同时,获取对每个新闻标题进行分词处理后的词汇集合,所述词汇集合包括对新闻标题进行分词后的若干词语。

在所述两个新闻标题不相同时,可通过对两个新闻标题分别进行分词处理后,得到与两个新闻标题分别对应词汇集合。每个词汇集合包括相应新闻标题行分词后的若干词语。

S204,判断一个词汇集合是否包含另一个词汇集合中的所有词语。

S205,在所述一个词汇集合包含另一个词汇集合中的所有词语时,确定所述两个新闻信息为相似新闻信息。

S206,在所述一个词汇集合不包含另一个词汇集合中的所有词语时,判断所述一个词汇集合中的词语与另一个词汇集合中的词语的第一匹配度是否大于第一阈值;且根据依存文法关系判断所述一个词汇集合中的词语与另一个词汇集合中的词语的第二匹配度是否大于第二阈值。

其中,第一匹配度可为两个词汇集合中相同词语数量的量化体现。举例来说,第一匹配度可以是两个词汇集合中相同词语数量与两个词汇集合中任一词汇集合(例如,词语数量较少的一个词汇集合)中的词语数量的比值。

第二匹配度可为两个词汇集合中词语的依存文法关系的相似度的量化体现。其中,举例来说,依存文法关系的相似度为较短的新闻标题中依存文法关系与另一新闻标题中重合的依存文法关系占较短的新闻标题中依存文法关系总数的比例。

其中,第一阈值和第二阈值为预设值。举例来说,第一阈值可设置为90%,第二阈值可设置为80%。

S207,在所述第一匹配度大于第一阈值且所述第二匹配度大于第二阈值时,确定所述两个新闻信息为相似新闻信息。

举例来说,对于如下两篇新闻的新闻标题:

标题一:走访长江捞尸人最多一周打捞过70具尸体(来自新闻源一)

标题二:法媒走访长江捞尸人最多一周打捞过70具尸体(来自新闻源二)

对两个新闻标题做分词处理及依存文法分析可分别得到的图4a和图4b的结果。其中,图4a为标题一的分析结果示意图,图4b为标题二的分析结果示意图。

通过上述分析结果可以看出,标题一与标题二不同,且也满足在其中一个词汇集合包含另一个词汇集合中的所有词语的条件,因此,可通过对标题一和标题二对应的词汇集合进行匹配,得到第一匹配度和第二匹配度。二者标题第一匹配度大于90%,且第二匹配度大于80%,则可确定标题一与标题二对应的新闻信息为相似新闻信息。

根据本发明实施例的相似新闻信息的识别方法,通过获取任意两个待识别的新闻信息,并在判断两个新闻信息的新闻标题判断的相似度满足第一预设条件时,确定两个新闻信息为相似新闻信息,能够准确、快速地从众多新闻信息中识别出相似新闻信息,从而能够为新闻信息去重及比对提供依据。

在本发明的一个实施例中,新闻信息可包括新闻标题、新闻正文、新闻摘要或新闻来源网站等,可根据其中一项或多项对相似新闻信息进行识别。

下面通过图3所示实施例来说明根据上述一项或多项对相似新闻信息进行识别。如图3所示,可包括步骤S301-S308。

其中,S301-S303与图1所示实施例中的S101-S103相同,可参照图1所示实施例。

S304,在所述两个新闻标题的相似度不满足所述第一预设条件时,判断所述新闻信息是否包含对应的原始新闻标题。

由于一些网站中的信息是从其他网站中转摘的,在转摘过程中对原标题进行了简单调整,或者引用,这种转摘的信息标题与原信息标题不完全相同,但实质上为相同或者相近的信息。因此,为了能够对这部分相似信息进行识别,本申请的实施例中,可在两个新闻标题的相似度不满足所述第一预设条件时,进一步判断所述两个新闻标题是否包含对应的原始新闻标题。如果包含对应的原始新闻标题,则可执行S305。

包含原始新闻标题的新闻标题,大多有引用结构或者表示引用的关键字,因此,在本发明的一些实施例中,可根据新闻标题的结构、关键字(如关键字:××网站:)等判断新闻标题是否包含对应的原始标题。

举例来说,对于新闻标题:

新华社:创新的事业呼唤创新的人才,

具有引用结构“新华社:”,因此,可判断该新闻标题包含对应的原始新闻标题“创新的事业呼唤创新的人才”。

S305,在所述新闻信息包含原始新闻标题时,判断一个新闻标题与另一个原始新闻标题的相似度是否满足第二预设条件。

S306,在所述一个新闻标题与另一个原始新闻标题的相似度满足所述第二预设条件时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,步骤S305可包括:判断所述一个新闻标题与另一个原始新闻标题是否相同。

具体而言,如果两个新闻标题都有原始新闻标题,则可判断两个原始新闻标题是否相同。如果两个信息标题中A有原始标题,B没有原始标题,则可将A的原始新闻标题与新闻标题B进行匹配,以判断新闻标题A的原始标题与新闻标题B是否相同。

对应地,步骤S306可包括:

在所述述一个新闻标题与另一个原始新闻标题相同时,确定所述两个新闻信息为相似新闻信息。

S307,在所述新闻信息不包含对应的原始新闻标题时或在一个新闻标题与另一个原始新闻标题的相似度不满足所述第二预设条件时,判断两个新闻正文的相似度是否满足第三预设条件。

S308,在所述两个新闻正文的相似度满足所述第三预设条件时,确定所述两个新闻信息为相似新闻信息。

具体而言,在本发明的一个实施例中,S307可包括图5所示的步骤S501-S505。对应地,S308可包括步骤S506。

S501,分别提取与所述两个新闻标题对应的新闻正文的关键词,得到第一关键词集合和第二关键词集合。

具体而言,可分别对两个新闻标题对应的新闻正文进行分词,并分别对分词结果进行关键词抽取,分别得到两个新闻正文的关键词集合。

具体地,在每个新闻正文进行分词后,可对每个分词进行词性分析。然后,从分词中将人名,专有名词等名词(可包括)能代表动作主体的词作标注出来,作为候选关键词。此外,还可根据信息的特性,识别信息正文中分词的实体类别。当发现该词汇为产品名、时间、地点、组织名、人名、职位时也将该词作为候选关键词。

举例来说,图6a为根据本发明一个实施例的新闻正文的词性分析结果示意图;图6b为根据本发明一个实施例的新闻正文的实体类别识别结果示意图。

在根据词性分析以及实体类别分析的结果提取到候选关键词后,可对候选关键词在新闻正文中的词频进行统计,并根据词频从大到小对候选关键词进行排序,并根据新闻正文内容的长短取舍排在后面的后续关键词。举例来说,如果新闻正文包括200个词,则可选取排在前50个候选关键词作为关键词。如果新闻正文包括100词,则可选取排在前30个候选关键词作为关键词。

S502,确定所述第一关键词集合和所述第二关键词集合中每个关键词的权重。

具体而言,可根据词频计算选取的关键词的权重。

举例来说,如图7所示,为根据本发明一个实施例的关键词提取结果示意图,其中,包括关键词列表及各个关键词对应的权重。

S503,根据所述每个关键词的名称和权重确定所述第一关键词集合与所述第二关键词集合中的相同关键词。

在本发明的实施例中,如果第一关键词集合中的关键词M与第二关键词集合中的关键词N满足以下条件,则可确定关键词M与关键词N相同:

关键词M的名称与关键词N的名称相同,且,(关键词M的权重/关键词N的权重)100大于百分比阈值。其中,百分比阈值为预设值,可根据实际情况进行调整。举例来说,百分比阈值可为70%。

S504,根据所述相同关键词确定所述第一关键词集合与所述第二关键词集合的关键词重复率。

其中,第一关键词集合与第二关键词集合的关键词重复率是指,第一关键词集合与第二关键词集合中相同的关键词占关键词较少的关键词集合中关键词总数的比值。

S505,判断所述重复率是否大于预设概率。

其中,预设概率可根据实际情况调整。举例来说,预设概率可为80%。

S506,在所述重复率大于预设概率时,确定所述两个新闻信息为相似新闻信息。

应当理解,上述实施例以新闻标题和新闻正文作为匹配条件,进行信息相似度匹配,在本发明的其他实施例中,还可将新闻摘要或来源网站等作为辅助相似度匹配的条件,以提高相似度匹配的精准度。

需要说明的是,在上述通过新闻标题匹配、新闻标题的原始标题的匹配及新闻正文的匹配过程中,只要确定两个新闻信息为相似信息,并结束后续匹配过程,能够有效提升识别效率。

根据本发明实施例的相似新闻信息的识别方法,通过获取任意两个待识别的新闻信息,并在判断两个新闻信息的新闻标题判断的相似度满足第一预设条件时,确定两个新闻信息为相似新闻信息,能够准确、快速地从众多新闻信息中识别出相似新闻信息,从而能够为新闻信息去重及比对提供依据。

进一步地,在识别出相似新闻信息后,可对相似新闻信息进行去重,并将去重后的新闻信息提供给用户。从而,可从大量新闻中去掉相似新闻,提供给用户,提升信息阅读速度,提高用户获取信息的效率。

与上述相似新闻信息的识别方法实施例相对应,本发明还提出一种相似新闻信息的识别装置。

图8为根据本发明一个实施例的相似新闻信息的识别装置的结构示意图。

如图8所示,根据本发明实施例的相似新闻信息的识别装置,包括:获取模块10、第一判断模块20和第一确定模块30。

具体地,获取模块10用于获取待识别的任两个新闻信息,所述新闻信息包括新闻标题。

本发明的实施例可应用于不同场景,在不同的场景下可通过对应的方式获取待识别的多个新闻信息,本实施例在对多个新闻信息的相似性进行判断时,需先对任意获取到的两个待识别的新闻信息进行相似性判断,判断完成后再获取另一新闻信息进行下次判断。下面通过以下几个应用场景对获取待识别的多个新闻信息的方式进行说明。

场景一

用户通过新闻客户端向服务器发送新闻搜索请求,服务器基于用户的搜索请求获取对应的多个新闻信息。

场景二

服务器按照预设规则向客户端的用户推送新闻信息时,可获取多个新闻信息,如热点新闻、用户关注领域的新闻等。

场景三

用户浏览新闻时,如果希望对一些新闻信息中的相似新闻进行识别或筛选,则可向服务器发送相似新闻识别请求,并将这些新闻信息的标识提交至服务器,进而服务器可根据接收到的标识获取新闻信息。

需要说明的是,上述场景仅为示例性的,不应理解为对本发明的限制。本发明的实施例还可应用于其他场景,在此不一一进行说明。

第一判断模块20用于判断两个新闻标题的相似度是否满足第一预设条件。

其中,当两个新闻标题满足一下条件至少之一时,第一判断模块20即可判断两个新闻的相似度满足第一预设条件:

两个新闻标题相同;

或者,其中一个新闻标题分词处理后的词汇集合是否包含另一个新闻标题分词处理后的词汇集合中的所有词语;

或者,两个新闻标题中的词语及其依存文法关系的匹配度满足预设条件。

第一确定模块30用于在所述两个新闻标题的相似度满足所述第一预设条件时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,第一判断模块20可用于:判断所述两个新闻标题是否相同;对应地,第一确定模块30用于在所述两个新闻标题相同时,确定所述两个新闻信息为相似新闻信息。

进一步地,第一判断模块20还可用于:在所述两个新闻标题不相同时,获取对每个新闻标题进行分词处理后的词汇集合,所述词汇集合包括对新闻标题进行分词后的若干词语;判断一个词汇集合是否包含另一个词汇集合中的所有词语。对应地,所述第一确定模块30可用于:在所述一个词汇集合包含另一个词汇集合中的所有词语时,确定所述两个新闻信息为相似新闻信息。

在所述两个新闻标题不相同时,第一判断模块20可通过对两个新闻标题分别进行分词处理后,得到与两个新闻标题分别对应词汇集合。每个词汇集合包括相应新闻标题行分词后的若干词语。

更进一步地,第一判断模块20还可用于:在所述一个词汇集合不包含另一个词汇集合中的所有词语时,判断所述一个词汇集合中的词语与另一个词汇集合中的词语的第一匹配度是否大于第一阈值;且根据依存文法关系判断所述一个词汇集合中的词语与另一个词汇集合中的词语的第二匹配度是否大于第二阈值;对应地,第一确定模块30可用于在所述第一匹配度大于第一阈值且所述第二匹配度大于第二阈值时,确定所述两个新闻信息为相似新闻信息。

其中,第一匹配度可为两个词汇集合中相同词语数量的量化体现。举例来说,第一匹配度可以是两个词汇集合中相同词语数量与两个词汇集合中任一词汇集合(例如,词语数量较少的一个词汇集合)中的词语数量的比值。

第二匹配度可为两个词汇集合中词语的依存文法关系的相似度的量化体现。其中,举例来说,依存文法关系的相似度为较短的新闻标题中依存文法关系与另一新闻标题中重合的依存文法关系占较短的新闻标题中依存文法关系总数的比例。

其中,第一阈值和第二阈值为预设值。举例来说,第一阈值可设置为90%,第二阈值可设置为80%。

举例来说,对于如下两篇新闻的新闻标题:

标题一:走访长江捞尸人最多一周打捞过70具尸体(来自新闻源一)

标题二:法媒走访长江捞尸人最多一周打捞过70具尸体(来自新闻源二)

对两个新闻标题做分词处理及依存文法分析可分别得到的图4a和图4b的结果。其中,图4a为标题一的分析结果示意图,图4b为标题二的分析结果示意图。

通过上述分析结果可以看出,标题一与标题二不同,且也满足在其中一个词汇集合包含另一个词汇集合中的所有词语的条件,因此,可通过对标题一和标题二对应的词汇集合进行匹配,得到第一匹配度和第二匹配度。二者标题第一匹配度大于90%,且第二匹配度大于80%,则可确定标题一与标题二对应的新闻信息为相似新闻信息。

根据本发明实施例的相似新闻信息的识别装置,通过获取任意两个待识别的新闻信息,并在判断两个新闻信息的新闻标题判断的相似度满足第一预设条件时,确定两个新闻信息为相似新闻信息,能够准确、快速地从众多新闻信息中识别出相似新闻信息,从而能够为新闻信息去重及比对提供依据。

在本发明的一个实施例中,新闻信息可包括新闻标题、新闻正文、新闻摘要或新闻来源网站等,可根据其中一项或多项对相似新闻信息进行识别。

图9为根据本发明另一个实施例的相似新闻信息的识别装置的结构示意图。

如图9所示,根据本发明实施例的相似新闻信息的识别装置,包括:获取模块10、第一判断模块20、第一确定模块30、第二判断模块40、第三判断模块50、第二确定模块60、第四判断模块70和第三确定模块80。

其中,获取模块10、第一判断模块20和第一确定模块30与图8所示实施例相同,可参照图8所述实施例。

第二判断模块40用于在所述两个新闻标题的相似度不满足所述第一预设条件时,判断所述新闻信息是否包含对应的原始新闻标题。

由于一些网站中的信息是从其他网站中转摘的,在转摘过程中对原标题进行了简单调整,或者引用,这种转摘的信息标题与原信息标题不完全相同,但实质上为相同或者相近的信息。因此,为了能够对这部分相似信息进行识别,本申请的实施例中,第二判断模块40可在两个新闻标题的相似度不满足所述第一预设条件时,进一步判断所述两个新闻标题是否包含对应的原始新闻标题。

包含原始新闻标题的新闻标题,大多有引用结构或者表示引用的关键字,因此,在本发明的一些实施例中,可根据新闻标题的结构、关键字(如关键字:××网站:)等判断新闻标题是否包含对应的原始标题。

举例来说,对于新闻标题:

新华社:创新的事业呼唤创新的人才,

具有引用结构“新华社:”,因此,可判断该新闻标题包含对应的原始新闻标题“创新的事业呼唤创新的人才”。

第三判断模块50用于在所述新闻信息包含原始新闻标题时,判断一个新闻标题与另一个原始新闻标题的相似度是否满足第二预设条件。

第二确定模块60用于在所述一个新闻标题与另一个原始新闻标题的相似度满足所述第二预设条件时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,第三判断模块50可用于判断所述一个新闻标题与另一个原始新闻标题是否相同。对应地,第二确定模块60可用于:在所述述一个新闻标题与另一个原始新闻标题相同时,确定所述两个新闻信息为相似新闻信息。

具体而言,如果两个新闻标题都有原始新闻标题,则第三判断模块50可判断两个原始新闻标题是否相同。如果两个信息标题中A有原始标题,B没有原始标题,则可将A的原始新闻标题与新闻标题B进行匹配,以判断新闻标题A的原始标题与新闻标题B是否相同。

第四判断模块70用于在所述新闻信息不包含对应的原始新闻标题时或在一个新闻标题与另一个原始新闻标题的相似度不满足所述第二预设条件时,判断两个新闻正文的相似度是否满足第三预设条件。

第三确定模块80用于在所述两个新闻正文的相似度满足所述第三预设条件时,确定所述两个新闻信息为相似新闻信息。

在本发明的一个实施例中,第四判断模块70可用于执行图5所述实施例中步骤S501-S505。对应地,第三确定模块80可用于执行图5所述实施例中步骤S506。具体可参照图5所示实施例。

应当理解,上述实施例以新闻标题和新闻正文作为匹配条件,进行信息相似度匹配,在本发明的其他实施例中,还可将新闻摘要或来源网站等作为辅助相似度匹配的条件,以提高相似度匹配的精准度。

需要说明的是,在上述通过新闻标题匹配、新闻标题的原始标题的匹配及新闻正文的匹配过程中,只要确定两个新闻信息为相似信息,并结束后续匹配过程,能够有效提升识别效率。

根据本发明实施例的相似新闻信息的识别装置,通过获取任意两个待识别的新闻信息,并在判断两个新闻信息的新闻标题判断的相似度满足第一预设条件时,确定两个新闻信息为相似新闻信息,能够准确、快速地从众多新闻信息中识别出相似新闻信息,从而能够为新闻信息去重及比对提供依据。

进一步地,在识别出相似新闻信息后,可对相似新闻信息进行去重,并将去重后的新闻信息提供给用户。从而,可从大量新闻中去掉相似新闻,提供给用户,提升信息阅读速度,提高用户获取信息的效率。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1