一种相同新闻信息的归类方法及系统与流程

文档序号:14911465发布日期:2018-07-10 23:32阅读:295来源:国知局

本申请涉及信息处理技术领域,尤其涉及一种相同新闻信息的归类方法及系统。



背景技术:

随着信息技术的发展,特别是互联网技术的发展和普及,网络已经成为人们发布、交流和信息获取的主要途径。然而,网络上的信息正在爆炸性地增长。

以网络新闻为例,它以更新速度快、内容丰富、形式多样的特点逐渐替代报纸、广播或者电视成为很多人获取新闻的主要来源。然而网络新闻更新快、内容多的优点同时也成为不利于人们阅读的缺点,人们为了找到自己关心的新闻往往要费一番功夫。

此外,网络上还充斥着大量相同的新闻内容。这是由于同一篇新闻报道会被很多媒体网站转载。对于一些新闻聚合类的网站而言,同一篇新闻报道只需展示一次给用户即可,过多的展示会造成用户的信息过载,从而对网站产生厌恶感。因此,发觉相同的新闻并对其进行归类去重成了新闻聚合类网站需要重点攻克的问题。

目前,常用的相同新闻归类技术是simhash指纹。该方法是直接计算标题的哈希值。相同内容的标题将会得到相同的哈希值,以此实现将相同的新闻归类。这种方法主要是计算标题之间的simhash距离,如果距离小于一定阈值的两个标题会分配到同一个simhash值。然而,在实际情况下,即使是相同的新闻内容,其标题也可能有所不同。具体表现为标题的英文字母大小写差异,标题符号差异和标题残缺等问题。因此,在实际的业务应用中,并不能合理地设置距离阈值,导致新闻归类的准确率下降。



技术实现要素:

本发明提供了一种相同新闻信息的归类方法及系统,用以解决现有技术中新闻归类的准确率较低的问题。

其具体的技术方案如下:

一种相同新闻信息的归类方法,所述方法包括:

对获取到的新闻标题进行中文分词,并获取词列表;

对所述词列表进行数据过滤,得到数据过滤的新闻标题;

对数据过滤的标题进行标题补全,得到补全标题;

通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;

将具有相同标题指纹的新闻标题归为一类。

可选的,对所述词列表进行数据过滤,得到数据过滤的新闻标题,包括:

将所述词列表中在设定符号之前的词过滤,得到第一词列表;

对所述第一词列表进行标题符号过滤,得到第二词列表;

对所述第二词列表进行指定数字过滤,得到第三词列表;

对所述第三词列表进行媒体名过滤,得到第四词列表;

将所述第四词列表作为数据过滤的新闻标题。

可选的,将所述第四词列表作为数据过滤的新闻标题,包括:

遍历所述第四词列表中的每个单词,并检测每个单词在省略词词典中是否存在省略词;

若是存在省略词,则使用省略词替换原词,得到第五词列表;

将所述第五词列表作为过滤的新闻标题。

可选的,对数据过滤的标题进行标题补全,得到补全标题,包括:

对过滤的每个新闻标题按照字符切分成字符列表;

使用后缀树算法对标题组进行训练,获取公共前缀列表;

保存每个公共前缀所包含的文档列表,并且记录最长的文档下标;

遍历被标记为省略句的文档,确定标记为省略句的文档的最长公共前缀,并使用所述公共前缀文档列表中最长的文档替换所述标记为省略句的文档。

一种相同新闻信息的归类系统,所述系统包括:

分词单元,用于对获取到的新闻标题进行中文分词,并获取词列表;

过滤单元,用于对获取到的词列表进行词过滤,并获取新的词列表;

补全单元,用于对数据过滤的标题进行标题补全,得到补全标题;

标题指纹计算单元,用于通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;

归类单元,用于将具有相同标题指纹的新闻标题归为一类。

可选的,所述过滤单元,具体用于将所述词列表中在设定符号之前的词过滤,得到第一词列表;对所述第一词列表进行标题符号过滤,得到第二词列表;对所述第二词列表进行指定数字过滤,得到第三词列表;对所述第三词列表进行媒体名过滤,得到第四词列表;将所述第四词列表作为数据过滤的新闻标题。

可选的,所述过滤单元,具体用于遍历所述第四词列表中的每个单词,并检测每个单词在省略词词典中是否存在省略词;若是存在省略词,则使用省略词替换原词,得到第五词列表;将所述第五词列表作为过滤的新闻标题。

可选的,所述补全单元,具体用于对过滤的每个新闻标题按照字符切分成字符列表;使用后缀树算法对标题组进行训练,获取公共前缀列表;保存每个公共前缀所包含的文档列表,并且记录最长的文档下标;遍历被标记为省略句的文档,确定标记为省略句的文档的最长公共前缀,并使用所述公共前缀文档列表中最长的文档替换所述标记为省略句的文档。

通过本发明所以提供的方法至少具备如下技术效果:

1、对新闻标题进行一系列预处理,可以很好识别出近似的新闻标题,然后计算每个标题的信息指纹,并将信息指纹相同的新闻归类,效果比一般计算simhash的算法显著,更好地识别相同新闻。

2、对于残缺标题的处理上,可以准确补全缺失部分的标题内容,并将其归类到信息之纹相同的标题类别中。

附图说明

图1为本发明实施例中一种相同新闻信息的归类方法的流程图;

图2为本发明实施例中词列表进行数据过滤的方法流程图;

图3为本发明实施例中一种相同新闻信息的归类系统的结构示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解,本发明实施例以及实施例中的具体技术特征只是对本发明技术方案的说明,而不是限定,在不冲突的情况下,本发明实施例以及实施例中的具体技术特征可以相互组合。

如图1所示为本发明实施例中一种相同新闻信息的归类方法的流程图,该方法包括:

S101,对获取到的新闻标题进行中文分词,并获取词列表;

在得到新闻标题之后,首先对新闻标题进行中文分词,该中文分词的方式具体为将每次词语进行划分,比如说,该新闻的新闻标题为“回应业绩质疑:格力(000651)详解“新经营模式”手机腾讯网”,分词后的结果为:[‘回应’,‘业绩’,‘质疑’,‘:’,‘格力’,‘(’,‘000651’,‘)’,‘详解’,‘“’,‘新’,‘经营’,‘模式’,‘手机腾讯网’]。

通过对新闻标题进行分词,就可以得到该新闻标题对应的词列表。

S102,对词列表进行数据过滤,得到数据过滤的新闻标题;

在得到词列表之后,需要对词列表进行数据过滤,具体的过滤方法流程如图2所示,该方法包括:

S201,对词列表中的设定符号之前的词过滤,得到第一词列表;

在本发明实施例中,将冒号之前的文字过滤,从而得到第一词列表,比如说,在结果分词之后的词列表为:[‘回应’,‘业绩’,‘质疑’,‘:’,‘格力’,‘(’,‘000651’,‘)’,‘详解’,‘“’,‘新’,‘经营’,‘模式’,‘手机腾讯网’]。

在该词列表中存在冒号,并且在冒号之前的文字为“回应业绩质疑”,此时就将确定出的文字删除,从而得到的第一词列表为:[‘格力’,‘(’,‘000651’,‘)’,‘详解’,‘“’,‘新’,‘经营’,‘模式’,‘手机腾讯网’]。

S202,对第一词列表进行标题符号过滤,得到第二词列表;

在得到第一词列表之后,在第一词列表中进行遍历,检测出该第一词列表中的标题符号,并过滤掉该标题符号。第一词列表为:[‘格力’,‘(’,‘000651’,‘)’,‘详解’,‘“’,‘新’,‘经营’,‘模式’,‘手机腾讯网’],过滤掉其中的括号,从而得到第二词列表:[‘格力’,‘000651’,‘详解’,‘新’,‘经营’,‘模式’,‘手机腾讯网’]。

S203,对第二词列表进行指定数字过滤,得到第三词列表;

在标题中存在特殊的指定数字时,则需要将该指定数字删除,比如在标题中存在股票代码时,则需要将该股票代码过滤。比如第二词列表为:[‘格力’,‘000651’,‘详解’,‘新’,‘经营’,‘模式’,‘手机腾讯网’],删除该第二词列表中的股票代码,得到第三词列表为:[‘格力’,‘详解’,‘新’,‘经营’,‘模式’,‘手机腾讯网’]。

S204,对第三词列表进行媒体名过滤,得到第四词列表;

在得到第三词列表之后,还需要对第三词列表进行媒体名过滤,比如第三词列表为:[‘格力’,‘详解’,‘新’,‘经营’,‘模式’,‘手机腾讯网’],过滤其中的媒体名,则得到的第四词列表:[‘格力’,‘详解’,‘新’,‘经营’,‘模式’]。

通过上述的流程,就可以实现对新闻标题的过滤。当然,上述只是以一个新闻标题的过滤来进行说明,其他的新闻标题也采用相同的方式进行过滤。比如说新闻标题为:[“格力(000651)详解“新经营…”],则分词过滤后的结果为:[‘格力’,‘详解’,‘新’,‘经营’]。

又比如新闻标题为:[“回应业绩质疑:格力(000651)详解“新…”],则分词过滤后的结果为:[‘格力’,‘详解’,‘新’]。

S205,将第四词列表作为数据过滤的新闻标题。

进一步,在本发明实施例中,还可以对词列表中词进行省略词替换,预先构造一个省略词词典,该省略词词典可以根据实际的需求来进行增加一个删除。

在词典构造完成之后,遍历词列表中的每个单词,并检测每个单词在省略词中是否存在省略词,若是存在省略词,则使用省略词替换原词,得到新的第五词列表。当然,若是没有省略词存在,则保持原来的词列表。

S103,对数据过滤的标题进行标题补全,得到补全标题;

在本发明实施例中,还可以对词列表进行补全,具体方法包括:对过滤的每个新闻标题按照字符切分为字符列表,使用后缀树算法对标题组进行训练,获取公共前缀列表;保存每个公共前缀所包含的文档列表,并且记录最长的文档下标;遍历被标记为省略句的文档,确定标记为省略句的文档的最长公共前缀,并使用公共前缀文档列表中最长的文档替换标记为省略句的文档。

比如:原标题组为:

[“回应业绩质疑:格力(000651)详解“新经营模式”手机腾讯网”,“格力(000651)详解“新经营模式…”,“回应业绩质疑:格力(000651)详解“新…”],经过分词过滤后的结果为:

[‘格力’,‘详解’,‘新’,‘经营’,‘模式’]

[‘格力’,‘详解’,‘新’,‘经营’]

[‘格力’,‘详解’,‘新’]

通过补全之后,得到的补全结果为:

[‘格力’,‘详解’,‘新’,‘经营’,‘模式’]

[‘格力’,‘详解’,‘新’,‘经营’,‘模式’]

[‘格力’,‘详解’,‘新’,‘经营’,‘模式’]

在补全之后,就可以更加准确的对新闻标题进行标题指纹计算。

S104,通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;

在本发明实施例中通过补全之后,就可以对每个新闻标题进行更加准确的标题指纹计算,比如表1所示为对各个标题进行标题指纹计算的结果,具体为:

表1

在表1中,虽然新闻标题不同,但是经过过滤以及补全之后,可以准确计算出每个新闻标题对应的标题指纹。

S105,将具有相同标题指纹的新闻标题归为一类。

在计算出每个新闻标题对应的标题指纹之后,就可以对每个新闻标题进行归类,也就是具有相同标题指纹的新闻标题归为一类,这样就可以对相同的新闻进行准确的归类,比如表1中所示的新闻标题,虽然存在文字差异,但是经过本发明的分词过滤以及补全之后,得到的标题指纹一致。

通过本发明所以提供的方法至少具备如下技术效果:

1、对新闻标题进行一系列预处理,可以很好识别出近似的新闻标题,然后计算每个标题的信息指纹,并将信息指纹相同的新闻归类,效果比一般计算simhash的算法显著,更好地识别相同新闻。

2、对于残缺标题的处理上,可以准确补全缺失部分的标题内容,并将其归类到信息之纹相同的标题类别中。

对应本发明所提供的一种相同新闻信息的归类方法,本发明实施例中还提供了一种相同新闻信息的归类系统,如图3所示为本发明实施例中一种相同新闻信息的归类系统的结构示意图,该系统包括:

分词单元301,用于对获取到的新闻标题进行中文分词,并获取词列表;

过滤单元302,用于对获取到的词列表进行词过滤,并获取新的词列表;

补全单元303,用于对数据过滤的标题进行标题补全,得到补全标题;

标题指纹计算单元304,用于通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;

归类单元305,用于将具有相同标题指纹的新闻标题归为一类。

进一步,在本发明实施例中,所述过滤单元302,具体用于将所述词列表中在设定符号之前的词过滤,得到第一词列表;对所述第一词列表进行标题符号过滤,得到第二词列表;对所述第二词列表进行指定数字过滤,得到第三词列表;对所述第三词列表进行媒体名过滤,得到第四词列表;将所述第四词列表作为数据过滤的新闻标题。

进一步,在本发明实施例中,所述过滤单元302,具体用于遍历所述第四词列表中的每个单词,并检测每个单词在省略词词典中是否存在省略词;若是存在省略词,则使用省略词替换原词,得到第五词列表;将所述第五词列表作为过滤的新闻标题。

进一步,在本发明实施例中,所述补全单元303,具体用于对过滤的每个新闻标题按照字符切分成字符列表;使用后缀树算法对标题组进行训练,获取公共前缀列表;保存每个公共前缀所包含的文档列表,并且记录最长的文档下标;遍历被标记为省略句的文档,确定标记为省略句的文档的最长公共前缀,并使用所述公共前缀文档列表中最长的文档替换所述标记为省略句的文档。

尽管已描述了本申请的优选实施例,但本领域内的普通技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改,包括采用特定符号、标记确定顶点等变更方式。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1