一种相同新闻信息的归类方法及系统与流程

文档序号:14911465发布日期:2018-07-10 23:32阅读:来源:国知局

技术特征:

1.一种相同新闻信息的归类方法,其特征在于,所述方法包括:

对获取到的新闻标题进行中文分词,并获取词列表;

对所述词列表进行数据过滤,得到数据过滤的新闻标题;

对数据过滤的标题进行标题补全,得到补全标题;

通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;

将具有相同标题指纹的新闻标题归为一类。

2.如权利要求1所述的方法,其特征在于,对所述词列表进行数据过滤,得到数据过滤的新闻标题,包括:

将所述词列表中在设定符号之前的词过滤,得到第一词列表;

对所述第一词列表进行标题符号过滤,得到第二词列表;

对所述第二词列表进行指定数字过滤,得到第三词列表;

对所述第三词列表进行媒体名过滤,得到第四词列表;

将所述第四词列表作为数据过滤的新闻标题。

3.如权利要求2所述的方法,其特征在于,将所述第四词列表作为数据过滤的新闻标题,包括:

遍历所述第四词列表中的每个单词,并检测每个单词在省略词词典中是否存在省略词;

若是存在省略词,则使用省略词替换原词,得到第五词列表;

将所述第五词列表作为过滤的新闻标题。

4.如权利要求1所述的方法,其特征在于,对数据过滤的标题进行标题补全,得到补全标题,包括:

对过滤的每个新闻标题按照字符切分成字符列表;

使用后缀树算法对标题组进行训练,获取公共前缀列表;

保存每个公共前缀所包含的文档列表,并且记录最长的文档下标;

遍历被标记为省略句的文档,确定标记为省略句的文档的最长公共前缀,并使用所述公共前缀文档列表中最长的文档替换所述标记为省略句的文档。

5.一种相同新闻信息的归类系统,其特征在于,所述系统包括:

分词单元,用于对获取到的新闻标题进行中文分词,并获取词列表;

过滤单元,用于对获取到的词列表进行词过滤,并获取新的词列表;

补全单元,用于对数据过滤的标题进行标题补全,得到补全标题;

标题指纹计算单元,用于通过标题指纹算法,对每个补全标题进行标题指纹计算,得到每个补全标题对应的标题指纹;

归类单元,用于将具有相同标题指纹的新闻标题归为一类。

6.如权利要求5所述的系统,其特征在于,所述过滤单元,具体用于将所述词列表中在设定符号之前的词过滤,得到第一词列表;对所述第一词列表进行标题符号过滤,得到第二词列表;对所述第二词列表进行指定数字过滤,得到第三词列表;对所述第三词列表进行媒体名过滤,得到第四词列表;将所述第四词列表作为数据过滤的新闻标题。

7.如权利要求6所述的系统,其特征在于,所述过滤单元,具体用于遍历所述第四词列表中的每个单词,并检测每个单词在省略词词典中是否存在省略词;若是存在省略词,则使用省略词替换原词,得到第五词列表;将所述第五词列表作为过滤的新闻标题。

8.如权利要求5所述的系统,其特征在于,所述补全单元,具体用于对过滤的每个新闻标题按照字符切分成字符列表;使用后缀树算法对标题组进行训练,获取公共前缀列表;保存每个公共前缀所包含的文档列表,并且记录最长的文档下标;遍历被标记为省略句的文档,确定标记为省略句的文档的最长公共前缀,并使用所述公共前缀文档列表中最长的文档替换所述标记为省略句的文档。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1