一种信息媒介的专题阶段性摘要的生成方法

文档序号:9288424阅读:361来源:国知局
一种信息媒介的专题阶段性摘要的生成方法
【技术领域】
[0001] 本发明涉及语言信息处理领域,特别是一种信息媒介的专题阶段性摘要的生成方 法。
【背景技术】
[0002] 有统计显示,通过网络获取资讯的网民数量正呈现出持续增长的趋势,"上网看新 闻"更是已经成为网民们的一种习惯。对于一些新闻专题来说,时间跨度较长,内容涉及方 方面面,可能产生几十篇甚至几千篇的系列报道。以2014年3月8日发生的马来西亚航 空公司MH370航班"失联"为例,在短短1个月的时间内,腾讯新闻网形成了 70个页面约计 3500篇新闻(平均每日有100多篇)的专题报道,这其中还不包括各类的相关新闻评论! 如此规模的专题报道,凸显了网络新闻的特点一一多角度和全方位。但随之而来的问题是, 面对接踵而至的专题内容,新闻读者却难以抉择,很难有足够多的时间、并且也不可能去阅 读每一篇新闻的详细内容,对新闻专题的相关内容了解不多,对整个专题的发展、演化只能 望"闻"兴叹。
[0003] 因此,如何设计一种能够向网民准确的呈现信息媒介的专题阶段性摘要的生成方 法以方便网民根据专题阶段性摘要从大量新闻中快速选择新闻进行阅读是业界亟需解决 的课题。

【发明内容】

[0004] 为了解决上述现有的技术问题,本发明提供一种信息媒介的专题阶段性摘要的生 成方法对所述信息媒介的文档进行主题抽取并生成主题集,并对所述主题集利用话题检测 与追踪技术进行话题聚类,以生成信息媒介专题的阶段性摘要具有较好的召回率。
[0005] 本发明提供一种信息媒介的专题阶段性摘要的生成方法,包括步骤:
[0006] 获取特定时间段内的各信息媒介的文档;
[0007] 对所述各信息媒介的文档进行主题抽取并生成主题集;
[0008] 对所述主题集利用话题检测与追踪技术进行话题聚类,并生成信息媒介专题的阶 段性摘要。
[0009] 优选地,所述对所述各信息媒介的文档进行主题抽取并生成主题集的步骤包括:
[0010] 计算各信息媒介的文档中句子的度中心性;
[0011] 计算信息媒介的句子的位置信息;
[0012] 结合句子的度中心性和位置信息完成对信息媒介主题的抽取。
[0013] 优选地,所述信息媒介的文档中句子的度中心性的计算依据如下公式:
[0014]
[0015] 其中,Sl、七是待计算相似度的两个句子,wlk是第k个词在句子si中的tfidf值, wjk是第k个词在句子sj的余弦相似度值。
[0016] 优选地,所述计算信息媒介的句子的位置信息依据公式:
[0017]
[0018] Loc(Sl)表示新闻句子的位置信息对主题抽取的加权。n表示每篇新闻文档的句 子总数。
[0019] 优选地,所述结合句子的度中心性和位置信息完成对信息媒介主题的抽取依据如 下公式:
[0020] ET(Sj=aESinii(Sps)+bLoc(sj
[0021]其中Sps_j表示文档D的第i、j(i乒j)句,ESimAs;,sj表示句子5;与其他句 子之间的相似度之和,Loc(Sl)表示新闻句子的位置信息对主题抽取的加权,a和b是系数, a=b= 0. 5〇
[0022] 优选地,所述生成信息媒介专题的阶段性摘要的步骤包括:
[0023] 对所述生成的主题集进行基于时间流的双向聚类;
[0024] 对经过双向聚类生成的话题进行差集或交集分析以提取共同关注的话题和新产 生的话题;
[0025] 对聚类生成的重复的话题进行二次聚类生成所述信息媒介专题的阶段性摘要。
[0026] 优选地,所述生成信息媒介专题的阶段性摘要的聚类或双向聚类是基于Single Pass聚类算法生成的。
[0027] 相较于现有技术,本发明实施例的信息媒介的专题阶段性摘要的生成方法利用主 题抽取方法对各新闻文档进行主题抽取从而完成文档集到主题集的转换,然后利用话题检 测与追踪技术对主题集进行话题的二次聚类,最后根据聚类结果来完成新闻专题阶段性摘 要的生成。相较于现有的多文档摘要技术,本发明的方法具有生成的专题阶段性摘要有较 好的召回率的优点。
【附图说明】
[0028] 图1为本发明优选实施例的信息媒介的专题阶段性摘要的生成方法方框图;
[0029] 图2为本发明优选实施例中新闻专题阶段性摘要生成的简要流程示意图;
[0030] 图3为本发明优选实施例中双向聚类结果示意图;
[0031] 图4为本发明优选实施例中Rouge_S4R折线示意图;
[0032] 图5为本发明优选实施例中Rouge_S9R折线示意图。
【具体实施方式】
[0033]下面结合【附图说明】及【具体实施方式】对本发明进进一步说明。
[0034] 本发明的所述信息媒介包括网络文本新闻,下文为方便描述主要以新闻代表信息 媒介。
[0035] 新闻主题:本发明中特指单个新闻文档的主题信息。本发明不涉及各种主题模型 的构建及其应用,而是依照传统的做法,以新闻的主题句代表新闻的主题,因此可以利用主 题句的抽取技术来获取新闻的主题信息。新闻专题:指与某一核心的新闻事件或新闻话题 有关的新闻集合,通常连续报道并形成一定规模,具有新闻的时效性、内容的丰富性和信息 的集成性等特点。例如,本文讨论的"马航MH370航班失联"属于一个新闻专题。目前大部 分的新闻专题都是指网络新闻专题,都包含了一定的人工环节,例如专题的策划报道和跟 进或者报道后文本的归类等。本发明的描述中只讨论新闻专题的文本及其内容,而不考虑 新闻专题的新闻学特点。
[0036] 新闻话题:话题检测与追踪(TopicDetectionandTracking,TDT)评测任务对 话题的定义是:一个核心事件或活动以及所有与之直接相关的事件和活动。我们将该定义 应用于新闻,由此产生新闻话题的概念。尽管新闻专题和新闻话题的概念相差不多,但我 们认为新闻专题比新闻话题的范围更广:新闻专题是从新闻学的角度描述、报道甚至评论 新闻核心事件进而形成整个文档的集合,而新闻话题更侧重于内容的分类。例如,在"马航 MH370航班失联"专题中,凡是涉及"MH370"航班的相关报道都可以被认为是属于该专题的 内容,但这些内容不一定属于同一个话题(或分类)。在新闻专题中,经常会从某些特定视 角进行报道或讨论,每个特定视角都可以被称为新闻专题的一个话题。因此,一个新闻专题 可能包含了多个话题,而且话题之间具有一定的交集或关联。在"马航MH370航班失联"专 题中,"探索搜救区域"、"中国政府行动"等视角是两个存在一定交集的新闻话题。一个新 闻话题通常由多个新闻文档汇聚而成,可以利用TDT技术对多篇内容相关的新闻进行分析 和处理,进而获得其话题彳目息。
[0037] 新闻专题的阶段性摘要:指新闻专题在一个特定时间阶段的内容摘要。
[0038] 请参阅图1,其是本发明优选实施例的信息媒介的专题阶段性摘要的生成方法的 方框图。
[0039] 本发明优选实施例的信息媒介的专题阶段性摘要的生成方法包括步骤:
[0040] S1:获取特定时间段内的各信息媒介的文档;
[0041] 本步骤中,用于在一个时间段内获取各种信息媒介的文档,以便于进行生成主题 集。
[0042] S2:对所述各信息媒介的文档进行主题抽取并生成主题集;
[0043] S3:对生成的所述主题集利用话题检测与追踪技术进行话题聚类并生成信息媒介 专题的阶段性摘要。
[0044] 在步骤S2中,所述对所述各信息媒介的文档进行主题抽取并生成主题集
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1