一种基于标题高频切分的新闻热点短语提取方法与流程

文档序号:13421998阅读:419来源:国知局

本发明属于新闻文本数据挖掘技术领域,具体涉及一种基于标题高频切分的新闻热点短语提取方法。



背景技术:

随着互联网新闻数据量的爆炸性增长,如何识别当前实时的新闻热点并呈现给用户,变得越来越重要。基于此目的,产生了新闻热点话题的检测技术。但检测出的同一热点话题中的新闻量对用户来说可能仍然是庞大的,无法直接呈现给用户,如何根据话题中的新闻对热点话题进行简要准确地概括成为了关键的问题,用户只需要阅读概括后的话题描述,就能快速了解当前实时发生的热点事件。

目前,对话题内容进行概括的主要方法大致可以分为:摘要型、标签型、关键词型、短语(phrase)型。其中,摘要型的做法是提取多文档摘要,具有以下不足:由于多文档摘要本身长度过长,且各文档摘要句的拼接顺序无法确定,同时摘要可能存在语义、指代等不正确的情况,所以该方法无法有效应用于该场景。除摘要型外,其它类型的方法一般都是通过先产生候选集,再进行评价筛选最佳短语的方式。其中,标签型和关键词型的概括方法都是以词为基本单元,使用多个标签或关键词来描述一个话题。具有以下不足:由于词的描述存在局限性,无法像句子短语一样准确表达完整信息,并且对多个词而言存在不同的句法组合,同样的关键词或标签,可能由于用户理解顺序的不一样产生完全不同的意思。目前的短语(phrase)型概括方法是指:以词或n-gram作为基本单元,再通过组合基本单元来作为短语。具有以下不足:大部分的短语都过短,从一定程度上只能看作是词组,并且为了完整描述一个话题,仍然需要多个短语,这样碎片化的描述依然不能符合用户的阅读习惯。

由此可见,目前的各类对话题内容进行概括的方式,均具有一定的局限性,无法对热点话题进行简要准确的概括,无法满足用户快速了解当前实时发生的热点事件的需求。



技术实现要素:

针对现有技术存在的缺陷,本发明提供一种基于标题高频切分的新闻热点短语提取方法,可有效解决上述问题。

本发明采用的技术方案如下:

本发明提供一种基于标题高频切分的新闻热点短语提取方法,包括以下步骤:

步骤1,获取需要分析处理的w篇新闻文章,对所述w篇新闻文章采用增量聚类方法进行聚类,将属于同一新闻话题的新闻文章聚成一类,由此得到p个新闻话题类;

统计每个新闻话题类所包括的新闻文章数量,以每个新闻话题类所包括的新闻文章数量作为新闻话题热度的度量;即:每个新闻话题类所包括的新闻文章数量越多,则对应的新闻话题热度越高;

对于p个新闻话题类,按照新闻话题热度由高到低的顺序排列,取前m个新闻话题类作为热点话题类;其中,w、p和m均为自然数,m≤p;

步骤2,对于每个所述热点话题类,均执行以下步骤3-步骤7;

步骤3,假设所述热点话题类共包括x篇新闻文章,提取每篇新闻文章的新闻标题,则共提取到x个新闻标题;

对所述x个新闻标题进行去重处理,得到y个新闻标题;其中,x和y均为自然数,y≤x;

步骤4,对于y个新闻标题中的每个新闻标题,进行分词和去停用词处理,得到每个新闻标题所对应的若干个分词;将y个新闻标题得到的所有分词组成集合,记为分词集合;然后,统计每个分词在所述分词集合中的出现次数,即:统计每个分词的词频,筛选出词频最大的前n个分词作为该热点话题类的高频词集;

步骤5,设高频词集为f={f1、f2...fn};其中,n代表高频词集包括的高频词的数量;f1、f2...fn代表高频词集的元素,即各个高频词;e1、e2...en分别代表f1、f2...fn的词频;

步骤6,对于y个新闻标题中的每个新闻标题,表示为s=s1…st;其中si,i∈[1,t]为新闻标题的分词;s表示新闻标题;t表示新闻标题的分词数量;均采用以下步骤6.1-步骤6.2,得到新闻标题对应的候选短语c:

步骤6.1,判断新闻标题s=s1…st包含的高频词的数量,如果小于等于1个,则不提取该新闻标题s=s1…st对应的候选短语;否则,执行步骤6.2;

步骤6.2,使用高频词集f寻找新闻标题s=s1…st的高频切分边界,并根据切分边界对新闻标题s=s1…st进行切分,得到候选短语c;

本步骤具体为:

采用下式寻找高频切分左边界位置l和高频切分右边界位置u:

l=min{i:si∈f}

u=max{i:si∈f}

对于新闻标题s=s1…st,切除高频切分左边界位置l的左侧以及高频切分右边界位置u右侧的分词,然后判断得到的短语的字数是否小于设定阈值,如果是,则切分后得到的短语为候选短语c:

c=sl…su

步骤7,对于y个新闻标题中的每个新闻标题,采用步骤6的方法处理,得到的各个候选短语c组成候选短语集c;

对所述候选短语集c中的各个候选短语c进行评价,筛选得到评价指数最高的候选短语c,作为与所述热点话题类对应的最佳短语,该最佳短语即是描述对应的热点话题内容的热点短语。

优选的,步骤7中,对于每个候选短语c=sl…su,采用以下方法计算得到对应的评价指数:

步骤7.1,高频词词频占比权重wc:

其中:的含义为:对于sl…su这u-l+1个分词,筛选出属于高频词集f的所有分词,再计算筛选到的所有分词的词频和;

fk代表sl…su这u-l+1个分词中,属于高频词集f的分词;k为fk的下标,代表属于高频词集f={f1、f2...fn}的一个元素;

ej含义为:对于sl…su这u-l+1个分词中的某个属于高频词集f的分词,其对应的词频;

的含义为:高频词集f={f1、f2...fn}的n个高频词的词频和;

步骤7.2,高频词数权重ws:

ws=|f∩{si:l≤i≤u}|/|f|

其中:|f∩{si:l≤i≤u}|含义为:对于sl…su这u-l+1个分词,属于高频词集f的分词种类数量;

|f|含义为:高频词集f={f1、f2...fn}的高频词种类数量,即:|f|=n;

步骤7.3,短语长度权重wl:

其中,|c|表示候选短语c包含的字数;

步骤7.4,人名地名权重we

步骤7.5,短语出现次数count:

在候选短语集c中,被评价的候选短语的出现次数;

因此,候选短语c的评价指数w采用下式计算得到:

w=count·wl+we+α·wc+β·ws;

其中,α为高频词词频占比权重调节因子;β为高频词数权重调节因子。

本发明提供的一种基于标题高频切分的新闻热点短语提取方法具有以下优点:

在对海量新闻话题筛选出热点话题的基础上,能够对每个热点话题提取出一个精简、准确描述话题内容的热点短语,对当前新闻热点话题内容的快速概括和有效展现提供了解决方案,提高了信息的展现和用户获取信息的效率,在新闻热点发现、舆情监控等方面具有重要价值。

附图说明

图1为本发明提供的一种基于标题高频切分的新闻热点短语提取方法的流程示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

现有技术中,通过提取关键词或标签来描述话题内容的方法,缺点是:词的描述存在局限性,无法像短语一样准确表达完整信息,并且对多个词而言,存在不同的组合,同样的关键词或标签,可能由于用户理解顺序的不一样产生完全不同的意思。而传统通过提取短语来描述话题内容的方法,缺点是:目前的短语都是通过先分词再组合的方式生成短语,从组合方式上就可能产生歧义,从短语长度上来看更偏向于是词组,并且,同样也需要提取短语词组来描述话题内容,存在与关键词型方法一样的缺陷。

而本发明提供一种基于标题高频切分的新闻热点短语提取方法,具有以下优点:首先,在需要提取的描述单元个数上,本发明只需要提取一个描述短语,就可以完整准确的表达话题内容,而不需要通过提取多个关键词或短语,由于不需要组合,因此也不存在用户对多个关键词或短语理解顺序不同而产生的歧义问题。其次,本发明在产生候选短语时,是通过一次性切分出候选短语的方式,不是通过先切分再组合的方式产生短语,避免了在组合时由于组合方式不同而产生的歧义性问题。因此,本发明提供的方法,能够对热点话题进行既简要又准确的概括,方便用户快速准确的了解当前实时发生的热点事件。

参考图1,本发明提供一种基于标题高频切分的新闻热点短语提取方法,应用于媒体新闻平台的热点新闻发现领域,包括以下步骤:

步骤1,获取需要分析处理的w篇新闻文章,对所述w篇新闻文章采用增量聚类方法(singlepass)进行聚类,将属于同一新闻话题的新闻文章聚成一类,由此得到p个新闻话题类;

统计每个新闻话题类所包括的新闻文章数量,以每个新闻话题类所包括的新闻文章数量作为新闻话题热度的度量;即:每个新闻话题类所包括的新闻文章数量越多,则对应的新闻话题热度越高;

对于p个新闻话题类,按照新闻话题热度由高到低的顺序排列,取前m个新闻话题类作为热点话题类;其中,w、p和m均为自然数,m≤p;

步骤2,对于每个所述热点话题类,均执行以下步骤3-步骤7;

步骤3,假设所述热点话题类共包括x篇新闻文章,提取每篇新闻文章的新闻标题,则共提取到x个新闻标题;

对所述x个新闻标题进行去重处理,得到y个新闻标题;其中,x和y均为自然数,y≤x;

步骤4,对于y个新闻标题中的每个新闻标题,进行分词和去停用词处理,得到每个新闻标题所对应的若干个分词;将y个新闻标题得到的所有分词组成集合,记为分词集合;然后,统计每个分词在所述分词集合中的出现次数,即:统计每个分词的词频,筛选出词频最大的前n个分词作为该热点话题类的高频词集;

步骤3和步骤4的思想可描述为:由于新闻类文章的特点,其新闻标题往往就是对文章内容的高度概括,所以本发明使用了新闻标题来提取热点短语。一般而言,同一新闻话题中新闻标题并不都相同,是对同一新闻话题的不同表述。对同一热点话题中的多篇新闻,提取出新闻标题并去重,对新闻标题进行分词和去停用词处理,然后统计各标题中各分词的词频。容易发现的是,新闻标题中出现次数越多的分词越与话题内容相关,因此,在同一新闻话题中,筛选出词频最大的前n个分词作为热点话题的高频词集。

步骤5,设高频词集为f={f1、f2...fn};其中,n代表高频词集包括的高频词的数量;f1、f2...fn代表高频词集的元素,即各个高频词;e1、e2...en分别代表f1、f2...fn的词频;

步骤6,对于y个新闻标题中的每个新闻标题,表示为s=s1…st;其中si,i∈[1,t]为新闻标题的分词;s表示新闻标题;t表示新闻标题的分词数量;均采用以下步骤6.1-步骤6.2,得到新闻标题对应的候选短语c:

步骤6.1,判断新闻标题s=s1…st包含的高频词的数量,如果小于等于1个,则不提取该新闻标题s=s1…st对应的候选短语;否则,执行步骤6.2;

步骤6.2,使用高频词集f寻找新闻标题s=s1…st的高频切分边界,并根据切分边界对新闻标题s=s1…st进行切分,得到候选短语c;

本步骤的思想可描述为:为解决以往方法中提取的短语过短,且需要多个短语共同描述的问题,本发明在产生候选短语集时,使用高频词集来寻找每个新闻标题的高频切分边界,并根据切分边界对其进行切分,将切分结果作为候选短语集,并且最终只选择候选短语集中的一个候选短语来描述话题。

本步骤具体为:

采用下式寻找高频切分左边界位置l和高频切分右边界位置u:

l=min{i:si∈f}

u=max{i:si∈f}

对于新闻标题s=s1…st,切除高频切分左边界位置l的左侧以及高频切分右边界位置u右侧的分词,然后判断得到的短语的字数是否小于设定阈值,如果是,则切分后得到的短语为候选短语c:

c=sl…su

本发明中,对于候选短语c的最大字数值进行了限定,具体取值根据实际系统需求而定,例如,可将短语字数的最大设定阈值设置为17。通过对候选短语长度进行限制,可过滤掉冗长的短语,便于展示。如果短语过长,在展示上会出问题。

由此可见,高频切分产生的候选短语包含了新闻标题中全部的高频词,并且从语法上保证了候选短语的连贯性。每个新闻标题对应产生一个候选短语,若新闻标题只含一个高频词,则对该新闻标题不提取候选短语。

步骤7,对于y个新闻标题中的每个新闻标题,采用步骤6的方法处理,得到的各个候选短语c组成候选短语集c;

由以上操作,对每一个话题都能产生一个候选短语集c,下面需要从候选短语集c中选择一个最佳短语来作为话题内容的描述。本发明根据高频切分的特点,采用了以下指数来对候选短语进行评价。

因此,对所述候选短语集c中的各个候选短语c进行评价,筛选得到评价指数最高的候选短语c,作为与所述热点话题类对应的最佳短语,该最佳短语即是描述对应的热点话题内容的热点短语。

本步骤中,对于每个候选短语c=sl…su,采用以下方法计算得到对应的评价指数:

步骤7.1,高频词词频占比权重wc:

高频词代表了话题所包含的重要信息,并且词频越高的高频词可以认为包含的信息越重要,所以高频词词频的占比反映了候选短语所包含的话题信息重要度。高频词词频占比定义为

其中:的含义为:对于sl…su这u-l+1个分词,筛选出属于高频词集f的所有分词,再计算筛选到的所有分词的词频和;

fk代表sl…su这u-l+1个分词中,属于高频词集f的分词;k为fk的下标,代表属于高频词集f={f1、f2...fn}的一个元素;

ej含义为:对于sl…su这u-l+1个分词中的某个属于高频词集f的分词,其对应的词频;

的含义为:高频词集f={f1、f2...fn}的n个高频词的词频和;

步骤7.2,高频词数权重ws:

每个高频词都代表了话题不同的信息,候选短语中高频词的个数反映了短语概括话题的完整度。高频词数权重定义为:

ws=|f∩{si:l≤i≤u}|/|f|

其中:|f∩{si:l≤i≤u}|含义为:对于sl…su这u-l+1个分词,属于高频词集f的分词种类数量;

|f|含义为:高频词集f={f1、f2...fn}的高频词种类数量,即:|f|=n;

步骤7.3,短语长度权重wl:

一般来说,越长的短语包含的信息越多,但过长的短语也更可能包含一些多余信息,对话题的描述不够精简,呈现给用户时显得冗长。同样地,过短的短语包含的信息也极可能不够完整和准确。因此在筛选时,首先只保留了长度在17个字以内的短语,再对不同长度的短语根据短语长度赋予了不同权重,用|c|表示候选短语c包含的字数,则短语长度权重定义为:

其中,|c|表示候选短语c包含的字数;

步骤7.4,人名地名权重we

大部分情况下,新闻话题内容都应该包含事件的人物和地点,并且人物和地点也是描述话题内容的关键信息,因此,包含了人名或地名的候选短语比其它候选短语更可能为最佳短语。人名地名权重定义为:

步骤7.5,短语出现次数count:

短语出现次数是最基本的衡量一个候选短语是否为最佳短语的评价指数,出现次数越多,说明越多的新闻对该话题做了同样的描述,也就越有可能作为最佳短语。用count表示短语出现次数,含义为:在候选短语集c中,被评价的候选短语的出现次数。

因此,候选短语c的评价指数w采用下式计算得到:

w=count·wl+we+α·wc+β·ws;

其中,α为高频词词频占比权重调节因子;β为高频词数权重调节因子。

α越大,越倾向于较长的短语;β越大,越倾向于含不同高频词多的短语,α和β的具体取值可根据实际情况调节,例如,α和β的取值分别为3和0.5。

所以,通过候选短语的综合评价指数,计算候选短语集中每一个候选短语的评价指数,再选择综合评价指数最高的候选短语作为最佳短语,使用一个最佳短语就完成了对话题内容精简、准确的概括描述。多个热点话题一一对应了多个最佳短语,这些最佳短语就是描述了当前热点话题内容的热点短语。

本发明提供的一种基于标题高频切分的新闻热点短语提取方法具有以下优点:在对海量新闻话题筛选出热点话题的基础上,能够对每个热点话题提取出一个精简、准确描述话题内容的热点短语,对当前新闻热点话题内容的快速概括和有效展现提供了解决方案,提高了信息的展现和用户获取信息的效率,在新闻热点发现、舆情监控等方面具有重要价值。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1