基于非监督关键二元词串提取的微博文本自5力摘要方法

文档序号:6628553阅读:928来源:国知局
基于非监督关键二元词串提取的微博文本自5力摘要方法
【专利摘要】一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括:微博预处理;二元词串标准化;基于混合TF-IDF、TextRank和LDA的关键二元词串提取;基于交集相似度和互信息策略的句子排序;基于相似度阈值的摘要句抽取;以及合理组合摘要句以生成摘要。本发明以二元词串作为最小词汇单元,而二元词串比词语具备更丰富的上下文信息,因此基于关键二元词串比基于关键词抽取的句子抗噪性更强,准确率更高。同时,提取摘要句时引入相似度阈值控制冗余,因此摘要具备更高的召回率。本方法生成的摘要准确、简洁、全面,显著提高了用户获取知识的效率和质量,节省了用户大量时间。
【专利说明】基于非监督关键二元词串提取的微博文本自动摘要方法

【技术领域】
[0001] 本发明涉及一种对微博等社交媒体短文本进行自动摘要的方法,尤其是一种基于 非监督关键二元词串(bigram)提取的微博文本自动摘要方法。

【背景技术】
[0002] 目前,对社交媒体平台如Twitter和新浪微博等生成的大量微博文本进行自动摘 要的方法并不多。现有基于微博文本特征的摘要方法大多数都直接基于词袋模型对句子打 分或排序,然后提取排名靠前的句子组合成摘要输出(例如参考文章 Inouye,D.,Kalita, J. K. "Comparing twitter summarization algorithms for multiple post summaries,', Social Computing, 2011,298-306)。但是,对于微博这种极不规范的类对话风格的短文本, 容易引入大量噪声,从而导致摘要准确率偏低。同样,传统文档自动摘要方法(例如参考 文章 Mihalcea, R. and Tarau, P. , "TextRank :Bringing order into texts", EMNLP, 2004, 404-411)没有考虑到微博面临着的严重稀疏性、不规范性和噪声,因此直接将其应用于微 博自动摘要往往也不能准确概括微博内容。少数研究者以二元词串作为文本单元,将多 文档自动摘要问题转化为以最大化二元词串权重为目标的整型线性规划问题(例如参考 文章 Li, C. , Qian, X. , Liu, Y. , "Using Supervised Bigram-based ILP for Extractive Summarization",ACL,2013,1004-1013)。但是类似工作并没有在噪声严重的微博上展开, 二元词串的效果有待进一步研究和验证。微博已成为人们及时获取信息的重要来源之一, 但是,人们同时也面临着严重的信息过载问题。而微博自动摘要技术可以通过内容分析自 动把多条微博浓缩成简短的摘要,从而节省用户大量时间,方便用户浏览。因此,微博自动 摘要技术的研究无疑具有非常重大的现实意义。


【发明内容】

[0003] 为了克服现有微博文本自动摘要方法对噪声不鲁棒从而导致提取的摘要准确率 偏低的不足,本发明提供了一种基于非监督关键二元词串提取的微博文本自动摘要方法, 以实现自动为同一个热门话题下成千上万的微博文本自动生成简洁、准确、全面的摘要,从 而改善用户的浏览体验。
[0004] 本发明实现上述技术目的所采用的技术方案是:
[0005] -种基于非监督关键二元词串提取的微博文本自动摘要方法,包括以下步骤:
[0006] 步骤1 :采用正则表达式,去除微博文本中的噪声信息,以及去掉冗余的标点和过 分连续重复的词组;将每条微博切分成句子,然后分词、去停用词;
[0007] 步骤2 :将每个句子中相邻的两个词语组合成一个二元词串,由此每个句子由一 串-兀词串序列表不;
[0008] 步骤3 :利用基于混合TF_IDF、TextRank和/或LDA的三种非监督关键二元词串抽 取技术,提取若干个能准确反映话题微博集合某个子主题的二元词串作为关键二元词串, 得到一个关键二元词串集合;
[0009] 步骤4 :基于上述关键二元词串集合,利用交集相似度和/或互信息策略,对由一 串-兀词串序列表不的所述句子打分排序;
[0010] 步骤5:在引进相似度阈值以防止冗余的基础上,从排名靠前的所述句子中提取Μ 个满足相似度条件的句子作为摘要句,其中Μ为正整数;
[0011] 步骤6 :将所述提取的摘要句组合成摘要,并输出。
[0012] 其中,步骤1中去除的所述噪声信息包括标签、网址、符号表情、用户名、标题、无 意义后缀。
[0013] 其中,所述步骤1进一步包括下列步骤:
[0014] 去除微博文本中所有标签、内嵌网址、转发符号、用户名、表情符号,以及对话题理 解没有意义的后缀;
[0015] 去除"【】"内长度短语10个字的标题;
[0016] 去掉冗余的标点和过分重复的词语和短语,标点、词语、短语构成最小的重复单元 时,除语气词保留两个重复单元外,其余仅保留一个重复单元;
[0017] 将长度大于30个字的微博切分成句子,然后去除长度小于4个字的句子;
[0018] 对句子进行分词,得到一元词串;
[0019] 去停用词。
[0020] 其中,当基于混合TF-IDF进行关键二元词串提取时,所述步骤3进一步包括下列 步骤:
[0021] 每个二元词串的混合TF-IDF权重可由以下公式计算得出iHybridJFJDFODi)= tf如)*log2 (idf如)),其中,tf如)为二元词串h的TF值,其值等于h在整个句子集合中 出现的频率,其公式化定义如下:
[0022]

【权利要求】
1. 一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括以下步骤: 步骤1 :采用正则表达式,去除微博文本中的噪声信息,以及去掉冗余的标点和过分连 续重复的词组;将每条微博切分成句子,然后分词、去停用词; 步骤2 :将每个句子中相邻的两个词语组合成一个二元词串,由此每个句子由一串二 元词串序列表示; 步骤3 :利用基于混合TF-IDF、TextRank和/或LDA的三种非监督关键二元词串抽取 技术,提取若干个能准确反映话题微博集合某个子主题的二元词串作为关键二元词串,得 到一个关键二元词串集合; 步骤4 :基于上述关键二元词串集合,利用交集相似度和/或互信息策略,对由一串二 元词串序列表示的所述句子打分排序; 步骤5:在引进相似度阈值以防止冗余的基础上,从排名靠前的所述句子中提取Μ个满 足相似度条件的句子作为摘要句,其中Μ为正整数; 步骤6 :将所述提取的摘要句组合成摘要,并输出。
2. 根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其 中步骤1中去除的所述噪声信息包括标签、网址、符号表情、用户名、标题、无意义后缀。
3. 根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其 中所述步骤1进一步包括下列步骤: 去除微博文本中所有标签、内嵌网址、转发符号、用户名、表情符号,以及对话题理解没 有意义的后缀; 去除"【】"内长度短语10个字的标题; 去掉冗余的标点和过分重复的词语和短语,标点、词语、短语构成最小的重复单元时, 除语气词保留两个重复单元外,其余仅保留一个重复单元; 将长度大于30个字的微博切分成句子,然后去除长度小于4个字的句子; 对句子进行分词,得到一元词串; 去停用词。
4. 根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其 中当基于混合TF-IDF进行关键二元词串提取时,所述步骤3进一步包括下列步骤: 每个二元词串的混合TF-IDF权重可由以下公式计算得出iHybricLTFJDFODi)= tf如)*log2 (idf如)),其中,tf如)为二元词串h的TF值,其值等于h在整个句子集合中 出现的频率,其公式化定义如下:
idf^bi)为h的IDF值,其值等于句子总数比上出现了 h的句子数目,其公式化定义如 下:
将所有二元词串按照其混合TF-IDF值降序排列,然后取前N个作为关键二元词串,得 到二元词串集合,其中N为预先定义的正整数。
5. 根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其 中当基于TextRank进行关键二元词串提取时,所述步骤3进一步包括下列步骤: 以二元词串作为顶点,以设定为10个词的固定文本窗内两个有先后顺序的二元词串 共现的次数作为边的权重,构造了一个有向带权图G (V,E),其中V为顶点集合,E为边集合; 令In (vD为指向顶点Vi的顶点构成的集合,Out (Vj)为顶点Vj所指向的顶点构成的集合, Wji为顶点Vj到Vi的边的权重,贝U每个顶点的TextRank分值可由下式计算得出:
其中,d为阻尼因子,取值为0.8 ;按上式迭代至收敛,得到每个二元词串的TextRank 值,然后按该值降序排列二元词串,取前N个最具影响力的二元词串作为关键二元词串,其 中N为预先定义的正整数。
6. 根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其 中当基于LDA进行关键二元词串提取时,所述步骤3进一步包括下列步骤: 通过LDA对语料建模并推理可得到主题二元词串分布矩阵
>对该矩阵按列求和,将得到的值作为每个二元词串在主题集 合上的全局得分,具体可公式化定义如下:
基于此全局得分对 二元词串降序排序,取前N个二元词串构成关键二元词串集合,其中N为预先定义的正整 数。
7. 根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其 中当采用交集相似度策略时,所述步骤4进一步包括下列步骤: 交集相似度通过计算候选句子与关键二元词串集合中重叠的二元词串个数在整个关 键二元词串集合中的占比,并乘以归一化因子得到,具体定义如下:
其中S表示候选句,KBS表示关键二元词串集合,h即为共现的关键二元词串,|S|和 KBS|分别表示候选句长度和关键二元词串集合的大小,AveLen表示句子集合中所有句子 的平均长度。
8. 根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其 中当采用互信息策略时,所述步骤4进一步包括下列步骤: 互信息具体定义如下:
其中,P〇V S)为匕在句子S中出现的频率,p(bi)为匕在整个句子集合中出现的频 率,P(S)为句子的长度比上句子集合的所有句子的长度,同样,该分值以交集相似度中用到 的归一化因子对长度进行归一化。
9. 根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法, 其中所述步骤5中所述基于相似度阈值的摘要句抽取的步骤具体是指:从排名最靠前的句 子开始提取,当且仅当候选句与已提取的摘要句的相似度均小于某个阈值时,该候选句被 选为摘要句,否则丢弃该候选句,考虑排名次之的下一个候选句,直到提取了 Μ个摘要句为 止,其中,Μ为抽取的句子的个数,相似度阈值sim(S。,Ss)的计算公式如下所示 :
其中,相似度采用的是候选句S。与摘要句Ss的共现相似度,maxSim为事先设定的所允 许的最大相似度阈值,设为〇. 5。
10.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法, 其中步骤6中所述的组合成摘要句的原则按优先级如下: (1) 如果摘要句包含时间信息,则按时序组合; (2) 如果多条摘要句属于语料中的同一条微博,则按照原始微博中的句子顺序组合; (3) 让相似度大的句子毗邻,以增强句子之间的连贯性。
【文档编号】G06F17/30GK104216875SQ201410502810
【公开日】2014年12月17日 申请日期:2014年9月26日 优先权日:2014年9月26日
【发明者】徐博, 吴玉芳, 张恒, 郝红卫, 刘成林 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1