一种摘要生成方法及装置的制造方法

文档序号:9287743阅读:599来源:国知局
一种摘要生成方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,特别涉及一种摘要生成方法及装置。
【背景技术】
[0002] 基于移动互联网的场景碎片化特性,用户可能只有三五分钟来浏览和阅读。在这 种情况下,传统的网页浏览方式已经不能满足用户快速获取关键信息的需求。因此,如何将 网页正文里的核心关键信息提取出来,汇聚成一小段文字,使用户能够在极短时间内阅读 完这些文字,并基本获取文章主要内容,将产生极大的价值。
[0003] 提取关键信息生成摘要的方式,最初是采用人工的方式实现的。用人工提取网页 关键信息作为摘要。但是,人工提取摘要的问题在于人工代价太高,每篇文章都需要人工操 作,难以完成每天新产生的大量网页的摘要提取需求。
[0004] 为了解决人工提取摘要的各种问题,技术人员提出了由设备自动生成摘要的方 案。自动生成摘要的方案,采用的是通过维护大规模的词典实现。具体方案如下:依据词典 对正文的句子进行分词。比如"王力宏要结婚了",会分词为"王力宏/要/结婚/ 了",然 后过滤掉无用的单字,得到"王力宏/结婚"。
[0005] 采用词典实现分词的缺点主要是过于依赖词典,而词典难以包含所有有意义的 词,导致大量的信息量被丢弃,不利于摘要的准确生成。比如,如果"王力宏"不存在于词典 中,则这个句子分词过滤后的结果仅为"结婚",这样导致大量的信息量被丢弃,导致摘要信 息不完整和准确。另外,采用词典生成摘要的方案需要维护词典,工作效率较低。

【发明内容】

[0006] 本发明实施例提供了一种摘要生成方法及装置,用于实现准确并且高效的摘要生 成方案。
[0007] -种摘要生成方法,包括:
[0008] 获取正文内容并获取所述正文内容的句子;
[0009] 对正文内容的各句子使用多元语言模型算法进行分词得到分词结果,确定所述分 词结果的特征向量;所述特征向量包含典型特征,典型特征对应有特征权重;依据典型特 征的特征权重计算正文内容的各句子的重要度;
[0010] 依据计算得到的重要度由高往低从所述正文内容中提取句子作为摘要。
[0011] -种摘要生成装置,包括:
[0012] 句子提取单元,用于获取正文内容并获取所述正文内容的句子;
[0013] 计算单元,用于对所述句子提取单元提取的正文内容的各句子使用多元语言模型 算法进行分词得到分词结果,确定所述分词结果的特征向量;所述特征向量包含典型特征, 典型特征对应有特征权重;依据典型特征的特征权重计算正文内容的各句子的重要度;
[0014] 摘要提取单元,用于依据所述计算单元计算得到的重要度由高往低从所述正文内 容中提取句子作为摘要。
[0015] 从以上技术方案可以看出,本发明实施例具有以下优点:使用多元语言模型算法 进行分词,使分词不再依赖于词典,而且能够最大程度地保留信息量;通过确定分词结果的 特征向量,特征向量包含典型特征,典型特征对应有特征权重;再依据典型特征的特征权重 计算正文内容的各句子的重要度;从而可以从正文内容中获取到重要度高的句子并作为摘 要使用。以上方案不再依赖于词典也不必维护词典,可以准确并且高效的生成摘要。
【附图说明】
[0016] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其 他的附图。
[0017] 图1为本发明实施例方法流程示意图;
[0018] 图2为本发明实施例系统架构示意图;
[0019] 图3为本发明实施例装置结构示意图;
[0020] 图4为本发明实施例装置结构示意图;
[0021] 图5为本发明实施例装置结构示意图;
[0022] 图6为本发明实施例装置结构示意图;
[0023] 图7为本发明实施例装置结构示意图;
[0024] 图8为本发明实施例装置结构示意图;
[0025] 图9为本发明实施例装置结构示意图;
[0026] 图10为本发明实施例服务器结构示意图。
【具体实施方式】
[0027] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进 一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的 所有其它实施例,都属于本发明保护的范围。
[0028] 本发明实施例提供了一种摘要生成方法,如图1所示,包括:
[0029] 101 :获取正文内容并获取上述正文内容的句子;
[0030] 本发明实施例方案可以在服务器一侧执行也可以在移动终端一侧执行,对此本发 明实施例不予限定。若在移动终端一侧执行,那么本步骤中获取正文内容可以是接收到来 自网络侧的正文内容;如果在服务器一侧执行,那么本步骤则可以是批量的获取正文内容, 然后依此对各正文内容采用本发明实施例方案进行摘要生成。在正文获取以后,获取句子 的方式可以采用获取句号对正文进行分断的方式来确定,具体实现方式本发明实施例不予 限定。
[0031] 102:对正文内容的各句子使用多元语言模型算法进行分词得到分词结果,确定上 述分词结果的特征向量;上述特征向量包含典型特征,典型特征对应有特征权重;依据典 型特征的特征权重计算正文内容的各句子的重要度;
[0032] 在本发明实施例中使用多元语言模型算法进行分词。N-GRAM(N-gramlanguage model,多元语言模型,其中N彡2)算法,N-GRAM是大词汇连续语音识别中的一种语言模型, 对于中文而言也有称为:汉语语言模型(CLM,ChineseLanguageModel)。本方案摈弃了依 赖于词典的分词的做法,采用N-GRAM算法来对句子进行拆分,这样不仅不依赖于分词和词 典,而且能够最大程度地保留信息量,为句子的挑选提供更多可利用的特征。N-GRAM的做 法是利用固定大小的滑动窗口对句子进行遍历,并将窗口内的词串予以提取。比如窗口大 小为2时,"王力宏要结婚了"可提取为"王力/力宏/宏要/要结/结婚/婚了"共6个词 串。词串的数量远远大于分词得到的词串数。其中虽然存在一些无意义的词串,但是由于 最终提取的是句子,且无意义串对句子重要度计算没有影响,所以此做法很有意义。
[0033]可选地,在本发明实施例中特征向量以及特征向量内的典型特征均可以是预置 的,更具体地:上述典型特征的值包含:句子包含标题词串的数量、句子包含重要词串的数 量、句子的长度、句子在正文中的位置以及句子是否包含总结性词汇中的至少一项。
[0034]在本发明实施例中,可以对分词得到的分词结果提取各种预先定义好的特征值 (即典型特征),这样可将其格式化为一个特征向量<fl,f2,…,fn>,其中fi表示第i个特征 的值。目前一般可以有约10个特征,每一个特征都对于衡量句子重要度较有作用,其中几 个典型特征如下:
[0035] 特征fl:句子包含标题词串的数量;
[0036] 特征f2:句子包含重要词串的数量;
[0037] 特征f3 :句子的长度;
[0038] 特征f4:句子在网页中的位置煅首、段中、段尾等);
[0039] 特征f5:句子是否包含总结性词汇(如:总之、综上上述等)。
[0040] 其中在f2中,重要词串的识别方式可以采用TFIDF(termfrequency-inverse documentfrequency,词频逆文档频率)的相关方法实现,TFIDF是一种用于资讯检索与资 讯探勘的加权技术。另需说明的是,以上方案中典型特征的举例是本发明实施例做出的几 个优选典型特征的举例,基于人们对正文内容的规律性分析总结,是可以获知其他影响句 子重要性的特征的,并且基于不同的文章类型(例如:时事新闻、财经新闻、文学作品、科技 文献等)还可能采用不同典型特征;因此以上举例不应理解为对本发明实施例的唯一性限 定。
[0041] 可选地,本发明实施例还提供了特征权重的获得方式,本实施例中特征权重的获 得方式可以在摘要生成过程中进行对特征权重进行调整,也是可以在诸如测试过程或者预 置过程中进行特征权重的生成,本实施例采用的是通过机器学习里的"训练"的方案来实现 的,具体可以如下:上述特征权重的获得方法包括:获取训练正文,上述训练正文包含已知 重要度的句子;循环执行如下步骤:对训练正文的句子使用多元语言模型算法进行分词得 到分词结果,并确定分词结果的特征向量,然后使用典型特征的初始特征权重计算训练正 文的句子的重要度,并调
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1