一种摘要生成方法及装置的制造方法

文档序号：9287743阅读：599来源：国知局

一种摘要生成方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域，特别涉及一种摘要生成方法及装置。
【背景技术】
[0002] 基于移动互联网的场景碎片化特性，用户可能只有三五分钟来浏览和阅读。在这种情况下，传统的网页浏览方式已经不能满足用户快速获取关键信息的需求。因此，如何将网页正文里的核心关键信息提取出来，汇聚成一小段文字，使用户能够在极短时间内阅读完这些文字，并基本获取文章主要内容，将产生极大的价值。
[0003] 提取关键信息生成摘要的方式，最初是采用人工的方式实现的。用人工提取网页关键信息作为摘要。但是，人工提取摘要的问题在于人工代价太高，每篇文章都需要人工操作，难以完成每天新产生的大量网页的摘要提取需求。
[0004] 为了解决人工提取摘要的各种问题，技术人员提出了由设备自动生成摘要的方案。自动生成摘要的方案，采用的是通过维护大规模的词典实现。具体方案如下：依据词典对正文的句子进行分词。比如"王力宏要结婚了"，会分词为"王力宏/要/结婚/ 了"，然后过滤掉无用的单字，得到"王力宏/结婚"。
[0005] 采用词典实现分词的缺点主要是过于依赖词典，而词典难以包含所有有意义的词，导致大量的信息量被丢弃，不利于摘要的准确生成。比如，如果"王力宏"不存在于词典中，则这个句子分词过滤后的结果仅为"结婚"，这样导致大量的信息量被丢弃，导致摘要信息不完整和准确。另外，采用词典生成摘要的方案需要维护词典，工作效率较低。

【发明内容】

[0006] 本发明实施例提供了一种摘要生成方法及装置，用于实现准确并且高效的摘要生成方案。
[0007] -种摘要生成方法，包括：
[0008] 获取正文内容并获取所述正文内容的句子；
[0009] 对正文内容的各句子使用多元语言模型算法进行分词得到分词结果，确定所述分词结果的特征向量；所述特征向量包含典型特征，典型特征对应有特征权重；依据典型特征的特征权重计算正文内容的各句子的重要度；
[0010] 依据计算得到的重要度由高往低从所述正文内容中提取句子作为摘要。
[0011] -种摘要生成装置，包括：
[0012] 句子提取单元，用于获取正文内容并获取所述正文内容的句子；
[0013] 计算单元，用于对所述句子提取单元提取的正文内容的各句子使用多元语言模型算法进行分词得到分词结果，确定所述分词结果的特征向量；所述特征向量包含典型特征，典型特征对应有特征权重；依据典型特征的特征权重计算正文内容的各句子的重要度；
[0014] 摘要提取单元，用于依据所述计算单元计算得到的重要度由高往低从所述正文内容中提取句子作为摘要。
[0015] 从以上技术方案可以看出，本发明实施例具有以下优点：使用多元语言模型算法进行分词，使分词不再依赖于词典，而且能够最大程度地保留信息量；通过确定分词结果的特征向量，特征向量包含典型特征，典型特征对应有特征权重；再依据典型特征的特征权重计算正文内容的各句子的重要度；从而可以从正文内容中获取到重要度高的句子并作为摘要使用。以上方案不再依赖于词典也不必维护词典，可以准确并且高效的生成摘要。
【附图说明】
[0016] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0017] 图1为本发明实施例方法流程示意图；
[0018] 图2为本发明实施例系统架构示意图；
[0019] 图3为本发明实施例装置结构示意图；
[0020] 图4为本发明实施例装置结构示意图；
[0021] 图5为本发明实施例装置结构示意图；
[0022] 图6为本发明实施例装置结构示意图；
[0023] 图7为本发明实施例装置结构示意图；
[0024] 图8为本发明实施例装置结构示意图；
[0025] 图9为本发明实施例装置结构示意图；
[0026] 图10为本发明实施例服务器结构示意图。
【具体实施方式】
[0027] 为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
[0028] 本发明实施例提供了一种摘要生成方法，如图1所示，包括：
[0029] 101 :获取正文内容并获取上述正文内容的句子；
[0030] 本发明实施例方案可以在服务器一侧执行也可以在移动终端一侧执行，对此本发明实施例不予限定。若在移动终端一侧执行，那么本步骤中获取正文内容可以是接收到来自网络侧的正文内容；如果在服务器一侧执行，那么本步骤则可以是批量的获取正文内容，然后依此对各正文内容采用本发明实施例方案进行摘要生成。在正文获取以后，获取句子的方式可以采用获取句号对正文进行分断的方式来确定，具体实现方式本发明实施例不予限定。
[0031] 102:对正文内容的各句子使用多元语言模型算法进行分词得到分词结果，确定上述分词结果的特征向量；上述特征向量包含典型特征，典型特征对应有特征权重；依据典型特征的特征权重计算正文内容的各句子的重要度；
[0032] 在本发明实施例中使用多元语言模型算法进行分词。N-GRAM(N-gramlanguage model，多元语言模型，其中N彡2)算法，N-GRAM是大词汇连续语音识别中的一种语言模型，对于中文而言也有称为：汉语语言模型（CLM,ChineseLanguageModel)。本方案摈弃了依赖于词典的分词的做法，采用N-GRAM算法来对句子进行拆分，这样不仅不依赖于分词和词典，而且能够最大程度地保留信息量，为句子的挑选提供更多可利用的特征。N-GRAM的做法是利用固定大小的滑动窗口对句子进行遍历，并将窗口内的词串予以提取。比如窗口大小为2时，"王力宏要结婚了"可提取为"王力/力宏/宏要/要结/结婚/婚了"共6个词串。词串的数量远远大于分词得到的词串数。其中虽然存在一些无意义的词串，但是由于最终提取的是句子，且无意义串对句子重要度计算没有影响，所以此做法很有意义。
[0033]可选地，在本发明实施例中特征向量以及特征向量内的典型特征均可以是预置的，更具体地：上述典型特征的值包含：句子包含标题词串的数量、句子包含重要词串的数量、句子的长度、句子在正文中的位置以及句子是否包含总结性词汇中的至少一项。
[0034]在本发明实施例中，可以对分词得到的分词结果提取各种预先定义好的特征值 (即典型特征)，这样可将其格式化为一个特征向量<fl，f2,…，fn>，其中fi表示第i个特征的值。目前一般可以有约10个特征，每一个特征都对于衡量句子重要度较有作用，其中几个典型特征如下：
[0035] 特征fl:句子包含标题词串的数量；
[0036] 特征f2:句子包含重要词串的数量；
[0037] 特征f3 :句子的长度；
[0038] 特征f4:句子在网页中的位置煅首、段中、段尾等）；
[0039] 特征f5:句子是否包含总结性词汇(如：总之、综上上述等)。
[0040] 其中在f2中，重要词串的识别方式可以采用TFIDF(termfrequency-inverse documentfrequency,词频逆文档频率）的相关方法实现，TFIDF是一种用于资讯检索与资讯探勘的加权技术。另需说明的是，以上方案中典型特征的举例是本发明实施例做出的几个优选典型特征的举例，基于人们对正文内容的规律性分析总结，是可以获知其他影响句子重要性的特征的，并且基于不同的文章类型(例如：时事新闻、财经新闻、文学作品、科技文献等）还可能采用不同典型特征；因此以上举例不应理解为对本发明实施例的唯一性限定。
[0041] 可选地，本发明实施例还提供了特征权重的获得方式，本实施例中特征权重的获得方式可以在摘要生成过程中进行对特征权重进行调整，也是可以在诸如测试过程或者预置过程中进行特征权重的生成，本实施例采用的是通过机器学习里的"训练"的方案来实现的，具体可以如下：上述特征权重的获得方法包括：获取训练正文，上述训练正文包含已知重要度的句子；循环执行如下步骤：对训练正文的句子使用多元语言模型算法进行分词得到分词结果，并确定分词结果的特征向量，然后使用典型特征的初始特征权重计算训练正文的句子的重要度，并调

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蔡兵;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

上一篇：一种基于问答平台的数据处理方法和装置的制造方法
上一篇：检索结果的显示处理方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。