一种摘要生成方法及装置的制造方法_2

文档序号：9287743阅读：来源：国知局

整初始特征权重；直到计算得到的重要度与已知重要度的接近程度高于预定阈值时，停止循环执行过程，并将最后一次调整后的初始特征权重作为上述典型特征的特征权重。
[0042]在以上"训练"的方案中，"计算得到的重要度与已知重要度的接近程度高于预定阈值"的判定方式有很多种，训练正文的数量可以是N篇，N> 1，以下实施例给出了几种可选的判定方式，具体如下：
[0043] (一 )、若上述训练正文的数量为1篇，且已知重要度的句子为最重要的句子；
[0044] 上述已知重要度的句子的已知重要度的值，与计算得到的上述已知重要度的句子的重要度的值的接近程度高于阈值；或者，计算得到的重要度最高的句子为上述已知重要度的句子。
[0045] (二)、若上述训练正文的数量为1篇，且已知重要度的句子的数量为Ml个，Ml大于 1;
[0046] 计算得到的重要度的排序在前的Ml个句子，与已知重要度的Ml个句子的重合度高于预定阈值；或者，计算得到的与上述已知重要度的Ml个句子对应的句子的重要度的平均值，与已知重要度的句子的重要度的平均值的接近程度高于预定阈值。
[0047] (三)、若上述训练正文的数量为N篇，且N大于1 ;并且已知重要度的句子为各训练正文中最重要的句子；计算得到的已知重要度的句子在各自所在的训练正文中的重要度排名的平均值，与已知重要度的句子在各自所在的训练正文中的重要度排名的平均值的接近程度高于预定阈值。
[0048] (四）、若上述训练正文的数量为N篇，且N大于1 ;并且每篇训练正文中已知重要度的句子的数量为M2个，M2大于1 ;计算得到的各训练正文中重要度的排序在前的M2个句子，与各训练正文中已知重要度的M2个句子的重合度高于预定阈值；或者，计算得到的各训练正文中与上述已知重要度的M2个句子对应的句子的重要度的总和，与各训练正文中已知重要度的句子的重要度的总和的接近程度高于预定阈值。
[0049] 103:依据计算得到的重要度由高往低从上述正文内容中提取句子作为摘要。
[0050] 在本发明实施例中，提取句子的具体方式可以如下：可以按照计算得到的重要度对各句子排序以后，提取重要度排在前列的设定数量的句子；也可以基于摘要字数的限制，从重要度最高的句子开始提取，直到提取到最多句子并且满足摘要的字数要求。本步骤之前由于已经获得了各句子的重要度，因此只要将相对来说更为重要的句子提取出来作为摘要就可以实现本发明实施例的技术目的，具体的提取规则本发明实施例可以不予唯一性限定。
[0051] 本发明实施例还提供了更为具体的提取句子的方案如下：上述方法还包括：获取约束条件；上述依据计算得到的重要度从上述正文内容中提取句子作为摘要包括：依据计算得到的重要度和上述约束条件从上述正文内容中提取句子作为摘要。可选地，上述约束条件包括：摘要的字数上限值，或者，摘要的句子数量。
[0052] 本发明实施例，使用多元语言模型算法进行分词，使分词不再依赖于词典，而且能够最大程度地保留信息量；通过确定分词结果的特征向量，特征向量包含典型特征，典型特征对应有特征权重；再依据典型特征的特征权重计算正文内容的各句子的重要度；从而可以从正文内容中获取到重要度高的句子并作为摘要使用。以上方案不再依赖于词典也不必维护词典，可以准确并且高效的生成摘要。
[0053] 进一步地，对于相似度较高的句子而言，它们的重要度也会较为接近，但是由于相似度较高的句子通常会表达相近的语义，在摘要中使用多个相似的句子则会浪费摘要宝贵的可用字数，本发明实施例基于此提出了如下方案：在上述依据计算得到的重要度由高往低从上述正文内容中提取句子之后，上述方法还包括：删除提取得到的句子，删除的句子满足如下条件：删除的句子与保留的句子的相似度高于预定门限，并且删除的句子的重要度低于保留的句子的重要度。
[0054] 进一步地，本发明实施例中，提取的重要度高的句子是整个句子，由于这个句子是有可能存在代词的，特别是句首使用代词，如果将其直接显示在摘要中可能会导致语义的丢失，致使读者不清楚代词所代替的名词。本发明实施例基于此提出了如下解决方案：在上述依据计算得到的重要度由高往低从上述正文内容中提取句子之后，上述方法还包括：将提取得到的句子中的代词替换为名词，上述名词为上述代词指代的名词。
[0055] 在本发明实施例中，若发现了代词时，可以对这个代词前的名词进行检索，特别是人名的检索获得其所指代的名称。在本实施例中，优选使用较为保守的算法以增加替换的准确度。
[0056] 进一步地，通常来说正文内容本身会具有其逻辑联系，提取的重要度高的句子也可以遵循这种逻辑联系来适应正文内容的逻辑，具体如下：在上述依据计算得到的重要度由高往低从上述正文内容中提取句子之后，上述方法还包括：按照提取得到的句子在上述正文内容中的顺序进行排序。
[0057] 以下实施例将就本发明实施例的实现方法进行举例说明，本发明实施例的方法可以应用于所有正文的摘要提取，以下实施例中将以网页正文的摘要提取进行举例说明，因此以下关于网页摘要生成的举例不应理解为摘要生成的唯一应用场景。具体请参阅后续实施例的说明。
[0058] 本发明实施例提供了自动化的网页摘要生成方法，该方法通过将网页正文拆分为一个个的句子，然后根据一些标注数据，对句子进行打分并排序，最后将最重要的几个句子进行汇总和整理，生成自动化摘要。同时不依赖于词典，大大节省了词库的建设成本。
[0059] 本发明实施例技术方案主要包括两部分，如图2所示：
[0060] 一、离线训练。主要包括训练样本、特征权重训练并生成句子打分模型。其中在训练样本过程中会执行句子拆分以及特征提取。
[0061] 二、在线判定。该部分会利用离线训练生成的句子打分模型，计算每篇网页的句子得分并生成摘要。主要包括网页分析、句子提取、依据句子打分模型计算句子得分从而生成摘要
[0062] 以下分别就离线训练和在线判定进行详细说明，具体如下：
[0063] 一、离线训练：
[0064] 1、分词。
[0065] 本发明实施例的方案摈弃了依赖于词典的分词做法，在本发明实施例中使用多元语言模型算法进行分词。N-GRAM(N_gramlanguagemodel,多兀语言模型，其中N彡2)算法， N-GRAM是大词汇连续语音识别中的一种语言模型，对于中文而言也有称为：汉语语言模型 (CLM,ChineseLanguageModel)。本方案摈弃了依赖于词典的分词的做法，采用N-GRAM算法来对句子进行拆分，这样不仅不依赖于分词和词典，而且能够最大程度地保留信息量，为句子的挑选提供更多可利用的特征。N-GRAM的做法是利用固定大小的滑动窗口对句子进行遍历，并将窗口内的词串予以提取。比如窗口大小为2时，"王力宏要结婚了"可提取为"王力/力宏/宏要/要结/结婚/婚了"共6个词串。词串的数量远远大于分词得到的词串数。其中虽然存在一些无意义的词串，但是由于最终提取的是句子，且无意义串对句子重要度计算没有影响，所以此做法很有意义。
[0066] 2、特征提取。
[0067] 对于正文中的每一个句子，在本发明实施例中，可以对分词得到的分词结果提取各种预先定义好的特征值（即典型特征)，这样可将其格式化为一个特征向量<fl，f2，一，fn>，其中fi表示第i个特征的值。目前一般可以有约10个特征，每一个特征都对于衡量句子重要度较有作用，其中几个典型特征如下：
[0068] 特征fl:句子包含标题词串的数量；
[0069] 特征f2 :句子包含重要词串的数量；
[0070] 特征f3 :句子的长度；
[0071]特征f4:句子在网页中的位置(段首、段中、段尾等）；
[0072] 特征f5 :句子是否包含总结性词汇(如：总之、综上上述等)。
[0073] 其中在f2中，重要词串的识别方式可以采用TFIDF(termfrequency-inverse documentfrequency,词频逆文档频率）的相关方法实现，TFIDF是一种用于资讯检索与资讯探勘的加权技术。另需说明的是，以上方案中典型特征的举例是本发明实施例做出的几个优选典型特征的举例，基于人们对正文内容的规律性分析总结，是可以获知其他影响句子重要性的特征的，并且基于不同的文章类型(例如：时事新闻、财经新闻、文学作品、科技文献等）还可能采用不同典型特征；因此以上举例不应理解为对本发明实施例的唯一性限定。
[0074] 3、确定特征权重。
[0075] 对于正文中的每个一句子的特征向量<fl，f2,…，fn>，需要确定与之对应的特征权重向量<wl，w2,…，

完整全部详细技术资料下载

当前第2页1 2 3 4 5