网页摘要抽取方法及其装置的制造方法

文档序号:8381107阅读:289来源:国知局
网页摘要抽取方法及其装置的制造方法
【技术领域】
[0001] 本发明涉及一种网页摘要抽取方法及其装置,尤其涉及一种基于关键词的网页摘 要抽取方法及其装置。
【背景技术】
[0002] 目前对于网页摘要抽取方法有以下几类:1.基于文本集的方法。该方法引入机器 学习的方法,从文本集和摘要中学习有关规则。主要分为两个阶段:训练阶段和测试阶段。 训练阶段从训练文本集中抽取文本的重要特征,并通过学习算法生成规则;测试阶段则将 训练阶段学到的规则应用于测试文本集,生成摘要。该方法的不足是需要利用训练生成的 规则才能生成摘要,过分依赖训练文本集,难以保证生成摘要的准确性。2.基于领域本体 的方法:该方法主要通过本体对于应用领域层次上的语义信息以及本体的内部关系分析文 本,过滤不相关信息,使主题更加突出,摘要的抽取更加准确,该方法的不足是由于中文领 域本体的缺乏,需要自己构建领域本体,工作量大。
[0003] 因此,需要出现一种既能保证生成摘要的准确性,又能减少工作量的网页摘要抽 取方法的出现。

【发明内容】

[0004] 针对上述问题,本发明提供一种能够从网页中正确提取摘要的方法及其装置。
[0005] 本发明提供一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到 的与所述查询词相关的网页中抽取摘要,其特征在于,包括以下步骤:(1)查询词预处理步 骤:利用分词工具将查询词分词为若干个子查询词,统计每个子查询词出现的频率以及每 个子查询词在查询词中的分布信息;(2)文本预处理步骤:将预处理后的网页文本分成若 干个句子,利用分词工具将每个句子进行分词并保存每个词在网页文本中的分布信息,并 统计句子个数和文本中词的个数;(3)词频及词分布信息统计步骤:统计每个句子包含的 子查询词的个数、包含的连续子查询词的个数和包含的子查询词的种类,并在句子对出现 的子查询词进行标注以及标明具体为那个子查询词;(4)评分步骤:基于步骤(3)的统计数 据,利用评分工具对每个句子进行评分,计算每个句子的分数;(5)排序和生成摘要步骤: 按分数从高到低对句子进行排序,选取前K个句子来生成摘要,其中0 S K 5 3。
[0006] 本发明还提供一种网页摘要抽取装置,其特征在于,包括:查询词预处理单元,利 用分词工具将查询词分词为若干个子查询词,统计每个子查询词出现的频率以及每个子查 询词在查询词中的分布信息;文本预处理单元,将文本分成若干个句子,利用分词工具将每 个句子进行分词并保存每个词在网页文本中的分布信息,并统计句子个数和文本中词的个 数;词频及词分布信息单元,统计若干个句子中出现至少一个所述子查询词的句子数,统计 某个所述子查询词在每个句子中出现的频率,以及统计每个句子中出现子查询词的种类, 并在句子对出现的子查询词进行标注以及标明具体为那个子查询词;评分单元,利用评分 工具对每个句子进行评分,计算每个句子的分数;排序单元,按分数从高到低对句子进行排 序;以及组织摘要单元,选取前K个句子来生成摘要,其中O g K g 3。
[0007] 本发明能够在响应用户查询的时候,根据查询词在文档中出现的位置,提取出查 询词周围相关的文字并返回给用户,由于一篇文档会被不同的查询词召回,因此,本发明会 根据不同的查询词,对同一个文档形成不同的摘要文字。同时,对给定的文本中的关键字进 行加粗、加红等显示方式,已凸显它和普通文本的区别。从而使用户能够快速查找所需的相 关信息。
【附图说明】
[0008] 图1是本发明的网页摘要抽取方法的示意图。
[0009] 图2是本发明的网页摘要抽取装置的示意图。
【具体实施方式】
[0010] 本发明的宗旨是从网页中准确地提取摘要,主要解决以下问题:
[0011] 1.概述搜索出的网页的大概内容,使用户快速确定网页是否相关,是否进一步查 看。从而解决了用户快速查找相关文档的困扰。
[0012] 2.对于搜索系统来说,当响应用户查询的时候,根据查询词在文档中出现的位置, 提取出查询词周围相关的文字并返回给用户。
[0013] 3.摘要提取的准确率问题。本发明主要将词频、标题、词分布等要素作为评判句子 重要性的语句来抽取出重要的句子作为摘要。有效的提高了摘要提取的准确率问题。
[0014] 为解决上述技术问题,本发明网页摘要抽取方法采用了以下技术:
[0015] (1)文本处理技术。本发明中主要两个地方使用到该技术,一个是查询词或标题预 处理单元,另一个是文本预处理单元。
[0016] (2)结果排序技术。本发明首先对给定的文档进行分句,分句主要依据于 〃。!?···.!?〃等符号的出现。然后对每一句进行评分,评分主要依据下述三个因素:1) 句子中包含查询词分词后的子查询词的个数,包括重复出现的子查询词;2)句子中包含连 续子查询词的个数;3)句子中包含的子查询词的种类。最后根据评分来进行排序,找出排 在前K的得分比较高的的句子。
[0017] 为使本领技术人员进一步了解本发明的特征及技术内容,下面结合附图和实施 例,对本发明的技术方案进行详细描述。
[0018] -般,用户根据欲获取的信息选择好检索词后,将该检索词输入检索框,搜索引擎 通常很短时间内即可在海量网页中找到关于该检索词的相关内容,这些内容将并不直接反 馈给用户,因而用户很难知道所检索的网页中那些是自己所需要的,如果每个网页都进行 浏览,将会浪费大量时间。因而,如何快速且高效的将网页中的内容以摘要的形式呈现给用 户,以便用户及时了解网页是否相关以作出判断显得至关重要。
[0019] 图1是本发明的网页摘要抽取方法的示意图。如图1所示,本发明的网页摘要抽 取方法包括:
[0020] 步骤Sl :查询词预处理步骤
[0021] 利用分词工具将查询词分词为若干个子查询词;
[0022] 具体地,可利用词频统计工具,如IKAnalyzer分词器、ICTCLAS、Ansj、结巴分
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1