基于文本结构分析的Web文档摘要的生成方法

文档序号:6540234阅读:502来源:国知局
基于文本结构分析的Web文档摘要的生成方法
【专利摘要】本发明公开了一种基于文本结构分析的Web文档摘要的生成方法,该方法以一个URL作为输入,综合视觉特征和文本特征的网页正文提取,将正文分割成若干个语义段,再对各语义段进行摘要的方式,使得生成的摘要拥有较高的覆盖率。本发明针对Web页面结构复杂,难以识别正文,且中文自动摘要还处于探索阶段的情况下,实现了对Web网页生成质量较好的文本摘要。
【专利说明】基于文本结构分析的Web文档摘要的生成方法
【技术领域】
[0001]本发明涉及网页正文提取、自然语言处理、中文自动文摘【技术领域】,具体地说是一种基于文本结构分析的Web文档摘要的生成方法。
【背景技术】
[0002]目前,Internet已经成为了人们获取信息的主要来源。特别是近年来用户生成内容(UGC)的飞速发展,Internet上的信息正在爆发式增长。搜索引擎虽然能够根据用户要求返回搜索结果。但用户仍然需要从搜索列表中寻找最适合自己需要的网页,特别是由于互联网上大量存在的搜索引擎优化和转载现象,给用户快速准确的寻找信息带来了很大困难。
[0003]自动文摘系统是利用计算机快速处理Web文档,从中按一定压缩比抓取出Web文档的核心内容,用户可以从中获取主题信息并判断该Web文档的价值,提高了用户搜索信息的效率。
[0004]Web文档中大量存在着噪声信息,如广告、导航栏、用户功能条、相关推荐、版权信息等与主题无关的信息。Web文档是一种半结构化信息,虽然具有一定结构,但语义无法确定。内容在HTML源代码中的表示和最终渲染得到的页面会有很大区别。近年来JS和AJAX技术的大量应用,使得网页数据不再是静态的HTML代码,而是动态生成的,甚至针对用户的操作行为还会产生相应改变。所以如何从Web文档中抽取出和主题相关的且结构正确的内容,存在着一定的难度。
[0005]中文自动文摘系统的研究大约有二十余年的历史,但目前还处于探索阶段,自动摘要的结果还远远不能令人满意。自动摘要的方法主要分为两大类,基于理解的自动文摘和基于抽取的自动文摘。由于自然语言处理技术仍没有重大突破,所以基于理解的方法并不能真正的实现自动文摘。
[0006]而面向Web文档的自动摘要技术的研究历史更短,“与传统文本相比,网页的文本结构松散,标题命名相对不那么严谨,一个句子结束也可能没有结束符,并且存在大量的与正文不相关的内容,这给摘要的生成带来一定的困难。”

【发明内容】

[0007]本发明的目的是提供一种基于文本结构分析的Web文档摘要的生成方法,该方法综合运用了视觉特征分析、自然语言分析、文本结构分析等技术,为搜索结果中的每个网页生成基于语义的,质量较好的网页摘要,为用户提供参考。
[0008]本发明的目的是这样实现的:
[0009]一种基于文本结构分析的Web文档摘要的生成方法,它包括以下步骤:
[0010]I)输入待摘要网页的URL;
[0011]2)从待摘要网页基于视觉分析提取网页正文,具体包括;
[0012]2.1)采用浏览器核心对Web文档进行解析和渲染;[0013]2.2)采用视觉树(VIPS)算法对网页进行分块,得到各区块的位置、面积;
[0014]2.3)对各区块进行分词;
[0015]2.4)对各区块分析文本特征;
[0016]2.5)对各区块是否包含正文进行打分;
[0017]2.6)将得分高于某一阈值的文本按顺序连接起来;
[0018]2.7)输出Web文档正文;
[0019]3)对提取的正文进行基于文本结构分析的自动摘要,具体包括:
[0020]3.1)由步骤2)得到网页正文;
[0021]3.2)对正文进行分词和词性标注;
[0022]3.3)进行文本预处理:识别正文中的基本结构,即识别文章标题,完成句子、段落切分;
[0023]3.4)对正文进行语义段切分,通过文本结构分析识别语义发生转换的位置,作为语义段切分的标志;
[0024]3.5)对每个语义段,利用TFIDF的推广方法,对每个句子在所在语义段中的重要性进行度量,然后根据文摘字数要求,提取出若干句最能代表该语义段主题的句子;
[0025]3.6)将各句子按顺序连接起来,输出文摘。
[0026]所述步骤2.4)中的文本特征为字数、字号、陈述句数量、非陈述句数量及文本片断数量。
[0027]所述步骤2.5)中所述判断各区块是否包含正文进行打分,使用以下公式计算打分的分值:
[0028]
【权利要求】
1.一种基于文本结构分析的Web文档摘要的生成方法,其特征在于:该方法包括以下步骤: 1)输入待摘要网页的URL; 2)从待摘要网页基于视觉分析提取网页正文,具体包括; 2.1)采用浏览器核心对Web文档进行解析和渲染; 2.2)采用视觉树算法对网页进行分块,得到各区块的位置、面积; 2.3)对各区块进行分词; 2.4)对各区块分析文本特征; 2.5)对各区块是否包含正文进行打分; 2.6)将得分高于某一阈值的文本按顺序连接起来; 2.7)输出Web文档正文; 3)对提取的正文进行基于文本结构分析的自动摘要,具体包括: 3.1)由步骤2)得到网页正文; 3.2)对正文进行分词和词性标注; 3.3)进行文本预处理:识别正文中的基本结构,即识别文章标题,完成句子、段落切分; 3.4)对正文进行语义段切分,通过文本结构分析识别语义发生转换的位置,作为语义段切分的标志; 3.5)对每个语义段,利用TFIDF的推广方法,对每个句子在所在语义段中的重要性进行度量,然后根据文摘字数要求,提取出若干句最能代表该语义段主题的句子; 3.6)将各句子按顺序连接起来,输出文摘。
2.根据权利要求1所述的方法,其特征在于:步骤2.4)中所述的文本特征为字数、字号、陈述句数量、非陈述句数量及文本片断数量。
3.根据权利要求1所述的方法,其特征在于:步骤2.5)中所述判断各区块是否包含正文进行打分,使用以下公式计算打分的分值:
4.根据权利要求1所述的方法,其特征在于:步骤3.4)中所述语义发生转换的位置的分析识别是: 1)对文档D进行分句,每两个相邻的句子之间均为待定分割点; 2)对每个待定分割点进行打分,其公式为:
5.根据权利要求4所述的方法,其特征在于:步骤2)中所述句间语义相关度的计算包括以下步骤: 1)将句子切分成词的集合; 2)使用以下公式计算句间语义相关度
6.根据权利要求1所述的方法,其特征在于:步骤3.5)中所述对每个句子在所在语义段中的重要性进行度量使用以下公式计算:
V (S1) =sum (w e S1^TFIDF(W) 其中,计算TFIDF(w)时,将每个段落视为独立的文件,将整篇文章包含的若干个段落视为文件集。`
【文档编号】G06F17/27GK103853834SQ201410090200
【公开日】2014年6月11日 申请日期:2014年3月12日 优先权日:2014年3月12日
【发明者】沈怡涛, 顾君忠, 林晨 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1