基于html特征的文本内容提取方法

文档序号:6555553阅读:395来源:国知局
专利名称:基于html特征的文本内容提取方法
技术领域
本发明涉及一种文本内容提取方法,尤其涉及一种基于HTML特征的文本内容提取方法。
背景技术
随着搜索引擎的发展,搜索用户对搜索引擎的要求越来越高,搜索引擎技术要求也越来越高,出现了很多新的技术,如文本聚类和文本分类,自动摘要等等。在这些技术中文本内容提取很重要,如果把文本的内容全部提取,就会造成提取的内容过多,参杂了很多不必要的东西,如广告,导航信息等等,这些东西是经常重复的,而且并不是用户所要搜索的目标,再者,过多的重复或没必要的信息会加大文本聚类和文本分类的准确性,也会在分词阶段增加一些没有必要的处理。在不同的网站中,网页的排版是多种多样,如果单从模块划分,和位置划分,很难确定内容是在哪里。

发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于HTML特征的文本内容提取方法。
本发明的目的可以通过以下技术方案来实现基于HTML特征的文本内容提取方法,其特征在于,该方法实现的步骤包括1)使用标签把输入的HTML网页进行分解成多个模块;2)如果1)中分解的模块还能继续再分解而且没有出现Table或Div标签混杂的情况,那么再把它送到步骤1)继续分解;3)把输入的模块根据在布局中的不同位置给与不同位置得分;4)计算每个模块的链接文字长度和每个模块超链接内文本的长度;5)根据公式综合得分=位置得分×文字长度/链接文字长度得出每个模块得综合得分,综合得分最高的为内容模块。
所述的步骤1)中的标签为Table标签和Div标签。
所述的步骤3)中的输入模块处于布局中的用户注意力集中的位置成为网页内容模块的权重。
所述的步骤4)中的模块的链接文字长度和每个模块超链接内文本的长度比例判断文本内容是否为内容模块。
所述的步骤5)中的综合得分,其分值最高的为内容模块,该内容模块的内容为HTML所要表达的内容。
与现有技术相比,本发明使用了Table标签和Div标签来提取网页的内容,减少了系统消耗,提高了网页布局的解析效率;使用了普通文本&超级链接文字长度的比例,有效的抓取HTML网页的内容,去除了多余的信息,使得在后面的分词阶段工作量大大降低,提高了文本聚类和文本分类、自动摘要的准确性。


图1为本发明的内容提取过程图;图2为网页布局图。
具体实施例方式
下面结合附图对本发明作进一步说明。
如图1所示,基于HTML特征的文本内容提取方法,把网页布局分为内容模块和非内容模块。内容模块是网页中的内容部分,而非内容模块一般是用来展示导航信息,横幅,版权声明或者广告等信息。本发明方案的目标就是分解HTML网页,把内容模块从HTML网页中提取出来。针对每个分解出来的模块,我们根据它所在的网页布局中的位置给与不同的得分,处于用户视线焦点的模块的得分越高,反之得分越低,如果它的链接文字长度相对该模块比例过大,那么该模块展示的可能是广告或导航信息。在本发明中给出了一个模块内容综合得分公式综合得分=位置得分×文字长度/链接文字长度本技术实现步骤
1)根据Table和Div标签用于支持排版的特点把输入的HTML网页进行分解成多个模块。在这个步骤中比较好的在于是用了Table标签和Div标签这两个用于布局的标签的分解模块,一方面由于它们是用于网页布局,另一方面也减少了分析网页的复杂度,对其它的标签如B,BR这些其他标签不进行处理,大大的加快了网页解析速度,减少了系统资源代价。
2)如果1)中分解的模块还能继续再分解而且没有出现Table或Div标签混杂的情况,那么再把它送到步骤1)继续分解。
3)把输入的模块根据在布局的位置根据不同位置给与不同位置得分,4)计算每个模块的链接文字长度和每个模块超链接内文本的长度。
5)根据公式综合得分=位置得分×文字长度/链接文字长度得出每个模块得综合得分,综合得分最高的为内容模块。
在获取网页后,把网页作为输入,如①中,如果输入使用Table标签和Div标签把输入分解为多个模块那么,就把输入分割为多个模块。在②中判断分割出来的模块是否还可以继续划分,如果可以那么回到步骤①继续划分,否则进入步骤③。步骤③剔除由②输入的模块中的所有HTML标签后获得简单的文本,计算出这个文本的长度。步骤④使用achor标签提取出所有的链接,把它们的长度加起来形成链接文字长度。步骤⑤利用公式综合得分=位置得分×文字长度/链接文字长度,计算出每个模块的综合得分。综合得分太少的模块经过步骤⑥后进入步骤⑦删除,综合得分最高的进入步骤⑧成为最终的输出。
权利要求
1.基于HTML特征的文本内容提取方法,其特征在于,该方法实现的步骤包括1)使用标签把输入的HTML网页进行分解成多个模块;2)如果1)中分解的模块还能继续再分解而且没有出现Table或Div标签混杂的情况,那么再把它送到步骤1)继续分解;3)把输入的模块根据在布局中的不同位置给与不同位置得分;4)计算每个模块的链接文字长度和每个模块超链接内文本的长度;5)根据公式综合得分=位置得分×文字长度/链接文字长度得出每个模块得综合得分,综合得分最高的为内容模块。
2.根据权利要求1所述的基于HTML特征的文本内容提取方法,其特征在于,所述的步骤1)中的标签为Table标签和Div标签。
3.根据权利要求1所述的基于HTML特征的文本内容提取方法,其特征在于,所述的步骤3)中的输入模块处于布局中的用户注意力集中的位置成为网页内容模块的权重。
4.根据权利要求1所述的基于HTML特征的文本内容提取方法,其特征在于,所述的步骤4)中的模块的链接文字长度和每个模块超链接内文本的长度比例判断文本内容是否为内容模块。
5.根据权利要求1所述的基于HTML特征的文本内容提取方法,其特征在于,所述的步骤5)中的综合得分,其分值最高的为内容模块,该内容模块的内容为HTML所要表达的内容。
全文摘要
本发明涉及一种基于HTML特征的文本内容提取方法,该方法实现的步骤包括1)使用标签把输入的HTML网页进行分解成多个模块;2)如果1)中分解的模块还能继续再分解而且没有出现Table或Div标签混杂的情况,那么再把它送到步骤1)继续分解;3)把输入的模块根据在布局中的不同位置给与不同位置得分;4)计算每个模块的链接文字长度和每个模块超链接内文本的长度;5)根据公式综合得分=位置得分×文字长度/链接文字长度得出每个模块得综合得分。与现有技术相比,提高了网页布局的解析效率;提高了文本聚类和文本分类、自动摘要的准确性。
文档编号G06F17/30GK101093487SQ20061002806
公开日2007年12月26日 申请日期2006年6月22日 优先权日2006年6月22日
发明者金骏, 胡创义 申请人:上海新纳广告传媒有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1