网页正文内容提取方法及装置的制作方法

文档序号：6425453阅读：135来源：国知局

专利名称：网页正文内容提取方法及装置的制作方法
技术领域：
本发明涉及互联网信息处理技术领域，尤其涉及一种网页正文内容提取方法及装置。
背景技术：
随着互联网技术的迅速发展，网页上的信息越来越丰富，为了更好的使用网页上的信息，人们不断追求能够有效组织和利用网上信息的技术，但同时也使得网页不像传统的文本那样整齐、干净，其中包含着大量的噪音内容，例如为了增强用户交互性而加入的脚本，为了便于用户浏览而加入的导航链接，以及出于商业考虑所加入的广告链接等。网页正文提取是指从超文本标记语言(HTML, Hyper Text Mark-upLanguage)页面中，去除导航栏、侧边栏的文字链广告、图片、版权等与正文无关的信息，将网页的正文内容提取出来，网页正文内容提取是搜索引擎中不可或缺的步骤之一。现有技术中提取网页正文的方法主要包括基于视觉特征的提取方法和基于统计的提取方法，下面对两种提取方法分别进行介绍。I、基于视觉特征的提取方法首先基于网页的视觉特征对网页的结构进行挖掘，其中网页的视觉特征包括字体、字号、背景颜色、空白区域、位置信息等，根据网页的视觉特征将网页划分成各个视觉信息块，然后针对每个视觉信息块，根据该视觉信息块的视觉特征规律，判断该视觉信息块是否为网页的正文内容，例如，网页正文内容中的标题部分一般均为固定的字号，而正文内容是紧跟标题部分的，且正文内容的字号一般比标题部分的字号小，因此可以根据上述视觉特征规律来提取网页的正文内容。上述基于视觉特征的提取方法主要根据网页的视觉特征来提取正文内容，而视觉特征有时并不能很准确的区分正文内容与非正文内容的界限，提取准确度较低。另外，随着网络技术的不断发展，网页的格式越来越丰富，针对某些格式的网页提取正文内容时，可能无法获取字体、字号、背景颜色、空白区域、位置信息等视觉特征，或者获取的视觉特征不准确。因此采用基于视觉特征的提取方法提取正文内容时的准确性较低。2、基于统计的提取方法通常认为网页中变化较少的部分一般为冗余内容，即噪音，如导航栏、侧边广告、版权信息等，而网页中经常变化的部分一般为网页的正文内容，因此可以构建一个包含大量网页的训练集，从训练集中统计出变化较少的区域以及经常变化的区域，进而总结出对应的网页模板，当提取网页的正文内容时，将该欲提取正文内容的网页与训练集中对应的网页模板进行比较，进而提取出网页的正文内容。上述基于统计的提取方法主要根据总结出的网页模板来提取正文内容，而针对每个网页而言，其正文内容的分布与网页模板相比可能稍有不同，也就是说，应用统一的网页模板提取网页正文时，提取的准确度相对较低。另外，随着网络技术的不断发展，网页的格式越来越丰富，很多格式的网页并不能对应统一的网页模板，例如，网页I和网页2都是某网站的网页，网页2为该网站进行改版后的网页，网页I为该网站进行改版前的网页,正文内容在网页I和网页2中所处的位置不同，那么网页I对应的网页模板并不能适用于网页2，若依然根据该网页模板对网页2进行正文内容的提取，则会使得提取的准确性较低。由上可见，现有技术的网页正文提取技术，存在提取准确性较低的问题。

发明内容
本发明实施例提供一种网页正文内容提取方法及装置，用以解决现有技术存在的提取网页正文内容准确性较低的问题。本发明实施例技术方案如下一种网页正文内容提取方法，该方法包括步骤将需提取正文内容的网页划分成各内容块；针对划分出的每个内容块分别执行确定该内容块的链接文本长度及非链接文本长度；并根据确定出的链接文本长度和非链接文本长度，确定该内容块对应的链接文本密度；在链接文本密度不大于预设的第一规定阈值时，确定该内容块为该网页的正文内容。一种网页正文内容提取装置，包括内容块划分单元，用于将需提取正文内容的网页划分成各内容块；第一文本长度确定单元，用于针对每个内容块，分别确定该内容块的链接文本长度和非链接文本长度；第一链接文本密度确定单元，用于根据第一文本长度确定单元确定出的链接文本长度和非链接文本长度，确定该内容块对应的链接文本密度；第一链接文本密度判断单元，用于判断第一链接文本密度确定单元确定出的链接文本密度是否大于预设的第一规定阈值；正文内容确定单元，用于在第一链接文本密度判断单元的判断结果为否时，确定该内容块为该网页的正文内容。本发明实施例技术方案，针对每个需提取正文内容的网页而言，通过链接文本长度在内容块中所占的比例多少(即链接文本密度)，来确定是否为网页的正文内容，当链接文本长度所占比例越多，则认为成为正文内容的可能性越小，若超过第一规定阈值，则确定为非正文内容，反之同理。可见，本发明实施例在提取网页正文内容时，是针对每个需提取正文内容的网页进行的，不会受到不同网页形式差异的影响，且链接文本长度在内容块中所占比例的多少，能够较为客观准确的反映出该内容块成为网页正文的可能性多少，进而有效地提高提取网页正文的准确性。

图I为本发明实施例中，网页正文内容提取方法流程示意图；图2为本发明实施例中，网页正文内容提取方法具体实现流程示意图；图3为本发明实施例中，网页正文内容提取装置结构示意图。
具体实施例方式下面结合各个附图对本发明实施例技术方案的主要实现原理具体实施方式
及其对应能够达到的有益效果进行详细地阐述。如图I所示，为本发明实施例中网页正文内容提取方法流程图，其具体处理流程如下步骤11，将需提取正文内容的网页划分成各内容块。
网页通常通过成段的文字来描述一个或多个主题，其中也包含图片和链接等内容，但这些内容并不是网页的主体，相对网页正文内容而言，其内容较少。将网页划分成各内容块是指按照网页中的各容器标签对，将网页划分成多个内容块。也就是说，将网页中各容器标签对中的内容划分为一个内容块。具体包括如下子步骤对需提取正文内容的网页进行规范化预处理；获得预处理后的网页中的各容器标签对；按照获得的各容器标签对，将预处理后的网页划分成多个内容块。
上述将网页进行规范化预处理，使之符合超文本标记语言(HTML，HyperTextMark-up Language)标准,对网页进行规范化预处理主要包括统一网页编码格式、精简标签、删除与正文无关的代码段等处理部分，下面分别进行介绍。I、统一网页编码格式由于各网站所使用的编码格式不一定相同，即各网页的编码格式可能不同，因此为了能正确从网页中提取出正文内容，需要对采用不同编码格式进行编码的各网页进行编码格式的转换，转换成统一的编码格式，可以但不限于借助于meta标签的charset属性来进行编码格式的转换。2、精简标签精简标签的主要目的是为了便于后期正文内容提取处理进一步提高提取结果的准确性，精简标签主要包括以下几个方面的内容由于不同的标签属性在网页显示中起着不同的作用，例如通过设置标签属性，可以使某些内容不在网页中显示，对于此类标签属性，应该在精简标签的过程中将其删除，避免此类标签属性出现在提取出的正文内容中。举例，将“〈tdheight = " 29" align="right" >”中的标签属性删除，精简为“<td>”。由于HTML代码不区分大小写，为了便于后续处理，可以在精简标签时，将所有标签都进行大小写统一处理，比如可以统一转换为大写，例如将“〈tdheight =" 29" align="right" >”中的标签td精简为“TD”。根据标签属性对标签进行相应处理，比如删除、替换等。比如用“_ATTR_DEL”来表示删除标记，用“_ATTR_REP”来表示替换标记，在精简标签时，可以根据相应的删除标记或替换标记，对标签属性进行删除或替换处理，若标签属性对应的标记为“_ATTR_DEL”,则将包含该标签属性的标签对及其包含的内容全部删除，若标签属性对应的标记为“_ATTR_REP”，则将该标签属性的标签进行替换。实际应用中，精简标签还可以包括很多内容，本领域技术人员可以根据各网页的具体描述形式，自行设计，此处不做限制。3、删除与正文无关的代码段在HTML代码中，某些代码是为了实现页面的某种功能而使用的，与网页的正文内容无关，例如CSS代码和Script代码，在进行规范化预处理时，就需要将这些代码删除，表I列出了需要删除的代码对应的标签对。表I
权利要求
1.一种网页正文内容提取方法，其特征在于，包括将需提取正文内容的网页划分成各内容块；针对划分出的每个内容块分别执行确定该内容块的链接文本长度及非链接文本长度；并根据确定出的链接文本长度和非链接文本长度，确定该内容块对应的链接文本密度；在链接文本密度不大于预设的第一规定阈值时，确定该内容块为该网页的正文内容。
2.如权利要求I所述的网页正文内容提取方法，其特征在于，所述将需提取正文内容的网页划分成各内容块，具体包括对需提取正文内容的网页进行规范化预处理；获得预处理后的网页中的各容器标签对；按照获得的各容器标签对，将预处理后的网页划分成多个内容块。
3.如权利要求I所述的网页正文内容提取方法，其特征在于，所述根据确定出的链接文本长度和非链接文本长度，确定该内容块对应的链接文本密度，具体包括计算所述链接文本长度和非链接文本长度的比值；根据所述比值确定该内容块对应的链接文本密度。
4.如权利要求3所述的网页正文内容提取方法，其特征在于，所述根据所述比值确定该内容块对应的链接文本密度，具体包括将所述比值与惩罚因子相乘，得到该内容块对应的链接文本密度。
5.如权利要求4所述的网页正文内容提取方法，其特征在于，所述惩罚因子为该内容块所包含的链接的数量。
6.如权利要求I所述的网页正文内容提取方法，其特征在于，所述确定该内容块为该网页的正文内容之后还包括判断该内容块中是否嵌套有至少一个嵌套内容块；若判断结果为否，则结束；若判断结果为是，则针对每个嵌套内容块分别执行确定该嵌套内容块的链接文本长度及非链接文本长度；并根据确定出的链接文本长度和非链接文本长度，确定该嵌套内容块对应的链接文本密度；在该嵌套内容块对应的链接文本密度大于预设的第一规定阈值时，从正文内容中删除该嵌套内容块。
7.如权利要求I所述的网页正文内容提取方法，其特征在于，所述针对划分出的每个内容块分别执行之前，还包括判断该内容块中是否嵌套有至少一个嵌套内容块；若判断结果为否，则执行所述针对划分出的每个内容块分别执行的步骤；若判断结果为是，则针对每个嵌套内容块分别执行确定该嵌套内容块的链接文本长度及非链接文本长度；并根据确定出的链接文本长度和非链接文本长度，确定该嵌套内容块对应的链接文本密度；在该嵌套内容块对应的链接文本密度大于预设的第一规定阈值时，确定该嵌套内容块为该网页的非正文内容；将该内容块中除确定为非正文内容的各嵌套内容块之外的内容，重新作为该内容块。
8.如权利要求I所述的网页正文内容提取方法，其特征在于，所述确定该内容块为该网页的正文内容之后还包括获取所述正文内容中的各标签，分别将相邻两个标签之间的内容确定为内容单元；针对每个内容单元，分别执行将内容单元与预设的内容模板库进行匹配；若匹配成功，则将所述内容模板库中相匹配的内容模板的匹配频度加I ; 判断所述匹配频度是否大于预设的第二规定阈值，是则从正文内容中删除该内容单J Li ο
9.如权利要求8所述的网页正文内容提取方法，其特征在于，所述将内容单元与预设的内容模板库进行匹配，具体包括在内容模板库中的各内容模板中，查找与所述内容单元的内容一致的内容模板，所述内容模板为预先对至少一个网页的内容单元进行匹配获得；若查找到，则匹配成功，否则匹配失败。
10.如权利要求9所述的网页正文内容提取方法，其特征在于，所述在内容模板库中的各内容模板中，查找与所述内容单元的内容一致的内容模板之前，还包括判断所述内容模板库中是否存储有内容模板；若未存储有内容模板，则匹配失败；若存储有内容模板，则执行所述在内容模板库中的各内容模板中，查找与所述内容单元的内容一致的内容模板的操作。
11.如权利要求8-10任一项所述的网页正文内容提取方法，其特征在于，若匹配失败，则还包括将所述内容单元作为新的内容模板，存入所述内容模板库中，且将其对应的匹配频度设为初始值。
12.如权利要求8所述的网页正文内容提取方法，其特征在于，所述将内容单元与预设的内容模板库进行匹配之前，还包括判断该内容单元的文本长度是否大于预设的第三规定阈值；若判断结果为是，则结束；若判断结果为否，则执行所述将内容单元与预设的内容模板库进行匹配的操作。
13.如权利要求8所述的网页正文内容提取方法，其特征在于，在所述将内容单元与预设的内容模板库进行匹配之前，还包括将该内容单元中所包含的各数字字符转换为统一的预设字符。
14.一种网页正文内容提取装置，其特征在于，包括内容块划分单元，用于将需提取正文内容的网页划分成各内容块；第一文本长度确定单元，用于针对每个内容块，分别确定该内容块的链接文本长度和非链接文本长度；第一链接文本密度确定单元，用于根据第一文本长度确定单元确定出的链接文本长度和非链接文本长度，确定该内容块对应的链接文本密度；第一链接文本密度判断单元，用于判断第一链接文本密度确定单元确定出的链接文本密度是否大于预设的第一规定阈值；正文内容确定单元，用于在第一链接文本密度判断单元的判断结果为否时，确定该内容块为该网页的正文内容。
15.如权利要求14所述的网页正文内容提取装置，其特征在于，内容块划分单元具体包括预处理子单元，用于对需提取正文内容的网页进行规范化预处理；标签对获得子单元，用于获得预处理子单元进行预处理后的网页中的各容器标签对；内容块划分子单元，用于根据标签对获得子单元获得的各容器标签对，将预处理子单元进行预处理后的网页划分成各内容块。
16.如权利要求14所述的网页正文内容提取装置，其特征在于，第一链接文本密度确定单元具体包括比值计算子单元，用于计算所述链接文本长度和非链接文本长度的比值；链接文本密度确定子单元，用于根据比值计算子单元计算出的所述比值确定该内容块对应的链接文本密度。
17.如权利要求16所述的网页正文内容提取装置，其特征在于，所述链接文本密度确定子单元具体用于，将比值计算子单元计算出的所述比值与惩罚因子相乘，得到该内容块对应的链接文本密度。
18.如权利要求14所述的网页正文内容提取装置，其特征在于，还包括第一嵌套内容块判断单元，用于在所述正文内容确定单元确定该内容块为该网页的正文内容之后，判断该内容块中是否嵌套有至少一个嵌套内容块；第二文本长度确定单元，用于在第一嵌套内容块判断单元的判断结果为是时，针对每个嵌套内容块，分别确定该嵌套内容块的链接文本长度和非链接文本长度；第二链接文本密度确定单元，用于根据第二文本长度确定单元确定出的链接文本长度和非链接文本长度，确定该嵌套内容块对应的链接文本密度；第二链接文本密度判断单元，用于判断该嵌套内容块对应的链接文本密度是否大于预设的第一规定阈值；内容块删除单元，用于在第二链接文本密度判断单元的判断结果为是时，从正文内容中删除该嵌套内容块。
19.如权利要求14所述的网页正文内容提取装置，其特征在于，还包括第二嵌套内容块判断单元，用于判断该内容块中是否嵌套有至少一个嵌套内容块，若判断结果为否，则所述第一文本长度确定单元执行针对每个内容块，分别确定该内容块的链接文本长度和非链接文本长度；第三文本长度确定单元，用于针对每个嵌套内容块，分别确定该嵌套内容块的链接文本长度和非链接文本长度；第三链接文本密度确定单元，用于根据第三文本长度确定单元确定出的链接文本长度和非链接文本长度，确定该嵌套内容块对应的链接文本密度；第三链接文本密度判断单元，用于判断该嵌套内容块对应的链接文本密度是否大于预设的第一规定阈值；非正文内容确定单元，用于第三链接文本密度判断单元的判断结果为是时，确定该嵌套内容块为该网页的非正文内容；内容确定单元，用于将该内容块中除非正文内容确定单元确定为非正文内容的各嵌套内容块之外的内容，重新作为该内容块。
20.如权利要求14所述的网页正文内容提取装置，其特征在于，还包括内容单元划分单元，用于获取所述正文内容中的各标签，分别将相邻两个标签之间的内容确定为内容单元；内容匹配单元，用于针对每个内容单元，分别将内容单元与预设的内容模板库进行匹配；匹配频度处理单元，用于在内容匹配单元匹配成功时，将所述内容模板库中相匹配的内容模板的匹配频度加I ; 内容删除单元，用于判断所述匹配频度是否大于预设的第二规定阈值，是则从正文内容中删除该内容单元。
21.如权利要求20所述的网页正文内容提取装置，其特征在于，所述内容匹配单元具体包括内容模板查找子单元，用于在内容模板库中的各内容模板中，查找与所述内容单元的内容一致的内容模板，所述内容模板为预先对至少一个网页的内容单元进行匹配获得；匹配确认子单元，用于在内容模板查找子单元查找到内容模板时，确认匹配成功，在内容模板查找子单元未查找到内容模板时，确认匹配失败。
22.如权利要求21所述的网页正文内容提取装置，其特征在于，还包括内容模板判断单元，用于判断所述内容模板库中是否存储有内容模板；匹配结果确认单元，用于所述内容模板判断单元的判断结果为否时，确认匹配失败；所述内容模板判断单元的判断结果为是时，所述内容模板查找子单元执行在内容模板库中的各内容模板中，查找与所述内容单元的内容一致的内容模板。
23.如权利要求20-22任一项所述的网页正文内容提取装置，其特征在于，还包括内容模板存储单元，用于匹配失败时，将所述内容单元作为新的内容模板，存入所述内容模板库中，且将其对应的匹配频度设为初始值。
24.如权利要求20所述的网页正文内容提取装置，其特征在于，还包括文本长度判断单元，用于所述内容匹配单元将内容单元与预设的内容模板库进行匹配之前，判断该内容单元的文本长度是否大于预设的第三规定阈值；匹配单元，用于所述文本长度判断单元的判断结果为否时，所述内容匹配单元执行针对每个内容单元，分别将内容单元与预设的内容模板库进行匹配。
25.如权利要求20所述的网页正文内容提取装置，其特征在于，还包括字符转换单元，用于所述内容匹配单元将内容单元与预设的内容模板库进行匹配之前，将该内容单元中所包含的各数字字符转换为统一的预设字符。
全文摘要
本发明公开了一种网页正文内容提取方法及装置，该方法包括步骤将需提取正文内容的网页划分成各内容块；针对划分出的每个内容块分别执行确定该内容块的链接文本长度及非链接文本长度；并根据确定出的链接文本长度和非链接文本长度，确定该内容块对应的链接文本密度；在链接文本密度不大于预设的第一规定阈值时，确定该内容块为该网页的正文内容。采用本发明技术方案，解决了现有技术中存在的提取网页正文内容准确性较低的问题。
文档编号G06F17/30GK102810097SQ20111014758
公开日2012年12月5日申请日期2011年6月2日优先权日2011年6月2日
发明者朱海军, 姜吉发申请人:高德软件有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱海军;姜吉发
技术所有人：高德软件有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。