一种网页正文提取方法、装置、计算机装置及计算机可读存储介质与流程

文档序号：15851761发布日期：2018-11-07 10:07阅读：175来源：国知局

本发明属于互联网技术领域，尤其涉及一种网页正文提取方法、装置、计算机装置及计算机可读存储介质。

背景技术

随着互联网技术的发展，人们对有效的网页信息的需求也越来越高。现有网页一般包括很多信息，如导航、标题、正文、广告等内容，而这些内容中，我们关注的通常为正文的信息，因此需要对网页进去去燥处理，以尽可能精准的提取网页正文的信息。

现有技术中的网页正文提取方法，一般分为以下两种，一种为：通过文字占所有字符的比例、文字个数、标点符号个数等过滤条件来进行正文抽取，但此种方法由于不同语言标点符号的不一致性(如：有些标点符号对英语、西班牙语的等适用，但是对中文不适用)，以及不同的网站文字个数、文字占所有字符的比例等阈值的不一致性等原因，导致抽取准确性较差；

另一种为：采用基于模板的正文抽取方法，但是此种方法由于模板需要人工配置，且不同的网页样式需配置不同的模板，当网页种类比较多时，需要大量的人力，正文抽取准确率较低，且正文抽取效率低。

技术实现要素：

本发明实施例提供一种网页正文提取方法，旨在解决现有技术中网页正文抽取准确率低的问题。

本发明实施例是这样实现的，一种网页正文提取方法，所述网页正文提取方法包括：

构建dom树，根据所述dom树中的h标签的文本与title标签的文本的相似度，确定网页标题位置；

对所述dom树进行过滤，获取行块列表；

通过所述行块列表中行块与所述网页标题位置，确定网页正文区域；

根据所述网页正文区域，确定网页正文的开始位置和结束位置，并提取所述开始位置与所述结束位置之间的文本为网页正文。

本发明实施例还提供一种网页正文提取装置，所述网页正文提取装置包括：

网页标题确定单元，用于构建dom树，根据所述dom树中的h标签的文本与title标签的文本的相似度，确定网页标题位置；

行块列表获取单元，用于对所述dom树进行过滤获取行块列表；

网页正文区域确定单元，用于通过所述行块列表中行块与所述网页标题位置，确定网页正文区域；

网页正文提取单元，用于根据所述网页正文区域，确定网页正文的开始位置和结束位置，并提取所述开始位置与所述结束位置之间的文本为网页正文。

本发明实施例还提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述所述网页正文提取方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述网页正文提取方法的步骤。

本发明实施例提供的网页正文提取方法，通过构建dom树，根据dom树中的h标签的文本与title标签的文本的相似度来确定网页标题位置；再对dom树进行过滤来获取行块列表；然后通过行块列表与网页标题位置确定网页正文区域；最后提取根据网页正文区域确定的网页正文的开始位置和结束位置之间的文本为网页正文，此方法无需对网页抽取类型及语言类型进行限制，提高了网页正文抽取的准确度，应用范围更广；另外，此方法无需人工配置模板，提高了正文抽取的效率。

附图说明

图1是本发明实施例提供的一种网页正文提取方法的实现流程图；

图2是本发明实施例提供的一种行与权值大小对应关系图；

图3是本发明实施例提供的一种行与行块长度的对应关系图；

图4是本发明实施例提供的一种对dom树进行过滤，获取行块列表的实现流程图；

图5是本发明实施例提供的一种通过行块列表中行块与网页标题位置，确定网页正文区域的实现流程图；

图6是本发明实施例提供的一种通过预设的过滤规则对与dom树进行过滤，获取无标签网页文本列表的实现流程图；

图7是本发明实施例提供的一种删除第二过滤文本中两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行，获得第三过滤网页文本的实现流程图；

图8是本发明实施例提供的一种网页正文提取装置的结构示意图；

图9是本发明实施例提供的一种行块列表获取单元的结构示意图；

图10是本发明实施例提供的一种网页正文区域确定单元的结构示意图；

图11是本发明实施例提供的一种网页标题确定单元的结构示意图；

图12是本发明实施例提供的一种无标签网页文本列表获取子单元的结构示意图；

图13是本发明实施例提供的一种行块权值确定子单元的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的一种网页正文提取方法的实现流程图；该网页正文提取方法，包括：

在步骤s101中，构建dom树，根据所述dom树中的h标签的文本与title标签的文本的相似度，确定网页标题位置。

可以理解，本发明实施例中的dom树属于本领域的公知性常识，在此不再赘述。

作为本发明的一个实施例，h标签包括h1、h2、h3、h4等子标签。其中，当存在h1标签时，则一个h标签中至少包括一个h1标签，同理类推，h2-h4各标签也可以包括多个。

在本发明实施例中，相似度可以40％、41％、45％、50％、60％，h标签的文本与title标签的文本的相似度越高，则h1标签的文本为网页标题的可能性越大。

例如，h1标签的文本与title标签的文本的相似度为70％，则确定h1标签的文本为网页标题；

例如，h1标签的文本与title标签的文本的相似度为35％，当h1标签列表中文本长度为9，则确定h1标签列表中的第一个h1标签中的文本为网页标题。

在步骤s102中，对所述dom树进行过滤，获取行块列表。

在本发明实施例中，dom树包括h标签、a标签、body标签、p标签、br标签、脚本、特殊字符等。

作为本发明的一个实施例，行块列表为过滤后去除标签的文本列表(即无标签网页文本列表)根据设置阈值得到的。

在本发明实施例中，设置的阈值包括w(块宽度，即行数)、t(块长度阈值，即w行的字符数相加要到的最小值)；w值可取5-8，t值中文可设置为60-80，其他语言如英语、西班牙语可选择t值为70-90，t值的取值可根据w值的变化做相应的调整；调整的方案为：在范围区间内，w值越大，t值随之增加。

例如，中文a无标签网页文本列表共包括12行，其w值为6、中文t值为70，则可对a无标签网页文本列表进行如下划分：

1-6行为第一块；

2-7行为第二块；

3-8行为第三块；

4-9行为第四块；

5-10行为第五块；

6-11行为第六块；

7-12行为第七块。

在步骤s103中，通过所述行块列表中行块与所述网页标题位置，确定网页正文区域。

在本发明实施例中，通过行块与网页标题位置可以获得行块列表中所有行块的权值，且满足权值最大的行块的各行的w值相加≧t值，则此行块所在的位置为网页正文区域。

例如，参见图2(其中，x轴为行，y轴为对应行块值，其中，对应行块值为，如该行为30行，则以上述步骤s102中行块划分方式,即w＝6时，30-35行为一块，此行块对应的行块值)可知，某网页过滤处理后，权值最大的行在30行，对应的行块权值为3.85左右，且此权值最大的行块的各行的w值相加≧t值，所以30行对应的行块所在的位置为网页正文区域。

在本发明实施例中，行块与网页标题位置越近，则所述行块为网页正文的可能性越大。

可以理解网页正文区域包括可以包括多个行块。

在步骤s104中，根据所述网页正文区域，确定网页正文的开始位置和结束位置，并提取所述开始位置与所述结束位置之间的文本为网页正文。

在本发明实施例中，在确定了网页正文区域后，确定正文的起始与结束位置，也确定网页正文，在上述图2的基础上，参见图3，由图3可知，该行块的30行对应的行块长度为l：750，从30行开始向前遍历，当某一行满足l值小于t值时，该行的下一行即为正文的起始位置s，即23行；从30行开始向后遍历，当某一行满足l值小于t值时，该行的上一行即为正文的结束位置e，即31行。

参见图4，上述步骤s102，包括：

在步骤s1021中，通过预设的过滤规则对所述dom树进行过滤，获取无标签网页文本列表。

参见图6，上述步骤s1021，包括：

在步骤s201中，删除dom树中与网页域名不同的所有a标签，获得第一过滤网页文本。

经过此步骤操作可以有效过滤掉广告等a标签对正文的影响，具体做法可以通过jsoup解析器进行提取出dom树中的a标签，再进行a标签的删除。可以理解，本发明实施例中，所有从dom树中提取的标签，优选的，都采用jsoup解析器进行提取，以后不再赘述。

在步骤s202中，提取所述第一过滤网页文本中的body标签，并删除body标签中的格式标签，获得第二过滤网页文本。

在本发明实施例中，body标签包括script、style、iframe、footer等标签。

通过上述步骤s202的操作，可去除网站的杂质信息，减少格式标签对网页正文的影响，提高正文抽取的准确度。

在步骤s203中，删除所述第二过滤文本中两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行，获得第三过滤网页文本。

参见图7，上述步骤s203，具体包括：

在步骤s2031中，提取dom树中所有p标签，组成p标签列表；

在步骤s2032中，遍历所述p标签列表，删除两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行，获得第三过滤网页文本。

通过上述步骤s203的操作，可以使正文尽可能紧密，提高正文抽取的准确度。

在步骤s204中，将所述第三过滤文本中的网页段落结构标签替换成固定字符，获得第四过滤文本。

通过此步骤的操作，提高了正文的紧密性，进而提高正文抽取的准确度。

在步骤s205中，删除所述第四过滤文本中的脚本、特殊字符、标签，获取无标签网页文本，并将所述无标签网页文本进行换行符分割，获得无标签网页文本列表。

通过此步骤的操作，提高了正文的紧密性，进而提高正文抽取的准确度。

在步骤s1022中，通过预设阈值划分所述无标签网页文本列表，获取行块列表。

作为本发明的优选实施例，w值为6，中文的t值设为70，其他语言如英语、西班牙语选择t值为80，则无需再根据网页类型的不同而预设阈值的调整。

参见图5，上述步骤s103，包括：

在步骤s1031中，通过所述行块列表中行块与所述网页标题位置，确定各行块权值，并组成行块权值列表。

步骤s1031，具体包括：

a、计算行块在所述无标签网页文本中的位置占比，即d，公式为：

其中，titleindex为所述无标签网页文本中标题的位置，endindex为所述无标签网页文本中结束位置，p为行块当前距离所述无标签网页文本中的标题的距离；

b、通过预设的行块权值公式，计算出各行块权值，即y，所述预设的行块权值公式为：

其中，d为行块在所述无标签网页文本中的位置占比，l为该行块中字符个数总数。

在步骤s1032中，确定所述行块列表中行块权值最大的位置为网页正文区域。

在本发明实施例中，先通过行块列表中行块与所述网页标题位置，确定各行块权值，并组成行块权值列表；再通过行块列表中行块权值最大的位置来确定网页正文区域，通过公式精确计算出行块权值，进而提高了网页正文抽取的准确度。

在本发明实施例中，所述h标签包括h1标签、h2标签，上述步骤s101，具体包括：

当simh1,title≥40％时，则确定h1标签的文本为网页标题；

当simh1,title＜40％时：

a、当h1标签列表中文本长度≥8时，确定所述h1标签列表中的第一个h1标签中的文本为网页标题；

b、当h1标签列表中文本长度＜8时，判断simh2,title是否大于40％；

c、当判断结果为是时，确定所述h2标签列表中的第一个标签为标题；当判断结果为否时，确定title标签为网页标题。

本发明实施例通过上述步骤，可以更加精确确定出网页标题，进而提高了网页正文抽取的准确度。

在本发明实施例中，在图6基础上，所述网页正文提取方法，还包括：

判断提取到的所述第四过滤文本中是否存在结构相似的文本块；

当判断结果为否时，保留提取到的所述网页正文；当判断结果为是时，删除所述文本块。

在本发明实施例中，循环遍历无标签网页文本列表，递归取到每个叶子节点的父节点，父节点的父节点，根据层级结构依次向上递归。当发现有3层或者以上结构相似且相似结构的数目大于等于3个时认为存在相似结构块。

作为本发明的优选实施例，相似结构数目为5时，判断更加精准。

本发明实施例提供的网页正文提取方法，通过判断提取到的第四过滤文本中不存在相似结构的文本块时，保留文本块为网页正文；当存在相似结构块时，删除文本块，有效降低了文字列表等因素的干扰，提高了网页正文抽取的准确度。

图8示出了本发明实施例提供的一种网页正文提取装置300的结构示意图，为了便于说明，仅示出了于本发明实施例相关的部分。该网页正文提取装置300，包括：

网页标题确定单元310，用于构建dom树，根据所述dom树中的h标签的文本与title标签的文本的相似度，确定网页标题位置。

可以理解，本发明实施例中的dom树属于本领域的公知性常识，在此不再赘述。

作为本发明的一个实施例，h标签包括h1、h2、h3、h4等子标签，其中，当存在h1标签时，则一个h标签中至少包括一个h1标签，同理类推，h2-h4各标签也可以包括多个。

在本发明实施例中，相似度可以40％、41％、45％、50％、60％，h标签的文本与title标签的文本的相似度越高，则h1标签的文本为网页标题的可能性越大。

例如，h1标签的文本与title标签的文本的相似度为70％，则确定h1标签的文本为网页标题；

例如，h1标签的文本与title标签的文本的相似度为35％，当h1标签列表中文本长度为9，则确定h1标签列表中的第一个h1标签中的文本为网页标题。

行块列表获取单元320，用于对所述dom树进行过滤获取行块列表。

在本发明实施例中，dom树包括h标签、a标签、body标签、p标签、br标签、脚本、特殊字符等。

作为本发明的一个实施例，行块列表为过滤后去除标签的文本列表(即无标签网页文本列表)根据设置阈值得到的。

例如，中文a无标签网页文本列表共包括12行，其w值为6、中文t值为70，则可对a无标签网页文本列表进行如下划分：

1-6行为第一块；

2-7行为第二块；

3-8行为第三块；

4-9行为第四块；

5-10行为第五块；

6-11行为第六块；

7-12行为第七块。

网页正文区域确定单元330，用于通过所述行块列表中行块与所述网页标题位置，确定网页正文区域。

在本发明实施例中，行块与网页标题位置越近，则所述行块为网页正文的可能性越大。

可以理解网页正文区域包括可以包括多个行块。

网页正文提取单元340，用于根据所述网页正文区域，确定网页正文的开始位置和结束位置，并提取所述开始位置与所述结束位置之间的文本为网页正文。

本发明实施例提供的网页正文提取装置，通过构建dom树，根据dom树中的h标签的文本与title标签的文本的相似度来确定网页标题位置；再对dom树进行过滤来获取行块列表；然后通过行块列表与网页标题位置确定网页正文区域；最后提取根据网页正文区域确定的网页正文的开始位置和结束位置之间的文本为网页正文，此方法无需对网页抽取类型及语言类型进行限制，提高了网页正文抽取的准确度，应用范围更广；另外，此方法无需人工配置模板，提高了正文抽取的效率。

参见图9，在本发明实施例中，上述行块列表获取单元320，包括：

无标签网页文本列表获取子单元321，用于通过预设的过滤规则对所述dom树进行过滤，获取无标签网页文本列表。

参见图12，在本发明实施例中，上述无标签网页文本列表获取子单元321，包括：

第一过滤网页正文获取模块3211，用于删除dom树中与网页域名不同的所有a标签，获取第一过滤网页文本。

第二过滤网页正文获取模块3212，用于提取所述第一过滤网页文本中的body标签，并删除body标签中的格式标签，获得第二过滤网页文本。

在本发明实施例中，body标签包括script、style、iframe、footer等标签。

通过该模块，可去除网站的杂质信息，减少格式标签对网页正文的影响，提高正文抽取的准确度。

第三过滤网页正文获取模块3213，用于删除所述第二过滤文本中两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行，获得第三过滤网页文本。

在本发明实施例中，上述第三过滤网页正文获取模块3213，具体包括：

提取子模块，用于提取dom树中所有p标签，组成p标签列表；

删除子模块，用于遍历所述p标签列表，删除两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行，获得第三过滤网页文本。

通过上述第三过滤网页正文获取模块3213，可以使正文尽可能紧密，提高正文抽取的准确度。

第四过滤网页正文获取模块3214，用于将所述第三过滤文本中的网页段落结构标签替换成固定字符，获得第四过滤文本。

通过此第四过滤网页正文获取模块3214，提高了正文的紧密性，进而提高正文抽取的准确度。

无标签网页文本列表获取模块3215，用于删除所述第四过滤文本中的脚本、特殊字符、标签，获得无标签网页文本，并将所述无标签网页文本进行换行符分割，获取无标签网页文本列表。

通过无标签网页文本列表获取模块3215，提高了正文的紧密性，进而提高正文抽取的准确度。

行块列表获取子单元322，用于通过预设阈值划分所述无标签网页文本列表，获取行块列表。

作为本发明的优选实施例，w值为6，中文的t值设为70，其他语言如英语、西班牙语选择t值为80，则无需再根据网页类型的不同而预设阈值的调整。

参见图10，在本发明实施例中，上述网页正文区域确定单元330，包括：

行块权值确定子单元331，用于通过所述行块列表中行块与所述网页标题位置，确定各行块权值，并组成行块权值列表。

参见图13，在本发明实施例中上述行块权值确定子单元331，具体包括：

第一计算模块，用于计算行块在所述无标签网页文本中的位置占比，

即d，公式为：

其中，titleindex为所述无标签网页文本中标题的位置，endindex为所述无标签网页文本中结束位置，p为行块当前距离所述无标签网页文本中的标题的距离；

第二计算模块，用于通过预设的行块权值公式，计算出各行块权值，即y，所述预设的行块权值公式为：

其中，d为行块在所述无标签网页文本中的位置占比，l为该行块中字符个数总数。

网页正文区域确定子单元332，用于确定所述行块列表中行块权值最大的位置为网页正文区域。

参见图11，在本发明实施例中，所述h标签包括h1标签、h2标签，上述网页标题确定单元310，具体包括：

第一网页标题确定子单元311，用于当simh1,title≥40％时，则确定h1标签的文本为网页标题；

第二网页标题确定子单元312，用于当simh1,title＜40％时，当h1标签列表中文本长度≥8时，确定所述h1标签列表中的第一个h1标签中的文本为网页标题；

第三网页标题确定子单元313，用于当h1标签列表中文本长度＜8时，且当simh2,title>40％时，确定所述h2标签列表中的第一个标签为标题。

本发明实施例提供的网页正文抽取装置，通过上述网页标题确定单元310，可以更加精确确定出网页标题，进而提高了网页正文抽取的准确度。

在本发明实施例中，在上述图12的基础上，所述网页正文提取装置，还包括：

判断单元，用于判断提取到的所述第四过滤文本中是否存在结构相似的文本块；

保留单元，用于当判断结果为否时，保留提取到的所述网页正文。

作为本发明的优选实施例，相似结构数目为5时，判断更加精准。

本发明实施例提供的网页正文提取装置，通过判断提取到的第四过滤文本中不存在相似结构的文本块时，保留文本块为网页正文；当存在相似结构块时，删除文本块，有效降低了文字列表等因素的干扰，提高了网页正文抽取的准确度。

本发明实施例提供一种计算机装置，该计算机装置包括处理器，处理器用于执行存储器中存储的计算机程序时实现上述各个方法实施例提供的网页正文提取方法的步骤。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。例如，计算机程序可以被分割成上述各个方法实施例提供的网页正文提取方法的步骤。

本领域技术人员可以理解，上述计算机装置的描述仅仅是示例，并不构成对计算机装置的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个网页正文提取方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、电载波信号、电信号以及软件分发介质等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李丹;吴潇;李靖
技术所有人：湖南星汉数智科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。