一种文本内容提取方法和装置的制作方法

文档序号：6381776阅读：180来源：国知局

专利名称：一种文本内容提取方法和装置的制作方法
技术领域：
本发明涉及通信技术领域，尤其涉及一种文本内容提取方法和装置。
背景技术：
随着互联网技术的迅猛发展，浏览网页逐渐成为人们获取信息的主要手段，而在所有接触的页面信息中，文本信息又占了其中的主要部分。如何有效的提取页面中的文本信息是很重要的，因为如果将文本的内容全部提取出来，其中必然会掺杂许多不必要的内容，如广告信息、导航信息等等，这些信息通常是大量重复的，而且并不是用户感兴趣和需要的内容；再者，大量重复和无效的信息也会降低文本聚类和文本分类的准确性，会加大内容检索的工作量。而在不同的网页中，页面的排版和布局是多种多样的，若单从模块或位置进行划分，则很难准确的获取有效的文本信息。目前，文本内容的提取手段是将输入网页分解为多个模块，并通过计算每个模块的综合得分来确定对应模块是否为内容模块。其中，综合得分的计算方式为综合得分=位置得分X文字长度/链接文字长度，然而，该计算方式仍然不够精确，并不能准确对内容进行划分。所以，目前如何能提供一种文本提取方法，实现对文本内容的准确提取成为目前亟待解决的技术问题。

发明内容
本发明提供一种文本内容提取方法和装置，用以解决现有技术中采用的文本内容提取方法不能准确提取文本内容的问题。为了解决上述问题，本发明采用的技术方案如下一方面，本发明提供一种文本内容提取方法，包括将输入的超文本标记语言HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含所述使用频率最高的字符内容的各链接地址标记为有效链接，将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接；根据综合得分=模块的位置得分X (模块的文本长度+模块内有效链接的文字长度)/模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。进一步地，本发明所述方法中，使用Table标签或Div标签将输入的HTML网页分解为多个模块。进一步地，本发明所述方法中，若分解得到的模块还能够继续分解且未出现标签混杂的情况，则对分解后的模块继续分解。进一步地,本发明所述方法中，在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。进一步地，本发明所述方法中，计算各模块的文本长度具体包括对于每个模块，提取出模块的HTML标签，根据所述HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度；进一步地，本发明所述方法中，通过achor标签提取出各模块的链接地址。另一方面，本发明还提供一种文本内容提取装置，包括网页处理单元，用于将输入的超文本标记语言HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；标记处理单元，用于提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含所述使用频率最高的字符内容的各链接地址标记为有效链接，将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接；内容提取单元，用于根据综合得分=模块的位置得分X (模块的文本长度+模块内有效链接的文字长度)/模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。进一步地，本发明所述装置中，所述网页处理单元，具体用于使用Table标签或Div标签将输入的HTML网页分解为多个模块。进一步地，本发明所述装置中，所述网页处理单元，还用于判断分解得到的模块是否还能够继续分解且未出现标签混杂的情况，若是，则对分解后的模块继续分解。进一步地，本发明所述装置中，所述标记处理单元，还用于在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，所述内容提取单元，还用于在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。进一步地，本发明所述装置中，所述网页处理单元，具体用于对于每个模块，提取出模块的HTML标签，根据所述HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度；进一步地，本发明所述装置中，所述标记处理单元，具体用于通过achor标签提取出各模块的链接地址。与现有技术相比，本发明有益效果如下本发明所述方法和装置，使用了普通文本同有效链接文字长度之和与无效链接文字长度的比例，能够更为准确的对HTML网页的内容进行提取，去除了冗余的广告等信息，使得后面的分词阶段的工作量大大降低，提高了文本聚类和文本分类、自动摘要的准确性。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种文本内容提取方法的流程图；图2为本发明实施例中网页布局示意图；图3为本发明实施例提供的文本内容提取方法具体流程图4为本发明实施例提供的一种文本内容提取装置的结构框图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。为了解决现有技术中采用的文本内容提取方法不能准确提取文本内容的问题，本发明实施例提供一种文本内容提取方法和装置。如图1所示，本发明实施例提供的一种文本内容提取方法，具体包括步骤S101，将输入的HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；该步骤中，优选地，使用Table标签或Div标签将输入的HTML网页分解为多个模块。进一步地，该步骤中，若分解得到的模块还能够继续分解且未出现标签混杂的情况，则对分解后的模块继续分解。其中，标签混杂目前主流的页面布局方式主要分为两种，即通过〈Table〉标签或<Div>标签进行页面结构上的布局划分，但在编辑页面内容时，这两个标签也可能互相包含，即米用〈Table〉布局的页面中可能包含<Div>标签，同样米用<Div>布局的页面中也可能包含<Talbe>标签；另外，标签混杂也指控制结构的标签(如<Table>、〈hl>)和控制表现的标签(如<font>、〈b>)混杂在一起使用，造成改版和数据划分的困难。本发明中由于是需要对模块进行划分，所以此处所用的标签混杂主要是指〈Table〉和〈Div>标签的混杂使用。进一步地，该步骤中，计算各模块的文本长度具体包括对于每个模块，提取出模块的HTML标签，根据所述HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度。步骤S102，提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含使用频率最高的字符内容的各链接地址标记为有效链接，将不包含使用频率最高的字符内容的各链接地址标记为无效链接；该步骤中，优选地，通过achor标签提取出各模块的链接地址。步骤S103，根据综合得分=模块的位置得分X (模块的文本长度+模块内有效链接的文字长度)/模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。该步骤中所述的有效链接的文字长度和无效链接的文字长度，优选地，是在标记有效链接和无效链接时，统一计算得到的；当然，也可以在确定各模块的综合得分时，针对每个模块分别计算得到的。为了更清楚的阐述本发明所述方法的实现过程，下面结合附图2至3对本发明所述方法进行进一步说明，具体涉及如下内容本发明实施例提供的文本内容提取方法为改进型的基于HTML特征的文本内容提取方法，该方法能够更加准确和合理的划分文本内容。本发明实施例中，把网页布局分为内容模块和非内容模块，如图2所示，内容模块是网页中的内容部分，而非内容模块一般是用来展示导航信息，横幅，版权申明或者广告等信息。本发明实施例所述方案的目标就是能够准确分解HTML网页，把内容模块从HTML网页中提取出来。针对每个分解出来的模块，根据它所在的网页布局中的位置给与不同的得分，处于用户视线焦点的模块得分越高，反之得分越低，如果无效链接文字长度相对该模块比例过大，那么该模块展示的可能是广告或者导航信息。本发明实施例所述的基于HTML特征的文本内容提取方法，具体包括步骤I，使用标签把输入的HTML网页分解成多个模块；该步骤中，优选地，采用Table或Div标签把输入的HTML网页分解成多个模块。本发明实施例之所以采用Table标签和Div标签这两个用于布局的标签来分解模块，一方面是由于它们是用于网页布局，另一方面也能够减少分析网页的复杂度，对诸如span，br这些其他的标签不进行处理，大大的加快了网页的解析速度，减少了系统资源的分析。步骤2，如果步骤I中分解的模块还能继续再分解，而且没有出现Table或Div标签混杂的情况，那么再把该模块送到步骤I继续分解。步骤3，把输入的模块根据在布局中的不同位置给于不同位置得分。当然，该步骤中，对于布局中每个位置的具体得分是预先设置的好的，其基本原则是模块越处于布局中用户注意力集中的位置其权重越高，位置得分也越高。步骤4，计算每个模块内的文本长度。步骤5，统计所有模块的链接地址中使用频率最高的字符内容，由于同属于该网页相关内容的链接地址必然有部分字符内容是相同的，而诸如广告之类的链接地址则不会包含这部分相同的字符内容，因此可以用所统计出的使用频率最高的字符内容来区分有效的链接地址(网页相关内容的链接)和无效的链接地址(广告等同网页内容不相关的链接)。该步骤中，在统计使用频率最高的字符内容时，将所有URL (统一资源定位符)均具有的共有字符，如画、http这些共有的协议字符，排除在统计之外。步骤6，将包含步骤5中所统计出的字符内容的链接地址标记为有效链接，并计算各有效链接内的文字长度；步骤7，将不包含步骤5中所统计出的字符内容的链接地址标记为无效链接，并计算各无效链接内的文字长度。步骤8，根据模块的综合得分=模块的位置得分X (模块内的文本长度+有效链接内的文字长度)/无效链接内的文字长度，得出每个模块综合得分，综合得分高于所设阈值的即认为是内容模块。步骤9，根据事先设定的阈值(即认为内容模块所应达到的综合得分下限)，判断所述的步骤8中的综合得分，其分值若高于所设定的阈值，则认为该模块的内容是需要提取的文本内容。基于上述的原理表述，下面结合以具体示例进行说明，如图3所示，包括在获取网页后，把网页作为输入，如步骤①中，如果能使用Tab I e标签和D i v标签把输入的网页分解为多个模块，就把输入的网页分解。在步骤②中判断分解出来的模块是否还可以继续分解，如果可以那么回到步骤①继续分解，否则进入步骤③。步骤③提出由步骤②输入的模块中的所有HTML标签后获得简单的文本，计算出这个文本的长度。步骤④使用achor标签提取出所有的链接，并统计所有模块的链接地址中使用频率最高的字符内容。步骤⑤计算包含和不包含步骤④所统计出的字符内容的链接文字长度，分别标记为有效链接和无效链接。步骤⑥利用公式综合得分=位置得分X (文字长度+有效链接文字长度)/无效链接文字长度，计算出每个模块的综合得分。综合得分小于阈值的模块经过步骤⑦删除，综合得分高于阈值的模块进入步骤⑧输出。综上所述，本发明实施例所述方法，使用了普通文本同有效链接文字长度之和与无效链接文字长度的比例，能够更为准确的对HTML网页的内容进行提取，去除了冗余的广告等信息，使得后面的分词阶段的工作量大大降低，提高了文本聚类和文本分类、自动摘要的准确性。如图4所示，本发明实施例还提供一种文本内容提取装置，具体包括网页处理单元410，用于将输入的HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；标记处理单元420，用于提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含使用频率最高的字符内容的各链接地址标记为有效链接，将不包含使用频率最高的字符内容的各链接地址标记为无效链接；内容提取单元430，用于根据综合得分=模块的位置得分X (模块的文本长度+模块内有效链接的文字长度)/模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。基于上述原理框架，下面给出上述各单元在实现对应功能时的具体实现方式，具体如下本发明实施例中，网页处理单元410，具体使用Table标签或Div标签将输入的HTML网页分解为多个模块；以及对于每个模块，提取出模块的HTML标签，根据所述HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度。进一步地，网页处理单元410，还用于判断分解得到的模块是否还能够继续分解且未出现标签混杂的情况，若是，则对分解后的模块继续分解。本发明实施例中，标记处理单元420，还用于在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，内容提取单元430，在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。进一步地,本发明实施例中，标记处理单元420,具体用于通过achor标签提取出各模块的链接地址。综上所述，本发明所述装置，使用了普通文本同有效链接文字长度之和与无效链接文字长度的比例，能够更为准确的对HTML网页的内容进行提取，去除了冗余的广告等信息，使得后面的分词阶段的工作量大大降低，提高了文本聚类和文本分类、自动摘要的准确性。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
权利要求
1.一种文本内容提取方法，其特征在于，包括将输入的超文本标记语言HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含所述使用频率最高的字符内容的各链接地址标记为有效链接，将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接；根据综合得分=模块的位置得分X (模块的文本长度+模块内有效链接的文字长度)/模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。
2.如权利要求1所述的方法，其特征在于，所述方法中，使用Table标签或Div标签将输入的HTML网页分解为多个模块。
3.如权利要求2所述的方法，其特征在于，所述方法中，若分解得到的模块还能够继续分解且未出现标签混杂的情况，则对分解后的模块继续分解。
4.如权利要求1所述的方法，其特征在于，所述方法中，在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。
5.如权利要求1至4中任一项所述的方法，其特征在于，所述方法中，计算各模块的文本长度具体包括对于每个模块，提取出模块的HTML标签，根据所述HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度；所述方法中，通过achor标签提取出各模块的链接地址。
6.一种文本内容提取装置，其特征在于，包括网页处理单元，用于将输入的超文本标记语言HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；标记处理单元，用于提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含所述使用频率最高的字符内容的各链接地址标记为有效链接，将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接；内容提取单元，用于根据综合得分=模块的位置得分X (模块的文本长度+模块内有效链接的文字长度)/模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。
7.如权利要求6所述的装置，其特征在于，所述网页处理单元，具体用于使用Table标签或Div标签将输入的HTML网页分解为多个模块。
8.如权利要求7所述的装置，其特征在于，所述网页处理单元，还用于判断分解得到的模块是否还能够继续分解且未出现标签混杂的情况，若是，则对分解后的模块继续分解。
9.如权利要求6所述的装置，其特征在于，所述标记处理单元，还用于在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，所述内容提取单元，还用于在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。
10.如权利要求6至9中任一项所述的装置，其特征在于，所述网页处理单元，具体用于对于每个模块，提取出模块的HTML标签，根据所述HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度；所述标记处理单元，具体用于通过achor标签提取出各模块的链接地址。
全文摘要
本发明公开了一种文本内容提取方法和装置，所述方法包括将输入的HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；提取各模块包含的链接地址，统计所有链接地址中使用频率最高的字符内容，将包含所述字符内容的各链接地址标记为有效链接，将不包含所述字符内容的各链接地址标记为无效链接；根据综合得分=位置得分×(文本长度+有效链接的文字长度)/无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。本发明所述方法能够有效去除网页中非内容部分的冗余的信息，实现了更为准确的对网页的有效内容进行提取。
文档编号G06F17/21GK103020129SQ201210469940
公开日2013年4月3日申请日期2012年11月20日优先权日2012年11月20日
发明者叶伟申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶伟
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：一种应用安装方法、装置和设备的制作方法
上一篇：一种网络交易签名及认证的方法和装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。