网页信息提取方法及设备的制作方法

文档序号：6493276阅读：172来源：国知局

网页信息提取方法及设备的制作方法
【专利摘要】本发明实施例提供一种网页信息提取方法及设备。本发明实施例通过根据待提取的网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息，进而可以利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息，使得能够根据所述链接信息，获取所述链接信息对应的内容信息，由于根据待提取的网页的网页结构，对所述网页进行解析，因此，能够有效提高网页信息提取的完备性和准确性。
【专利说明】网页信息提取方法及设备
【【技术领域】】
[0001]本发明涉及通信技术，尤其涉及一种网页信息提取方法及设备。
【【背景技术】】
[0002]因特网(Internet)是到目前为止世界上最丰富和最密集的信息来源，可以采用网络爬虫技术，获取我们所需要的信息。所述网络爬虫技术是一个自动提取网页的程序，它通过指定的域名，从一个或若干目标网页的统一资源定位符(Uniform Resource Locator,URL)(即种子网页的URL)开始，获得目标网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到没有可继续访问的URL为止。其中，URL也被称为网页地址，即网页的链接信息，是Internet上标准的资源的地址。
[0003]然而，现有的网络爬虫技术无法保证网页信息提取的完备性和准确性。【
【发明内容】
】
[0004]本发明的多个方面提供一种网页信息提取方法及设备，用以提高网页信息提取的完备性和准确性。
[0005]本发明的一方面，提供一种网页信息提取方法，包括:
[0006]获取待提取的网页；
[0007]根据所述网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息；
[0008]利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息；
[0009]根据所述链接信息，获取所述链接信息对应的内容信息。
[0010]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构之前，还包括:
[0011]根据至少一个网站的页面特征，设置与每个所述网站对应的所述网页结构。
[0012]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述利用所述网页结构，对所述网页进行解析，包括:
[0013]根据脚本信息，确定所述网页中的待提取区域和/或待提取内容，所述脚本信息包括定位指令、提取指令、循环控制指令、区域控制指令和链接扩散指令中的至少一个指令；
[0014]根据所述待提取区域和/或所述待提取内容，以及利用所述网页结构，对所述网页进行解析。
[0015]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据脚本信息，确定所述网页中的待提取区域和/或待提取内容之前，还包括:[0016]根据提取需求，预先设置所述脚本信息。
[0017]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括:
[0018]根据提取需求的变化，修改所述脚本信息。
[0019]本发明的另一方面，提供一种网页信息提取设备，包括:
[0020]获取单元，用于获取待提取的网页；
[0021]确定单元，用于根据所述网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息；
[0022]解析单元，用于利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息；
[0023]所述获取单元，还用于根据所述链接信息，获取所述链接信息对应的内容信息。
[0024]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述设备还包括设置单元，用于
[0025]根据至少一个网站的页面特征，设置与每个所述网站对应的所述网页结构。
[0026]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述解析单元，具体用于
[0027]根据脚本信息，确定所述网页中的待提取区域和/或待提取内容，所述脚本信息包括定位指令、提取指令、循环控制指令、区域控制指令和链接扩散指令中的至少一个指令；以及根据所述待提取区域和/或所述待提取内容，以及利用所述网页结构，对所述网页进行解析。
[0028]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述设置单元，还用于
[0029]根据提取需求，预先设置所述脚本信息。
[0030]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述设置单元，还用于
[0031]根据提取需求的变化，修改所述脚本信息。
[0032]由上述技术方案可知，本发明实施例通过根据待提取的网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息，进而可以利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息，使得能够根据所述链接信息，获取所述链接信息对应的内容信息，由于根据待提取的网页的网页结构，对所述网页进行解析，因此，能够有效提高网页信息提取的完备性和准确性。
【【专利附图】

【附图说明】】
[0033]为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。[0034]图1为本发明一实施例提供的网页信息提取方法的流程示意图；
[0035]图2为图1对应的实施例中网站A的歌曲页面的页面结构示意图；
[0036]图3为本发明另一实施例提供的网页信息提取设备的结构示意图；
[0037]图4为本发明另一实施例提供的网页信息提取设备的结构示意图。
【【具体实施方式】】
[0038]为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0039]另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示:单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
[0040]图1为本发明一实施例提供的网页信息提取方法的流程示意图，如图1所示。
[0041]101、获取待提取的网页。
[0042]具体地，在101中，具体可以采用现有技术中的方法，根据所述待提取的网页的链接信息，获取所述待提取的网页。详细描述可以参见现有技术中的相关内容，此处不再赘述。
[0043]102、根据所述网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息。
[0044]103、利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息。
[0045]104、根据所述链接信息，获取所述链接信息对应的内容信息。
[0046]这样，通过根据待提取的网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息，进而可以利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息，使得能够根据所述链接信息，获取所述链接信息对应的内容信息，由于根据待提取的网页的网页结构，对所述网页进行解析，因此，能够有效提高网页信息提取的完备性和准确性。
[0047]具体地，在102中，具体可以根据所述网页结构的节点数目，确定是否停止执行解析操作。例如，如果所述网页结构的每个节点对应的链接信息都提取完毕，则停止执行解析操作，以获取用户所需要的所述待提取的网页的全部内容信息。
[0048]可选地，在本实施例的一个可能的实现方式中，在102之前，还可以进一步根据至少一个网站的页面特征，设置与每个所述网站对应的所述网页结构。在本实施例中，所述页面结构可以称之为内容链接树(Content Link Tree，CLT)。
[0049]例如，具体可以根据网站A的一个专辑页面的页面特征，即I个专辑页面下面，有I个歌手页面和10个歌曲页面，确定与所述网页的链接信息对应的预先设置的网页结构。该网页结构则包括12个节点，该12个节点之间的逻辑关系可以如图2所示，每个节点对应一个链接信息，即专辑页面的链接信息、歌手页面的链接信息、10个歌曲页面的链接信息。
[0050]可选地，在本实施例的一个可能的实现方式中，在102中，具体可以根据脚本信息，确定所述网页中的待提取区域和/或待提取内容，所述脚本信息包括定位指令、提取指令、循环控制指令、区域控制指令和链接扩散指令中的至少一个指令；然后，则可以根据所述待提取区域和/或所述待提取内容，以及利用所述网页结构，对所述网页进行解析。
[0051]具体地，所述定位指令，用于指示一个位置；具体可以从这个位置开始往后到所述网页的最后为止，确定为所述待提取区域，或者还可以从所述网页的开始到这个位置为止，确定为所述待提取区域。
[0052]具体地，所述提取指令，用于指示一个特征字段；具体可以将所述特征字段，确定为所述待提取内容。
[0053]具体地，所述循环控制指令，用于指示指定节点的循环个数；具体可以将所述指定节点作为基础节点，循环所述循环次数，确定为所述待提取内容。
[0054]具体地，所述区域控制指令，用于指示一个区域；具体可以讲所述区域确定为所述待提取区域。
[0055]具体地，所述链接扩散指令，用于指示其他链接；具体可以将所述其他链接，确定为所述待提取内容。
[0056]可选地，在本实施例的一个可能的实现方式中，在根据脚本信息，确定所述网页中的待提取区域和/或待提取内容之前，还可以进一步根据提取需求，预先设置所述脚本信息。具体地，可以利用利用Peal代码或Lua代码等代码，编译所述脚本信息，其编译与修改简单、方便。
[0057]在本实施例中，这些脚本信息可以形成通用文本提取语言(General-purposeText Extraction Language, GTEL)。
[0058]进一步可选地，还可以进一步根据提取需求的变化，修改所述脚本信息，由于能够根据提取需求的变化，随时修改所述脚本信息，因此，采用本实施例提供的技术方案，能够有效提闻网页/[目息提取的灵活性。
[0059]本实施例中，通过根据待提取的网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息，进而可以利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息，使得能够根据所述链接信息，获取所述链接信息对应的内容信息，由于根据待提取的网页的网页结构，对所述网页进行解析，因此，能够有效提高网页信息提取的完备性和准确性。
[0060]另外，由于根据待提取的网页的网页结构，对所述网页进行解析，以进行有目的的提取，而无需利用网络爬虫技术进行任意的提取，能够进一步提高网页信息提取的效率。
[0061]需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0062]在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0063]图3为本发明另一实施例提供的网页信息提取设备的结构示意图，如图3所示。本实施例的网页信息提取设备可以包括获取单元31、确定单元32和解析单元33。其中，获取单元31，用于获取待提取的网页；确定单元32，用于根据所述网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息；解析单元33，用于利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息；所述获取单元31，还用于根据所述链接信息，获取所述链接信息对应的内容信息。
[0064]这样，本实施例提供的网页信息提取设备通过确定单元根据待提取的网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息，进而可以由解析单元利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息，使得获取单元能够根据所述链接信息，获取所述链接信息对应的内容信息，由于根据待提取的网页的网页结构，对所述网页进行解析，因此，能够有效提高网页信息提取的完备性和准确性。
[0065]具体地，所述解析单元33具体可以根据所述网页结构的节点数目，确定是否停止执行解析操作。例如，如果所述网页结构的每个节点对应的链接信息都提取完毕，所述解析单元33则停止执行解析操作，以获取用户所需要的所述待提取的网页的全部内容信息。
[0066]可选地，在本实施例的一个可能的实现方式中，如图4所示，本实施例提供的网页信息提取设备还可以进一步包括设置单元41，用于根据至少一个网站的页面特征，设置与每个所述网站对应的所述网页结构。在本实施例中，所述页面结构可以称之为内容链接树(Content Link Tree,CLT)。
[0067]例如，所述设置单元41具体可以根据网站A的一个专辑页面的页面特征，S卩I个专辑页面下面，有I个歌手页面和10个歌曲页面，确定与所述网页的链接信息对应的预先设置的网页结构。该网页结构则包括12个节点，该12个节点之间的逻辑关系可以如图2所示，每个节点对应一个链接信息，即专辑页面的链接信息、歌手页面的链接信息、10个歌曲页面的链接信息。
[0068]可选地，在本实施例的一个可能的实现方式中，所述解析单元33，具体可以用于根据脚本信息，确定所述网页中的待提取区域和/或待提取内容，所述脚本信息包括定位指令、提取指令、循环控制指令、区域控制指令和链接扩散指令中的至少一个指令；以及根据所述待提取区域和/或所述待提取内容，以及利用所述网页结构，对所述网页进行解析。
[0069]具体地，所述定位指令，用于指示一个位置；所述解析单元33具体可以从这个位置开始往后到所述网页的最后为止，确定为所述待提取区域，或者还可以从所述网页的开始到这个位置为止，确定为所述待提取区域。
[0070]具体地，所述提取指令，用于指示一个特征字段；所述解析单元33具体可以将所述特征字段，确定为所述待提取内容。
[0071]具体地，所述循环控制指令，用于指示指定节点的循环个数；所述解析单元33具体可以将所述指定节点作为基础节点，循环所述循环次数，确定为所述待提取内容。
[0072]具体地，所述区域控制指令，用于指示一个区域；所述解析单元33具体可以讲所述区域确定为所述待提取区域。
[0073]具体地，所述链接扩散指令，用于指示其他链接；所述解析单元33具体可以将所述其他链接，确定为所述待提取内容。
[0074]可选地，在本实施例的一个可能的实现方式中，所述设置单元41，还可以进一步用于根据提取需求，预先设置所述脚本信息。具体地，可以利用利用Peal代码或Lua代码等代码，编译所述脚本信息，其编译与修改简单、方便。
[0075]在本实施例中，这些脚本信息可以形成通用文本提取语言(General-purposeText Extraction Language, GTEL)。
[0076]这样，所述解析单元33则可以根据所述脚本信息，确定所述网页中的待提取区域和/或待提取内容。
[0077]进一步可选地，所述设置单元41，还可以进一步用于根据提取需求的变化，修改所述脚本信息，由于能够根据提取需求的变化，随时修改所述脚本信息，因此，采用本实施例提供的技术方案，能够有效提闻网页?目息提取的灵活性。
[0078]本实施例中，通过确定单元根据待提取的网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息，进而可以由解析单元利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息，使得获取单元能够根据所述链接信息，获取所述链接信息对应的内容信息，由于根据待提取的网页的网页结构，对所述网页进行解析，因此，能够有效提高网页信息提取的完备性和准确性。
[0079]所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0080]在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所`描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0081]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0082]另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0083]上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory, RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0084]最后应说明的是:以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【权利要求】
1.一种网页信息提取方法，其特征在于，包括: 获取待提取的网页；根据所述网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息；利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息；根据所述链接信息，获取所述链接信息对应的内容信息。
2.根据权利要求1所述的方法，其特征在于，所述根据所述网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构之前，还包括: 根据至少一个网站的页面特征，设置与每个所述网站对应的所述网页结构。
3.根据权利要求1或2所述的方法，其特征在于，所述利用所述网页结构，对所述网页进行解析，包括: 根据脚本信息，确定所述网页中的待提取区域和/或待提取内容，所述脚本信息包括定位指令、提取指令、循环控制指令、区域控制指令和链接扩散指令中的至少一个指令；根据所述待提取区域和/或所述待提取内容，以及利用所述网页结构，对所述网页进行解析。
4.根据权利要求3所述的方法，其特征在于，所述根据脚本信息，确定所述网页中的待提取区域和/或待提取内容之前，还包括: 根据提取需求，预先设置所述脚本信息。
5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括: 根据提取需求的变化，修改所述脚本信息。
6.一种网页信息提取设备，其特征在于，包括: 获取单元，用于获取待提取的网页；确定单元，用于根据所述网页的链接信息，确定与所述网页的链接信息对应的预先设置的网页结构，所述网页结构包括至少两个节点和所述每个节点之间的逻辑关系，所述每个节点对应一个链接信息；解析单元，用于利用所述网页结构，对所述网页进行解析，以获得满足所述网页结构的链接信息；所述获取单元，还用于根据所述链接信息，获取所述链接信息对应的内容信息。
7.根据权利要求6所述的设备，其特征在于，所述设备还包括设置单元，用于根据至少一个网站的页面特征，设置与每个所述网站对应的所述网页结构。
8.根据权利要求6或7所述的设备，其特征在于，所述解析单元，具体用于根据脚本信息，确定所述网页中的待提取区域和/或待提取内容，所述脚本信息包括定位指令、提取指令、循环控制指令、区域控制指令和链接扩散指令中的至少一个指令；以及根据所述待提取区域和/或所述待提取内容，以及利用所述网页结构，对所述网页进行解析。
9.根据权利要求7所述的设备，其特征在于，所述设置单元，还用于根据提取需求，预先设置所述脚本信息。
10.根据权利要求9所述的设备，其特征在于，所述设置单元，还用于根据提取需求的变化，修改所述脚本信息。
【文档编号】G06F17/30GK103885957SQ201210557335
【公开日】2014年6月25日申请日期:2012年12月20日优先权日:2012年12月20日
【发明者】陶善文, 李东辉申请人:百度在线网络技术（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶善文;李东辉
技术所有人：百度在线网络技术(北京)有限公司
我是此专利的发明人

上一篇：触控面板制造方法
上一篇：基于元素地球化学异常的花岗岩型铀矿靶区优选方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。