一种网页中内容块的提取方法、装置及服务器与流程

文档序号:13215309阅读:169来源:国知局

技术领域
:本发明涉及页面搜索
技术领域
:,尤其涉及一种网页中内容块的提取方法、装置及服务器。
背景技术
::随着互联网相关技术的日益成熟,搜索引擎作为检索互联网数据的主要手段,可根据用户的搜索需求分为传统的通用搜索引擎或针对某一领域细化的垂直搜索引擎。通用搜索引擎搜索的数据冗余量大,查询精度低。而面向主题、专业化的垂直搜索引擎逐步被应用到越来越多的领域中。垂直搜索引擎的目的是找到与主题密切相关的资源,当找到与搜索主题相关的网页后,由于网页中包括除与主题相关的内容外,还包括大量与主题无关的内容,如广告内容、版权信息等。由于上述无关内容的存在,降低了搜索出的内容与搜索主题的相关度。其中,可将内容块作为网页中包含信息的单位,当网页中存在多个内容块中的内容与主题相关时,通过目前的方法还无法确定各内容块与主题的相关程度,因此垂直搜索的搜索结果的精准度较低。技术实现要素:本发明实施例提供了一种网页中内容块的提取方法、装置及服务器。解决了垂直搜索的搜索结果的精准度较低的技术问题。本发明的实施例第一方面提供了一种网页中内容块的提取方法,该方法可包括:当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;从所述标签树中筛选出与搜索主题相关的内容块;根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值;按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。作为可选的实施例,所述从所述标签树中筛选出与搜索主题相关的内容块之前还包括:检测所述标签树中所述各节点对应的内容块的内容类型,其中,所述内容类型包括主题类型;其中,所述从所述标签树中筛选出与搜索主题相关的内容块包括:从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容块。作为可选的实施例,所述从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容块包括:获取与所述搜索主题相关的预设的搜索关键词;从所述内容类型为主题类型的内容块中筛选出包含所述搜索关键词的内容块。作为可选的实施例,所述根据所述内容块对应的节点所包含的标签获取所述内容块的权重值包括:获取所述内容块所对应的节点所包含的标签,其中,所述标签包括容器标签与重要信息标签集;从预设的容器标签与权重值的对应关系表中获取与所述容器标签对应的第一权重值;根据所述重要信息标签集中重要信息标签的数量确定所述内容块的第二权重值;确定所述内容块的权重值为所述第一权重值,所述第二权重值,或根据所述第一权重值与所述第二权重值计算出的综合权重值。作为可选的实施例,所述提取所述各内容块之后还包括:将所述提取出的各内容块存储至与所述搜索主题相关的内容库中;当获取到客户端的与所述搜索主题相关的搜索请求时,将所述内容库中存储的内容块发送至所述客户端。本发明的实施例第二方面提供了一种网页中内容块的提取装置,该装置可包括:构建模块,用于当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;筛选模块,用于从所述标签树中筛选出与搜索主题相关的内容块;权重值获取模块,用于根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;计算模块,用于将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值;提取模块,用于按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。作为可选的实施例,还包括:检测模块,用于在所述筛选模块从所述标签树中筛选出与搜索主题相关的内容块之前,检测所述标签树中所述各节点对应的内容块的内容类型,其中,所述内容类型包括主题类型;其中,所述筛选模块还用于:从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容块。作为可选的实施例,所述筛选模块包括:关键词获取单元,用于获取与所述搜索主题相关的预设的搜索关键词;筛选单元,用于从所述内容类型为主题类型的内容块中筛选出包含所述搜索关键词的内容块。作为可选的实施例,所述权重值获取模块包括:标签获取单元,用于获取所述内容块所对应的节点所包含的标签,其中,所述标签包括容器标签与重要信息标签集;权重获取单元,用于从预设的容器标签与权重值的对应关系表中获取与所述容器标签对应的第一权重值;第一确定单元,用于根据所述重要信息标签集中重要信息标签的数量确定所述内容块的第二权重值;第二确定单元,用于确定所述内容块的权重值为所述第一权重值,所述第二权重值,或根据所述第一权重值与所述第二权重值计算出的综合权重值。作为可选的实施例,还包括:存储模块,用于在所述提取模块提取所述各内容块之后,将所述提取出的各内容块存储至与所述搜索主题相关的内容库中;发送模块,用于当获取到客户端的与所述搜索主题相关的搜索请求时,将所述内容库中存储的内容块发送至所述客户端。本发明的实施例第三方面提供了一种服务器,该服务器可包括存储器及处理器,其中,所述存储器中存储一组程序代码,且所述处理器调用所述存储器中存储的程序代码,用于执行以下操作:当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;从所述标签树中筛选出与搜索主题相关的内容块;根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值;按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。本发明实施例中,当获取到搜索网页后,可构建该搜索网页的标签树,从而能从构建的标签树中筛选出与搜索主题相关的内容块。并能够根据内容块在标签树中对应的节点确定该内容块的权重值,并且将搜索主题中的关键词在内容块中出现的频率与权重值进行乘积,其乘积结果可赋值于内容块的相关度值,每个与搜索主题相关的内容块可对应一个相关度值,从而可根据对应的相关度值提取与搜索主题相关的内容块集,并且该内容块集中包含的内容块可按照各内容块对应的相关度值的大小进行排序。通过上述方式,可确定网页中各内容块与搜索主题的相关程度,并能够按照相关程度的大小顺序提取与搜索主题相关的内容块,从而提高了垂直搜索的搜索结果的精准度。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本发明中的一种网页中内容块的提取方法的一实施例的流程图;图2是本发明中的一种网页中内容块的提取方法的另一实施例的流程图;图3是本发明中的一种网页中内容块的提取装置的一实施例的结构示意图;图4是本发明中的一种网页中内容块的提取装置的另一实施例的结构示意图;图5是本发明中的一种服务器的一实施例的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面参考附图对本发明的实施例进行描述。其中,本发明实施例所述装置或服务器配置有垂直搜索引擎,可爬行获取网页,并可对获取到的网页进行内容分析。参见图1,图1是本发明中的一种网页中内容块的提取方法的一实施例的流程图。该方法可由下述装置或服务器实现。该方法可包括以下步骤。步骤S101,当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块。在一个实施例中,垂直搜索引擎可通过爬行程序等提取网络中的网页,进而可获取到搜索网页。当获取到搜索网页后,可针对搜索网页构建搜索网页的标签树。具体的,该搜索网页的标签树每个节点均对应一个内容块,在这里,内容块为表达网页中内容的单位。内容块可与网页标签树中每个节点上的容器标签对应,其中,容器标签可以嵌套表达,即通过该标签树,可获知网页中的内容结构。如一个节点的容器标签为<title>,则表明该节点对应的内容块为网页名称,又如一个节点的容器标签为<table>,则表明该节点对应的内容块为表格,其中该节点还可包括子节点,如节点<table>包括的子节点可为<tr>,该子节点对应的内容块为表格中的一行。从而,根据网页标签树的建立,可细化网页中的内容结构,通过构建网页标签树中的各节点,能够将网页中的内容块进行切分,从而可进一步确定与搜索主题更相关的内容块。步骤S102,从所述标签树中筛选出与搜索主题相关的内容块。在一个实施例中,当通过构建搜索网页的标签树,对网页的内容切割为若干内容块后,可从标签树中筛选出与搜索主题相关的内容块。具体的,可获取搜索主题中的搜索关键词,获取搜索主题中的搜索关键词的一种方式为可预设搜索主题词典,其中,搜索主题词典中包括与搜索主题相关的领域关键词,如当搜索主题为感冒时,搜索主题中的搜索关键词可包括感冒药、感冒症状、感冒传染源等。获取搜索主题中的搜索关键词的另一种方式为可提取搜索主题中的关键词部分,并对该关键词做词义拓展。如当由某个客户端发送特定搜索主题时,该主题可包括关键词,如感冒等,则可拓展出流感、发烧等关键词。当获取到关键词后,可从标签树中筛选出包括该关键词的内容块。如可通过正向最大匹配法或通过逆向最大匹配法等方式对内容块中的内容进行分词,通过检测内容块分词后的各词项是否与关键词匹配,来确定该内容块是否与搜索主题相关,若相关,则筛选出该内容块。步骤S103,根据所述内容块对应的节点所包含的标签获取所述内容块的权重值。在一个实施例中,当筛选出与搜索主题相关的内容块后,可根据内容块对应的节点包含的标签确定内容块的权重值。具体的,构建的标签树中每个节点除分别对应容器标签后,还可包含对应内容块的属性集。其中,属性集中可包括该内容块所在的位置,内容块包含的重要信息标签集、内容块包含的超链数量等。其中,可根据筛选出的内容块对应的节点的容器标签获取内容块的权重值,如当内容块对应的节点的容器标签为<title>,表明内容块为网页标题,其对应的权重值较高,如确定权重值为10等;当内容块对应的节点的容器标签为<h1>时,表明内容块为大标题,则其对应的权重值可相对于网页标题较低,如确定权重值为5等。还可根据内容块对应的节点的重要信息标签获取内容块的权重值,其中,重要信息标签表明该内容块中有内容被着重标注表示。可根据该节点包含的重要信息标签集中重要信息标签的数量,获取该内容块的权重值,如重要信息标签可包括<b>,表示内容加重,<font>,表示字体与其他内容不同等,从而根据重要信息标签的数量,即可确定该内容块在网页中的重要程度,从而可获取该内容块的重要信息标签集包含的标签数量以作为该内容块的权要值。还可根据上述不同方式获取的权要值,确定该内容块的总和权要值,如将上述权要值进行累计求和或乘积等方式获取综合权要值等。步骤S104,将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值。在一个实施例中,当获取到与搜索主题相关的内容块的权重值后,可根据该权重值与搜索主题中关键词在该内容块中出现的频率计算该内容块与搜索主题的相关度值。具体的,可将关键词出现频率与权重值的乘积结果作为该内容块的相关度值,用以表示该内容块与搜索主题的相关程度。关键词出现的频率越大,以及该内容块的权重值越大,则计算出该内容快的相关度值越大。其中,关键词出现的频率可进行累计,如当搜索主题中存在多个关键词时,可累计每个关键词出现在内容块中的频率。步骤S105,按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。在一个实施例中,当计算出与搜索主题相关的各内容块的相关度值后,可按照相关度值的大小对各内容块进行排序,并可提取各内容块,从而可从搜索的页面提取出与搜索主题相关的内容块,提高了垂直搜索的搜索结果的准确度。具体的,可按照内容块相关度值由大到小或由小到大的顺序对内容块进行排序,并将其从网页中提取出来,可将提取出的内容块按照相关度值的排序整合为新的网页,也可将提取出的内容块按照相关度值的排序进行存储,根据客户端的需求,提取相关度高的内容块等,在此不作限定。本发明实施例中,当获取到搜索网页后,可构建该搜索网页的标签树,从而能从构建的标签树中筛选出与搜索主题相关的内容块。并能够根据内容块在标签树中对应的节点确定该内容块的权重值,并且将搜索主题中的关键词在内容块中出现的频率与权重值进行乘积,其乘积结果可赋值于内容块的相关度值,每个与搜索主题相关的内容块可对应一个相关度值,从而可根据对应的相关度值对内容块进行排序,并可按照排序结果提取与搜索主题相关的各内容块。通过上述方式,可确定网页中各内容块与搜索主题的相关程度,并能够按照相关程度的大小顺序提取与搜索主题相关的内容块,从而提高了垂直搜索的搜索结果的精准度。参见图2,图2是本发明中的一种网页中内容块的提取方法的另一实施例的流程图。该方法可由下述装置或服务器实现。该方法可包括以下步骤。步骤S201,当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块。在一个实施例中,垂直搜索引擎可通过爬行程序等提取网络中的网页,进而可获取到搜索网页。当获取到搜索网页后,可针对搜索网页构建搜索网页的标签树。具体的,该搜索网页的标签树每个节点均对应一个内容块,在这里,内容块为表达网页中内容的单位。内容块可与网页标签树中每个节点上的容器标签对应,其中,容器标签可以嵌套表达,即通过该标签树,可获知网页中的内容结构。如一个节点的容器标签为<title>,则表明该节点对应的内容块为网页名称,又如一个节点的容器标签为<table>,则表明该节点对应的内容块为表格,其中该节点还可包括子节点,如节点<table>包括的子节点可为<tr>,该子节点对应的内容块为表格中的一行。从而,根据网页标签树的建立,可细化网页中的内容结构,通过构建网页标签树中的各节点,能够将网页中的内容块进行切分,从而可进一步确定与搜索主题更相关的内容块。步骤S202,检测所述标签树中所述各节点对应的内容块的内容类型,其中,所述内容类型包括主题类型。在一个实施例中,当构建网页的标签树后,可检测标签树中各节点对应的内容块的内容类型。其中,内容块的内容类型可包括主题类型、图片类型、超链类型等。内容块中多以内容描述为主,则可确定该内容块的内容类型为主题类型;内容块中以图片为主,则可确定该内容块的内容类型为图片类型;内容块中多以超链类型为主,则可确定该内容块的内容类型为超链类型。具体的,可统计内容块中的内容词项数、图片数及超链词项数,若内容词项数占统计的内容词项数、图片数及超链词项数的总和的比值最大,则确定内容块为主题类型;若图片数占总和的比值最大,则确定内容块为图片类型;若超链词项数占总和的比值最大,则确定内容块为超链类型。还可统计内容块中内容信息、图片信息、超链信息分别对应的权重比值,其中,内容块的内容类型根据其权重比值最大的信息确定,若内容信息所占权重比值最大,则内容块的内容类型为主题类型,若图片信息所占权重比值最大,则内容块的内容类型为图片类型,若超链信息所占权重比值最大,则内容块的内容类型为超链类型。可选的,还可根据内容块中统计出的各内容的数量与权重综合确定该内容块的内容类型。步骤S203,获取与所述搜索主题相关的预设的搜索关键词。在一个实施例中,当确定各节点对应的内容块的内容类型后,可首先筛选出内容类型为主题类型的内容块对其进行进一步分析。可获取与搜索主题相关的预设的搜索关键词。具体的,获取搜索主题中的搜索关键词的一种方式为可预设搜索主题词典,其中,搜索主题词典中包括与搜索主题相关的领域关键词,如当搜索主题为感冒时,搜索主题中的搜索关键词可包括感冒药、感冒症状、感冒传染源等。获取搜索主题中的搜索关键词的另一种方式为可提取搜索主题中的关键词部分,并对该关键词做词义拓展。如当由某个客户端发送特定搜索主题时,该主题可包括关键词,如感冒等,则可拓展出流感、发烧等关键词。步骤S204,从所述内容类型为主题类型的内容块中筛选出包含所述搜索关键词的内容块。在一个实施例中,当获取到搜索主题的搜索关键词后,可从内容类型为主题类型的内容块中筛选出包含搜索关键词的内容块。具体的,如可通过正向最大匹配法或通过逆向最大匹配法等方式对内容块中的内容进行分词,通过检测内容块分词后的各词项是否与关键词匹配,来确定该内容块是否与搜索主题相关,若相关,则筛选出该内容块。步骤S205,获取所述内容块所对应的节点所包含的标签,其中,所述标签包括容器标签与重要信息标签集。在一个实施例中,当筛选出与搜索主题相关的内容块后,可获取该内容块对应的标签树中的节点所包含的标签,从而,可根据该标签确定内容块的权重值。其中,该标签包括容器标签与重要信息标签集。标签树中的每个节点对应一个容器标签,该容器标签能够表示对应的内容块;每个节点还可包括对应内容块的属性集。其中,属性集中可包括该内容块所在的位置,内容块包含的重要信息标签集、内容块包含的超链数量等。步骤S206,从预设的容器标签与权重值的对应关系表中获取与所述容器标签对应的第一权重值。在一个实施例中,可预先设置容器标签与权重值的对应关系表,即不同的容器标签对应不同的权重值。如当内容块对应的节点的容器标签为<title>,表明内容块为网页标题,其对应的权重值较高,如确定权重值为10等;当内容块对应的节点的容器标签为<h1>时,表明内容块为大标题,则其对应的权重值可相对于网页标题较低,如确定权重值为5等。从而根据当前内容块对应的容器标签,能够从上述对应关系表中获取与该容器标签对应的第一权重值。步骤S207,根据所述重要信息标签集中重要信息标签的数量确定所述内容块的第二权重值。在一个实施例中,还可获取该节点包含的内容块属性集中的重要信息标签集,并根据重要信息标签集中的重要信息标签数量确定内容块的第二权重值。如第二权重值与标签数量成正比倍数关系,或成指数关系,或与标签数量相同等。具体的,重要信息标签表明该内容块中有内容被着重标注表示。可根据该节点包含的重要信息标签集中重要信息标签的数量,获取该内容块的权重值,如重要信息标签可包括<b>,表示内容加重,<font>,表示字体与其他内容不同等,从而根据重要信息标签的数量,即可确定该内容块在网页中的重要程度,从而可获取该内容块的重要信息标签集包含的标签数量以作为该内容块的权要值。步骤S208,确定所述内容块的权重值为所述第一权重值,所述第二权重值,或根据所述第一权重值与所述第二权重值计算出的综合权重值。在一个实施例中,当获取到内容块的第一权重值、第二权重值后,可确定该内容块的权重值为第一权重值,或第二权重值,或根据第一权重值与第二权重值综合出的权重值。具体的,确定该内容块的权重值可根据内容块对应的在文章中出现的位置重要性确定,也可根据内容块中包含的内容的重要性确定,也可结合上述两者确定。可选的,确定综合权重值可为第一权重值与第二权重值的和或乘积,或其他计算方式。步骤S209,将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值。在一个实施例中,当获取到与搜索主题相关的内容块的权重值后,可根据该权重值与搜索主题中关键词在该内容块中出现的频率计算该内容块与搜索主题的相关度值。具体的,可将关键词出现频率与权重值的乘积结果作为该内容块的相关度值,用以表示该内容块与搜索主题的相关程度。关键词出现的频率越大,以及该内容块的权重值越大,则计算出该内容快的相关度值越大。其中,关键词出现的频率可进行累计,如当搜索主题中存在多个关键词时,可累计每个关键词出现在内容块中的频率。步骤S210,按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。在一个实施例中,当计算出与搜索主题相关的各内容块的相关度值后,可按照相关度值的大小对各内容块进行排序,并可提取各内容块,从而可从搜索的页面提取出与搜索主题相关的内容块,提高了垂直搜索的搜索结果的准确度。具体的,可按照内容块相关度值由大到小或由小到大的顺序对内容块进行排序,并将其从网页中提取出来。步骤S211,将所述提取出的各内容块存储至与所述搜索主题相关的内容库中。在一个实施例中,可将按照相关度值提取出的各内容块存储至于该搜索主题相关的内容库中。其中,存储有内容库的存储装置可为独立于该装置的外部存储装置,也可为配置在该装置中的内容存储装置。步骤S212,当获取到客户端的与所述搜索主题相关的搜索请求时,将所述内容库中存储的内容块发送至所述客户端。在一个实施例中,当获取到客户端发送的与该搜索主题相关的搜索请求时,可将内容库中存储的内容块发送至该客户端,其中,内容库中存储的内容块均与搜索主题相关,进一步的,还可根据相关度值向客户端发送相关度值由大到小排序的内容块,并可在客户端上根据显示格式显示内容块中的内容,从而可使客户端接收的内容块信息均为有效信息。本发明实施例中,当获取到搜索网页后,可构建该搜索网页的标签树,从而能从构建的标签树中筛选出与搜索主题相关的内容块。并能够根据内容块在标签树中对应的节点确定该内容块的权重值,并且将搜索主题中的关键词在内容块中出现的频率与权重值进行乘积,其乘积结果可赋值于内容块的相关度值,每个与搜索主题相关的内容块可对应一个相关度值,从而可根据对应的相关度值对内容块进行排序,并可按照排序结果提取与搜索主题相关的各内容块。通过上述方式,可确定网页中各内容块与搜索主题的相关程度,并能够按照相关程度的大小顺序提取与搜索主题相关的内容块,从而提高了垂直搜索的搜索结果的精准度。参见图3,图3是本发明中的一种网页中内容块的提取装置的一实施例的结构示意图。该装置可包括构建模块301、筛选模块302、权重值获取模块303、计算模块304、提取模块305。其中,构建模块301,用于当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块。在一个实施例中,垂直搜索引擎可通过爬行程序等提取网络中的网页,进而可获取到搜索网页。当获取到搜索网页后,构建模块301可针对搜索网页构建搜索网页的标签树。具体的,该搜索网页的标签树每个节点均对应一个内容块,在这里,内容块为表达网页中内容的单位。内容块可与网页标签树中每个节点上的容器标签对应,其中,容器标签可以嵌套表达,即通过该标签树,可获知网页中的内容结构。如一个节点的容器标签为<title>,则表明该节点对应的内容块为网页名称,又如一个节点的容器标签为<table>,则表明该节点对应的内容块为表格,其中该节点还可包括子节点,如节点<table>包括的子节点可为<tr>,该子节点对应的内容块为表格中的一行。从而,根据网页标签树的建立,可细化网页中的内容结构,通过构建网页标签树中的各节点,能够将网页中的内容块进行切分,从而可进一步确定与搜索主题更相关的内容块。筛选模块302,用于从所述标签树中筛选出与搜索主题相关的内容块。在一个实施例中,当通过构建模块301构建搜索网页的标签树,即对网页的内容切割为若干内容块后,筛选模块302可从标签树中筛选出与搜索主题相关的内容块。具体的,可获取搜索主题中的搜索关键词,获取搜索主题中的搜索关键词的一种方式为可预设搜索主题词典,其中,搜索主题词典中包括与搜索主题相关的领域关键词,如当搜索主题为感冒时,搜索主题中的搜索关键词可包括感冒药、感冒症状、感冒传染源等。获取搜索主题中的搜索关键词的另一种方式为可提取搜索主题中的关键词部分,并对该关键词做词义拓展。如当由某个客户端发送特定搜索主题时,该主题可包括关键词,如感冒等,则可拓展出流感、发烧等关键词。当获取到关键词后,可从标签树中筛选出包括该关键词的内容块。如可通过正向最大匹配法或通过逆向最大匹配法等方式对内容块中的内容进行分词,通过检测内容块分词后的各词项是否与关键词匹配,来确定该内容块是否与搜索主题相关,若相关,则筛选模块302筛选出该内容块。权重值获取模块303,用于根据所述内容块对应的节点所包含的标签获取所述内容块的权重值。在一个实施例中,当筛选模块302筛选出与搜索主题相关的内容块后,权重值获取模块303可根据内容块对应的节点包含的标签获取内容块的权重值。具体的,构建的标签树中每个节点除分别对应容器标签后,还可包含对应内容块的属性集。其中,属性集中可包括该内容块所在的位置,内容块包含的重要信息标签集、内容块包含的超链数量等。其中,可根据筛选出的内容块对应的节点的容器标签获取内容块的权重值,如当内容块对应的节点的容器标签为<title>,表明内容块为网页标题,其对应的权重值较高,如确定权重值为10等;当内容块对应的节点的容器标签为<h1>时,表明内容块为大标题,则其对应的权重值可相对于网页标题较低,如确定权重值为5等。还可根据内容块对应的节点的重要信息标签获取内容块的权重值,其中,重要信息标签表明该内容块中有内容被着重标注表示。可根据该节点包含的重要信息标签集中重要信息标签的数量,获取该内容块的权重值,如重要信息标签可包括<b>,表示内容加重,<font>,表示字体与其他内容不同等,从而根据重要信息标签的数量,即可确定该内容块在网页中的重要程度,从而可获取该内容块的重要信息标签集包含的标签数量以作为该内容块的权要值。还可根据上述不同方式获取的权要值,确定该内容块的总和权要值,如将上述权要值进行累计求和或乘积等方式获取综合权要值等。计算模块304,用于将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值。在一个实施例中,当权重值获取模块303获取到与搜索主题相关的内容块的权重值后,计算模块304可根据该权重值与搜索主题中关键词在该内容块中出现的频率计算该内容块与搜索主题的相关度值。具体的,可将关键词出现频率与权重值的乘积结果作为该内容块的相关度值,用以表示该内容块与搜索主题的相关程度。关键词出现的频率越大,以及该内容块的权重值越大,则计算出该内容快的相关度值越大。其中,关键词出现的频率可进行累计,如当搜索主题中存在多个关键词时,可累计每个关键词出现在内容块中的频率。提取模块305,用于按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。在一个实施例中,当计算模块304计算出与搜索主题相关的各内容块的相关度值后,提取模块305可按照相关度值的大小对各内容块进行排序,并可提取各内容块,从而可从搜索的页面提取出与搜索主题相关的内容块,提高了垂直搜索的搜索结果的准确度。具体的,可按照内容块相关度值由大到小或由小到大的顺序对内容块进行排序,并将其从网页中提取出来,可将提取出的内容块按照相关度值的排序整合为新的网页,也可将提取出的内容块按照相关度值的排序进行存储,根据客户端的需求,提取相关度高的内容块等,在此不作限定。本发明实施例中,当获取到搜索网页后,可构建该搜索网页的标签树,从而能从构建的标签树中筛选出与搜索主题相关的内容块。并能够根据内容块在标签树中对应的节点确定该内容块的权重值,并且将搜索主题中的关键词在内容块中出现的频率与权重值进行乘积,其乘积结果可赋值于内容块的相关度值,每个与搜索主题相关的内容块可对应一个相关度值,从而可根据对应的相关度值对内容块进行排序,并可按照排序结果提取与搜索主题相关的各内容块。通过上述方式,可确定网页中各内容块与搜索主题的相关程度,并能够按照相关程度的大小顺序提取与搜索主题相关的内容块,从而提高了垂直搜索的搜索结果的精准度。参见图4,图4是本发明中的一种网页中内容块的提取装置的又一实施例的结构示意图。该装置可包括:构建模块401、检测模块402、筛选模块403、权重值获取模块404、计算模块405、提取模块406、存储模块407、调用模块408。其中,构建模块401,用于当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块。在一个实施例中,垂直搜索引擎可通过爬行程序等提取网络中的网页,进而可获取到搜索网页。当获取到搜索网页后,构建模块401可针对搜索网页构建搜索网页的标签树。具体的,该搜索网页的标签树每个节点均对应一个内容块,在这里,内容块为表达网页中内容的单位。内容块可与网页标签树中每个节点上的容器标签对应,其中,容器标签可以嵌套表达,即通过该标签树,可获知网页中的内容结构。如一个节点的容器标签为<title>,则表明该节点对应的内容块为网页名称,又如一个节点的容器标签为<table>,则表明该节点对应的内容块为表格,其中该节点还可包括子节点,如节点<table>包括的子节点可为<tr>,该子节点对应的内容块为表格中的一行。从而,根据网页标签树的建立,可细化网页中的内容结构,通过构建网页标签树中的各节点,能够将网页中的内容块进行切分,从而可进一步确定与搜索主题更相关的内容块。检测模块402,用于检测所述标签树中所述各节点对应的内容块的内容类型,其中,所述内容类型包括主题类型。在一个实施例中,当构建模块401构建网页的标签树后,检测模块402可检测标签树中各节点对应的内容块的内容类型。其中,内容块的内容类型可包括主题类型、图片类型、超链类型等。内容块中多以内容描述为主,则可确定该内容块的内容类型为主题类型;内容块中以图片为主,则可确定该内容块的内容类型为图片类型;内容块中多以超链类型为主,则可确定该内容块的内容类型为超链类型。具体的,可统计内容块中的内容词项数、图片数及超链词项数,若内容词项数占统计的内容词项数、图片数及超链词项数的总和的比值最大,则确定内容块为主题类型;若图片数占总和的比值最大,则确定内容块为图片类型;若超链词项数占总和的比值最大,则确定内容块为超链类型。还可统计内容块中内容信息、图片信息、超链信息分别对应的权重比值,其中,内容块的内容类型根据其权重比值最大的信息确定,若内容信息所占权重比值最大,则内容块的内容类型为主题类型,若图片信息所占权重比值最大,则内容块的内容类型为图片类型,若超链信息所占权重比值最大,则内容块的内容类型为超链类型。可选的,还可根据内容块中统计出的各内容的数量与权重综合确定该内容块的内容类型。筛选模块403,用于从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容块。本发明实施例中,筛选模块403包括以下单元:关键词获取单元4031,用于获取与所述搜索主题相关的预设的搜索关键词;在一个实施例中,当确定各节点对应的内容块的内容类型后,筛选模块403可首先筛选出内容类型为主题类型的内容块对其进行进一步分析。关键词获取单元4031可获取与搜索主题相关的预设的搜索关键词。具体的,获取搜索主题中的搜索关键词的一种方式为可预设搜索主题词典,其中,搜索主题词典中包括与搜索主题相关的领域关键词,如当搜索主题为感冒时,搜索主题中的搜索关键词可包括感冒药、感冒症状、感冒传染源等。获取搜索主题中的搜索关键词的另一种方式为可提取搜索主题中的关键词部分,并对该关键词做词义拓展。如当由某个客户端发送特定搜索主题时,该主题可包括关键词,如感冒等,则可拓展出流感、发烧等关键词。筛选单元4032,用于从所述内容类型为主题类型的内容块中筛选出包含所述搜索关键词的内容块。在一个实施例中,当关键词获取单元4031获取到搜索主题的搜索关键词后,筛选单元4032可从内容类型为主题类型的内容块中筛选出包含搜索关键词的内容块。具体的,如可通过正向最大匹配法或通过逆向最大匹配法等方式对内容块中的内容进行分词,通过检测内容块分词后的各词项是否与关键词匹配,来确定该内容块是否与搜索主题相关,若相关,则筛选出该内容块。权重值获取模块404,用于根据所述内容块对应的节点所包含的标签获取所述内容块的权重值。本发明实施例中,权重值获取模块404包括以下单元:标签获取单元4041,用于获取所述内容块所对应的节点所包含的标签,其中,所述标签包括容器标签与重要信息标签集;在一个实施例中,当筛选模块403筛选出与搜索主题相关的内容块后,标签获取单元4041可获取该内容块对应的标签树中的节点所包含的标签,从而,可根据该标签确定内容块的权重值。其中,该标签包括容器标签与重要信息标签集。标签树中的每个节点对应一个容器标签,该容器标签能够表示对应的内容块;每个节点还可包括对应内容块的属性集。其中,属性集中可包括该内容块所在的位置,内容块包含的重要信息标签集、内容块包含的超链数量等。权重获取单元4042,用于从预设的容器标签与权重值的对应关系表中获取与所述容器标签对应的第一权重值;在一个实施例中,可预先设置容器标签与权重值的对应关系表,即不同的容器标签对应不同的权重值。如当内容块对应的节点的容器标签为<title>,表明内容块为网页标题,其对应的权重值较高,如确定权重值为10等;当内容块对应的节点的容器标签为<h1>时,表明内容块为大标题,则其对应的权重值可相对于网页标题较低,如确定权重值为5等。从而权重获取单元4042根据当前内容块对应的容器标签,能够从上述对应关系表中获取与该容器标签对应的第一权重值。第一确定单元4043,用于根据所述重要信息标签集中重要信息标签的数量确定所述内容块的第二权重值;在一个实施例中,还可获取该节点包含的内容块属性集中的重要信息标签集,并第一确定单元4043根据重要信息标签集中的重要信息标签数量确定内容块的第二权重值。如第二权重值与标签数量成正比倍数关系,或成指数关系,或与标签数量相同等。具体的,重要信息标签表明该内容块中有内容被着重标注表示。可根据该节点包含的重要信息标签集中重要信息标签的数量,获取该内容块的权重值,如重要信息标签可包括<b>,表示内容加重,<font>,表示字体与其他内容不同等,从而根据重要信息标签的数量,即可确定该内容块在网页中的重要程度,从而可获取该内容块的重要信息标签集包含的标签数量以作为该内容块的权要值。第二确定单元4044,用于确定所述内容块的权重值为所述第一权重值,所述第二权重值,或根据所述第一权重值与所述第二权重值计算出的综合权重值。在一个实施例中,当获取到内容块的第一权重值、第二权重值后,第二确定单元4044可确定该内容块的权重值为第一权重值,或第二权重值,或根据第一权重值与第二权重值综合出的权重值。具体的,确定该内容块的权重值可根据内容块对应的在文章中出现的位置重要性确定,也可根据内容块中包含的内容的重要性确定,也可结合上述两者确定。可选的,确定综合权重值可为第一权重值与第二权重值的和或乘积,或其他计算方式。计算模块405,用于将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值。在一个实施例中,当权重值获取模块404获取到与搜索主题相关的内容块的权重值后,计算模块405可根据该权重值与搜索主题中关键词在该内容块中出现的频率计算该内容块与搜索主题的相关度值。具体的,可将关键词出现频率与权重值的乘积结果作为该内容块的相关度值,用以表示该内容块与搜索主题的相关程度。关键词出现的频率越大,以及该内容块的权重值越大,则计算出该内容快的相关度值越大。其中,关键词出现的频率可进行累计,如当搜索主题中存在多个关键词时,可累计每个关键词出现在内容块中的频率。提取模块406,用于按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。在一个实施例中,当计算模块405计算出与搜索主题相关的各内容块的相关度值后,提取模块406可按照相关度值的大小对各内容块进行排序,并可提取各内容块,从而可从搜索的页面提取出与搜索主题相关的内容块,提高了垂直搜索的搜索结果的准确度。具体的,可按照内容块相关度值由大到小或由小到大的顺序对内容块进行排序,并将其从网页中提取出来。存储模块407,用于在所述提取模块提取所述各内容块之后,将所述提取出的各内容块存储至与所述搜索主题相关的内容库中。在一个实施例中,存储模块407可将按照相关度值提取出的各内容块存储至于该搜索主题相关的内容库中。其中,存储有内容库的存储装置可为独立于该装置的外部存储装置,也可为配置在该装置中的内容存储装置。发送模块408,用于当获取到客户端的与所述搜索主题相关的搜索请求时,将所述内容库中存储的内容块发送至所述客户端。在一个实施例中,当获取到客户端发送的与该搜索主题相关的搜索请求时,发送模块408可将内容库中存储的内容块发送至该客户端,其中,内容库中存储的内容块均与搜索主题相关,进一步的,还可根据相关度值向客户端发送相关度值由大到小排序的内容块,并可在客户端上根据显示格式显示内容块中的内容,从而可使客户端接收的内容块信息均为有效信息。本发明实施例中,当获取到搜索网页后,可构建该搜索网页的标签树,从而能从构建的标签树中筛选出与搜索主题相关的内容块。并能够根据内容块在标签树中对应的节点确定该内容块的权重值,并且将搜索主题中的关键词在内容块中出现的频率与权重值进行乘积,其乘积结果可赋值于内容块的相关度值,每个与搜索主题相关的内容块可对应一个相关度值,从而可根据对应的相关度值对内容块进行排序,并可按照排序结果提取与搜索主题相关的各内容块。通过上述方式,可确定网页中各内容块与搜索主题的相关程度,并能够按照相关程度的大小顺序提取与搜索主题相关的内容块,从而提高了垂直搜索的搜索结果的精准度。参见图5,图5是本发明中的一种服务器的一实施例的结构示意图。该服务器可以包括:至少一个处理器501,如CPU,至少一个收发器503,存储器504以及至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信,收发器503可以包括标准的有线接口及无线接口,存储器504可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),如至少一个磁盘存储器,可选的,存储器504还可以是至少一个位于远离前述处理器501的存储装置。其中,存储器504中存储一组程序代码,且处理器501调用存储器504中存储的程序代码,用于执行以下操作:当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;从所述标签树中筛选出与搜索主题相关的内容块;根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值;按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。作为可选的实施例,所述从所述标签树中筛选出与搜索主题相关的内容块之前,处理器501还调用存储器504中的程序代码以执行以下操作:检测所述标签树中所述各节点对应的内容块的内容类型,其中,所述内容类型包括主题类型;其中,所述从所述标签树中筛选出与搜索主题相关的内容块包括:从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容块。作为可选的实施例,所述从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容块包括:获取与所述搜索主题相关的预设的搜索关键词;从所述内容类型为主题类型的内容块中筛选出包含所述搜索关键词的内容块。作为可选的实施例,所述根据所述内容块对应的节点所包含的标签获取所述内容块的权重值包括:获取所述内容块所对应的节点所包含的标签,其中,所述标签包括容器标签与重要信息标签集;从预设的容器标签与权重值的对应关系表中获取与所述容器标签对应的第一权重值;根据所述重要信息标签集中重要信息标签的数量确定所述内容块的第二权重值;确定所述内容块的权重值为所述第一权重值,所述第二权重值,或根据所述第一权重值与所述第二权重值计算出的综合权重值。作为可选的实施例,所述提取所述各内容块之后,处理器501还调用存储器504中的程序代码以执行以下操作:将所述提取出的各内容块存储至与所述搜索主题相关的内容库中;当获取到客户端的与所述搜索主题相关的搜索请求时,将所述内容库中存储的内容块发送至所述客户端。本发明实施例中,当获取到搜索网页后,可构建该搜索网页的标签树,从而能从构建的标签树中筛选出与搜索主题相关的内容块。并能够根据内容块在标签树中对应的节点确定该内容块的权重值,并且将搜索主题中的关键词在内容块中出现的频率与权重值进行乘积,其乘积结果可赋值于内容块的相关度值,每个与搜索主题相关的内容块可对应一个相关度值,从而可根据对应的相关度值对内容块进行排序,并可按照排序结果提取与搜索主题相关的各内容块。通过上述方式,可确定网页中各内容块与搜索主题的相关程度,并能够按照相关程度的大小顺序提取与搜索主题相关的内容块,从而提高了垂直搜索的搜索结果的精准度。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例终端或设备中的单元或子单元可以根据实际需要进行合并、划分和删减。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。以上所述的实施方式,并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等,均应包含在该技术方案的保护范围之内。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1