网页分类方法及设备的制作方法

文档序号:6374852阅读:141来源:国知局
专利名称:网页分类方法及设备的制作方法
技术领域
本发明涉及信息处理技术,尤其涉及一种网页分类方法及设备,属于通信技术领域。
背景技术
随着互联网飞速发展,网页数据量急剧增长,人们已经步入一个信息丰富的时代。面对杂乱的网页信息资源,人们需要对海量的网页信息进行分类整理,从而可以快速搜索到期望的目标以及相关的有用信息。网页自动分类提供了处理和组织大规模网页的关键技术,是使信息资源得以合理有效组织的重要方法。现有的网页分类方法,通常是通过提取网页正文的文本信息,对文本信息进行特征词选取,将所选取的特征词与已有的特征词库进行匹配,即获知各特征词出现在各种类 型的网页中的概率,并利用统计学分类算法建立网页分类器,从而计算出网页类别。在实际应用中,由于网页中通常含有大量的图片信息、视频信息、广告信息以及外链信息等,对这些信息的过滤虽然有特定的规律可循,但还是在一定程度上影响了网页去噪后提取的文本内容,降低了网页分类准确率。

发明内容
针对现有技术中存在的缺陷,本发明提供一种网页分类方法及设备,实现了高准确率的网页分类。一方面,本发明提供一种网页分类方法,包括获取待分类网页的网页地址;根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,所述地址信息分类库中,存储有已知网页地址的地址前缀、地址后缀和/或子路径,与网页类别的映射关系;若查询获知存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类别,确定为所述待分类网页的类别。一方面,本发明提供一种网页分类设备,包括网页地址获取模块,用于获取待分类网页的网页地址;查询模块,用于根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,所述地址信息分类库中,存储有已知网页地址的地址前缀、地址后缀和/或子路径,与网页类别的映射关系;第一分类确定模块,用于若查询获知存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类别,确定为所述待分类网页的类别。根据本发明提供的网页分类方法及设备,通过获取待分类网页的网页地址,根据所述待分类网页的网页地址,从预先获取的地址信息分类库查询获取与该网页地址的地址前缀、地址后缀和/或子路径对应的网页类别,并将所获取的网页类别作为待分类网页的类别。由于网址通常是由网络服务商根据网页内容设置的,因此直接根据网址来进行网页分类具有极高的准确率,避免了现有技术中基于提取网页正文的文本内容而进行网页分类时,由于文本内容提取不准确而导致的网页分类准确率低的问题。


图I为本发明一个实施例的网页分类方法的流程示意图。图2为本发明另一个实施例的网页分类方法的流程示意图。图3为本发明实施例中根据检测文本对待分类网页进行分类的流程示意图。图4为本发明一个实施例的网页分类设备的结构示意图。
具体实施例方式实施例一本实施例的网页分类方法例如由网页分类装置来执行,该网页分类装置可以根据需要在网络中任意设置,其既可以根据针对某个指定网页进行分类的分类请求执行网页分类,也可以自动对批量待分类网页,逐个执行网页分类,本发明中不作限制。图I为本发明一个实施例的网页分类方法的流程示意图。如图I所示,该网页分类方法包括以下流程步骤101,获取待分类网页的网页地址;步骤102,根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,所述地址信息分类库中,存储有已知网页地址的地址前缀、地址后缀和/或子路径,与网页类别的映射关系;步骤103,若查询获知存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类别,确定为所述待分类网页的类别。具体地,网页分类装置获取当前待分类网页的统一资源定位符(UniversalResource Locator,URL) JRL是用于完整描述因特网(Internet)上网页和其他资源的地址的一种标识方法。Internet上的每一个网页都具有一个唯一的名称标识,通常称之为URL地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机。更多的是Internet上的站点,简单的说,URL就是网页的网页地址(Web地址),俗称“网址”。URL可以仅包括主路径,也可以是主路径和子路径的结合。以一个包括主路径和子路径的URL为例,通常包括地址前缀、地址后缀、子路径(一级路径、二级路径等)和叶子。其中,地址前缀、地址后缀和子路径的命名一般是根据网页的内容来定义的,以一个具体的URL为例进行如下说明。例如,URLwww. sports, sina. com. cn/footbalI/china/xxx. I. htm,该 URL 对应的主路径为www. sports, sina. com. cn,其中,sports为地址前缀,· com为地址后缀,football为一级路径、china为二级路径,xxx. I为叶子。网页分类装置通过预先对各类样本集进行训练获得并存储有地址信息分类库,或者网页分类装置可以对存储有地址信息分类库的存储装置进行访问。例如预先对一定数量的作为样本的网页(例如为500-700个网页),根据其内容进行分类,可以分为军事、娱乐、商业和论坛等,并对每个类别的网页对应的URL进行统计,建立不同的地址前缀、地址后缀和/或子路径与网页类别的对应关系,即例如生成地址前缀分类库、地址后缀分类库和子路径分类库。表I为地址前缀分类库的一个列表。如表I所示,地址前缀分类库中例如包括以下信息项表I
类别地址前缀类别地址前缀
新闻news论坛bbs 体育sports游戏game
军事mil,war科技tech
财经finance汽车auto
股票stock小说book
在线视频 video教育edu
博客bokee,blog 商业mall常见的URL的地址后缀及其含义例如为· com !Commercial organizations,商业组织,公司;. net Network operations and service centers,网络服务商;. org 0ther organizations,非盈利组织;. int :International organizations,国际组织;· edu !Educational institutions (U. S),(美国)教研机构(教育);. gov Governmental entities (U. S),(美国)政府部门(政府组织);· mil MiIitary (U. S),(美国)军事机构(军事);. arpa Come from ARPANet,由ARPANET(美国国防部高级研究计划局建立的计算机网)沿留的名称,被用于互联网内部功能;. biz web business guide,网络商务向导,适用于商业公司(注biz是business的习惯缩用)(商业);. info :infomation,提供信息服务的企业;· name :name,适用于个人注册的通用顶级域名;. pro-professional,适用于医生、律师、会计师等专业人员的通用顶级域名;. coop !cooperation,适用于商业合作社的专用顶级域名;. aero :aero,适用于航空运输业的专用顶级域名。由于其中多数地址后缀具有极为广泛的含义,使用相同地址后缀的不同网页可以属于多个具体类别,因此可以仅在地址后缀分类库中存储对应于具体领域的地址后缀和类别的对应关系。例如,对于.com后缀,其仅能表示该网页的服务提供商为商业组织或公司,而无法清楚限定网页内容所涉及的类别,因此在根据地址后缀分类时,不对其进行考虑;而对于.edu后缀,其对应于教研机构,采用该地址后缀的网页所涉及的内容通常为教育相关内容,所以其能够作为有效的地址后缀存储在地址后缀分类库中,其具体存储格式可以与表I相类似,故此处不再赘述。此外,子路径分类库中也可以按照与表I相类似的方式,存储子路径和类别的对应关系,故此处不再赘述。网页分类装置按照预设的地址查询规则,根据当前待分类网页的前缀地址、后缀地址和/或子路径,对预先获取的地址信息分类库进行查询。其中,预设的地址查询规则例如为首先根据当前待分类网页的前缀地址,查询地址前缀分类库,若查询到与当前待分类网页的前缀地址匹配的网页类别,则将其作为当前待分类网页的类别,并停止后续查询;若未查询到与当前待分类网页的前缀地址匹配的网页类别,则根据当前待分类网页的后缀地址,查询地址后缀分类库,若查询到与当前待分类网页的后缀地址匹配的网页类别,则将其 作为当前待分类网页的类别,并停止后续查询;若未查询到与当前待分类网页的前缀地址匹配的网页类别,则根据当前待分类网页的子路径,查询子路径分类库,若查询到与当前待分类网页的子路径匹配的网页类别,则将其作为当前待分类网页的类别。以待分类网页的 URL 为 www. sports, sina. com. cn/footbal I/china/xxx. I. htm 为例,首先根据地址前缀sports查询地址前缀分类库,查询获知地址前缀分类库中具有匹配的地址前缀“sports”,则获取地址前缀分类库中与该地址前缀对应的类别,该对应的类别为“体育”,则将待分类网页的类别确定为体育,并结束流程。其中,上述地址查询规则仅用作一个示例,并非用作对本发明实施例的限制,采用任意其它地址查询规则均能够用于实现本发明实施例的技术方案,例如先根据子路径查询子路径分类库,并仅当未查询到与当前待分类网页的子路径匹配的网页类别时,再根据后缀地址和/或前缀地址来确定待分类网页的类别。根据本实施例的网页分类方法,通过获取待分类网页的网页地址,根据所述待分类网页的网页地址,从预先获取的地址信息分类库查询获取与该网页地址的地址前缀、地址后缀和/或子路径对应的网页类别,并将所获取的网页类别作为待分类网页的类别。由于网址通常是由网络服务商根据网页内容设置的,因此直接根据网址来进行网页分类具有极高的准确率,避免了现有技术中基于提取网页正文的文本内容而进行网页分类时,由于文本内容提取不准确而导致的网页分类准确率低的问题。实施例二图2为本发明另一个实施例的网页分类方法的流程示意图。如图2所示,该网页分类方法包括以下流程步骤201,根据待分类网页的URL,对待分类网页进行分类;若成功实现分类,则结束网页分类流程;若未成功实现分类,则执行步骤202 ;其中,根据待分类网页的URL,对待分类网页进行分类的具体流程与上述实施例一相同,故此处不再赘述。并且,通过待分类网页的地址前缀、地址后缀、子路径的任意一个或多个,从地址信息分类库中查询到对应的类别,均可判定为成功实现分类,否则,判定为未成功实现分类。步骤202,提取待分类网页的主题文本和/或内容文本,根据待分类网页的主题文本和/或内容文本,对待分类网页进行分类;若实现高准确率分类,则结束网页分类流程;若未实现高准确率分类,则执行步骤203 ;具体地,提取待分类网页的主题文本和/或内容文本,对主题文本和/或内容文本进行切词处理,获得多个分词,并将所获得的分词分别与预先获取的特征词库进行匹配,将特征词库中存在的分词作为主题文本和/或内容文本的特征词。利用主题文本和/或内容文本的特征词与特征词库,对待分类网页进行分类。其中,特征词库的获取方法、存储内容及形式例如与现有技术相同,即可以采用现有技术中的特征词库,本发明中不对特征词库进行限制。而且,利用主题文本和/或内容文本的特征词与特征词库,对待分类网页进行分类的具体方式也可以采用任意方式,本实施例中不对此进行限制,例如可以采用现有技术中,基于特征词库以及从待分类网页中提取出的文本,进行网页分类的流程。在完成网页分类后,根据分类结果,即所确定的待分类网页的类型,判断是否实现 高准确率分类,例如可以通过一定方式计算待分类网页属于分类结果对应的类别的概率或可能性,若该概率或可能性满足一定的准确率标准,则判定为实现高准确率分类,若不满足,则判定为未实现高准确率分类。本实施例中,对于判定分类结果是否为高准确率分类的具体方法不进行限制。并且,在上述步骤中,提取待分类网页的主题文本和/或内容文本,根据待分类网页的主题文本和/或内容文本,对待分类网页进行分类,既可以是同时提取待分类网页的主题文本和内容文本作为检测文本,根据该检测文本和特征词库确定待分类网页的类型,也可以是首先提取待分类网页的主题文本和内容文本中的一个作为检测文本,并当基于该检测文本未实现高准确率分类时,再提取另一个作为检测文本,若基于该检测文本仍未实现高准确率分类时,再执行步骤203。优选地,首先针对待分类网页的主题文本确定待分类网页的类别,并当所确定的类别不满足一定的准确率标准时,再针对待分类网页的内容文本确定待分类网页的类别。由于主题文本相比于内容文本具有较少的噪声,并且利用较少的词语对网页内容进行概括,因此基于主题文本进行网页分类,相比于直接基于内容文本进行网页分类,具有较高的准确率和处理效率。步骤203,提取待分类网页的主路径对应的网页的主题文本和/或内容文本,根据主路径对应的网页的主题文本和/或内容文本,确定主路径对应的网页的分类,对待分类网页进行分类;若主路径对应的网页实现了高准确率分类,且该分类结果与步骤202确定的待分类网页的类别一致,则将其确定为待分类网页的类别,并结束网页分类流程;若主路径对应的网页未实现高准确率分类,或者所确定的主路径对应的网页的分类与步骤202确定的待分类网页的类别不一致,则执行步骤204 ;其中,对主路径进行网页分类、以及判断分类结果是否为高准确率分类的具体方法,可以采用与步骤202相同或不同的任意方法,本实施例中不进行限制。步骤204,通过搜索引擎对主路径进行搜索,并根据搜索引擎返回的搜索结果页面(例如选择多个结果页面中的第一页)的内容文本,确定该搜索页面对应的类别,并根据该类别,结合步骤202确定的待分类网页的类别,以及步骤203确定的主路径对应的网页的类另|J,确定待分类网页的类型。可选地,对于步骤204所确定的待分类网页的类型,仍可进一步判断是否满足准确率标准,若符合,则完成网页分类,若不符合,则可发出无法对该网页进行高准确率分类的提示,以由人工针对该网页进行分类。根据上述实施例的网页分类方法,通过设置了多级分类处理流程,根据本级分类处理流程获得的分类结果,和预设的准确率标准,判断是否已实现高准确率分类,并根据判断结果来决定是否启用下一级分类处理流程。因此,进一步保障了网页分类的高准确率,又能够在此基础上尽量缩减网页分类流程,提高处理效率。实施例三在上述实施例的基础上,本实施例中,对根据检测文本对待分类网页进行分类的具体流程进行扩展说明。其中,检测文本,既可以是待分类网页的主题文本/内容文本,也可以是待分类网页的主路径对应的网页的主题文本/内容文本,还可以是搜索引擎返回的 搜索结果页面(例如第一页)的内容文本。图3为本发明实施例中根据检测文本对待分类网页进行分类的流程示意图。如图3所示,包括以下流程步骤301,获取检测文本的特征词;具体地,对检测文本进行切词处理,获得多个分词,并将所获得的分词分别与特征词库进行匹配,将特征词库中存在的分词作为检测文本的特征词。步骤302,将特征词库中与检测文本的特征词具有对应关系的各网页类别,确定为候选网页类别;具体地,例如检测文本具有三个特征词,即特征词一、特征词二和特征词三。由于特征词库中特征词与网页类别的关系通常不是一一对应的,而是存储各类别网页中可能出现的特征词,以及各特征词出现时,网页类别可能为相应类别的概率。通过查询特征词库,可能出现特征词一的网页类别例如包括类别一和类别二,可能出现特征词二的网页类别例如包括类别一、类别三和类别四,可能出现特征词三的网页类别例如包括类别二和类别五。因此,将类别一、类别二、类别三、类别四和类别五确定为候选网页类别。步骤303,针对各候选网页类别生成特征向量空间,各特征向量空间包括对应的检测文本的特征词;具体地,例如,针对类别一、类别二、类别三、类别四和类别五,分别生成五个特征向量空间,其中,第一特征向量空间对应于类别一,包括特征词一和特征词二 ;第二特征向量空间对应于类别二,包括特征词一和特征词三;第三特征向量空间对应于类别三,包括特征词二 ;第四特征向量空间对应于类别四,包括特征词二 ;第五特征向量空间对应于类别五,包括特征词三。步骤304,根据预设权重计算规则和特征词库,计算出各特征向量空间中,各特征词的权重值;其中,权重计算规则例如根据以下因素中的一个或多个进行设置特征词在特征词库中出现在该类别中的概率,例如特征词一出现在类别一中的概率为90%,出现在类别二中的概率为10% ;特征词库中该类别对应的总词数,例如特征词库中对应于类别一的特征词共有10个;特征词一在检测文本中出现的词数,其中当针对待分类网页的主题文本进行特征词分类时,检测文本即为主题文本,例如特征词一在主题文本中出现2次;以及检测文本的总词数。特征词一的权重值用于表示根据特征词一所确定的、检测文本的类别属于类别一的可能概率。本实施例中,以同时设置有用于计算特征词的第一权重的第一权重计算规则,以及用于计算特征词的第二权重的第二权重计算规则为例进行说明,但其仅用作一个较佳示例,而非用作对本发明的限制。具体地,第一权重计算规则为特征词第一权重=(特征词类别词频X特征词检测文本词频)/ (类别词库总词数X检测文本总词数X特征词总类别词频);第二权重计算规则为

特征词第二权重=(特征词类别词频X特征词检测文本词频)/ (类别词库总词数X检测文本总词数X总类别中其他特征词词频);其中,特征词类别词频用于表示特征词库中,该类别中出现该特征词的概率;特征词检测文本词频用于表示特征词在检测文本中出现的次数;类别词库总词数用于表示特征词库中,该类别对应的总特征词数;检测文本总词数用于表示检测文本中的总词数(包括特征词和非特征词);特征词总类别词频用于表示全部类别中,该特征词出现的概率之和;总类别中其他特征词词频用于表示特征词库中,其它类别中出现该特征语的概率,即总类别中其他特征词词频=特征词总类别词频-特征词类别词频。通过上述第一权重计算规则和第二权重计算规则,计算获得各特征向量空间中,各特征词的第一权重值和第二权重值。步骤305,根据检测文本的特征词的权重值之和,确定所述各特征向量空间的概率值;具体地,仍以上述计算第一权重值和第二权重值的示例为例进行说明,根据各特征向量空间中,各特征词的第一权重值之和,确定所述各特征向量空间的第一概率值;并根据各特征向量空间中,各特征词的第二权重值之和,确定所述各特征向量空间的第二概率值。步骤306,根据各特征向量空间的概率值,确定检测文本的类别。具体地,例如将概率值最高的特征向量空间对应的类别,确定为检测文本的类别。针对上述计算出第一概率值和第二概率值的示例,优选地,通过以下方式确定检测文本的类别。按照第一概率值由高至低的顺序,对特征向量空间进行排序,生成第一结果集,第一结果集包括第一概率值位于前N位的特征向量空间对应的网页类别,本实施例中以N取3为例进行说明;从特征词库中提取与第一结果集包括的网页类别相关的特征词,生成第一子特征词库;将上述特征词库替换为第一子特征词库,重新执行上述步骤304,确定各特征向量空间中各特征词的第一权重(下文称为第一子权重值,并执行步骤305,计算出的各特征向量空间的第一概率(下文称为第一子概率值),并按照第一子概率值由高至低的顺序,对特征向量空间进行排序,以生成第二结果集,第二结果集包括第一子概率值位于前3位的特征向量空间对应的网页类别;
按照第二概率值由高至低的顺序,对特征向量空间进行排序,生成第三结果集,第三结果集包括第二概率值位于前3位的特征向量空间对应的网页类别;从特征词库中提取与第三结果集包括的网页类别相关的特征词,生成第二子特征词库;将上述特征词库替换为第二子特征词库,重新执行上述步骤304,确定各特征向量空间中各特征词的第二权重(下文称为第二子权重值,并执行步骤305,计算出的各特征向量空间的第二概率(下文称为第二子概率值),并按照第二子概率值由高至低的顺序,对特征向量空间进行排序,以生成第四结果集,第四结果集包括第二子概率值位于前3位的特征向量空间对应的网页类别;根据所述第一结果集、所述第二结果集、所述第三结果集和所述第四结果集中,相同网页类别对应的概率和,确定所述待分类网页的类别。 更为具体地,例如在第一结果集中,对应于类别一的特征向量空间的概率为&%,在第二结果集中,对应于类别一的特征向量空间的概率Sb%,在第三结果集中,对应于类别一的特征向量空间的概率为c%,在第四结果集中,对应于类别一的特征向量空间的概率为d%,则类别一对应的概率和为(a+b+c+d) % ;类似地,计算出第一结果集、所述第二结果集、所述第三结果集和所述第四结果集中,各个类别对应的概率和,从而选取概率和最大的类别,确定为检测文本的类别。优选地,在计算各结果集中,相同网页类别对应的概率和时,为各个结果集中的概率分配不同的权重,例如为第一结果集分配的权重为ql,为第二结果集分配的权重为q2,为第三结果集分配的权重为q3,为第四结果集分配的权重为q4,例如满足ql>q3>q2>q4,则类别一对应的概率和为(ql X a+q2 X b+q3 X c+q4 X d) %。相应地,判断所确定的检测文本的类别是否为高准确率,可以将所确定的检测文本的类别对应的概率和与预设概率阈值进行比较,若所确定的检测文本的类别对应的概率和大于等于预设概率阈值,则判定为实现了高准确率分类;若所确定的检测文本的类别对应的概率和小于预设概率阈值,则判定为未实现高准确率分类。根据本实施例的网页分类方法,通过根据两种权重计算规则,计算各特征向量空间中,各特征词对应的两种权重值,根据该两种权重值,筛选出概率较高的几种类别,生成第一结果集和第三结果集,并以该几种类别对应的特征词库,进一步确定出概率较高的几种类别,生成第二结果集和第四结果集,通过综合该四个结果集各类别对应的概率值,来确定待分类网页的类别,进一步提高了网页分类的准确率。实施例四在上述实施例的基础上,本实施例的该网页分类方法包括以下流程步骤401,判断能否基于URL对待分类网页进行成功分类,若成功实现分类,则结束网页分类流程;若未成功实现分类,则执行步骤402 ;步骤402,提取待分类网页的主题文本,获取基于待分类网页的主题文本进行分类时,所获得的结果集;具体地,将待分类网页的主题文本作为检测文本,并采用上述实施例中根据检测文本对待分类网页进行分类的流程,获得四个结果集,例如分别记为Rla、R2a、R3a和R4a。步骤403,根据步骤402所获得的结果集,判断是否存在概率和大于等于预设概率阈值的网页类别;若是,则执行步骤404,若否,则执行步骤405 ;
步骤404,将待分类网页的类别确定为概率和最大的网页类别,并结束流程;步骤405,提取待分类网页的内容文本,获取基于待分类网页的内容文本进行分类时,所获得的结果集;具体地,将待分类网页的内容文本作为检测文本,并采用上述实施例中根据检测文本对待分类网页进行分类的流程,获得四个结果集,例如分别记为Rib、R2b、R3b和R4b。步骤406,根据步骤405所获得的结果集,判断是否存在概率和大于等于预设概率阈值的网页类别;若是,则执行步骤407,若否,则执行步骤408 ;步骤407,将待分类网页的类别确定为概率和最大的网页类别,并结束流程;步骤408,提取待分类网页的URL的主路径对应的网页的内容文本,获取基于主路径对应的网页的内容文本进行分类时,所获得的结果集;
具体地,将主路径对应的网页的内容文本作为检测文本,并采用上述实施例中根据检测文本对待分类网页进行分类的流程,获得四个结果集,例如分别记为Rlc、R2c、R3c和 R4c。步骤409,根据步骤408所获得的结果集,判断是否存在概率和大于等于预设概率阈值的网页类别;若是,则执行步骤410,若否,则执行步骤412 ;步骤410,判断步骤408所获得的结果集中概率和最大的网页类别,与步骤402或步骤405所获得的结果集中概率和最大的网页类别,是否相同;若是,则执行步骤411,若否,则执行步骤412;步骤411,将步骤408所获得的结果集中概率和最大的网页类别,确定为待分类网页的类别,并结束流程;步骤412,通过搜索引擎对主路径进行搜索,并提取搜索引擎返回的搜索结果页面中第一页的内容文本,获取基于搜索结果页面的内容文本进行分类时,所获得的结果集;具体地,将搜索结果页面的内容文本作为检测文本,并采用上述实施例中根据检测文本对待分类网页进行分类的流程,获得四个结果集,例如分别记为例如分别记为Rid、R2d、R3d 和 R4d ;步骤413,根据步骤412所获得的结果集,判断是否存在概率和大于等于预设概率阈值的网页类别;若是,则执行步骤414,若否,则执行步骤416 ;步骤414,判断步骤412所获得的结果集中概率和最大的网页类别,与步骤402或步骤405或步骤408所获得的结果集中概率和最大的网页类别,是否相同;若是,则执行步骤415,若否,则执行步骤416 ;步骤416,将步骤402、步骤405、步骤408和步骤412所获得的结果集进行组合,计算出在该组合中,概率和最大的网页类别,将该网页类别确定为待分类网页的类别。实施例五图4为本发明一个实施例的网页分类设备的结构示意图。如图4所示,该网页分类设备包括网页地址获取模块41,用于获取待分类网页的网页地址;查询模块42,用于根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,所述地址信息分类库中,存储有已知网页地址的地址前缀、地址后缀和/或子路径,与网页类别的映射关系;
第一分类确定模块43,用于若查询获知存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类别,确定为所述待分类网页的类别。本实施例的网页分类设备执行网页分类的具体流程,与上述任一实施例的网页分类方法相同,故此处不再赘述。根据本实施例的网页分类设备,通过获取待分类网页的网页地址,根据所述待分类网页的网页地址,从预先获取的地址信息分类库查询获取与该网页地址的地址前缀、地址后缀和/或子路径对应的网页类别,并将所获取的网页类别作为待分类网页的类·别。由于网址通常是由网络服务商根据网页内容设置的,因此直接根据网址来进行网页分类具有极高的准确率,避免了现有技术中基于提取网页正文的文本内容而进行网页分类时,由于文本内容提取不准确而导致的网页分类准确率低的问题。进一步地,在上述实施例的网页分类设备中,所述地址信息分类库中,存储有已知地址前缀与网页类别的映射关系、已知地址后缀与网页类别的映射关系,以及已知子路径与网页类别的映射关系;相应地,所述第一分类确定模块具体用于若查询获知存在与所述待分类网页的地址前缀匹配的已知地址前缀,则将与所述已知地址前缀对应的网页类别,确定为所述待分类网页的类别;若查询获知不存在与所述待分类网页的地址前缀匹配的已知地址前缀,且存在与所述待分类网页的地址后缀匹配的已知地址后缀,则将与所述已知地址后缀对应的网页类另IJ,确定为所述待分类网页的类别;若查询获知不存在与所述待分类网页的地址前缀匹配的已知地址前缀,且不存在与所述待分类网页的地址后缀匹配的已知地址后缀,但存在与所述待分类网页的网页地址的子路径匹配的已知子路径,则将与所述已知子路径对应的类别,确定为所述待分类网页的类别。进一步地,在上述实施例的网页分类设备中,还包括文本获取模块,用于若查询获知不存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀以及子路径,则获取所述待分类网页的主题文本和/或内容文本;特征词模块,用于根据所述待分类网页的主题文本和/或内容文本,和预先获取的特征词库,确定所述待分类网页的特征词,将所述特征词库中与所述待分类网页的特征词具有对应关系的各网页类别,确定为候选网页类别;特征向量空间生成模块,用于针对各候选网页类别生成特征向量空间,所述特征向量空间包括对应的所述待分类网页的特征词;权重计算模块,用于根据预设权重计算规则和所述特征词库,计算出各特征向量空间中,所述待分类网页的特征词的权重值;概率计算模块,用于根据所述待分类网页的特征词的权重值之和,确定所述各特征向量空间的概率值;第二分类确定模块,用于根据所述各特征向量空间的概率值,确定所述待分类网页的类别。进一步地,在上述实施例的网页分类设备中,所述权重计算模块具体用于根据第一预设权重计算规则和所述特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第一权重值;根据第二预设权重计算规则和所述特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第二权重值;相应地,所述概率计算模块具体用于根据所述待分类网页的特征词的第一权重值之和,确定所述各特征向量空间的第一概率值;和根据所述待分类网页的特征词的第二权重值之和,确定所述各特征向量空间的第二概率值;相应地,所述第二分类确定模块具体用于根据所述各特征向量空间的第一概率值和第二概率值,确定所述待分类网页的类别。进一步地,在上述实施例的网页分类设备中,所述第二分类确定模块具体用于按照所述第一概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第 一结果集,所述第一结果集包括所述第一概率值位于前N位的特征向量空间对应的网页类别; 从所述特征词库中提取与所述第一结果集包括的网页类别相关的特征词,生成第一子特征词库;根据所述第一预设权重计算规则和所述第一子特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第一子权重值;根据所述待分类网页的特征词的第一子权重值之和,确定所述各特征向量空间的第一子概率值;按照所述第一子概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第二结果集,所述第二结果集包括所述第一子概率值位于前N位的特征向量空间对应的网页类别;按照所述第二概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第三结果集,所述第三结果集包括所述第二概率值位于前N位的特征向量空间对应的网页类别;从所述特征词库中提取与所述第三结果集包括的网页类别相关的特征词,生成第二子特征词库;根据所述第二预设权重计算规则和所述第二子特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第二子权重值;根据所述待分类网页的特征词的第二子权重值之和,确定所述各特征向量空间的第二子概率值;按照所述第二子概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第四结果集,所述第四结果集包括所述第二子概率值位于前N位的特征向量空间对应的网页类别;根据所述第一结果集、所述第二结果集、所述第三结果集和所述第四结果集中,相同网页类别对应的概率和,确定所述待分类网页的类别。根据本实施例的网页分类设备,通过根据两种权重计算规则,计算各特征向量空间中,各特征词对应的两种权重值,根据该两种权重值,筛选出概率较高的几种类别,生成第一结果集和第三结果集,并以该几种类别对应的特征词库,进一步确定出概率较高的几种类别,生成第二结果集和第四结果集,通过综合该四个结果集各类别对应的概率值,来确定待分类网页的类别,进一步提高了网页分类的准确率。进一步地,在上述实施例的网页分类设备中,所述第二分类确定模块具体用于若存在概率和大于等于预设概率阈值的网页类别,则将所述待分类网页的类别确定为概率和最大的网页类别;若不存在概率和超过预设概率阈值的网页类别,且所述待分类网页的网页地址包括主路径和子路径,则通知所述文本获取模块将所述待分类网页的主题文本和/或内容文本,更新为所述主路径对应的网页的主题文本和/或内容文本;相应地,所述特征词模块、所述特征向量空间生成模块、所述权重计算模块、所述概率计算模块以及所述第二分类确定模块,还用于基于所述主路径对应的网页的主题文本和/或内容文本生成结果集,并结合所述待分类网页的主题文本和/或内容文本生成的结果集,确定所述待分类网页的类别。进一步地,在上述实施例的网页分类设备中,所述第二分类确定模块具体用于若所述基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集中,存在概率和大于等于所述预设概率阈值的网页类别,且具有最高概率和的网页类别,与所述基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集中,具有最高概率和的网页类别一致,则将其确定为所述待分类网页的类别;否则,通知所述文本获取模块通过搜索引擎对所述主路径进行搜索,并将所述待 分类网页的主题文本和/或内容文本,更新为所述搜索弓I擎返回的搜索结果页面的内容文本;相应地,所述特征词模块、所述特征向量空间生成模块、所述权重计算模块、所述概率计算模块以及所述第二分类确定模块,还用于基于所述搜索结果页面的内容文本生成结果集,并结合基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集,以及基于所述待分类网页的主题文本和/或内容文本生成的结果集,确定所述待分类网页的类别。最后应说明的是以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
权利要求
1.一种网页分类方法,其特征在于,包括 获取待分类网页的网页地址; 根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,所述地址信息分类库中,存储有已知网页地址的地址前缀、地址后缀和/或子路径,与网页类别的映射关系; 若查询获知存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类别,确定为所述待分类网页的类别。
2.根据权利要求I所述的网页分类方法,其特征在于,所述地址信息分类库中,存储有已知地址前缀与网页类别的映射关系、已知地址后缀与网页类别的映射关系,以及已知子路径与网页类别的映射关系; 相应地,所述若查询获知存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类别,确定为所述待分类网页的类别,具体包括 若查询获知存在与所述待分类网页的地址前缀匹配的已知地址前缀,则将与所述已知地址前缀对应的网页类别,确定为所述待分类网页的类别; 若查询获知不存在与所述待分类网页的地址前缀匹配的已知地址前缀,且存在与所述待分类网页的地址后缀匹配的已知地址后缀,则将与所述已知地址后缀对应的网页类别,确定为所述待分类网页的类别; 若查询获知不存在与所述待分类网页的地址前缀匹配的已知地址前缀,且不存在与所述待分类网页的地址后缀匹配的已知地址后缀,但存在与所述待分类网页的网页地址的子路径匹配的已知子路径,则将与所述已知子路径对应的类别,确定为所述待分类网页的类别。
3.根据权利要求I所述的网页分类方法,其特征在于,所述根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,之后还包括 若查询获知不存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀以及子路径,则获取所述待分类网页的主题文本和/或内容文本; 根据所述待分类网页的主题文本和/或内容文本,和预先获取的特征词库,确定所述待分类网页的特征词,将所述特征词库中与所述待分类网页的特征词具有对应关系的各网页类别,确定为候选网页类别; 针对各候选网页类别生成特征向量空间,所述特征向量空间包括对应的所述待分类网页的特征词; 根据预设权重计算规则和所述特征词库,计算出各特征向量空间中,所述待分类网页的特征词的权重值; 根据所述待分类网页的特征词的权重值之和,确定所述各特征向量空间的概率值; 根据所述各特征向量空间的概率值,确定所述待分类网页的类别。
4.根据权利要求3所述的网页分类方法,其特征在于,所述根据预设权重计算规则和所述特征词库,计算出各特征向量空间中,所述待分类网页的特征词的权重值,具体包括 根据第一预设权重计算规则和所述特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第一权重值; 根据第二预设权重计算规则和所述特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第二权重值; 相应地,所述根据所述待分类网页的特征词的权重值之和,确定所述各特征向量空间的概率值,具体包括 根据所述待分类网页的特征词的第一权重值之和,确定所述各特征向量空间的第一概率值;和 根据所述待分类网页的特征词的第二权重值之和,确定所述各特征向量空间的第二概率值; 相应地,所述根据所述各特征向量空间的概率值,确定所述待分类网页的类别,具体包括 根据所述各特征向量空间的第一概率值和第二概率值,确定所述待分类网页的类别。
5.根据权利要求4所述的网页分类方法,其特征在于,所述根据所述各特征向量空间的第一概率值和第二概率值,确定所述待分类网页的类别,具体包括 按照所述第一概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第一结果集,所述第一结果集包括所述第一概率值位于前N位的特征向量空间对应的网页类别,其中N为自然数; 从所述特征词库中提取与所述第一结果集包括的网页类别相关的特征词,生成第一子特征词库;根据所述第一预设权重计算规则和所述第一子特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第一子权重值;根据所述待分类网页的特征词的第一子权重值之和,确定所述各特征向量空间的第一子概率值;按照所述第一子概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第二结果集,所述第二结果集包括所述第一子概率值位于前N位的特征向量空间对应的网页类别; 按照所述第二概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第三结果集,所述第三结果集包括所述第二概率值位于前N位的特征向量空间对应的网页类别; 从所述特征词库中提取与所述第三结果集包括的网页类别相关的特征词,生成第二子特征词库;根据所述第二预设权重计算规则和所述第二子特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第二子权重值;根据所述待分类网页的特征词的第二子权重值之和,确定所述各特征向量空间的第二子概率值;按照所述第二子概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第四结果集,所述第四结果集包括所述第二子概率值位于前N位的特征向量空间对应的网页类别; 根据所述第一结果集、所述第二结果集、所述第三结果集和所述第四结果集中,相同网页类别对应的概率和,确定所述待分类网页的类别。
6.根据权利要求5所述的网页分类方法,其特征在于,所述根据所述第一结果集、所述第二结果集、所述第三结果集和所述第四结果集中,相同网页类别对应的概率和,确定所述待分类网页的类别,具体包括 若存在概率和大于等于预设概率阈值的网页类别,则将所述待分类网页的类别确定为概率和最大的网页类别; 若不存在概率和超过预设概率阈值的网页类别,且所述待分类网页的网页地址包括主路径和子路径,则将所述待分类网页的主题文本和/或内容文本,更新为所述主路径对应的网页的主题文本和/或内容文本,并返回执行确定候选网页分类、生成特征向量空间、确定所述各特征向量空间的概率值以及生成结果集的步骤; 根据基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集,以及基于所述待分类网页的主题文本和/或内容文本生成的结果集,确定所述待分类网页的类别。
7.根据权利要求5所述的网页分类方法,其特征在于,所述根据基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集,以及基于所述待分类网页的主题文本和/或内容文本生成的结果集,确定所述待分类网页的类别,具体包括 若所述基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集中,存在概率和大于等于所述预设概率阈值的网页类别,且具有最高概率和的网页类别,与所述基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集中,具有最高概率和的网页类别一致,则将其确定为所述待分类网页的类别; 否则,通过搜索引擎对所述主路径进行搜索,并将所述待分类网页的主题文本和/或内容文本,更新为所述搜索引擎返回的搜索结果页面的内容文本,并返回执行确定候选网页分类、生成特征向量空间、确定所述各特征向量空间的概率值以及生成结果集的步骤; 根据基于所述搜索结果页面的内容文本生成的结果集,基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集,以及所述待分类网页的主题文本和/或内容文本生成的结果集,确定所述待分类网页的类别。
8.—种网页分类设备,其特征在于,包括 网页地址获取模块,用于获取待分类网页的网页地址; 查询模块,用于根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,所述地址信息分类库中,存储有已知网页地址的地址前缀、地址后缀和/或子路径,与网页类别的映射关系; 第一分类确定模块,用于若查询获知存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类另U,确定为所述待分类网页的类别。
9.根据权利要求8所述的网页分类设备,其特征在于,所述地址信息分类库中,存储有已知地址前缀与网页类别的映射关系、已知地址后缀与网页类别的映射关系,以及已知子路径与网页类别的映射关系; 相应地,所述第一分类确定模块具体用于 若查询获知存在与所述待分类网页的地址前缀匹配的已知地址前缀,则将与所述已知地址前缀对应的网页类别,确定为所述待分类网页的类别; 若查询获知不存在与所述待分类网页的地址前缀匹配的已知地址前缀,且存在与所述待分类网页的地址后缀匹配的已知地址后缀,则将与所述已知地址后缀对应的网页类别,确定为所述待分类网页的类别; 若查询获知不存在与所述待分类网页的地址前缀匹配的已知地址前缀,且不存在与所述待分类网页的地址后缀匹配的已知地址后缀,但存在与所述待分类网页的网页地址的子路径匹配的已知子路径,则将与所述已知子路径对应的类别,确定为所述待分类网页的类别。
10.根据权利要求8所述的网页分类设备,其特征在于,还包括 文本获取模块,用于若查询获知不存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀以及子路径,则获取所述待分类网页的主题文本和/或内容文本; 特征词模块,用于根据所述待分类网页的主题文本和/或内容文本,和预先获取的特征词库,确定所述待分类网页的特征词,将所述特征词库中与所述待分类网页的特征词具有对应关系的各网页类别,确定为候选网页类别; 特征向量空间生成模块,用于针对各候选网页类别生成特征向量空间,所述特征向量空间包括对应的所述待分类网页的特征词; 权重计算模块,用于根据预设权重计算规则和所述特征词库,计算出各特征向量空间中,所述待分类网页的特征词的权重值; 概率计算模块,用于根据所述待分类网页的特征词的权重值之和,确定所述各特征向量空间的概率值; 第二分类确定模块,用于根据所述各特征向量空间的概率值,确定所述待分类网页的类别。
11.根据权利要求10所述的网页分类设备,其特征在于,所述权重计算模块具体用于根据第一预设权重计算规则和所述特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第一权重值;根据第二预设权重计算规则和所述特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第二权重值; 相应地,所述概率计算模块具体用于根据所述待分类网页的特征词的第一权重值之和,确定所述各特征向量空间的第一概率值;和根据所述待分类网页的特征词的第二权重值之和,确定所述各特征向量空间的第二概率值; 相应地,所述第二分类确定模块具体用于根据所述各特征向量空间的第一概率值和第二概率值,确定所述待分类网页的类别。
12.根据权利要求11所述的网页分类设备,其特征在于,所述第二分类确定模块具体用于 按照所述第一概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第一结果集,所述第一结果集包括所述第一概率值位于前N位的特征向量空间对应的网页类别,其中N为自然数; 从所述特征词库中提取与所述第一结果集包括的网页类别相关的特征词,生成第一子特征词库;根据所述第一预设权重计算规则和所述第一子特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第一子权重值;根据所述待分类网页的特征词的第一子权重值之和,确定所述各特征向量空间的第一子概率值;按照所述第一子概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第二结果集,所述第二结果集包括所述第一子概率值位于前N位的特征向量空间对应的网页类别;按照所述第二概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第三结果集,所述第三结果集包括所述第二概率值位于前N位的特征向量空间对应的网页类别;从所述特征词库中提取与所述第三结果集包括的网页类别相关的特征词,生成第二子特征词库;根据所述第二预设权重计算规则和所述第二子特征词库,计算出所述各特征向量空间中,所述待分类网页的特征词的第二子权重值;根据所述待分类网页的特征词的第二子权重值之和,确定所述各特征向量空间的第二子概率值;按照所述第二子概率值由高至低的顺序,对所述特征向量空间进行排序,以生成第四结果集,所述第四结果集包括所述第二子概率值位于前N位的特征向量空间对应的网页类别; 根据所述第一结果集、所述第二结果集、所述第三结果集和所述第四结果集中,相同网页类别对应的概率和,确定所述待分类网页的类别。
13.根据权利要求12所述的网页分类设备,其特征在于,所述第二分类确定模块具体用于 若存在概率和大于等于预设概率阈值的网页类别,则将所述待分类网页的类别确定为概率和最大的网页类别; 若不存在概率和超过预设概率阈值的网页类别,且所述待分类网页的网页地址包括主路径和子路径,则通知所述文本获取模块将所述待分类网页的主题文本和/或内容文本,更新为所述主路径对应的网页的主题文本和/或内容文本; 相应地,所述特征词模块、所述特征向量空间生成模块、所述权重计算模块、所述概率计算模块以及所述第二分类确定模块,还用于基于所述主路径对应的网页的主题文本和/或内容文本生成结果集,并结合所述待分类网页的主题文本和/或内容文本生成的结果集,确定所述待分类网页的类别。
14.根据权利要求12所述的网页分类设备,其特征在于,所述第二分类确定模块具体用于 若所述基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集中,存在概率和大于等于所述预设概率阈值的网页类别,且具有最高概率和的网页类别,与所述基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集中,具有最高概率和的网页类别一致,则将其确定为所述待分类网页的类别; 否则,通知所述文本获取模块通过搜索引擎对所述主路径进行搜索,并将所述待分类网页的主题文本和/或内容文本,更新为所述搜索引擎返回的搜索结果页面的内容文本;相应地,所述特征词模块、所述特征向量空间生成模块、所述权重计算模块、所述概率计算模块以及所述第二分类确定模块,还用于基于所述搜索结果页面的内容文本生成结果集,并结合基于所述主路径对应的网页的主题文本和/或内容文本生成的结果集,以及基于所述待分类网页的主题文本和/或内容文本生成的结果集,确定所述待分类网页的类别。
全文摘要
本发明提供网页分类方法及设备。该网页分类方法包括获取待分类网页的网页地址;根据所述待分类网页的网页地址,查询预先获取的地址信息分类库,所述地址信息分类库中,存储有已知网页地址的地址前缀、地址后缀和/或子路径,与网页类别的映射关系;若查询获知存在与所述待分类网页的网页地址匹配的地址前缀、地址后缀和/或子路径,则将所匹配的地址前缀、地址后缀和/或子路径对应的网页类别,确定为所述待分类网页的类别。
文档编号G06F17/30GK102819597SQ20121028731
公开日2012年12月12日 申请日期2012年8月13日 优先权日2012年8月13日
发明者李钦林 申请人:北京星网锐捷网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1