网页主题的分类方法及装置制造方法

文档序号:6488464阅读:145来源:国知局
网页主题的分类方法及装置制造方法
【专利摘要】本发明公开了一种网页主题的分类方法及装置,属于互联网【技术领域】。方法包括:提取待分类网页的HTML源代码中的文字,对提取的文字进行分词处理,得到一至多个分词结果;计算每个分词结果的权重值,权重值为TFIDF权重、位置权重、分布权重、强调权重和链接权重中的至少一种权重对应的权重值;根据每个分词结果的权重值获取待分类网页对应预先归纳的每个主题类别的分类值,根据获取到的分类值对待分类网页的主题进行分类。本发明通过对待分类网页的HTML源代码中提取的文字进行分词处理,根据分词结果的TFIDF权重、位置权重、分布权重、强调权重和链接权重等权重值对待分类网页的主题自动分类,无需人工操作,节省了人力成本,提高了分类准确性及适用性。
【专利说明】网页主题的分类方法及装置
【技术领域】
[0001]本发明涉及互联网【技术领域】,特别涉及一种网页主题的分类方法及装置。
【背景技术】
[0002]随着互联网技术的高速发展,互联网网站层出不穷,海量新网页的不断产生,给网民带来了极大的信息过载隐患。为了便于对网页进行管理,常常将网页按照主题进行分类,如何对网页主题进行更好地归类、组织和梳理,对于网站自身规划、网民个性化浏览等均具
有重要意义。
[0003]现有技术一在对网页主题进行分类时,基于URL (Uniform/Universal ResourceLocator,统一资源定位符)规则将网页分成不同类别,例如,对于URL为sports, qq.com域名的所有网页,均归为体育类,或者将URL中含有/sports/的网页归类为体育类等等;现有技术二在对网页主题进行分类时,先对网页进行形式化,将其表示为一个VSM (VectorSpace Model,向量空间模型),每个向量项表示切分后的词,向量的权重一般采用TFIDF(Term Frequency Inverse Document Frequency,词频与逆文档频率)形式,之后采用统计机器学习的文本分类技术。
[0004]在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005]现有技术一提供的网页主题分类方式对于新网页的主题分类需要人工完成,因而耗费的人力成本较高;且对于URL规则不明显的网页需要额外处理,导致覆盖度不够;现有技术二仅利用了 TFIDF文本权重,分类依据较为单一,导致分类的效果存在一定缺陷。

【发明内容】

[0006]为了解决现有技术的问题,本发明实施例提供了一种网页主题的分类方法及装置。所述技术方案如下:
[0007]—方面,提供了一种网页主题的分类方法,所述方法包括:
[0008]提取待分类网页的HTML (Hypertext Markup Language,超文本标记语言)源代码中的文字,并对提取的文字进行分词处理,得到一至多个分词结果;
[0009]计算每个分词结果的权重值,所述权重值为词频与逆文档频率TFIDF权重、位置权重、分布权重、强调权重和链接权重中的至少一种权重对应的权重值;
[0010]根据每个分词结果的权重值获取所述待分类网页对应预先归纳的每个主题类别的分类值,并根据获取到的分类值对所述待分类网页的主题进行分类。
[0011]其中,所述根据每个分词结果的权重值获取所述待分类网页对应预先归纳的每个主题类别的分类值,具体包括:
[0012]根据每个分词结果的权重值生成向量空间模型;
[0013]以所述向量空间模型作为预先训练得到的分类器的输入对所述待分类网页进行分类,得到所述待分类网页对应预先归纳的每个主题类别的分类值。
[0014]进一步地,所述以所述向量空间模型作为预先训练得到的分类器的输入对所述待分类网页进行分类之前,还包括:
[0015]收集预设数目个网页,并对所述预设数目个网页的主题进行归纳,得到预先归纳的主题类别;
[0016]将预先归纳的各个主题类别分别作为训练样本对所述分类器进行训练。
[0017]其中,所述根据获取到的分类值对所述待分类网页的主题进行分类,具体包括:
[0018]在获取到的分类值中选择最大分类值,并将所述最大分类值对应的预先归纳的主题类别作为所述待分类网页的主题类别。
[0019]进一步地,所述根据获取到的分类值对所述待分类网页的主题进行分类之前,还包括:
[0020]根据所述待分类网页的网页属性,获取所述待分类网页对应的属性值,所述网页属性至少包括网页网址和二级导航;
[0021]所述根据获取到的分类值对所述待分类网页的主题进行分类,具体包括:
[0022]在获取到的分类值中选择最大分类值,并根据所述最大分类值及所述待分类网页对应的属性值对所述待分类网页的主题进行分类。
[0023]另一方面,还提供了一种网页主题的分类装置,所述装置包括:
[0024]提取模块,用于提取待分类网页的超文本标记语言HTML源代码中的文字;
[0025]分词模块,用于对所述提取模块提取的文字进行分词处理,得到一至多个分词结果;
[0026]计算模块,用于计算所述分词模块得到的每个分词结果的权重值,所述权重值为词频与逆文档频率TFIDF权重、位置权重、分布权重、强调权重和链接权重中的至少一种权重对应的权重值;
[0027]获取模块,用于根据所述计算模块计算得到的每个分词结果的权重值获取所述待分类网页对应预先归纳的每个主题类别的分类值;
[0028]分类模块,用于根据所述获取模块获取到的分类值对所述待分类网页的主题进行分类。
[0029]其中,所述获取模块,具体用于根据每个分词结果的权重值生成向量空间模型;以所述向量空间模型作为预先训练得到的分类器的输入对所述待分类网页进行分类,得到所述待分类网页对应预先归纳的每个主题类别的分类值。
[0030]进一步地,所述装置,还包括:
[0031]归纳模块,用于收集预设数目个网页,并对所述预设数目个网页的主题进行归纳,得到预先归纳的主题类别;
[0032]训练模块,用于将所述归纳模块预先归纳的各个主题类别分别作为训练样本对所述分类器进行训练。
[0033]其中,所述分类模块,具体用于在获取到的分类值中选择最大分类值,并将所述最大分类值对应的预先归纳的主题类别作为所述待分类网页的主题类别。
[0034]进一步地,所述获取模块,还用于根据所述待分类网页的网页属性,获取所述待分类网页对应的属性值,所述网页属性至少包括网页网址和二级导航;
[0035]所述分类模块,具体用于在所述获取模块获取到的分类值中选择最大分类值,并根据所述最大分类值及所述获取模块获取到的所述待分类网页对应的属性值对所述待分类网页的主题进行分类。
[0036]本发明实施例提供的技术方案带来的有益效果是:
[0037]通过对待分类网页的HTML源代码中提取的文字进行分词处理,并根据分词结果的TFIDF权重、位置权重、分布权重、强调权重和链接权重等权重值实现对待分类网页的主题进行自动分类,不仅无需人工操作,节省了人力成本,提高了分类的准确性,还具有较高的适用性。
【专利附图】

【附图说明】
[0038]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1是本发明实施例一提供的一种网页主题的分类方法流程图;
[0040]图2是本发明实施例二提供的一种网页主题的分类方法流程图;
[0041]图3是本发明实施例三提供的一种网页主题的分类装置结构示意图;
[0042]图4是本发明实施例三提供的另一种网页主题的分类装置结构示意图。
【具体实施方式】
[0043]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0044]实施例一
[0045]本实施例提供了一种网页主题的分类方法,参见图1,本实施例提供的方法流程具体如下:
[0046]101:提取待分类网页的HTML源代码中的文字,并对提取的文字进行分词处理,得到一至多个分词结果;
[0047]102:计算每个分词结果的权重值,权重值为TFIDF权重、位置权重、分布权重、强调权重和链接权重中的至少一种权重对应的权重值;
[0048]103:根据每个分词结果的权重值获取待分类网页对应预先归纳的每个主题类别的分类值,并根据获取到的分类值对待分类网页的主题进行分类。
[0049]其中,根据每个分词结果的权重值获取待分类网页对应预先归纳的每个主题类别的分类值,包括但不限于:
[0050]根据每个分词结果的权重值生成向量空间模型;
[0051]以向量空间模型作为预先训练得到的分类器的输入对待分类网页进行分类,得到待分类网页对应预先归纳的每个主题类别的分类值。
[0052]进一步地,以向量空间模型作为预先训练得到的分类器的输入对待分类网页进行分类之前,还包括:
[0053]收集预设数目个网页,并对预设数目个网页的主题进行归纳,得到预先归纳的主题类别;
[0054]将预先归纳的各个主题类别分别作为训练样本对分类器进行训练。[0055]进一步地,根据获取到的分类值对待分类网页的主题进行分类,包括但不限于:
[0056]在获取到的分类值中选择最大分类值,并将最大分类值对应的预先归纳的主题类别作为待分类网页的主题类别。
[0057]进一步地,根据获取到的分类值对待分类网页的主题进行分类之前,还包括:
[0058]根据待分类网页的网页属性,获取待分类网页对应的属性值,网页属性至少包括网页网址和二级导航;
[0059]根据获取到的分类值对待分类网页的主题进行分类,具体包括:
[0060]在获取到的分类值中选择最大分类值,并根据最大分类值及待分类网页对应的属性值对待分类网页的主题进行分类。
[0061]本实施例提供的方法,通过对待分类网页的HTML源代码中提取的文字进行分词处理,并根据分词结果的TFIDF权重、位置权重、分布权重、强调权重和链接权重等权重值实现对待分类网页的主题进行自动分类,不仅无需人工操作,节省了人力成本,提高了分类的准确性,还具有较高的适用性。
[0062]为了更加清楚地阐述上述实施例提供的方法,结合上述实施例的内容,以如下实施例二为例,对网页主题的分类方法进行举例说明,详见如下实施例二:
[0063]实施例二
[0064]本实施例提供了一种网页主题的分类方法,该方法结合上述实施例一的内容,对网页主题的分类方法进行详细说明。参见图2,本实施例提供的方法流程具体如下:
[0065]201:获取待分类网页的HTML源代码,并提取待分类网页的HTML源代码中的文字;
[0066]其中,HTML是用于描述网页文档的一种标记语言,其通过标记符号来标记要显示的网页中的各个部分。一个网页对应一个HTML文件,HTML文件由描述网页文档的HTML源代码构成。在HTML源代码中包含网页中的文字,该文字能够反映网页的主题,因而该步骤获取待分类网页的HTML源代码后,提取待分类网页的HTML源代码中的文字,以通过后续步骤根据提取的文字进行主题分类。具体实施时,获取待分类网页的HTML源代码的方式及从HTML源代码中提取文字的方式在现有技术中已经十分成熟,本实施例对此不作具体限定。
[0067]202:对提取的文字进行分词处理,得到一至多个分词结果;
[0068]针对该步骤,分词处理的方式可以有多种,现有技术中的分词处理方式也十分成熟,本实施例不对该步骤选取的分词处理方式进行限定。
[0069]203:计算每个分词结果的权重值,该权重值为TFIDF权重、位置权重、分布权重、强调权重和链接权重中的至少一种权重对应的权重值;
[0070]具体地,针对TFIDF权重,其中的TF (Term Frequency,词频)指分词结果在待分类网页中出现的次数,DF (Document Frequency,文档频率)预先基于网页集合统计得到。
[0071]针对位置权重,由于标题是网页主题信息的浓缩,标题词比正文词的信息量要更具有代表性,因此如果分词结果为标题词,则对其给予加权。另外对于待分类网页正文的首段和尾段的词比段中的词要更重要,因此可对位于待分类网页正文的首段或尾段的分词结果给予加权。
[0072]针对分布权重,由于在文本中分布较广的词比分布较密集的词更能代表这个文本,因此可根据分词结果在待分类网页正文中的分布情况进行相应加权。[0073]针对强调权重,由于正文中采用〈strong〉或〈span〉或〈font〉等进行修饰的文本串一般对应文本的核心事件、小标题等内容,因此对于具有该类特征的分词结果进行加权。
[0074]针对链接权重,由于对于正文中的链接文本认为其具有重要意义,因而对于具有该类特征的分词结果也进行相应加权。
[0075]每个分词结果按照上述各种权重进行相应加权后,将每个分词结果的各个加权值进行累加,即可得到每个分词结果的权重值,分词结果的权重值能够反映该分词结果在待分类网页中的上述权重。本实施例不对分词结果相对每种权重的具体加权值大小进行限定,除了上述几种权重对应的权重值外,具体实施时,还可以采取其他权重,本实施例同样对此不作具体限定。
[0076]204:根据每个分词结果的权重值获取待分类网页对应预先归纳的每个主题类别的分类值;
[0077]具体地,无论上述步骤203采取哪些权重,在得到每个分词结果的权重值后,根据每个分词结果的权重值获取待分类网页对应预先归纳的每个主题类别的分类值时,本实施例采取了包括但不限于如下的方式:
[0078]根据每个分词结果的权重值生成向量空间模型;
[0079]以向量空间模型作为预先训练得到的分类器的输入对待分类网页进行分类,得到待分类网页对应预先归纳的每个主题类别的分类值。
[0080]进一步地,以向量空间模型作为预先训练得到的分类器的输入对待分类网页进行分类之前,还包括:
[0081]收集预设数目个网页,并对预设数目个网页的主题进行归纳,得到预先归纳的主题类别;
[0082]将预先归纳的各个主题类别分别作为训练样本对分类器进行训练。
[0083]其中,收集预设数目个网页时,该预设数目的具体大小可以根据实际情况进行设定,本实施例不对预设数目的大小进行限定,预设数目越大,收集的网页越能概括越多的网页主题类别。在对预设数目个网页的主题进行归纳时,可得到“音乐”、“新闻”、“体育”、“娱乐”、“广告”等多个主题类别,或是其他主题类别,本实施例不对归纳得到的具体主题类别进行限定。得到预先归纳的主题类别之后,通过将预先归纳的各个主题类别分别作为训练样本对分类器进行训练,使训练后的分类器可对输入的向量空间模型给出其相对预先归纳的每个主题类别的分类值。
[0084]根据每个分词结果的权重值生成向量空间模型时,是将网页中文本内容的处理简化为向量空间中的向量运算,并且以空间上的相似性表达语义的相似性,当网页文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量网页文档间的相似性,也就是说,通过上述向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个网页文档之间的相似性问题就转变成了两个向量之间的相似性问题。又由于将预先归纳的各个主题类别分别作为训练样本对分类器进行了训练,因而该步骤根据每个分词结果的权重值生成向量空间模型,通过以向量空间模型作为预先训练得到的分类器的输入对待分类网页进行分类,可得到待分类网页相对每个预先归纳的每个主题类别的分类值,该分类值可反映待分类网页与预先归纳的主题类别之间的相似性,其大小可以为0-100中的任意数值,表示待分类网页相对预先归纳的每个主题类别的得分,得分越高,说明待分类网页与对应的主题类别的相似性越高。当然,除了按照0-100中的任意数值表示分类值的大小之外,还可以采用其他方式表示分类值的大小,本实施例不对分类值的具体表达方式进行限定,通过分类值能够表示待分类网页与预先归纳的主题类别之间的相似性大小即可。
[0085]205:根据获取到的分类值对待分类网页的主题进行分类。
[0086]针对该步骤,由于上述步骤204得到的待分类网页对应预先归纳的每个主题类别的分类值可以反映待分类网页与预先归纳的主题类别之间的相似性,因而分类值越高,待分类网页与对应的主题类别之间的相似性越高,该步骤在根据获取到的分类值对待分类网页的主题进行分类时,包括但不限于:
[0087]在获取到的分类值中选择最大分类值,并将最大分类值对应的预先归纳的主题类别作为待分类网页的主题类别。
[0088]例如,如果待分类网页相对于预先归纳的主题类别为“娱乐”的分类值为获取到的分类值中的最大分类值,则将主题类别“娱乐”作为该待分类网页的主题类别。
[0089]优选地,由于网页除了文字,还有其他一些信息,如网页的URL,二级导航等,因此,为了进一步优化网页主题的分类方法,本实施例提供的方法在依据待分类网页相对预先归纳的主题类别的分类值对待分类网页的主题进行分类时,还提供了利用网页属性进一步优化主题分类的方案。具体实施时,本实施例提供的方法在根据获取到的分类值对待分类网页的主题进行分类之前,还包括:
[0090]根据待分类网页的网页属性,获取待分类网页对应的属性值,网页属性至少包括网页网址和二级导航;
[0091]根据获取到的分类值对待分类网页的主题进行分类,具体包括:
[0092]在获取到的分类值中选择最大分类值,并根据最大分类值及待分类网页对应的属性值对待分类网页的主题进行分类。
[0093]基于该优选方案,以待分类网页的UR中包含“sport”字符为例,该字符能够反映待分类网页的主题与“体育”、“运动”等主题相关,因而可将其作为主题分类的因素,为其赋予对应的属性值,通过分类值与属性值相结合来对待分类网页进行主题分类。其中,待分类网页的属性值大小可根据实际情况进行设定,本实施例不对属性值的确定方式及大小进行限定。
[0094]另外,本实施例提供的方法可用于网页自动归类、用户行为分析、网页广告相关度匹配等领域,除此之外,还可以应用于其他领域,本实施例不对本实施例提供的方法所应用的具体领域进行限定。
[0095]本实施例提供的方法,通过对待分类网页的HTML源代码中提取的文字进行分词处理,并根据分词结果的TFIDF权重、位置权重、分布权重、强调权重和链接权重等权重值实现对待分类网页的主题进行自动分类,不仅无需人工操作,节省了人力成本,提高了分类的准确性,还具有较高的适用性。
[0096]实施例三
[0097]本实施例提供了一种网页主题的分类装置,该装置用于执行上述实施例一或实施例二提供的网页主题的分类方法。参见图3,该装置包括:
[0098]提取模块31,用于提取待分类网页的HTML源代码中的文字;
[0099]分词模块32,用于对提取模块31提取的文字进行分词处理,得到一至多个分词结果;
[0100]计算模块33,用于计算分词模块32得到的每个分词结果的权重值,权重值为TFIDF权重、位置权重、分布权重、强调权重和链接权重中的至少一种权重对应的权重值;
[0101]获取模块34,用于根据计算模块33计算得到的每个分词结果的权重值获取待分类网页对应预先归纳的每个主题类别的分类值;
[0102]分类模块35,用于根据获取模块34获取到的分类值对待分类网页的主题进行分类。
[0103]其中,获取模块34,具体用于根据每个分词结果的权重值生成向量空间模型;以向量空间模型作为预先训练得到的分类器的输入对待分类网页进行分类,得到待分类网页对应预先归纳的每个主题类别的分类值。
[0104]进一步地,参见图4,该装置,还包括:
[0105]归纳模块36,用于收集预设数目个网页,并对预设数目个网页的主题进行归纳,得到预先归纳的主题类别;
[0106]训练模块37,用于将归纳模块36预先归纳的各个主题类别分别作为训练样本对分类器进行训练。
[0107]其中,分类模块35,具体用于在获取到的分类值中选择最大分类值,并将最大分类值对应的预先归纳的主题类别作为待分类网页的主题类别。
[0108]进一步地,获取模块34,还用于根据待分类网页的网页属性,获取待分类网页对应的属性值,网页属性至少包括网页网址和二级导航;
[0109]分类模块35,具体用于在获取模块34获取到的分类值中选择最大分类值,并根据最大分类值及获取模块34获取到的待分类网页对应的属性值对待分类网页的主题进行分类。
[0110]本实施例提供的装置,通过对待分类网页的HTML源代码中提取的文字进行分词处理,并根据分词结果的TFIDF权重、位置权重、分布权重、强调权重和链接权重等权重值实现对待分类网页的主题进行自动分类,不仅无需人工操作,节省了人力成本,提高了分类的准确性,还具有较高的适用性。
[0111]需要说明的是:上述实施例提供的网页主题的分类装置在进行网页主题分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网页主题的分类装置与网页主题的分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0112]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0113]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0114]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种网页主题的分类方法,其特征在于,所述方法包括: 提取待分类网页的超文本标记语言HTML源代码中的文字,并对提取的文字进行分词处理,得到一至多个分词结果; 计算每个分词结果的权重值,所述权重值为词频与逆文档频率TFIDF权重、位置权重、分布权重、强调权重和链接权重中的至少一种权重对应的权重值; 根据每个分词结果的权重值获取所述待分类网页对应预先归纳的每个主题类别的分类值,并根据获取到的分类值对所述待分类网页的主题进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据每个分词结果的权重值获取所述待分类网页对应预先归纳的每个主题类别的分类值,具体包括: 根据每个分词结果的权重值生成向量空间模型; 以所述向量空间模型作为预先训练得到的分类器的输入对所述待分类网页进行分类,得到所述待分类网页对应预先归纳的每个主题类别的分类值。
3.根据权利要求2所述的方法,其特征在于,所述以所述向量空间模型作为预先训练得到的分类器的输入对所述待分类网页进行分类之前,还包括: 收集预设数目个网页,并对所述预设数目个网页的主题进行归纳,得到预先归纳的主题类别; 将预先归纳的各个主题类别分别作为训练样本对所述分类器进行训练。
4.根据权利要求1至3中任一权利要求所述的方法,其特征在于,所述根据获取到的分类值对所述待分类网页的主题进行分类,具体包括: 在获取到的分类值中选择最大分类值,并将所述最大分类值对应的预先归纳的主题类别作为所述待分类网页的主题类别。
5.根据权利要求1至3中任一权利要求所述的方法,其特征在于,所述根据获取到的分类值对所述待分类网页的主题进行分类之前,还包括: 根据所述待分类网页的网页属性,获取所述待分类网页对应的属性值,所述网页属性至少包括网页网址和二级导航; 所述根据获取到的分类值对所述待分类网页的主题进行分类,具体包括: 在获取到的分类值中选择最大分类值,并根据所述最大分类值及所述待分类网页对应的属性值对所述待分类网页的主题进行分类。
6.一种网页主题的分类装置,其特征在于,所述装置包括: 提取模块,用于提取待分类网页的超文本标记语言HTML源代码中的文字; 分词模块,用于对所述提取模块提取的文字进行分词处理,得到一至多个分词结果; 计算模块,用于计算所述分词模块得到的每个分词结果的权重值,所述权重值为词频与逆文档频率TFIDF权重、位置权重、分布权重、强调权重和链接权重中的至少一种权重对应的权重值; 获取模块,用于根据所述计算模块计算得到的每个分词结果的权重值获取所述待分类网页对应预先归纳的每个主题类别的分类值; 分类模块,用于根据所述获取模块获取到的分类值对所述待分类网页的主题进行分类。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,具体用于根据每个分词结果的权重值生成向量空间模型;以所述向量空间模型作为预先训练得到的分类器的输入对所述待分类网页进行分类,得到所述待分类网页对应预先归纳的每个主题类别的分类值。
8.根据权利要求7所述的装置,其特征在于,所述装置,还包括: 归纳模块,用于收集预设数目个网页,并对所述预设数目个网页的主题进行归纳,得到预先归纳的主题类别; 训练模块,用于将所述归纳模块预先归纳的各个主题类别分别作为训练样本对所述分类器进行训练。
9.根据权利要求6至8中任一权利要求所述的装置,其特征在于,所述分类模块,具体用于在获取到的分类值中选择最大分类值,并将所述最大分类值对应的预先归纳的主题类别作为所述待分类网页的主题类别。
10.根据权利要求6至8中任一权利要求所述的装置,其特征在于,所述获取模块,还用于根据所述待分类网页的网页属性,获取所述待分类网页对应的属性值,所述网页属性至少包括网页网址和二级导航; 所述分类模块,具体用于在所述获取模块获取到的分类值中选择最大分类值,并根据所述最大分类值及所述获取模块获取到的所述待分类网页对应的属性值对所述待分类网页的主题进行分类。
【文档编号】G06F17/30GK103678310SQ201210319285
【公开日】2014年3月26日 申请日期:2012年8月31日 优先权日:2012年8月31日
【发明者】蔡兵 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1