一种网页主题的标注方法和装置的制造方法

文档序号:8905268阅读:660来源:国知局
一种网页主题的标注方法和装置的制造方法
【技术领域】
[0001] 本发明设及数据处理技术领域,特别是设及一种网页主题的标注方法和装置。
【背景技术】
[0002] 通过分析互联网网页内容,来提取并标注网页主题是互联网数据管理和挖掘等应 用的重要基础。目前,网页主题标注多采用关键词匹配方法,通过将网页标题和部分预设关 键词进行匹配实现网页的标注。但是,该种直接匹配的做法过于简单,而且,如果网页标题 中的关键词发生变化,则该方法将无法准确标注主题,网页标准的准确率将无法保证。另一 种网页主题标注是采用聚类的方法,对网页进行聚类,从聚为一类的网页中提取关键词作 为该一类网页的标注。但是,由于聚类算法较为耗时,当待标注的网页数量较多时,该类算 法的实用性较差,而且仅使用无监督学习算法的网页标注准确率不高。

【发明内容】

[0003] 本发明提供一种网页主题的标注方法和装置,用W解决现有技术中网页主题标注 准确率低的问题。
[0004] 基于上述技术问题,本发明是通过W下技术方案来解决的。
[0005] 本发明提供了一种网页主题的标注方法,包括:基于网页的标题和正文,获得所述 网页的主题特征向量;利用预先训练获得的分类器,对所述主题特征向量进行分类处理; 判断是否存在所述主题特征向量所属的类型;若是,则将所述网页标注为所述主题特征向 量所属的类型;若否,则将所述网页标记为待标注网页;进一步地,对多个待标注网页进行 聚类处理;分析出每个聚类集合的类型;将待标注网页标注为其所属的聚类集合的类型。
[0006] 其中,基于网页的标题和正文,获得所述网页的主题特征向量,包括:分别提取网 页中的标题和正文;根据所述标题,构建标题特征向量;根据所述正文,构建正文特征向 量;将所述标题特征向量和所述正文特征向量拼接为所述主题特征向量。
[0007] 其中,根据所述标题构建网页标题特征向量,包括:利用预先构建的标题词典,对 所述标题进行分词处理,获得标题分词;将所述标题分词映射到所述标题词典中;基于所 述标题分词的加权值,对所述标题词典进行加权处理,构建出所述网页的标题特征向量。 [000引其中,根据所述正文构建网页正文特征向量,包括:利用预先构建的正文词典,对 所述正文进行分词处理,获得多个正文分词,并记录每个所述正文分词在所述正文中的出 现顺序;将多个所述正文分词分别映射到所述正文词典中;基于每个正文分词的加权值和 出现顺序,对所述正文词典进行加权处理,构建所述网页的正文特征向量。
[0009] 其中,利用预先训练获得的分类器,对所述主题特征向量进行分类处理,包括:预 先定义多种网页类型;所述分类器针对每种类型,对所述网页的主题特征向量进行一次评 分;将每种类型的对应的评分分值分别与预设的标注阔值进行比较;将大于所述标注阔值 的评分分值对应的类型,判定为所述主题特征向量所属的类型;其中,所述主题特征向量所 属的类型为一个或多个。
[0010] 其中,分析聚类集合的类型,包括:分别提取聚类集合中每个待标注网页的标题和 正文;利用预先构建的标题词典,对所有标题进行分词处理,获得多个标题分词;利用预先 构建的正文词典,对所有正文进行分词处理,获得多个正文分词;在多个所述标题分词和多 个所述正文分词中,获取出现频率最多的分词,W作为所述聚类集合的类型。
[0011] 本发明还提供了一种网页主题的标注装置,包括:获得模块,用于基于网页的标题 和正文,获得所述网页的主题特征向量;分类模块,用于利用预先训练获得的分类器,对所 述主题特征向量进行分类处理;判断模块,用于判断是否存在所述主题特征向量所属的类 型;标注模块,用于在所述判断模块判定存在所述主题特征向量所属的类型的情况下,将所 述网页标注为所述主题特征向量所属的类型;标记模块,用于在所述判断模块判定不存在 所述主题特征向量所属的类型的情况下,将所述网页标记为待标注网页;聚类模块,用于对 多个待标注网页进行聚类处理;分析模块,用于分析出每个聚类集合的类型;所述标注模 块,还用于将待标注网页标注为其所属的聚类集合的类型。
[0012] 其中,所述获得模块包括:提取单元,用于分别提取网页中的标题和正文;第一构 建单元,用于根据所述标题,构建标题特征向量;第二构建单元,用于根据所述正文,构建正 文特征向量;拼接单元,用于将所述标题特征向量和所述正文特征向量拼接为所述主题特 征向量。
[0013] 其中,所述第一构建单元具体用于;利用预先构建的标题词典,对所述标题进行分 词处理,获得标题分词;将所述标题分词映射到所述标题词典中;基于所述标题分词的加 权值,对所述标题词典进行加权处理,构建出所述网页的标题特征向量;所述第二构建单元 具体用于;利用预先构建的正文词典,对所述正文进行分词处理,获得多个正文分词,并记 录每个所述正文分词在所述正文中的出现顺序;将多个所述正文分词分别映射到所述正文 词典中;基于每个正文分词的加权值和出现顺序,对所述正文词典进行加权处理,构建所述 网页的正文特征向量。
[0014] 其中,分类模块具体用于:预先定义多种网页类型;调用所述分类器,W便使所述 分类器针对每种类型,对所述网页的主题特征向量进行一次评分;将每种类型的对应的评 分分值分别与预设的标注阔值进行比较;将大于所述标注阔值的评分分值对应的类型,判 定为所述主题特征向量所属的类型;其中,所述主题特征向量所属的类型为一个或多个; 分析模块具体用于;分别提取聚类集合中每个待标注网页的标题和正文;利用预先构建的 标题词典,对所有标题进行分词处理,获得多个标题分词;利用预先构建的正文词典,对所 有正文进行分词处理,获得多个正文分词;在多个所述标题分词和多个所述正文分词中,获 取出现频率最多的分词,W作为所述聚类集合的类型。本发明有益效果如下:
[0015] 本发明采用有监督的分类方法和无监督的聚类方法级联的方式,自动的从网页中 获取主题并标注网页,有效提高了网页主题标注的效率和准确性。
【附图说明】
[0016] 图1是根据本发明一实施例的网页主题的标注方法的流程图;
[0017] 图2是根据本发明另一实施例的网页主题的标注方法的流程图;
[0018] 图3是根据本发明一实施例的构建网页标题特征向量的步骤流程图;
[0019] 图4是根据本发明一实施例的构建网页正文特征向量的步骤流程图;
[0020] 图5是根据本发明一实施例的标题特征向量和正文特征向量的拼接示意图;
[0021] 图6是根据本发明一实施例的对主题特征向量进行分类的步骤流程图;
[0022] 图7是根据本发明一实施例的网页主题的标注装置的结构图;
[0023] 图8是根据本发明一实施例的获取模块的结构图。
【具体实施方式】
[0024]W下结合附图W及实施例,对本发明进行进一步详细说明。应当理解,此处所描述 的具体实施例仅仅用W解释本发明,并不限定本发明。
[0025] 本实施例提供了一种网页主题的标注方法,如图1所示,为根据本发明一实施例 的网页主题的标注方法的流程图。本实施例是针对每个网页执行的步骤。
[0026]步骤S110,基于网页的标题和正文,获得该网页的主题特征向量。
[0027] 由于网页标题和正文的长度、语言风格不同,本实施例分
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1