一种网页主题的标注方法和装置的制造方法_4

文档序号:8905268阅读:来源:国知局
构建单元713用于;利用预先构建的正文词典,对正文进行分词处理,获得多 个正文分词,并记录每个正文分词在正文中的出现顺序;将多个正文分词分别映射到正文 词典中;基于每个正文分词的加权值和出现顺序,对正文词典进行加权处理,构建网页的正 文特征向量。
[0111] 在另一实施例中,分类模块720具体用于;预先定义多种网页类型;调用分类器, W便使分类器针对每种类型,对网页的主题特征向量进行一次评分;将每种类型的对应的 评分分值分别与预设的标注阔值进行比较;将大于标注阔值的评分分值对应的类型,判定 为主题特征向量所属的类型;其中,主题特征向量所属的类型为一个或多个。
[0112] 在又一实施例中,分析模块770具体用于:分别提取聚类集合中每个待标注网页 的标题和正文;利用预先构建的标题词典,对所有标题进行分词处理,获得多个标题分词; 利用预先构建的正文词典,对所有正文进行分词处理,获得多个正文分词;在多个标题分词 和多个正文分词中,获取出现频率最多的分词,W作为聚类集合的类型。
[0113] 本实施例所述的装置的功能已经在图1-图6所示的方法实施例中进行了描述,故 本实施例的描述中未详尽之处,可W参见前述实施例中的相关说明,在此不做寶述。
[0114] 尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到 各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。
【主权项】
1. 一种网页主题的标注方法,其特征在于,包括: 基于网页的标题和正文,获得所述网页的主题特征向量; 利用预先训练获得的分类器,对所述主题特征向量进行分类处理; 判断是否存在所述主题特征向量所属的类型; 若是,则将所述网页标注为所述主题特征向量所属的类型; 若否,则将所述网页标记为待标注网页;进一步地,对多个待标注网页进行聚类处理; 分析出每个聚类集合的类型;将待标注网页标注为其所属的聚类集合的类型。2. 如权利要求1所述的方法,其特征在于,基于网页的标题和正文,获得所述网页的主 题特征向量,包括: 分别提取网页中的标题和正文; 根据所述标题,构建标题特征向量; 根据所述正文,构建正文特征向量; 将所述标题特征向量和所述正文特征向量拼接为所述主题特征向量。3. 如权利要求2所述的方法,其特征在于,根据所述标题构建网页标题特征向量,包 括: 利用预先构建的标题词典,对所述标题进行分词处理,获得标题分词; 将所述标题分词映射到所述标题词典中; 基于所述标题分词的加权值,对所述标题词典进行加权处理,构建出所述网页的标题 特征向量。4. 如权利要求2所述的方法,其特征在于,根据所述正文构建网页正文特征向量,包 括: 利用预先构建的正文词典,对所述正文进行分词处理,获得多个正文分词,并记录每个 所述正文分词在所述正文中的出现顺序; 将多个所述正文分词分别映射到所述正文词典中; 基于每个正文分词的加权值和出现顺序,对所述正文词典进行加权处理,构建所述网 页的正文特征向量。5. 如权利要求1所述的方法,其特征在于,利用预先训练获得的分类器,对所述主题特 征向量进行分类处理,包括: 预先定义多种网页类型; 所述分类器针对每种类型,对所述网页的主题特征向量进行一次评分; 将每种类型的对应的评分分值分别与预设的标注阈值进行比较; 将大于所述标注阈值的评分分值对应的类型,判定为所述主题特征向量所属的类型; 其中,所述主题特征向量所属的类型为一个或多个。6. 如权利要求1所述的方法,其特征在于,分析聚类集合的类型,包括: 分别提取聚类集合中每个待标注网页的标题和正文; 利用预先构建的标题词典,对所有标题进行分词处理,获得多个标题分词; 利用预先构建的正文词典,对所有正文进行分词处理,获得多个正文分词; 在多个所述标题分词和多个所述正文分词中,获取出现频率最多的分词,以作为所述 聚类集合的类型。7. -种网页主题的标注装置,其特征在于,包括: 获得模块,用于基于网页的标题和正文,获得所述网页的主题特征向量; 分类模块,用于利用预先训练获得的分类器,对所述主题特征向量进行分类处理; 判断模块,用于判断是否存在所述主题特征向量所属的类型; 标注模块,用于在所述判断模块判定存在所述主题特征向量所属的类型的情况下,将 所述网页标注为所述主题特征向量所属的类型; 标记模块,用于在所述判断模块判定不存在所述主题特征向量所属的类型的情况下, 将所述网页标记为待标注网页; 聚类模块,用于对多个待标注网页进行聚类处理; 分析模块,用于分析出每个聚类集合的类型; 所述标注模块,还用于将待标注网页标注为其所属的聚类集合的类型。8. 如权利要求7所述的装置,其特征在于,所述获得模块包括: 提取单元,用于分别提取网页中的标题和正文; 第一构建单元,用于根据所述标题,构建标题特征向量; 第二构建单元,用于根据所述正文,构建正文特征向量; 拼接单元,用于将所述标题特征向量和所述正文特征向量拼接为所述主题特征向量。9. 如权利要求8所述的装置,其特征在于, 所述第一构建单元具体用于: 利用预先构建的标题词典,对所述标题进行分词处理,获得标题分词; 将所述标题分词映射到所述标题词典中; 基于所述标题分词的加权值,对所述标题词典进行加权处理,构建出所述网页的标题 特征向量; 所述第二构建单元具体用于: 利用预先构建的正文词典,对所述正文进行分词处理,获得多个正文分词,并记录每个 所述正文分词在所述正文中的出现顺序; 将多个所述正文分词分别映射到所述正文词典中; 基于每个正文分词的加权值和出现顺序,对所述正文词典进行加权处理,构建所述网 页的正文特征向量。10. 如权利要求7所述的装置,其特征在于, 分类模块具体用于: 预先定义多种网页类型;调用所述分类器,以便使所述分类器针对每种类型,对所述网 页的主题特征向量进行一次评分; 将每种类型的对应的评分分值分别与预设的标注阈值进行比较; 将大于所述标注阈值的评分分值对应的类型,判定为所述主题特征向量所属的类型; 其中,所述主题特征向量所属的类型为一个或多个; 分析模块具体用于: 分别提取聚类集合中每个待标注网页的标题和正文; 利用预先构建的标题词典,对所有标题进行分词处理,获得多个标题分词; 利用预先构建的正文词典,对所有正文进行分词处理,获得多个正文分词;
【专利摘要】本发明公开了一种网页主题的标注方法和装置。所述方法包括:基于网页的标题和正文,获得所述网页的主题特征向量;利用预先训练获得的分类器,对所述主题特征向量进行分类处理;判断是否存在所述主题特征向量所属的类型;若是,则将所述网页标注为所述主题特征向量所属的类型;若否,则将所述网页标记为待标注网页;进一步地,对多个待标注网页进行聚类处理;分析出每个聚类集合的类型;将待标注网页标注为其所属的聚类集合的类型。本发明采用有监督的分类方法和无监督的聚类方法级联的方式,自动的从网页中获取主题并标注网页,有效提高了网页主题标注的效率和准确性。
【IPC分类】G06F17/30
【公开号】CN104881458
【申请号】CN201510266108
【发明人】李扬曦, 杜翠兰, 李睿, 佟玲玲, 翟羽佳, 王晶, 刘洋, 秦韬, 付戈
【申请人】国家计算机网络与信息安全管理中心
【公开日】2015年9月2日
【申请日】2015年5月22日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1