一种网页主题的标注方法和装置的制造方法_2

文档序号:8905268阅读:来源:国知局
别提取网页中的标题和 正文;根据标题,构建标题特征向量;根据正文,构建正文特征向量;将标题特征向量和正 文特征向量拼接成网页的主题特征向量。其中,标题特征向量和正文特征向量都包含用于 体现网页的主题的词语向量。
[002引采用不同的词典,分别构造特征向量,该样可W更准确地描述网页内容,进而提高 网页主题标注的准确性。
[0029] 步骤S120,利用预先训练获得的分类器,对该主题特征向量进行分类处理。
[0030] 分类器用于对主题特征向量进行分类,确定主题特征向量的类型。主题特征向量 能够体现网页主题,那么确定主题特征向量的类型也即是确定网页的类型。该类型包括:新 闻类、经济类、娱乐类、科技类等。
[0031] 为了提高网页分类的准确性,本实施例采用有监督的分类方法,分类器是利用预 先准备的分类标注体系和训练数据,通过训练获得的。
[0032] 分类标注体系是指预先定义的多种网页类型。例如;新闻类、经济类、娱乐类、科技 类。训练数据包括;基于分类标注体系,已经被分析出类型的多个网页。基于分类标注体系 和训练数据,采用支持向量机SVM来训练分类器。
[003引步骤S130,判断是否存在该主题特征向量所属的类型。若是,则执行步骤S140;若 否,则执行步骤S150。
[0034] 根据分类器的分类处理结果,判断是否存在该主题特征向量所属的类型。如果存 在主题特征向量所属的类型,则该分类处理结果为主题特征向量所属的类型;如果不存在 主题特征向量所属的类型,则该分类处理结果为空值。
[0035] 步骤S140,将该网页标注为该主题特征向量所属的类型。
[0036] 步骤S150,将该网页标记为待标注网页。
[0037] 对于分类器能够确定类型的网页,标注相应的类别。对于分类器不能够确定类型 的网页,放入待标注网页集合中,使用后续的方法进行处理,W便保证网页标注的准确性。 [003引如图2所示,为根据本发明另一实施例的网页主题的标注方法的流程图。本实施 例是针对待标注网页进行的处理。
[0039] 步骤S210,对多个待标注网页进行聚类处理。
[0040] 每个预设时间段,确定被标记为待标注网页的网页数量,如果该网页数量大于预 设的数量阔值,则对待标注网页进行聚类处理,如果该网页数量小于等于数量阔值,则间隔 预设时间段,再次进行网页数量确定。
[004U 本实施例采用无监督的聚类方法,因此,在进行聚类处理时,利用预先设置的相似 度算法,例如,采用kmeans算法,对多个待标注网页进行两两之间的相似度计算,将相似度 大于预设的相似度阔值的两个待标注网页划分到同一聚类集合中。
[0042] 步骤S220,分析出每个聚类集合的类型。
[0043] 可W采用canopy算法,来分析出每个聚类集合的类型。
[0044] 在一个实施例中,针对每个聚类集合可W执行如下步骤:分别提取聚类集合中每 个待标注网页的标题和正文;利用标题词典,对所有标题进行分词处理,获得多个标题分 词;利用正文词典,对所有正文进行分词处理,获得多个正文分词;在多个标题分词和多个 正文分词中,获取出现频率最多的分词,W作为该聚类集合的类型。其中,出现频率最多的 分词可W是标题分词、也可W是正文分词。
[0045] 步骤S230,将待标注网页标注为其所属的聚类集合的类型。
[0046] 换言之,聚类集合的类型是什么,则类型就是什么,该聚类集合中的待标注网页的 标注就是什么。
[0047] 在一个实施例中,每隔一段时间,利用聚类结果,对分类器进行再次训练,W便增 加分类的精准度。进一步地,在标注完成后,可W将该通过聚类获得的新的类型、及该新的 类型的网页添加到分类标注体系和训练数据中。进而可W增加对新的类型、及该新的类型 的网页进行训练。
[0048] 通过分类器和聚类处理相结合的方式来确定网页的类型,可W提高网页标注的准 确性和标准效率。
[0049] 针对步骤S110而言,
[0化0] 图3为根据本发明一实施例的构建网页标题特征向量的步骤流程图。
[0化1] 步骤S310,预先构建标题词典。
[0化2] 步骤1,收集网页的标题,形成标题语料库。
[0053] 步骤2,对标题语料库中的标题文本进行分词,仅保留分词结果中符合条件的词 语。例如,该分词结果具有实际意义。可W利用预设的分词算法,分词算法通常包含一个词 典,该词典将标题文本划分成一个或多个分词词语。
[0054] 步骤3,计算被保留的词语的IDF(Inve;rtedDocumentRrequen巧)值,并将IDF值 大于预设第一IDF阔值的词语组成标题词典。IDF值越大的词语代表性越强,IDF值越小的 词语代表性越弱。
[0055] 词语W的IDF值的计算方式如下式所示:
[0056]
(1.1)
[0057] 式(1. 1)中,N表示整个语料库收集的标题的数量,叫表示出现过词语W的标题数 量。log表示对数,其底数取10或者e,具体根据需求确定。
[0化引步骤S320,利用标题词典,对标题进行分词处理,获得标题分词。
[0化9] 利用标题词典中的词语,对标题进行分词处理,获得一个或多个标题分词。
[0060] 步骤S330,将标题分词映射到标题词典中。
[0061] 将多个标题分词分别映射到标题词典中。进一步地,标题词典中包括多个词语;在 标题分词和标题词典中的词语之间建立映射关系。其中,存在映射关系的标题分词和词语 相同。
[0062] 在映射关系建立之后,可W获得一个长度等于标题词典长度的向量,向量的维数 等于标题词典中词语的数量,每个维度对应词典中的一个词语。
[0063] 步骤S340,基于标题分词的加权值,对标题词典进行加权处理,构建出网页的标题 特征向量。
[0064] 对标题词典进行加权处理,也即是对上述长度等于标题词典长度的向量进行加权 处理。对于标题词典中存在映射关系的词语,即向量中与标题分词存在映射关系的词语,使 用TFIDF(termfrequen巧-inversedo州mentfrequency)值加权,加权后获得的向量即 为标题特征向量。其中,TFIDF是一种用于资讯检索与资讯勘探的常用加权技术。
[0065] 在加权时,向量的每个维度的取值为该维度对应的词语在该标题中的TFIDF值。 词语W的TFIDF值的计算方式如下式所示:
[0066]
(1.2)
[0067] 式(1.。中,IDF值的计算同(1. 1)式,TF值表示词语W在当前标题中出现的频 率,C,表示词语W在当前标题中出现的次数,C表示当前标题词语(分词)的个数。
[0068] 图4为根据本发明一实施例的构建网页正文特征向量的步骤流程图。
[0069] 步骤S410,预先构建的正文词典。
[0070] 收集正文内容为正文语料库,通过对正文语料库中的正文文本进行分词,仅保留 分词结果中符合条件的词语,如;有实际意义的词语;计算被保留的词语的IDF值;将IDF 值大于预设第二IDF阔值的词语组成正文词典。正文词典的构建方式与标题词典的构建相 同。IDF值的计算参考式(1.1)。<
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1