一种网页主题的标注方法和装置的制造方法_2

文档序号：8905268阅读：来源：国知局

别提取网页中的标题和正文；根据标题，构建标题特征向量；根据正文，构建正文特征向量；将标题特征向量和正文特征向量拼接成网页的主题特征向量。其中，标题特征向量和正文特征向量都包含用于体现网页的主题的词语向量。
[002引采用不同的词典，分别构造特征向量，该样可W更准确地描述网页内容，进而提高网页主题标注的准确性。
[0029] 步骤S120,利用预先训练获得的分类器，对该主题特征向量进行分类处理。
[0030] 分类器用于对主题特征向量进行分类，确定主题特征向量的类型。主题特征向量能够体现网页主题，那么确定主题特征向量的类型也即是确定网页的类型。该类型包括：新闻类、经济类、娱乐类、科技类等。
[0031] 为了提高网页分类的准确性，本实施例采用有监督的分类方法，分类器是利用预先准备的分类标注体系和训练数据，通过训练获得的。
[0032] 分类标注体系是指预先定义的多种网页类型。例如；新闻类、经济类、娱乐类、科技类。训练数据包括；基于分类标注体系，已经被分析出类型的多个网页。基于分类标注体系和训练数据，采用支持向量机SVM来训练分类器。
[003引步骤S130,判断是否存在该主题特征向量所属的类型。若是，则执行步骤S140;若否，则执行步骤S150。
[0034] 根据分类器的分类处理结果，判断是否存在该主题特征向量所属的类型。如果存在主题特征向量所属的类型，则该分类处理结果为主题特征向量所属的类型；如果不存在主题特征向量所属的类型，则该分类处理结果为空值。
[0035] 步骤S140,将该网页标注为该主题特征向量所属的类型。
[0036] 步骤S150,将该网页标记为待标注网页。
[0037] 对于分类器能够确定类型的网页，标注相应的类别。对于分类器不能够确定类型的网页，放入待标注网页集合中，使用后续的方法进行处理，W便保证网页标注的准确性。 [003引如图2所示，为根据本发明另一实施例的网页主题的标注方法的流程图。本实施例是针对待标注网页进行的处理。
[0039] 步骤S210,对多个待标注网页进行聚类处理。
[0040] 每个预设时间段，确定被标记为待标注网页的网页数量，如果该网页数量大于预设的数量阔值，则对待标注网页进行聚类处理，如果该网页数量小于等于数量阔值，则间隔预设时间段，再次进行网页数量确定。
[004U 本实施例采用无监督的聚类方法，因此，在进行聚类处理时，利用预先设置的相似度算法，例如，采用kmeans算法，对多个待标注网页进行两两之间的相似度计算，将相似度大于预设的相似度阔值的两个待标注网页划分到同一聚类集合中。
[0042] 步骤S220,分析出每个聚类集合的类型。
[0043] 可W采用canopy算法，来分析出每个聚类集合的类型。
[0044] 在一个实施例中，针对每个聚类集合可W执行如下步骤：分别提取聚类集合中每个待标注网页的标题和正文；利用标题词典，对所有标题进行分词处理，获得多个标题分词；利用正文词典，对所有正文进行分词处理，获得多个正文分词；在多个标题分词和多个正文分词中，获取出现频率最多的分词，W作为该聚类集合的类型。其中，出现频率最多的分词可W是标题分词、也可W是正文分词。
[0045] 步骤S230,将待标注网页标注为其所属的聚类集合的类型。
[0046] 换言之，聚类集合的类型是什么，则类型就是什么，该聚类集合中的待标注网页的标注就是什么。
[0047] 在一个实施例中，每隔一段时间，利用聚类结果，对分类器进行再次训练，W便增加分类的精准度。进一步地，在标注完成后，可W将该通过聚类获得的新的类型、及该新的类型的网页添加到分类标注体系和训练数据中。进而可W增加对新的类型、及该新的类型的网页进行训练。
[0048] 通过分类器和聚类处理相结合的方式来确定网页的类型，可W提高网页标注的准确性和标准效率。
[0049] 针对步骤S110而言，
[0化0] 图3为根据本发明一实施例的构建网页标题特征向量的步骤流程图。
[0化1] 步骤S310,预先构建标题词典。
[0化2] 步骤1，收集网页的标题，形成标题语料库。
[0053] 步骤2,对标题语料库中的标题文本进行分词，仅保留分词结果中符合条件的词语。例如，该分词结果具有实际意义。可W利用预设的分词算法，分词算法通常包含一个词典，该词典将标题文本划分成一个或多个分词词语。
[0054] 步骤3,计算被保留的词语的IDF(Inve;rtedDocumentRrequen巧）值，并将IDF值大于预设第一IDF阔值的词语组成标题词典。IDF值越大的词语代表性越强，IDF值越小的词语代表性越弱。
[0055] 词语W的IDF值的计算方式如下式所示：
[0056]
(1.1)
[0057] 式（1. 1)中，N表示整个语料库收集的标题的数量，叫表示出现过词语W的标题数量。log表示对数，其底数取10或者e，具体根据需求确定。
[0化引步骤S320,利用标题词典，对标题进行分词处理，获得标题分词。
[0化9] 利用标题词典中的词语，对标题进行分词处理，获得一个或多个标题分词。
[0060] 步骤S330,将标题分词映射到标题词典中。
[0061] 将多个标题分词分别映射到标题词典中。进一步地，标题词典中包括多个词语；在标题分词和标题词典中的词语之间建立映射关系。其中，存在映射关系的标题分词和词语相同。
[0062] 在映射关系建立之后，可W获得一个长度等于标题词典长度的向量，向量的维数等于标题词典中词语的数量，每个维度对应词典中的一个词语。
[0063] 步骤S340,基于标题分词的加权值，对标题词典进行加权处理，构建出网页的标题特征向量。
[0064] 对标题词典进行加权处理，也即是对上述长度等于标题词典长度的向量进行加权处理。对于标题词典中存在映射关系的词语，即向量中与标题分词存在映射关系的词语，使用TFIDF(termfrequen巧-inversedo州mentfrequency)值加权，加权后获得的向量即为标题特征向量。其中，TFIDF是一种用于资讯检索与资讯勘探的常用加权技术。
[0065] 在加权时，向量的每个维度的取值为该维度对应的词语在该标题中的TFIDF值。词语W的TFIDF值的计算方式如下式所示：
[0066]
(1.2)
[0067] 式（1.。中，IDF值的计算同（1. 1)式，TF值表示词语W在当前标题中出现的频率，C，表示词语W在当前标题中出现的次数，C表示当前标题词语（分词）的个数。
[0068] 图4为根据本发明一实施例的构建网页正文特征向量的步骤流程图。
[0069] 步骤S410,预先构建的正文词典。
[0070] 收集正文内容为正文语料库，通过对正文语料库中的正文文本进行分词，仅保留分词结果中符合条件的词语，如；有实际意义的词语；计算被保留的词语的IDF值；将IDF 值大于预设第二IDF阔值的词语组成正文词典。正文词典的构建方式与标题词典的构建相同。IDF值的计算参考式（1.1)。<

完整全部详细技术资料下载

当前第2页1 2 3 4