一种网页主题的标注方法和装置的制造方法_3

文档序号:8905268阅读:来源:国知局
br>[007U 步骤S420,利用构建的正文词典,对正文进行分词处理,获得多个正文分词,并记 录每个正文分词在正文中的出现顺序。
[0072] 利用正文词典中的词语,对正文进行分词;按照正文从前向后的顺序,记录每个分 词(词语)的出现顺序,第一个出现的分词记为1,第二个出现的分词记为2,W此类推,重 复出现的分词不记录。
[0073] 步骤S430,将多个正文分词分别映射到正文词典中。
[0074] 网页的正文倾向于利用开头简短的文字突出主题、吸引眼球,即重要的词语倾向 于出现在正文的前面。
[0075] 正文词典中包括多个词语;在正文分词和正文词典中的词语之间建立映射关系。 其中,存在映射关系的正文分词和词语相同。
[0076] 在映射关系建立之后,可W获得一个长度等于正文词典长度的向量,向量的维数 等于正文词典中词语的数量,每个维度对应词典中的一个词语。
[0077] 步骤S440,基于每个正文分词的加权值和出现顺序,对正文词典进行加权处理,构 建网页的正文特征向量。
[007引对正文词典进行加权处理,也即是对上述长度等于正文词典长度的向量进行加权 处理。对于正文词典中存在映射关系的词语,即向量中与正文分词存在映射关系的词语,使 用TFIDF值和映射的正文分词的出现顺序加权,加权后获得的向量即为正文特征向量。正 文特征向量的每个维度对应词典中的一个词语,每个维度的取值为根据该维度对应的词语 在该正文中的出现顺序、W及该词语的TFIDF值,获得的权重值wei曲t":
[0079]
(1.3)
[0080] 式(1.扣中,wei曲tz,(w)表示正文特征向量中词语W的权重值(维度取值), rank(w)为W在正文中出现的顺序号,E,ewrank(w)为所有词语顺序号的总和,TFIDF(w) 可W参考式(1.2),将与标题相关的描述更换为正文相关的描述即可。采用上述方法可W获 得正文特征向量。式(1.3)中词语的符号采用与式(1.2)中词语的符号一致,都使用W,仅 为方便理解式(1.3)中TFIDF(w)的计算过程。
[0081] 一般而言,标题使用简短的语句标明了网页的内容、主题。因此,标题较短、正文较 长,本实施例考虑到标题特征向量的长度通常小于正文特征向量的长度,但标题特征向量 的重要性却大于正文特征向量,本实施例提出将标题特征向量和正文特征向量采用加权的 方式拼接成表达该网页主题的特征向量,即主题特征向量。例如附图5所示的拼接方式。通 过本实施例可W避免造成标题特征向量、正文特征向量在学习中发挥作用失衡的偏差。
[0082] 在拼接之前,对于标题特征向量中的词语W的维度取值TFIDF(w)值,使用标题权 重Wbt进行加权,即;
[008引 wei曲tbt(W) =Wbt*TFIDF(W) (1.4)
[0084] 在拼接之前,对于正文特征向量中的词语的维度取值不使用权重值。
[0085] 在拼接时,将加权后的标题特征向量和未加权的正文特征向量进行拼接。本实施 例采用首尾相接的方式进行拼接,组成一个长度等于标题特征向量和正文特征向量之和的 向量,其中,加权后的标题特征向量位于未加权的正文特征向量的前面。
[0086] 本实施例采用网格捜索的方式获得Wbt,Wbt的选择范围参考式(1.5)。在每个Wbt 下,分类器对训练数据进行交叉验证,计算分类正确率,取最高正确率对应的Wbt作为最终 使用的Wbt值。
[0087]
(1.5)
[008引式(1. 5)中,Nbt表示标题特征向量的维数,N"表示正文特征向量维数。
[0089] 针对步骤S120具体而言,
[0090] 图6为根据本发明一实施例的对主题特征向量进行分类的步骤流程图。
[0091] 步骤S610,分类器针对每种类型,对网页的主题特征向量进行一次评分。
[009引每种类型,网页的主题特征向量都有一个评分分值。目P,如果有多种类型,则有多 个评分分值。评分分值用于衡量网页是否符合该评分分值对应的类型。
[0093] 分类器包括多个分类器函数,每个分类器函数对应一个类型;将主题特征向量分 别代入各个分类器函数,就可W得到每个类型的评分分值。
[0094] 例如,a= [al,a2,a3]为分类器,y=al*xl+a2*x2+a3*x3为新闻类分类器函数; 当然还可W有其他类型的分类器函数;将标题特征向量代入新闻类分类器函数,可W得到 y值,即评分分值,当该评分分值大于0时,表示标题特征向量对应的网页为新闻类,反之不 是新闻类;假设a= [1,-2, 3],将维度为3的标题特征向量x= [1,2, 3]代入新闻类分类 器函数,可W得到y=6,那么y〉0,标题特征向量X= [1,2,3]对应的网页是新闻网页。
[0095] 步骤S620,将每种类型的对应的评分分值分别与预设的标注阔值进行比较。
[0096] 步骤S630,将大于标注阔值的评分分值对应的类型,判定为主题特征向量所属的 类型;其中,所述主题特征向量所属的类型为一个或多个。
[0097] 具体的,可W按照值从大到小的顺序,对多个评分分值进行排序;判断最大的评 分分值是否大于预设的标注阔值,若是,则将网页标注为该最大的评分分值对应的类型,若 否,则将网页标记为待标注网页;然后,判断大小仅次于最大的评分分值是否大于预设的标 注阔值,若是,则将网页标注为该大小仅次于最大的评分分值对应的类型,若否,则将网页 标记为待标注网页;W此类推,直至每个评分分值都和标注阔值进行过比较。
[009引本发明还提供了一种网页主题的标注装置,如图7所示,为根据本发明一实施例 的网页主题的标注装置的结构图。
[0099] 该装置包括;
[0100] 获得模块710,用于基于网页的标题和正文,获得网页的主题特征向量。
[0101] 分类模块720,用于利用预先训练获得的分类器,对主题特征向量进行分类处理。
[0102] 判断模块730,用于判断是否存在主题特征向量所属的类型。
[0103] 标注模块740,用于在判断模块判定存在主题特征向量所属的类型的情况下,将网 页标注为主题特征向量所属的类型。
[0104] 标记模块750,用于在判断模块判定不存在主题特征向量所属的类型的情况下,将 网页标记为待标注网页。
[01化]聚类模块760,用于对多个待标注网页进行聚类处理。
[0106] 分析模块770,用于分析出每个聚类集合的类型。
[0107] 标注模块780,还用于将待标注网页标注为其所属的聚类集合的类型。
[0108] 在一个实施例中,获得模块710包括;提取单元711,用于分别提取网页中的标题 和正文;第一构建单元712,用于根据标题,构建标题特征向量;第二构建单元713,用于根 据正文,构建正文特征向量;拼接单元714,用于将标题特征向量和正文特征向量拼接为主 题特征向量。如图8所示。
[0109] 第一构建单元712用于;利用预先构建的标题词典,对标题进行分词处理,获得标 题分词;将标题分词映射到标题词典中;基于标题分词的加权值,对标题词典进行加权处 理,构建出网页的标题特征向量。
[0110] 第二
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1