一种获取信息类别的方法和装置的制造方法_5

文档序号:9547189阅读:来源:国知局
的兴趣度。3.如权利要求2所述的方法,其特征在于,所述根据所述浏览记录,确定所述用户浏览的网页属于的信息类别,包括: 根据所述用户浏览的网页的网页标识,获取所述网页对应的第一特征词集合,所述第一特征词集合用于存储所述网页包括的特征词; 计算所述第一特征词集合与信息类别和第二特征词集合的对应关系中的每个第二特征词集合之间的匹配度; 选择与所述第一特征词集合之间的匹配度最大的第二特征词集合; 将所述选择的第二特征词集合对应的信息类别确定为所述网页属于的信息类别。4.如权利要求3所述的方法,其特征在于,所述根据所述用户浏览的网页的网页标识,获取所述网页对应的第一特征词集合,包括: 根据所述用户浏览的网页的网页标识,获取所述网页包括的网页内容; 对所述网页内容进行分词,得到所述网页内容包括的分词; 从所述网页内容包括的分词中去除满足第一预设词性的分词,将剩下的分词作为所述网页包括的特征词并组成所述网页对应的第一特征词集合。5.如权利要求3所述的方法,其特征在于,所述计算所述第一特征词集合与信息类别和第二特征词集合的对应关系中的每个第二特征词集合之间的匹配度,包括: 获取信息类别和第二特征词集合的对应关系中的第二特征词集合; 计算所述第一特征词集合中包括的每个特征词分别与所述获取的第二特征词集合中包括的每个特征词之间的匹配度; 计算所述第一特征词集合中包括的每个特征词分别与所述获取的第二特征词集合中包括的每个特征词之间的匹配度的平均值,将所述平均值作为所述第一特征词集合与所述获取的第二特征词集合之间的匹配度。6.如权利要求3所述的方法,其特征在于,所述方法还包括: 将所述第一特征词集合中包括的特征词添加到所述选择的第二特征词集合中。7.如权利要求1所述的方法,其特征在于,所述方法还包括: 将所述用户的用户标识和所述用户感兴趣度的信息类别存储在用户标识与信息类别的对应关系中。8.一种获取信息类别的方法,其特征在于,所述方法包括: 获取用户浏览网页的浏览记录,所述浏览记录至少包括所述用户浏览的网页的网页标识; 根据所述用户浏览的网页的网页标识,获取所述网页对应的第一特征词集合,所述网页对应的第一特征词集合用于存储所述网页包括的特征词; 根据所述网页对应的第一特征词集合与信息类别和第二特征词集合的对应关系,获取所述网页属于的信息类别; 统计各信息类别包括的网页数目; 将所述各信息类别包括的网页数目分别确定为所述用户对所述各信息类别的兴趣度; 获取兴趣度满足第二预设条件的信息类别,并将所述获取的信息类别作为所述用户感兴趣的信息类别。9.如权利要求8所述的方法,其特征在于,所述根据所述用户浏览的网页的网页标识,获取所述网页对应的第一特征词集合之前,所述方法还包括: 去除所述浏览记录中包括的重复的网页标识。10.如权利要求8所述的方法,其特征在于,所述根据所述网页对应的第一特征词集合与信息类别和第二特征词集合的对应关系,获取所述网页属于的信息类别,包括: 计算所述网页对应的第一特征词集合与信息类别和第二特征词集合的对应关系中的每个第二特征词集合之间的匹配度; 选择与所述第一特征词集合之间的匹配度最大的第二特征词集合; 将所述选择的第二特征词集合对应的信息类别确定为所述网页属于的信息类别。11.如权利要求8所述的方法,其特征在于,所述方法还包括: 将所述用户的用户标识和所述用户感兴趣度的信息类别存储在用户标识与信息类别的对应关系中。12.一种获取信息类别的装置,其特征在于,所述装置包括: 第一获取模块,用于获取用户浏览网页的浏览记录,所述浏览记录至少包括所述用户浏览的网页的网页标识; 第二获取模块,用于根据所述浏览记录获取所述用户对各信息类别的兴趣度; 第三获取模块,用于获取兴趣度满足第一预设条件的信息类别,并将所述获取的信息类别作为所述用户感兴趣的信息类别。13.如权利要求12所述的装置,其特征在于,所述第二获取模块,包括: 第一确定单元,用于根据所述浏览记录,确定所述用户浏览的网页属于的信息类别; 统计单元,用于统计各信息类别包括的网页数目; 第二确定单元,用于将所述各信息类别包括的网页数目分别确定为所述用户对所述各信息类别的兴趣度。14.如权利要求13所述的装置,其特征在于,所述第一确定单元,包括: 获取子单元,用于根据所述用户浏览的网页的网页标识,获取所述网页对应的第一特征词集合,所述第一特征词集合用于存储所述网页包括的特征词; 计算子单元,用于计算所述第一特征词集合与信息类别和第二特征词集合的对应关系中的每个第二特征词集合之间的匹配度; 选择子单元,用于选择与所述第一特征词集合之间的匹配度最大的第二特征词集合;确定子单元,用于将所述选择的第二特征词集合对应的信息类别确定为所述网页属于的信息类别。15.如权利要求14所述的装置,其特征在于, 所述获取子单元,用于根据所述用户浏览的网页的网页标识,获取所述网页包括的网页内容,对所述网页内容进行分词,得到所述网页内容包括的分词,从所述网页内容包括的分词中去除满足第一预设词性的分词,将剩下的分词作为所述网页包括的特征词并组成所述网页对应的第一特征词集合。16.如权利要求14所述的装置,其特征在于, 所述计算子单元,用于获取信息类别和第二特征词集合的对应关系中的第二特征词集合,计算所述第一特征词集合中包括的每个特征词分别与所述获取的第二特征词集合中包括的每个特征词之间的匹配度,计算所述第一特征词集合中包括的每个特征词分别与所述获取的第二特征词集合中包括的每个特征词之间的匹配度的平均值,将所述平均值作为所述第一特征词集合与所述获取的第二特征词集合之间的匹配度。17.如权利要求14所述的装置,其特征在于,所述装置还包括: 添加模块,用于将所述第一特征词集合中包括的特征词添加到所述选择的第二特征词^ 由口 卞 ο18.如权利要求12所述的装置,其特征在于,所述装置还包括: 第一存储模块,用于将所述用户的用户标识和所述用户感兴趣度的信息类别存储在用户标识与信息类别的对应关系中。19.一种获取信息类别的装置,其特征在于,所述装置包括: 第四获取模块,用于获取用户浏览网页的浏览记录,所述浏览记录至少包括所述用户浏览的网页的网页标识; 第五获取模块,用于根据所述用户浏览的网页的网页标识,获取所述网页对应的第一特征词集合,所述网页对应的第一特征词集合用于存储所述网页包括的特征词; 第六获取模块,用于根据所述网页对应的第一特征词集合与信息类别和第二特征词集合的对应关系,获取所述网页属于的信息类别; 统计模块,用于统计各信息类别包括的网页数目; 确定模块,用于将所述各信息类别包括的网页数目分别确定为所述用户对所述各信息类别的兴趣度; 第七获取模块,用于获取兴趣度满足第二预设条件的信息类别,并将所述获取的信息类别作为所述用户感兴趣的信息类别。20.如权利要求19所述的装置,其特征在于,所述装置还包括: 去除模块,用于去除所述浏览记录中包括的重复的网页标识。21.如权利要求19所述的装置,其特征在于,所述第六获取模块,包括: 计算单元,用于计算所述网页对应的第一特征词集合与信息类别和第二特征词集合的对应关系中的每个第二特征词集合之间的匹配度; 选择单元,用于选择与所述第一特征词集合之间的匹配度最大的第二特征词集合; 第三确定单元,用于将所述选择的第二特征词集合对应的信息类别确定为所述网页属于的信息类别。22.如权利要求19所述的装置,其特征在于,所述装置还包括: 第二存储模块,用于将所述用户的用户标识和所述用户感兴趣度的信息类别存储在用户标识与信息类别的对应关系中。
【专利摘要】本发明公开了一种获取信息类别的方法和装置,属于互联网领域。该方法包括:获取用户浏览网页的浏览记录,所述浏览记录至少包括所述用户浏览的网页的网页标识;根据所述浏览记录获取所述用户对各信息类别的兴趣度;获取兴趣度满足第一预设条件的信息类别,并将所述获取的信息类别作为所述用户感兴趣的信息类别。该装置包括:第一获取模块、第二获取模块和第三获取模块。本发明中服务器根据浏览记录获取用户对各信息类别的兴趣度,获取兴趣度满足第一预设条件的信息类别,并将获取的信息类别作为用户感兴趣的信息类别,从而能够提高获取用户感兴趣的信息类别的准确度。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105302807
【申请号】CN201410248127
【发明人】彭作杰, 汤见乐, 黄宇, 曾炜
【申请人】腾讯科技(深圳)有限公司
【公开日】2016年2月3日
【申请日】2014年6月6日
【公告号】WO2015185020A1
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1