一种网页信息处理方法及装置的制造方法_4

文档序号:8223550阅读:来源:国知局
时段,作为所述建 议访问天内时间。
16. 根据权利要求15所述的方法,其特征在于,根据所述第一景点在景点序列中的位 置及建议访问时长,统计所述第一景点分别在上午和下午的历史被访问次数,包括: 当所述第一景点在一个所述景点序列中排在第一位或第二位,且所述建议访问时长小 于预设值时,则将所述第一景点在上午的历史被访问次数加1 ; 当所述第一景点在一个所述景点序列中排在倒数第一位或倒数第二位时,则将所述第 一景点在下午的历史被访问次数加1。
17. 根据权利要求1-10任一项所述的方法,其特征在于,根据所述第一景点的描述信 息确定所述第一景点的类别之后,所述方法还包括: 对应存储所述第一景点的类别和描述信息。
18. -种网页信息处理装置,其特征在于,包括: 网页获取模块,用于获取原始网页; 信息提取模块,用于从所述原始网页中提取出第一景点的描述信息; 类别确定模块,用于根据所述第一景点的描述信息确定所述第一景点的类别。
19. 根据权利要求18所述的装置,其特征在于,所述装置还包括: 第一信息获取模块,用于在所述类别确定模块根据所述第一景点的描述信息确定所述 第一景点的类别之前,从所述原始网页中获取第二景点的类别信息和描述信息。
20. 根据权利要求19所述的装置,其特征在于,所述第一信息获取模块具体用于: 从所述原始网页中获取包含有所述第二景点的旅游路线信息,所述旅游路线信息包括 旅游路线及其标签; 统计所述第二景点出现在标注有标签的旅游路线中的次数; 根据统计的次数,将第一标签、第二标签和第=标签作为所述第二景点的类别,其中, 所述第二景点出现在标注有所述第一标签的旅游线路中的次数最多,出现在标注有所述第 二标签的旅游线路中的次数仅次于标注有所述第一标签的旅游线路,出现在标注有所述第 =标签的旅游线路中的次数仅次于标注有所述第一标签和第二标签的旅游线路。
21. 根据权利要求19所述的装置,其特征在于,所述类别确定模块具体用于: 根据所述第二景点的类别信息和描述信息W及所述第一景点的描述信息,确定所述第 一景点的类别。
22. 根据权利要求20所述的装置,其特征在于,所述类别确定模块包括: 第一训练子模块,用于利用所述第二景点的类别信息和描述信息训练贝叶斯分类器; 第一分类子模块,用于利用所述第一训练子模块训练后的贝叶斯分类器根据所述第一 景点的描述信息对所述第一景点进行分类。
23. 根据权利要求22所述的装置,其特征在于,所述第一训练子模块包括: 第一分词子模块,用于对所述第二景点的描述信息分词,得到训练描述词; 第一模型建立子模块,用于利用所述训练描述词,建立向量空间模型,其中,所述向量 空间模型包括行和列,所述行为所述第二景点的所有训练描述词,列为所述第二景点的不 同训练描述词; 第二训练子模块,用于利用所述向量空间模型训练贝叶斯分类器。
24. 根据权利要求23所述的装置,其特征在于,所述第一模型建立子模块具体用于: 根据词频-逆向文本频率tf-i壯算法将所述训练描述词去除一半; 利用剩余的训练描述词建立所述向量空间模型。
25. 根据权利要求22所述的装置,其特征在于,所述装置还包括: 第二信息获取模块,用于在所述第一分类子模块利用所述第一训练子模块训练后的贝 叶斯分类器根据所述第一景点的描述信息对所述第一景点进行分类之前,从所述原始网页 中获取第=景点的类别信息和描述信息; 验证模块,用于利用所述第S景点的类别信息和描述信息,对所述训练后的贝叶斯分 类器进行验证; 触发模块,用于在所述验证模块对所述训练后的贝叶斯分类器的验证通过后,触发所 述第一分类子模块利用所述训练后的贝叶斯分类器根据所述第一景点的描述信息对所述 第一景点进行分类。
26. 根据权利要求22所述的装置,其特征在于,所述第一分类子模块包括: 第二分词子模块,用于对所述第一景点的描述信息分词,得到分类描述词; 第二模型建立子模块,用于利用所述分类描述词,建立向量空间模型,其中,所述向量 空间模型包括行和列,所述行为所述第一景点的所有分类描述词,列为所述第一景点的不 同分类描述词; 第二分类子模块,用于利用所述训练后的贝叶斯分类器根据所述向量空间模型对所述 第一景点进行分类。
27. 根据权利要求22所述的装置,其特征在于,所述第一分类子模块具体用于: 将所述训练后的贝叶斯分类器根据所述第一景点的描述信息,得出的第一类别、第二 类别和第=类别作为所述第一景点的类别,其中,所述第一类别的后验概率值最大,所述第 二类别的后验概率值仅次于所述第一类别,所述第=类别的后验概率值仅次于所述第一类 别和第二类别。
28. 根据权利要求18-27任一项所述的装置,其特征在于,所述装置还包括: 时间确定模块,用于在所述信息提取模块从所述原始网页中提取出第一景点的描述信 息之后,根据所述第一景点的描述信息确定所述第一景点的建议访问时间。
29. 根据权利要求28所述的装置,其特征在于,所述时间确定模块具体用于: 根据所述第一景点的描述信息确定所述第一景点的建议访问月份和建议访问天内时 间中的至少一项信息,其中所述建议访问天内时间包括上午和下午中的至少一个时段。
30. 根据权利要求29所述的装置,其特征在于,所述时间确定模块具体用于: 根据所述第一景点的历史被访问时间,统计所述第一景点在不同的月份的历史被访问 次数; 利用所述第一景点在不同的月份的历史被访问次数,得到所述第一景点在不同的月份 的历史被访问的滴值; 根据所述第一景点在不同的月份的历史被访问的滴值,确定所述第一景点的建议访问 月份。
31. 根据权利要求30所述的装置,其特征在于,所述时间确定模块具体用于: 当所述第一景点在不同的月份的历史被访问的滴值之和小于阔值时,将所述第一景点 在不同的月份的历史被访问概率中最大的两个月份作为所述建议访问月份。
32. 根据权利要求29所述的装置,其特征在于,所述时间确定模块具体用于: 根据所述第一景点在景点序列中的位置及建议访问时长,统计所述第一景点分别在上 午和下午的历史被访问次数; 根据所述第一景点分别在上午和下午的历史被访问次数,确定所述第一景点的上午访 问指数和下午访问指数; 将确定的上午访问指数和下午访问指数中值最大的访问指数对应的时段,作为所述建 议访问天内时间。
33. 根据权利要求32所述的装置,其特征在于,所述时间确定模块具体用于: 当所述第一景点在一个所述景点序列中排在第一位或第二位,且所述建议访问时长小 于预设值时,则将所述第一景点在上午的历史被访问次数加1 ; 当所述第一景点在一个所述景点序列中排在倒数第一位或倒数第二位时,则将所述第 一景点在下午的历史被访问次数加1。
34. 根据权利要求18-27任一项所述的装置,其特征在于,所述装置还包括: 存储模块,用于在所述类别确定模块根据所述第一景点的描述信息确定所述第一景点 的类别之后,对应存储所述第一景点的类别和描述信息。
【专利摘要】本发明公开了一种网页信息处理方法及装置。所述方法该包括:获取原始网页;从所述原始网页中提取出第一景点的描述信息;根据所述第一景点的描述信息确定所述第一景点的类别。所述装置包括:网页获取模块,用于获取原始网页;第一景点描述信息获取模块,用于从所述原始网页中提取出第一景点的描述信息;第一景点类别确定模块,用于根据所述第一景点的描述信息确定所述第一景点的类别,解决了现有技术中旅游网站提供的景点信息不准确的问题,提高了景点信息的准确性。
【IPC分类】G06F17-30
【公开号】CN104537028
【申请号】CN201410804222
【发明人】王岳, 徐明泉, 张琦, 秦敏, 黄绍建, 王玉瑶, 崔代锐, 邝卓聪
【申请人】百度在线网络技术(北京)有限公司
【公开日】2015年4月22日
【申请日】2014年12月19日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1