一种网页信息处理方法及装置的制造方法

文档序号:8223550阅读:156来源:国知局
一种网页信息处理方法及装置的制造方法
【技术领域】
[0001] 本发明实施例涉及信息处理技术,尤其涉及一种网页信息处理方法及装置。
【背景技术】
[0002] 随着互联网与旅游业的不断发展,人们可以随时随地从旅游网站上了解各种旅游 信息。
[0003] 但是,目前旅游网站的景点详情信息,由不同的旅游编辑编辑,而每个旅游编辑可 能只是熟悉某一个或者某几个目的地,且提供的信息具有很大的主观性,导致同一个景点 被标注上不同甚至是互斥的标签。如同一景点可能被打上独行和家庭游等互斥标签,导致 提供的信息不客观也不准确。

【发明内容】

[0004] 本发明实施例提供一种网页信息处理方法及装置,以提高景点信息的准确性。
[0005] 第一方面,本发明实施例提供了一种网页信息处理方法,包括:
[0006] 获取原始网页;
[0007] 从所述原始网页中提取出第一景点的描述信息;
[0008] 根据所述第一景点的描述信息确定所述第一景点的类别。
[0009] 第二方面,本发明实施例还提供了一种网页信息处理装置,包括:
[0010] 网页获取模块,用于获取原始网页;
[0011] 信息提取模块,用于从所述原始网页中提取出第一景点的描述信息;
[0012] 类别确定模块,用于根据所述第一景点的描述信息确定所述第一景点的类别。
[0013] 本发明实施例提供的一种网页信息处理方法及装置,通过获取原始网页,从所述 原始网页中提取出第一景点的描述信息,并根据所述第一景点的描述信息确定所述第一景 点的类别,解决了现有技术中旅游网站提供的景点信息不准确的问题,提高了景点信息的 准确性和客观性。
【附图说明】
[0014] 图1为本发明实施例一提供的一种网页信息处理方法的流程图;
[0015] 图2为本发明实施例二提供的一种网页信息处理方法的流程图;
[0016] 图3为本发明实施例三提供的网页信息处理方法中训练贝叶斯分类器的流程图;
[0017] 图4为本发明实施例四提供的网页信息处理方法中利用训练后的贝叶斯分类器 对第一景点进行分类的流程图;
[0018] 图5为本发明实施例五提供的网页信息处理方法中对训练后的贝叶斯分类器进 行验证的流程图;
[0019] 图6为本发明实施例六提供的网页信息处理方法中确定建议访问月份方法的流 程图;
[0020] 图7为本发明实施例七提供的网页信息处理方法中确定建议访问天内时间方法 的流程图;
[0021] 图8为本发明实施例八提供的网页信息处理方法中确定景点的类别的流程示意 图;
[0022] 图9为本发明实施例九提供的网页信息处理方法中确定景点的建议访问月份的 流程示意图;
[0023] 图10为本发明实施例十提供的网页信息处理方法中确定建议访问天内时间的流 程不意图;
[0024] 图11为本发明实施例十一提供的一种网页信息处理装置的结构示意图。
【具体实施方式】
[0025] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0026] 本发明实施例的网页信息处理方法可以由网页信息处理装置在线下或离线状态 下执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于服务端所在的终端设 备如服务器中,或作为服务端的子程序。
[0027] 实施例一
[0028] 参见图1,本实施例提供的网页信息处理方法具体包括:操作11-操作13。
[0029] 操作11中,获取原始网页。
[0030] 例如,可以获取各旅游网站的原始网页,或者旅游论坛的原始网页。去哪网,携程 网,百度旅游等网站的原始网页大多为旅游编辑手动编辑,或者由游客自行根据网站提供 的模板编辑的游记,记录了行程概要、旅游攻略和景点图片等。
[0031] 优选的,在获取原始网页时,选择包含有结构化较好的游记的原始网页,如游记提 供了详细的行程概要,类似于:第一天:景点1 一>景点2->景点3 ;第二天:景点1->景点 2。选择包含有结构化较好的游记的原始网页可以节省数据挖掘时间。
[0032] 操作12中,从所述原始网页中提取出第一景点的描述信息。
[0033] 例如,可以从原始网页中获取结构化较好的游记或游记攻略,然后可以利用语义 分析技术,从旅游攻略、游记中提取出第一景点的描述信息,还可以从旅游网站如百度旅游 网站为每个景点编辑的信息介绍的原始网页中,直接提取第一景点的描述信息。
[0034] 需要说明的是,景点的描述信息应尽量的有区分度,如很受欢迎、很好等等描述词 就没有区分度,如红叶很多、水流很急等描述词则具有区分度。
[0035] 其中,第一景点中的第一并无特殊含义,只是为了更清楚的描述技术方案。
[0036] 操作13中,根据所述第一景点的描述信息确定所述第一景点的类别。
[0037] 假设第一景点为十渡,上述操作12中获取的十渡的描述信息为"漂流是十渡旅游 的灵魂等",根据描述信息确定所述十渡的类别为漂流。具体地,根据所述第一景点的描述 信息确定所述第一景点的类别的方式,可以是语义语法分析,还可以是根据分类器分类等, 本发明实施例对实现方式不作限制。
[0038] 本实施例提供的网页信息处理方法,通过获取原始网页,并从所述原始网页中提 取出第一景点的描述信息,根据所述第一景点的描述信息确定所述第一景点的类别,解决 了现有技术中旅游网站提供的景点信息不准确的问题提高了景点信息的准确性和客观性。
[0039] 示例性的,上述根据所述第一景点的描述信息确定所述第一景点的类别之前,本 发明实施例提供的网页信息处理方法还包括:
[0040] 从所述原始网页中获取第二景点的类别信息和描述信息。
[0041] 其中,第二景点中的第二以及下述的第三等词并无特殊含义,只是为了更清楚的 描述技术方案。
[0042] 示例性的,上述从所述原始网页中获取第二景点的类别信息,包括:
[0043] 从所述原始网页中获取包含有所述第二景点的旅游路线信息,所述旅游路线信息 包括旅游路线及其标签;
[0044] 统计所述第二景点出现在标注有标签的旅游路线中的次数;
[0045] 根据统计的次数,将第一标签、第二标签和第三标签作为所述第二景点的类别,其 中,所述第二景点出现在标注有所述第一标签的旅游线路中的次数最多,出现在标注有所 述第二标签的旅游线路中的次数仅次于标注有所述第一标签的旅游线路,出现在标注有所 述第三标签的旅游线路中的次数仅次于标注有所述第一标签和第二标签的旅游线路。
[0046] 示例性的,上述根据所述第一景点的描述信息确定所述第一景点的类别,包括:
[0047] 根据所述第二景点的类别信息和描述信息以及所述第一景点的描述信息,确定所 述第一景点的类别。
[0048] 示例性的,上述根据所述第二景点的类别信息和描述信息以及所述第一景点的描 述信息,确定所述第一景点的类别,包括:
[0049] 利用所述第二景点的类别信息和描述信息训练贝叶斯分类器;
[0050] 利用训练后的贝叶斯分类器根据所述第一景点的描述信息对所述第一景点进行 分类。
[0051] 示例性的,上述利用所述第二景点的类别信息和描述信息训练贝叶斯分类器,包 括:
[0052] 对所述第二景点的描述信息分词,得到训练描述词;
[0053] 利用所述训练描述词,建立向量空间模型,其中,所述向量空间模型包括行和列, 所述行为所述第二景点的所有训练描述词,列
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1