一种处理网站地图的方法、装置及设备的制造方法

文档序号:9506278阅读:242来源:国知局
一种处理网站地图的方法、装置及设备的制造方法
【技术领域】
[0001]本发明涉及移动互联网技术领域,具体涉及一种处理网站地图的方法、装置及设备。
【背景技术】
[0002]目前,搜索引擎通常会通过网站(也称为站点)内部和其他网站上的链接查找网页,网站地图sitemap可方便网站通知搜索引擎在网站上有哪些可供抓取的网页。最简单的sitemap形式,就是XML (Extensible Markup Language,可扩展标记语言)文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度等),以便搜索引擎可以更加智能地抓取网站内容。简单来讲,sitemap可以理解为网站上链接的列表。生成sitemap并提交给搜索引擎,可以使网站的内容容易被收录,包括那些隐藏比较深的页面,这是一种网站与搜索引擎对话的好方式。
[0003]但是,目前很多网站提供的sitemap里面包含的网站链接的质量有可能出现不少问题,例如链接错误,链接的内容劣质或未及时更新等,这些情况都会浪费搜索引擎爬取的资源,这样就导致了虽然网站提供了 sitemap,但搜索引擎根据爬取的结果,并不一定会收录sitemap的网站链接,同时还可能触发搜索引擎的降权规则,减少对该网站收录的链接数量和降低该网站的搜索排序等。
[0004]因此,现有的网站地图的处理方法,不能满足网站和搜索引擎各自的需要。

【发明内容】

[0005]为解决上述技术问题,本发明提供一种处理网站地图的方法、装置及设备,能满足网站和搜索引擎各自的需要。
[0006]根据本发明的一个方面,提供一种处理网站地图的方法,包括:
[0007]根据预设信息获取网站的网站地图;
[0008]获取网站地图中页面的链接并进行访问;
[0009]根据访问结果删除网站地图中影响搜索收录的链接;
[0010]生成新网站地图。
[0011]优选地,所述获取网站地图中页面的链接并进行访问之后还包括:
[0012]对访问的页面提取关键词和正文特征值;
[0013]根据提取的关键词和正文特征值与预存的关键词和正文特征值的比较结果,删除网站地图中影响搜索收录的链接。
[0014]优选地,所述根据访问结果删除网站地图中影响搜索收录的链接包括:
[0015]在访问结果是出现无法访问的HTTP 404错误时,删除对应的链接;或,
[0016]在访问结果是页面响应时间大于或等于设定阈值时,删除对应的链接;或,
[0017]在访问结果是页面的标题、关键词和描述不完整时,删除对应的链接;或,
[0018]在访问结果是页面的正文内容与页面的标题、关键词和描述不匹配时,删除对应的链接。
[0019]优选地,所述根据提取的关键词和正文特征值与预存的关键词和正文特征值的比较结果,删除网站地图中影响搜索收录的链接包括:
[0020]根据提取的关键词和正文特征值与预存的关键词和正文特征值的比较结果是一致,判断为内容重复提交,删除对应的链接。
[0021 ] 优选地,所述方法还包括:
[0022]将生成的新网站地图提供给搜索弓丨擎访问。
[0023]优选地,所述方法还包括:
[0024]记录所述搜索引擎访问新网站地图后进行搜索并收录的收录数据。
[0025]根据本发明的另一方面,提供一种处理网站地图的装置,包括:
[0026]获取模块,用于根据预设信息获取网站的网站地图;
[0027]访问模块,用于根据所述获取模块获取的网站地图,获取网站地图中页面的链接并进行访问;
[0028]第一处理模块,用于根据所述访问模块的访问结果删除网站地图中影响搜索收录的链接;
[0029]生成模块,用于在所述第一处理模块进行处理后生成新网站地图。
[0030]优选地,所述装置还包括:
[0031]第二处理模块,用于对访问的页面提取关键词和正文特征值,根据提取的关键词和正文特征值与预存的关键词和正文特征值的比较结果,删除网站地图中影响搜索收录的链接;
[0032]所述生成模块在所述第一处理模块和所述第二处理模块进行处理后,生成新网站地图。
[0033]优选地,所述装置还包括:
[0034]输出模块,用于将所述生成模块生成的新网站地图提供给搜索引擎访问。
[0035]优选地,所述装置还包括:
[0036]监控模块,用于记录所述搜索引擎访问新网站地图后进行搜索并收录的收录数据。
[0037]优选地,所述第一处理模块包括:
[0038]第一删除单元,用于在访问结果是出现无法访问的HTTP 404错误时,删除对应的链接;或,
[0039]第二删除单元,用于在访问结果是页面响应时间大于或等于设定阈值时,删除对应的链接;或,
[0040]第三删除单元,用于在访问结果是页面的标题、关键词和描述不完整时,删除对应的链接;或,
[0041]第四删除单元,用于在访问结果是页面的正文内容与页面的标题、关键词和描述不匹配时,删除对应的链接。
[0042]根据本发明的另一方面,提供一种处理设备,包括:
[0043]存储器,用于存储程序,
[0044]处理器,用于执行所述存储器存储的以下程序:
[0045]根据预设信息获取网站的网站地图;
[0046]获取网站地图中页面的链接并进行访问;
[0047]根据访问结果删除网站地图中影响搜索收录的链接;
[0048]生成新网站地图。
[0049]可以发现,本发明实施例的技术方案,通过获取网站地图中页面的链接后先进行访问,根据访问结果发现有影响搜索收录的链接后,就删除网站地图中影响搜索收录的链接,再生成新网站地图,这样就可以实现对网站的原先的网站地图进行优化处理,尽量避免网站地图中出现各种内容不好或容易出错的链接,从而可以提升网站地图质量,也可以增加被搜索引擎收录的可能性,满足网站和搜索引擎的需求。
【附图说明】
[0050]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0051]图1是根据本发明的一个实施例的处理网站地图的方法的示意性流程图;
[0052]图2是根据本发明的一个实施例的处理网站地图的方法的另一示意性流程图;
[0053]图3是根据本发明的一个实施例的处理网站地图的方法的另一示意性流程图;
[0054]图4是本发明的一种处理网站地图的装置的示意性方框图;
[0055]图5是本发明的一种处理网站地图的装置的另示意性方框图;
[0056]图6是本发明的一种处理设备的示意性方框图。
【具体实施方式】
[0057]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0058]本发明提供一种处理网站地图的方法,能满足网站和搜索引擎各
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1