垃圾锚文本识别方法及装置的制造方法

文档序号:8282282阅读:412来源:国知局
垃圾锚文本识别方法及装置的制造方法
【技术领域】
[0001]本发明涉及互联网信息处理技术领域,特别涉及一种垃圾锚文本识别方法及装置。
【背景技术】
[0002]随着互联网技术的飞速发展及广泛应用,从网络中获取各种所需信息已经被大多数网络用户所接受,而且逐渐成为用户日常生活中不可缺少的一部分。为了给用户提供更方便、快捷的信息查询方式,通常会在某一网页中给出一些可以链接其它相关网页的文字,这些文字是能够描述相关网页内容的关键词,用户可以根据所述关键词的描述进一步点击进入相关网页查找自己所需的资料。例如,当用户输入http://news.sina.com.cn进入新浪网的新闻中心网页时,在网页的不同位置会出现“体育”、“财经”、“音乐”、“科技”,或是“今日天气”、“视频新闻”、“军事论坛”等等关键词,用户如果希望了解体育相关信息就可以选择点击“体育”,进入网址为http://sports, sina.com.cn的网页获取相关体育信息。这里,描述相关网页内容的关键词称为中心词,一个网页中指向另一网页的链接文字称为网页锚文本,多个网页锚文本可以指向同一个链接网址。在上面的例子中,“体育”、“财经”、“音乐”、“科技”、“今日天气”、“视频新闻”、“军事论坛”等分别指向不同的网页,“体育”就是网址为http://sports, sina.com.cn的网页的锚文本财经”就是网址为http://finance, sina.com.cn的网页的锚文本,其它以此类推,分别是所指向网页的锚文本。
[0003]锚文本具有一定的权重,搜索引擎可以基于锚文本权重进行内容相关度计算,以获取用户查询序列与网页的相关度,从而对搜索结果中的网页进行精确排名。权重高的锚文本利用搜索引擎搜索时,则锚文本会优先被查到,即其所指向的网页在排序时会排在搜索结果的前面。正常情形下,锚文本均可以对指向的页面内容进行高度概括,并相当程度上反映出该页面的内容。但是,互联网上存在大量的作弊行为,锚文本本身不再都是对所指向的页面内容的高度概括,锚文本与所指向的页面也不再总是内容高度相关,当搜索引擎基于锚文本来获取搜索结果时,就可能出现很多含有垃圾词汇的锚文本、锚文本所指向的网页是无关网页或垃圾网页,对于含有垃圾词汇的锚文本用户可以直接识别,而对于无关网页或垃圾网页用户并不清楚其是否与网页的实际内容相关,只能通过一一打开每个网页查看其中的内容,进而获取所需信息,这显然给用户迅速获取信息造成很多麻烦,降低了查询效率。这种本身含有垃圾词汇的锚文本和所指向的网页是无关网页或垃圾网页的锚文本统称为垃圾锚文本。显然,通过各种技术识别垃圾锚文本并防止其被搜索出是非常有必要的。而目前还没有一种方法能够充分、有效地识别垃圾锚文本。

【发明内容】

[0004]本发明提供一种垃圾锚文本识别方法及装置,以解决现有技术无法充分、有效地识别垃圾锚文本等问题。
[0005]所述技术方案如下:
[0006]第一方面,本发明实施例提供了一种垃圾锚文本识别方法,所述垃圾锚文本识别方法,包括:接收输入的待测锚文本,根据待测锚文本获取待测锚文本所指向的网页;判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页;若待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页,待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。
[0007]第二方面,本发明实施例提供了一种垃圾锚文本识别装置,所述垃圾锚文本识别装置,包括:接收模块、判断模块、以及第一垃圾锚识别模块,接收模块,用于接收输入的待测锚文本,根据待测锚文本获取待测锚文本所指向的网页;判断模块,用于判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页;第一垃圾锚识别模块,用于若待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页,待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。
[0008]本发明实施例提供的技术方案带来的有益效果是:
[0009]通过判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页,若是政府类网站的网页或教育类网站的网页,而且待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。解决了现有技术无法充分、有效地识别垃圾锚文本等问题,本发明能够快速、有效地识别出垃圾锚文本。在实际应用中,可以对垃圾锚文本加以标注以提醒用户,从而可以使用户能够快速获取所需信息,提升查询效率。
[0010]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
【附图说明】
[0011]图1是本发明一个实施例提供的垃圾锚文本识别方法的流程图;
[0012]图2是本发明另一个实施例提供的垃圾锚文本识别方法的流程图;
[0013]图3是本发明又一个实施例提供的垃圾锚文本识别方法的流程图;
[0014]图4是本发明又一个实施例提供的垃圾锚文本识别方法的流程图;
[0015]图5是本发明一个实施例提供的垃圾锚文本识别装置的主要架构框图;
[0016]图6是本发明另一个实施例提供的垃圾锚文本识别装置的主要架构框图;
[0017]图7是本发明又一个实施例提供的垃圾锚文本识别装置的主要架构框图;
[0018]图8是本发明又一个实施例提供的垃圾锚文本识别装置的主要架构框图;
[0019]图9是一种终端的结构框图。
【具体实施方式】
[0020]为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的垃圾锚文本识别方法及装置其【具体实施方式】、结构、特征及功效,详细说明如后。
[0021]有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过【具体实施方式】的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
[0022]第一实施例
[0023]请参考图1,其示出了本发明一个实施例提供的垃圾锚文本识别方法的流程图。该方法可以由垃圾锚文本识别装置所执行的识别过程;垃圾锚文本识别装置可以运行在终端、服务器等设备上,所述垃圾锚文本识别方法,可包括以下步骤101-105:
[0024]步骤101,接收输入的待测锚文本,根据待测锚文本获取待测锚文本所指向的网页。
[0025]一个网页中指向另一网页的链接文字称为锚文本。例如,当客户端用户需要验证待测锚文本是否是垃圾锚文本的时候,则用户首先可以在垃圾锚文本识别装置提供的输入框中输入待测锚文本,然后点击垃圾锚文本识别装置提供的网络页面上的验证按钮或菜单,则垃圾锚文本识别装置就会接收到客户端发送的验证请求,验证请求中携带用户输入的待测锚文本,并根据验证请求获取到待测锚文本所指向的网页。或者例如,用户利用搜索引擎在基于锚文本进行搜索时,则用户也可以在输入框中输入待测锚文本,然后点击搜索引擎提供的网络页面上的搜索按钮或菜单,则垃圾锚文本识别装置就会接收到客户端发送的搜索请求,搜索请求中携带用户输入的待测锚文本,并根据搜索请求获取到待测锚文本所指向的网页。
[0026]步骤103,判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页。
[0027]政府类网站的网页例如可以是网页的统一资源定位符(Uniform ResourceLocator, URL,也被称为网页网址)中含有“gov.cn”等。教育类网站的网页可以是网页的网址中含有“edu.cn”等。
[0028]具体地,判断待测锚文本所指向的网页是否是政府类网站的网页或教育类网站的网页时可以采用如下方法:将政府类网站的网页的网址和教育类网站的网页的网址预先进行存储,然后将待测锚文本所指向的网页的网址与预先存储的政府类网站的网页的网址和教育类网站的网页的网址进行匹配,若相匹配,则判定为待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页。反之,若不相匹配,则判定为待测锚文本所指向的网页不是政府类网站的网页或教育类网站的网页。
[0029]步骤105,若待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页,待测锚文本含有垃圾词汇并且待测锚文本不含有机构名称,则将待测锚文本识别为垃圾锚文本。
[0030]机构可以包括行政机构、企事业机构等。行政机构名称主要有政府、发改委、办事处、审计署、司法部、行政厅、统计局等。企事业机构名称主要有研究院、公司、水电站、加工厂坐
I 寸O
[0031]本步骤中,在待测锚文本所指向的网页是政府类网站的网页或教育类网站的网页的情况下,则待测锚文本中含有的垃圾词汇例如可以是游戏类词汇、色情类词汇、缴费充值类词汇、广告类词汇等。举例说明,若锚文本所指向的网页是教育类网站的网页,锚文本所在的网页也为教育类网站的网页,当锚文本所在的网页被黑客攻击或感染病毒的情况下,则在锚文本中可能就会含有例如“充话费”、“淘宝女装”等垃圾词汇。
[0032]优选地,步骤105中,还可包括:
[0033]若待测锚文本所指向的网页是政府类网站或教育类网站,且待测锚文本含有机构名称,则将待测锚文本识别为正常锚文本。本步骤中,若待测锚文本含有机
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1