网页快照的生成方法及装置与流程

文档序号:13253635阅读:250来源:国知局
技术领域本发明涉及互联网技术领域,更具体而言,涉及一种网页快照的生成方法及装置。

背景技术:
为了能够及时、快速的查看所搜索的网页内容,搜索引擎根据用户输入的搜索信息搜索到网页资源之后,通常将网页资源对应的内容进行抓取,并处理成纯文本的网页内容,然后,将处理后得到的纯文本网页内容存储到搜索引擎的缓存中。相关技术中,将所缓存的纯文本网页内容称为网页快照。当网速不稳定或者搜索到的网页资源发生变化,导致无法正常打开搜索到的网页资源时,用户可以通过网页快照访问所缓存的纯文本网页内容。需要说明的是,为了提高搜索到的网页资源的定向匹配精确度,提高搜索效率,搜索引擎在接收用户输入的搜索信息之后,可以首先从搜索信息中提取出最能概括用户查找内容的关键字,并将所提取的关键字作为主要索引信息进行网页资源搜索。由于关键字是搜索信息的概括化和集中化查询词,因此,为了增加链接的资源入口,相关技术中,可以为网页快照中所包含的所有关键字添加相应超链接,以便于用户能够通过网页快照中的任意关键字访问其他相关资源。然而,由于网页快照对应的网页内容包含已添加超链接的语句和词汇,而已添加超链接的语句和词汇中可能包含关键字,而且,搜索引擎在生成网页快照时,通常仅将网页资源对应的内容处理成纯文本网页内容,对网页内容中的超链接不进行处理,因此,如果为所有关键字添加超链接,网页快照中将存在部分添加有两次超链接的关键字,不仅会造成程序结构和格式的混乱,导致程序运行时易产生错误,而且还会造成网页快照在显示时排版错乱,导致用户体验不好。

技术实现要素:
有鉴于此,本发明实施例提供了一种网页快照的生成方法及装置,能够解决相关技术中存在的程序运行易产生错误,且网页快照在显示时排版错乱的问题。第一方面,本发明实施例提供了一种网页快照的生成方法,包括:在按照关键字搜索到网页资源之后,获取所述网页资源对应的网页内容;从所述网页内容所包含的所述关键字中筛选未添加链接的关键字;按照预设规则为所述未添加链接的关键字添加链接,得到所述网页资源对应的网页快照。在第一方面的第一种可能的实现方式中,所述从所述网页内容所包含的所述关键字中筛选未添加链接的关键字,包括:获取所述网页内容中已添加链接的文本的区域标识和所述关键字的区域标识;根据所述区域标识将区域不属于所述已添加链接的文本区域的关键字确定为未添加链接的关键字。结合上述第一方面,在第二种可能的实现方式中,所述获取所述网页内容中已添加链接的文本的区域标识,包括:从所述网页内容的源代码中顺次选择符合第一预设规则的每组第一起始字符和第一结束字符;分别记录所述每组第一起始字符和第一结束字符在所述源代码中对应的顺序号,作为每段所述已添加链接的文本的区域标识。结合上述第一方面,在第三种可能的实现方式中,所述获取所述网页内容中所述关键字的区域标识,包括:从所述网页内容的源代码中顺次选择符合第二预设规则的每组第二起始字符和第二结束字符;分别记录所述每组第二起始字符和第二结束字符在所述源代码中对应的顺序号,作为每组所述关键字的区域标识。结合上述第一方面,在第四种可能的实现方式中,所述根据所述区域标识将区域不属于所述已添加链接的文本区域的关键字确定为未添加链接的关键字,包括:确定顺序号小于第二起始字符顺序号的第一起始字符中最大的第一起始字符顺序号;判断所述第一起始字符对应的第一结束字符的顺序号是否小于所述第二起始字符的顺序号;当所述第一起始字符对应的第一结束字符的顺序号小于所述第二起始字符的顺序号,将所述第二起始字符对应的关键字确定为所述未添加链接的关键字;或者,确定顺序号大于第二结束字符顺序号的第一结束字符中最小的第一结束字符顺序号;判断所述第一结束字符对应的第一起始字符的顺序号是否大于所述第二结束字符的顺序号;当所述第一结束字符对应的第一起始字符的顺序号大于所述第二结束字符的顺序号时,将所述第二结束字符对应的关键字确定为所述未添加链接的关键字。第二方面,本发明实施例提供了一种网页快照的生成装置,包括:获取模块,用于在按照关键字搜索到网页资源之后,获取所述网页资源对应的网页内容;筛选模块,用于从所述网页内容所包含的所述关键字中筛选未添加链接的关键字;添加模块,用于按照预设规则为所述未添加链接的关键字添加链接,得到所述网页资源对应的网页快照。在第二方面的第一种可能的实现方式中,所述筛选模块包括获取单元和确定单元,其中,所述获取单元,用于获取所述网页内容中已添加链接的文本的区域标识和所述关键字的区域标识;所述确定单元,用于根据所述区域标识将区域不属于所述已添加链接的文本区域的关键字确定为未添加链接的关键字。结合上述第二方面,在第二种可能的实现方式中,所述获取单元包括选择子单元和记录子单元,其中,所述选择子单元,用于从所述网页内容的源代码中顺次选择符合第一预设规则的每组第一起始字符和第一结束字符;所述记录子单元,用于分别记录所述每组第一起始字符和第一结束字符在所述源代码中对应的顺序号,作为每段所述已添加链接的文本的区域标识。结合上述第二方面,在第三种可能的实现方式中,所述选择子单元,还用于从所述网页内容的源代码中顺次选择符合第二预设规则的每组第二起始字符和第二结束字符;所述记录子单元,还用于分别记录所述每组第二起始字符和第二结束字符在所述源代码中对应的顺序号,作为每组所述关键字的区域标识。结合上述第二方面,在第四种可能的实现方式中,所述确定单元包括确定子单元和判断子单元,其中,所述确定子单元,用于确定顺序号小于第二起始字符顺序号的第一起始字符中最大的第一起始字符顺序号;所述判断子单元,用于判断所述第一起始字符对应的第一结束字符的顺序号是否小于所述第二起始字符的顺序号;在所述第一起始字符对应的第一结束字符的顺序号小于所述第二起始字符的顺序号时,所述确定子单元,还用于将所述第二起始字符对应的关键字确定为所述未添加链接的关键字;所述确定子单元,还用于确定顺序号大于第二结束字符顺序号的第一结束字符中最小的第一结束字符顺序号;所述判断子单元,还用于判断所述第一结束字符对应的第一起始字符的顺序号是否大于所述第二结束字符的顺序号;在所述第一结束字符对应的第一起始字符的顺序号大于所述第二结束字符的顺序号时,所述确定子单元,还用于将所述第二结束字符对应的关键字确定为所述未添加链接的关键字。由以上描述可知,为了解决相关技术中存在的技术问题,本发明实施例所提供的网页快照的生成方法及装置,搜索引擎在按照关键字搜索到网页资源之后,首先,获取网页资源对应的网页内容,然后,从网页内容包含的关键字中筛选未添加链接的关键字,进而按照预设规则为所筛选的未添加链接的关键字添加链接,得到网页资源对应的网页快照。由此可见,本发明实施例的技术方案,在为网页内容中的关键字添加链接之前,首先筛选出未添加链接的关键字,将网页内容中已经添加链接的关键字过滤掉,从而在网页内容中增加链接资源入口的同时,还能够保证添加链接后网页内容对应的程序结构和格式正确,确保程序的正常运行和网页内容显示时排版正确,从而能够大大的提高用户体验。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。图1是本发明实施例提供的网页快照生成方法的方法流程图;图2是本发明提供的网页内容的示例图;图3是本发明实施例提供的网页快照生成装置的结构示意图。具体实施方式搜索引擎在搜索到网页资源之后,预先调用Spider(网络蜘蛛)程序访问并抓取每条网页资源所链接网页的纯文本网页内容。通常,为了提高用户体验,在抓取网页内容之后,Spider程序可以获取搜索信息关键字出现的位置,并调整关键字的字体、大小、颜色等属性,然后,搜索引擎将网页内容写入服务器缓存,并以网页快照的形式向用户展示。为了进一步提高用户体验,增加网页快照的资源入口,搜索引擎可以为全部关键字添加链接。由于网页内容包含已经添加链接的关键字,如果统一为网页内容中的全部关键字添加链接,将产生程序运行错误和排版错乱等问题,因此,提出了本发明实施例的技术方案。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。请参见图1,图1是本发明实施例提供的网页快照生成方法的方法流程图,所述方法包括以下步骤:步骤S101:在按照关键字搜索到网页资源之后,获取所述网页资源对应的网页内容。其中,搜索引擎在接收到用户输入的搜索信息之后,从搜索信息中提取搜索关键字,并将搜索关键字作为搜索的索引信息,从网络中搜索相关的网页资源。在搜索到相应的网页资源之后,搜索引擎调用Spider程序获取网页资源对应的网页内容。例如,当搜索引擎接收到用户输入的“高蛋白食品有哪些”时,搜索引擎将从“高蛋白食品有哪些”中提取出关键字“高蛋白”,并以“高蛋白”作为搜索索引信息进行网页资源的搜索,可以搜索到“高蛋白食品有哪些”、“高蛋白低脂肪的食物”等网页资源。在向用户展示网页资源的网页内容之前,搜索引擎获取网页资源的网页内容。需要说明的是,从搜索信息中提取关键字,以及调用Spider程序获取网页内容的技术为本领域技术人员所熟知的技术,本发明实施例此处不再祥述。步骤S102:从所述网页内容所包含的所述关键字中筛选未添加链接的关键字。其中,由相关技术的描述可知,网页内容自身包含已添加链接的文本,而已添加链接的文本中可能包含关键字,导致统一为关键字添加链接,将会造成网页内容中部分关键字重复添加链接,因此,为了避免该问题的产生,本发明实施例的技术方案,在为关键字添加链接之前,首先从网页内容中筛选出未添加链接的关键字。例如,图2所示的网页内容示例图,其中,文字1是已添加链接的文本,文字2是网页内容的关键字,而文字2中的关键字2a是文字1的一部分,也就是说,关键字2a已经添加链接,因此,在添加链接时,应当将关键字2a过滤掉。通常,网页内容中的每部分内容对应一个区域,因此,本实施例的技术方案,可以获取已添加链接的文本的区域标识和所有关键字的区域标识,通过区域标识可以确定相应已添加链接的文本和关键字的区域,如果关键字对应的区域不属于任何已添加链接的文本的区域,则说明该关键字未添加链接,可以确定为未添加链接的关键字。由于网页内容均通过代码编辑,而代码本身作为字符,存在一定的格式和顺序,因此,本发明实施例中,可以使用待筛选内容在代码中对应的起始字符和结束字符的顺序号作为区域标识。具体的,可以根据网页内容的性质和程序语言,预先设置用于筛选区域标识的筛选规则,在筛选已添加链接的文本的区域标识时,从网页内容的源代码中顺次选择符合第一预设规则的每组第一起始字符和第一结束字符,并记录每组第一起始字符和第一结束字符在源代码中对应的顺序号。其中,每组第一起始字符和第一结束字符在源代码中对应的顺序号形成一个数组,该数组可以明确的标记已添加链接的文本的区域,因此,每个数组是一段已添加链接的文本的区域标识;同样的,在筛选关键字的区域标识时,从网页内容的源代码中顺次选择符合第二预设规则的每组第二起始字符和第二结束字符,并记录第二起始字符和第二结束字符在源代码中对应的顺序号,与上述描述相同的,每组第二起始字符和第二结束字符在源代码中对应的顺序号形成一个数组,每个数组是一组关键字的区域标识。需要说明的是,在使用代码进行编程时,代码结构应该符合一定的规则,包括,头、主体和结束几个部分,从而形成完整的功能模块,因此,本实施例所述的起始字符串和结束字符串可以分别对应同一个功能模块的头和结束部分。例如,<head><title>高蛋白质食物</title></head>其中,字符<head>和字符</head>之间的内容组成网页内容的头,而头的具体内容是文字“高蛋白质食物”,而文字“高蛋白质食物”在网页中的功能是标题。因此,如果筛选文字“高蛋白质食物”区域标识时,可以读取字符<title>与字符</title>在代码中的顺序号,并将字符<title>与字符</title>的顺序号形成的数组确定为文字“高蛋白质食物”区域标识。此外,本发明实施例所述的筛选规则可以是正则表达式,第一预设规则为第一正则表达式,用于筛选网页内容中已链接的文本区域,第二预设规则为第二正则表达式,用于筛选网页内容中关键字区域。当然,正则表达式仅为本发明的一个优选示例,本发明实施例的技术方案也可以使用其他合适的方式进行操作,本发明实施例对此不作限制。由于区域标识是字符在代码中的顺序号,因此,通过判断顺序号的大小即可筛选得到未添加链接的关键字。具体的,如果关键字已经添加链接,那么该关键字对应区域位于已添加链接的文本的区域内,那么,其所对应的第二起始字符的顺序号小于已添加链接的文本对应的第一起始字符的顺序号,并且,其所对应的第二结束字符的顺序号大于已添加链接的文本对应的第一结束字符的顺序号。因此,针对每组关键字的区域标识,本发明实施例,可以首先确定顺序号小于其第二起始字符顺序号的第一起始字符中最大的第一起始字符顺序号,然后,获取该第一起始字符对应的第一结束字符的顺序号,并判断该第一结束字符的顺序号是否同样小于所述第二起始字符的顺序号,如果该第一结束字符的顺序号小于所述第二起始字符的顺序号,说明该关键字的区域位于已添加链接的文本区域之外,可以确定为未添加链接的关键字;如果该第一结束字符的顺序号大于所述第二起始字符的顺序号,说明该关键字的区域位于已添加链接的文本区域内,过滤掉该关键字;或者,首先确定顺序号大于第二结束字符顺序号的第一结束字符中最小的第一结束字符顺序号,然后,获取该第一结束字符对应的第一起始字符的顺序号,并判断该第一起始字符的顺序号是否同样大于所述第二结束字符的顺序号,如果该第一起始字符的顺序号大于所述第二结束字符的顺序号,说明该关键字的区域位于已添加链接的文本区域之外,可以确定为未添加链接的关键字;如果该第一起始字符的顺序号小于所述第二结束字符的顺序号,说明该关键字的区域位于已添加链接的文本区域内,过滤掉该关键字。需要指出的是,由于已经添加链接的文本中可能仅有部分文本包含关键字,而确定已添加链接的文本的规则可以根据需求自行设置,因此,为了降低数据处理量,所确定的已添加链接的文本的区域标识,可以是包含已添加链接的包含关键字的文本区域标识,本发明实施例此处不再详述。本步骤所述的技术方案,通过预先设置用于筛选的正则表达式,能够将网页内容中已经添加链接的关键字过滤掉,从而在网页内容中增加链接资源入口的同时,还能够保证添加链接后网页内容对应的程序结构和格式正确,确保程序的正常运行和网页内容显示时排版正确,从而能够大大的提高用户体验。步骤S103:按照预设规则为所述未添加链接的关键字添加链接,得到所述网页资源对应的网页快照。其中,基于上述描述,当筛选出未添加链接的关键字之后,搜索引擎可以统一为未添加链接的关键字添加链接,在添加链接完成后,可以得到的多个资源入口的网页快照,并将网页快照存储到服务器中。具体的,由于添加链接的程序为固定的内容和固定的格式,因此,可以预先编辑链接的程序,并按照编程的正确规则将链接程序添加到相应的区域。其中,超链接的程序代码可以为:<ahref=”URL”>关键字</a>。需要说明的是,为关键字添加链接之后,关键字所链接的是程序中“URL”对应的网页,而程序中的网页“URL”可以根据关键字的具体内容确定,例如,如果关键字的内容是“高蛋白”,搜索引擎可以将“高蛋白”对应的百科网页的“URL”作为链接的网页,如果关键字的内容是“天天向上”,搜索引擎可以将综艺节目“天天向上”的视频网页“URL”作为链接的网页。具体的,本发明实施例此处不再赘述。由本实施例的描述可知,本发明实施例的技术方案,在为网页内容中的关键字添加链接之前,首先筛选出未添加链接的关键字,将网页内容中已经添加链接的关键字过滤掉,从而在网页内容中增加链接资源入口的同时,还能够保证添加链接后网页内容对应的程序结构和格式正确,确保程序的正常运行和网页内容显示时排版正确,从而能够大大的提高用户体验。与上述实现方法相对应的,本发明实施例还提供了一种网页快照的生成装置,请参见图3,图3是本发明实施例提供的网页快照生成装置的结构示意图。所述装置包括:获取模块11、筛选模块12和添加模块13,其中,所述获取模块11,用于在按照关键字搜索到网页资源之后,获取所述网页资源对应的网页内容;筛选模块12,用于从所述网页内容所包含的所述关键字中筛选未添加链接的关键字;添加模块13,用于按照预设规则为所述未添加链接的关键字添加链接,得到所述网页资源对应的网页快照。所述装置中各个模块的功能和作用的实现过程详见上述方法中对应的实现过程,在此不再赘述。由本实施例的描述可知,本发明实施例的技术方案,在为网页内容中的关键字添加链接之前,首先筛选出未添加链接的关键字,将网页内容中已经添加链接的关键字过滤掉,从而在网页内容中增加链接资源入口的同时,还能够保证添加链接后网页内容对应的程序结构和格式正确,确保程序的正常运行和网页内容显示时排版正确,从而能够大大的提高用户体验。其中,筛选模块12包括获取单元和确定单元,其中,所述获取单元,用于获取所述网页内容中已添加链接的文本的区域标识和所述关键字的区域标识;所述确定单元,用于根据所述区域标识将区域不属于所述已添加链接的文本区域的关键字确定为未添加链接的关键字。在上述实施例的基础上,所述获取单元包括选择子单元和记录子单元,其中,所述选择子单元,用于从所述网页内容的源代码中顺次选择符合第一预设规则的每组第一起始字符和第一结束字符;所述记录子单元,用于分别记录所述每组第一起始字符和第一结束字符在所述源代码中对应的顺序号,作为每段所述已添加链接的文本的区域标识。在另一个实施例中,所述选择子单元,还用于从所述网页内容的源代码中顺次选择符合第二预设规则的每组第二起始字符和第二结束字符;所述记录子单元,还用于分别记录所述每组第二起始字符和第二结束字符在所述源代码中对应的顺序号,作为每组所述关键字的区域标识。此外,结合上述实施例,在另一个实施例中,所述确定单元包括确定子单元和判断子单元,其中,所述确定子单元,用于确定顺序号小于第二起始字符顺序号的第一起始字符中最大的第一起始字符顺序号;所述判断子单元,用于判断所述第一起始字符对应的第一结束字符的顺序号是否小于所述第二起始字符的顺序号;并且,在本实施例中,在所述第一起始字符对应的第一结束字符的顺序号小于所述第二起始字符的顺序号时,所述确定子单元,还用于将所述第二起始字符对应的关键字确定为所述未添加链接的关键字。在另一个实施例中,所述确定子单元,还用于确定顺序号大于第二结束字符顺序号的第一结束字符中最小的第一结束字符顺序号;所述判断子单元,还用于判断所述第一结束字符对应的第一起始字符的顺序号是否大于所述第二结束字符的顺序号;在本实施例中,所述确定子单元,还用于将所述第二结束字符对应的关键字确定为所述未添加链接的关键字。所述装置中各个模块和单元的功能和作用的实现过程详见上述方法中对应的实现过程,在此不再赘述。综合上述,为了解决相关技术中存在的技术问题,本发明实施例所提供的网页快照的生成方法及装置,搜索引擎在按照关键字搜索到网页资源之后,首先,获取网页资源对应的网页内容,然后,从网页内容包含的关键字中筛选未添加链接的关键字,进而按照预设规则为所筛选的未添加链接的关键字添加链接,得到网页资源对应的网页快照。由此可见,本发明实施例的技术方案,在为网页内容中的关键字添加链接之前,首先筛选出未添加链接的关键字,将网页内容中已经添加链接的关键字过滤掉,从而在网页内容中增加链接资源入口的同时,还能够保证添加链接后网页内容对应的程序结构和格式正确,确保程序的正常运行和网页内容显示时排版正确,从而能够大大的提高用户体验。以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1