搜索引擎来源信息的解析方法及装置与流程

文档序号:12596261阅读:289来源:国知局
搜索引擎来源信息的解析方法及装置与流程

本申请涉及网站分析领域,具体而言,涉及一种搜索引擎来源信息的解析方法及装置。



背景技术:

目前,越来越多网站热衷于进行网站访客行为的研究,即网站分析。其中,解析搜索引擎来源信息是网站分析中非常重要的一步。通常,相关技术中会根据来源网页地址(来源URL)进行解析,如来源URL符合搜索引擎页面预设格式(例如,baidu.com/s?word=xxx),则搜索引擎页面可以对其进行继续解析。然而,一些搜索引擎为了保护用户的关键词隐私,对搜索引擎网站做了特殊处理,使得用户在点击搜索引擎内容时,不会直接跳转至目标网站,而是中途经过若干跳转页面,最后到达目标网站,使得目标网站上的javascript代码得到的来源URL是跳转页面URL而非搜索引擎页面URL,使得最终难以解析出搜索引擎来源信息,甚至会被直接判别为非搜索引擎来源。

针对相关技术中解析搜索引擎来源信息的准确性较低的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请的主要目的在于提供一种搜索引擎来源信息的解析方法及装置,以解决相关技术中解析搜索引擎来源信息的准确性较低的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种搜索引擎来源信息的解析方法。该方法包括:获取待解析搜索引擎来源信息的目标网页地址;判断目标网页地址的格式是否符合搜索引擎页面的格式;如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式;以及如果目标网页地址的格式符合预设格式,解析目标网页地址对应的搜索引擎来源信息。

进一步地,解析目标网页地址对应的搜索引擎来源信息包括:确定预设格式中搜索引擎来源信息对应的位置信息;在目标网页地址上确定与位置信息对应的目标位置;提取目标网页地址中目标位置上的内容信息;以及将目标网页地址中目标位置上的内容信息作为目标网页地址对应的搜索引擎来源信息。

进一步地,在判断目标网页地址的格式是否符合预设格式之后,该方法还包括:如果目标网页地址的格式不符合预设格式,确定目标网页地址为不属于搜索引擎来源的网页地址;将目标网页地址发送至目标地址;以及在目标地址上对目标网页地址进行解析。

进一步地,在判断目标网页地址的格式是否符合预设格式之前,该方法还包括:从历史数据中获取目标数量的跳转页面地址;根据目标数量的跳转页面地址统计跳转页面地址的目标格式;以及将跳转页面地址的目标格式作为预设格式,并将预设格式存储至预设数据列表。

进一步地,如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式包括:如果目标网页地址的格式不符合搜索引擎页面的格式,确定目标网页地址为跳转页面地址;以及将目标网页地址的格式与预设数据列表中的预设格式进行逐个匹配,以判断目标网页地址的格式是否符合预设格式。

为了实现上述目的,根据本申请的另一方面,提供了一种搜索引擎来源信息的解析装置。该装置包括:第一获取单元,用于获取待解析搜索引擎来源信息的目标网页地址;第一判断单元,用于判断目标网页地址的格式是否符合搜索引擎页面的格式;第二判断单元,用于在目标网页地址的格式不符合搜索引擎页面的格式的情况下,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式;以及第一解析单元,用于在目标网页地址的格式符合预设格式的情况下,解析目标网页地址对应的搜索引擎来源信息。

进一步地,第一解析单元包括:第一确定模块,用于确定预设格式中搜索引擎来源信息对应的位置信息;第二确定模块,用于在目标网页地址上确定与位置信息对应的目标位置;提取模块,用于提取目标网页地址中目标位置上的内容信息;以及第三确定模块,用于将目标网页地址中目标位置上的内容信息作为目标网页地址对应的搜索引擎来源信息。

进一步地,该装置还包括:确定单元,用于在目标网页地址的格式不符合预设格式的情况下,确定目标网页地址为不属于搜索引擎来源的网页地址;发送单元,用于将目标网页地址发送至目标地址;以及第二解析单元,用于在目标地址上对目标网页地址进行解析。

进一步地,该装置还包括:第二获取单元,用于从历史数据中获取目标数量的跳转页面地址;统计单元,用于根据目标数量的跳转页面地址统计跳转页面地址的目标格式;以及存储单元,用于将跳转页面地址的目标格式作为预设格式,并将预设格式存储至预设数据列表。

进一步地,第二判断单元包括:第四确定模块,用于在目标网页地址的格式不符合搜索引擎页面的格式的情况下,确定目标网页地址为跳转页面地址;以及判断模块,用于将目标网页地址的格式与预设数据列表中的预设格式进行逐个匹配,以判断目标网页地址的格式是否符合预设格式。

通过本申请,采用以下步骤:获取待解析搜索引擎来源信息的目标网页地址;判断目标网页地址的格式是否符合搜索引擎页面的格式;如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式;以及如果目标网页地址的格式符合预设格式,解析目标网页地址对应的搜索引擎来源信息,解决了相关技术中解析搜索引擎来源信息的准确性较低的问题,进而达到了提升解析搜索引擎来源信息的准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的搜索引擎来源信息的解析方法的流程图;以及

图2是根据本申请实施例的搜索引擎来源信息的解析装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述,以下对本申请实施例涉及的术语进行说明:

统一资源定位符(Uniform Resource Locator,简称URL)也被称为网页地址,是因特网上标准的资源的地址。通俗地说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由下列三部分组成:第一部分是协议(或称为服务方式);第二部分是存有该资源的主机IP地址(有时也包括端口号);第三部分是主机资源的具体地址,例如目录和文件名等。第一部分和第二部分之间用“://”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。

根据本申请的实施例,提供了一种搜索引擎来源信息的解析方法。

图1是根据本申请实施例的搜索引擎来源信息的解析方法的流程图。如图1所示,该方法包括以下步骤:

步骤S101,获取待解析搜索引擎来源信息的目标网页地址。

将在目标网站上javascript代码得到的待解析搜索引擎来源信息的网页地址作为目标网页地址,在本申请的描述中将待解析搜索引擎来源信息的目标网页地址简称为来源URL。目标网页地址即直接跳转到目标网站的网页地址,搜索引擎来源信息可以包括来源搜索引擎名、是否付费等信息。

步骤S102,判断目标网页地址的格式是否符合搜索引擎页面的格式。

在本申请中不限定搜索引擎页面的具体格式,可以根据各个不同的搜索引擎确定出各自的搜索引擎页面的格式,也可以根据多个搜索引擎确定出统一的搜索引擎页面的格式,判断来源URL的格式是否符合搜索引擎页面的格式。

步骤S103,如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式。

在本申请中根据跳转页面地址预先配置的格式为跳转页面地址的正则表达式,判断来源URL的格式是否符合预设格式,即是将来源URL的格式与跳转页面地址的正则表达式进行匹配。

可选地,在本申请实施例提供的搜索引擎来源信息的解析方法中,在判断目标网页地址的格式是否符合预设格式之前,该方法还包括:从历史数据中获取目标数量的跳转页面地址;根据目标数量的跳转页面地址统计跳转页面地址的目标格式;以及将跳转页面地址的目标格式作为预设格式,并将预设格式存储至预设数据列表。

可选地,在本申请实施例提供的搜索引擎来源信息的解析方法中,如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式包括:如果目标网页地址的格式不符合搜索引擎页面的格式,确定目标网页地址为跳转页面地址;以及将目标网页地址的格式与预设数据列表中的预设格式进行逐个匹配,以判断目标网页地址的格式是否符合预设格式。

例如,对于百度自然搜索条目,配置的预设格式为:("^www.baidu.com/link?.*","baidu","non_paid"),其中,预设格式中包括跳转页面URL(跳转页面地址)的正则表达式、搜索引擎名、是否付费等信息。将预设格式存放至预设数据列表中。在判断来源URL的格式是否符合预设格式时,将来源URL的格式与预设数据列表中存储的预设格式与进行逐个匹配。当匹配到预设格式时即可确定来源URL的格式符合该预设格式,则可不用再继续与预设数据库中剩余的预设格式匹配了。

步骤S104,如果目标网页地址的格式符合预设格式,解析目标网页地址对应的搜索引擎来源信息。

如果将目标网页地址的格式与跳转页面地址的正则表达式匹配成功,采用跳转页面地址的正则表达式对来源URL进行解析,得到来源URL对应的搜索引擎来源信息。

可选地,在本申请实施例提供的搜索引擎来源信息的解析方法中,解析目标网页地址对应的搜索引擎来源信息包括:确定预设格式中搜索引擎来源信息对应的位置信息;在目标网页地址上确定与位置信息对应的目标位置;提取目标网页地址中目标位置上的内容信息;以及将目标网页地址中目标位置上的内容信息作为目标网页地址对应的搜索引擎来源信息。

例如,预设格式为:("^www.baidu.com/link?.*","baidu","non_paid"),其中,预设格式中包括跳转页面URL(跳转页面地址)的正则表达式、搜索引擎名、是否付费等信息。如果预设格式与来源URL匹配成功,则可以从来源URL相应的目标位置信息上获取到来源引擎名、是否付费等关键信息(即来源URL对应的搜索引擎来源信息)。

可选地,在本申请实施例提供的搜索引擎来源信息的解析方法中,在判断目标网页地址的格式是否符合预设格式之后,该方法还包括:如果目标网页地址的格式不符合预设格式,确定目标网页地址为不属于搜索引擎来源的网页地址;将目标网页地址发送至目标地址;以及在目标地址上对目标网页地址进行解析。

即,如果来源URL的格式不符合预设格式,确定来源URL为不属于搜索引擎来源的网页地址;将来源URL转入其它来源解析模块中进行解析。

综上所述,在本申请中通过以上步骤,避免了当目标网页地址不符合搜索引擎页面的格式时,直接判定为非搜索来源的网页地址导致解析搜索引擎来源信息的准确性 较低的问题,在本申请中当目标网页地址不符合搜索引擎页面的格式时对目标网页地址采用预设格式继续进行判定,即通过将目标网页地址的格式与根据跳转页面地址预先配置的格式进行匹配,如果匹配成功,采用跳转页面地址的正则表达式对来源URL进行解析,解析跳转页面地址对应的搜索引擎来源信息,从而提升了从目标网页地址解析搜索引擎来源信息的准确性。

本申请实施例提供的搜索引擎来源信息的解析方法,通过获取待解析搜索引擎来源信息的目标网页地址;判断目标网页地址的格式是否符合搜索引擎页面的格式;如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式;以及如果目标网页地址的格式符合预设格式,解析目标网页地址对应的搜索引擎来源信息,解决了相关技术中解析搜索引擎来源信息的准确性较低的问题,进而达到了提升解析搜索引擎来源信息的准确性的效果。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种搜索引擎来源信息的解析装置,需要说明的是,本申请实施例的搜索引擎来源信息的解析装置可以用于执行本申请实施例所提供的用于搜索引擎来源信息的解析方法。以下对本申请实施例提供的搜索引擎来源信息的解析装置进行介绍。

图2是根据本申请实施例的搜索引擎来源信息的解析装置的示意图。如图2所示,该装置包括:第一获取单元10、第一判断单元20、第二判断单元30和第一解析单元40。

第一获取单元10,用于获取待解析搜索引擎来源信息的目标网页地址。

第一判断单元20,用于判断目标网页地址的格式是否符合搜索引擎页面的格式。

第二判断单元30,用于在目标网页地址的格式不符合搜索引擎页面的格式的情况下,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式。

第一解析单元40,用于在目标网页地址的格式符合预设格式的情况下,解析目标网页地址对应的搜索引擎来源信息。

本申请实施例提供的搜索引擎来源信息的解析装置,通过第一获取单元10获取待解析搜索引擎来源信息的目标网页地址;第一判断单元20判断目标网页地址的格式是 否符合搜索引擎页面的格式;第二判断单元30在目标网页地址的格式不符合搜索引擎页面的格式的情况下,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式;以及第一解析单元40在目标网页地址的格式符合预设格式的情况下,解析目标网页地址对应的搜索引擎来源信息,解决了相关技术中解析搜索引擎来源信息的准确性较低的问题,进而达到了提升解析搜索引擎来源信息的准确性的效果。

可选地,在本申请实施例提供的搜索引擎来源信息的解析装置中,第一解析单元40包括:第一确定模块,用于确定预设格式中搜索引擎来源信息对应的位置信息;第二确定模块,用于在目标网页地址上确定与位置信息对应的目标位置;提取模块,用于提取目标网页地址中目标位置上的内容信息;以及第三确定模块,用于将目标网页地址中目标位置上的内容信息作为目标网页地址对应的搜索引擎来源信息。

可选地,在本申请实施例提供的搜索引擎来源信息的解析装置中,该装置还包括:确定单元,用于在目标网页地址的格式不符合预设格式的情况下,确定目标网页地址为不属于搜索引擎来源的网页地址;发送单元,用于将目标网页地址发送至目标地址;以及第二解析单元,用于在目标地址上对目标网页地址进行解析。

可选地,在本申请实施例提供的搜索引擎来源信息的解析装置中,该装置还包括:第二获取单元,用于从历史数据中获取目标数量的跳转页面地址;统计单元,用于根据目标数量的跳转页面地址统计跳转页面地址的目标格式;以及存储单元,用于将跳转页面地址的目标格式作为预设格式,并将预设格式存储至预设数据列表。

可选地,在本申请实施例提供的搜索引擎来源信息的解析装置中,第二判断单元30包括:第四确定模块,用于在目标网页地址的格式不符合搜索引擎页面的格式的情况下,确定目标网页地址为跳转页面地址;以及判断模块,用于将目标网页地址的格式与预设数据列表中的预设格式进行逐个匹配,以判断目标网页地址的格式是否符合预设格式。

所述搜索引擎来源信息的解析装置包括处理器和存储器,上述第一获取单元、第一判断单元、第二判断单元和第一解析单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设数据列表、预设格式都可以存储在存储器中。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析搜索引擎来源信息。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一 个存储芯片。

本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取待解析搜索引擎来源信息的目标网页地址;判断目标网页地址的格式是否符合搜索引擎页面的格式;如果目标网页地址的格式不符合搜索引擎页面的格式,判断目标网页地址的格式是否符合预设格式,其中,预设格式为根据跳转页面地址预先配置的格式;以及如果目标网页地址的格式符合预设格式,解析目标网页地址对应的搜索引擎来源信息。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人 员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1