一种基于搜索的页面访问事件关联方法和装置与流程

文档序号:17849548发布日期:2019-06-11 22:05阅读:120来源:国知局

本发明涉及搜索领域,具体涉及一种基于搜索的页面访问事件关联方法,以及和一种基于搜索的页面访问事件关联装置。



背景技术:

搜索是网络常用的服务之一,目前,用户通常使用搜索网站搜索互联网信息。具体地,在搜索前端为用户提供搜索界面,并接收用户输入的查询关键词,然后搜索引擎根据查询关键词匹配网页或网络服务中包含该查询关键词的搜索结果,并将搜索结果排序后在用户终端展示给用户,用户通过点击搜索结果获取互联网信息。

上述用当用户浏览搜索结果后,可能会进一步触发页面访问事件。例如,从输入搜索关键词开始搜索,然后点击查看根据搜索关键词反馈的搜索结果,当该页搜索结果不满足用户搜索需求时,用户可能会查看下一页搜索结果,或是重新构建新的关键词触发生成新的搜索页面,不同的页面访问事件指示用户潜在搜索需求,因此,对页面访问事件进行分析是非常有必要的。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于搜索的页面访问事件关联方法和相应的基于搜索的页面访问事件关联装置。

依据本发明的一个方面,提供了一种基于搜索的页面访问事件关联方法,包括:

基于搜索过程中依序触发的多个页面访问事件,生成记录所述多个页面访问事件的Session数据;

解析生成的Session数据,并从所述Session数据提取指示各个页面访问事件之间关联关系的关联数据;

根据提取的关联数据创建搜索过程中的各个页面访问事件之间的关联关系。

可选地,所述关联数据指示所述页面访问事件与触发生成所述页面访问事件所在页面的另一页面访问事件之间的关联关系。

可选地,所述生成记录所述多个页面访问事件的Session数据包括:

将当前捕捉的页面访问事件记录在所述Session数据中;

查找触发生成当前捕捉的页面访问事件所在页面的另一页面访问事件,建立指示当前捕捉的页面访问事件与所述另一页面访问事件之间关联关系的关联数据;

将所述关联数据添加到所述Session数据中记录当前捕捉的页面访问事件的对应位置。

可选地,所述Session数据中针对各个页面访问事件添加唯一标识所述页面访问事件的事件标识。

可选地,所述关联数据为与所述页面访问事件关联的另一页面访问事件的事件标识;

所述根据提取的关联数据创建搜索过程中的各个页面访问事件之间的关联关系包括:

针对各个页面访问事件,采用预置的事件标识获取函数从所述关联数据中提取所述页面访问事件的事件标识,以及与所述页面访问事件关联的另一页面访问事件的事件标识;

对提取的两个页面访问事件的事件标识添加关联标识。

可选地,所述事件标识包括所述页面访问事件对应的事件类型标识,以及标识所述页面访问事件在所属事件类型对应的至少一个页面访问事件中的触发顺序的顺序标识,所述事件类型标识包括搜索事件类型标识和搜索结果点击事件类型标识。

可选地,所述关联数据指示在搜索结果页面触发的搜索事件或搜索结果点击事件与触发生成所述搜索结果页面的搜索事件之间的关联关系。

可选地,所述页面访问事件包括:

在所述搜索结果页面的搜索栏的关联位置点击第一查询关键词触发生成另一搜索结果页面的第一搜索事件,所述第一查询关键词通过对触发所述搜索结果页面的第二查询关键词纠错后生成;

和/或,在所述搜索结果页面输入第三查询关键词触发生成另一搜索结果页面的第二搜索事件;

和/或,通过点击所述搜索结果页面中展示的翻页链接触发生成下一页搜索结果页面的第三搜索事件;

和/或,通过点击所述搜索结果页面中任意搜索结果触发生成所述搜索结果对应页面的搜索结果点击事件,所述搜索结果包括所述第二查询关键词在常用词搜索引擎、长尾词搜索引擎或热点搜索引擎中搜索结果,或根据所述第二查询关键词确定的推荐搜索结果。

可选地,当所述页面访问事件包括在所述搜索结果页面的搜索栏的关联位置点击第一查询关键词触发生成另一搜索结果页面的第一搜索事件时,所述方法还包括:

创建所述第一查询关键词与所述第二查询关键词的关联关系;

和/或,创建所述第一查询关键词与所述第二查询关键词对应的搜索结果的关联关系。

可选地,当所述页面访问事件包括在所述搜索结果页面输入第三查询关键词触发生成另一搜索结果页面的第二搜索事件时,所述方法还包括:

创建所述第三查询关键词与所述第二查询关键词的关联关系;

和/或,创建所述第三查询关键词与所述第二查询关键词对应的搜索结果的关联关系。

可选地,当所述页面访问事件包括通过点击所述搜索结果页面中展示的翻页链接触发生成下一页搜索结果页面的第三搜索事件时,所述方法还包括:

创建所述第二查询关键词分别与所述下一页搜索结果页面中搜索结果的关联关系。

可选地,当所述页面访问事件包括通过点击所述搜索结果页面中任意搜索结果触发生成所述搜索结果对应页面的搜索结果点击事件时,所述方法还包括:

创建所述第二查询关键词与点击的搜索结果的关联关系。

根据本发明的另一个方面,提供了一种基于搜索的页面访问事件关联装置,包括:

Session数据生成模块,用于基于搜索过程中依序触发的多个页面访问事件,生成记录所述多个页面访问事件的Session数据;

关联数据提取模块,用于解析生成的Session数据,并从所述Session数据提取指示各个页面访问事件之间关联关系的关联数据;

第一关联关系创建模块,用于根据提取的关联数据创建搜索过程中的各个页面访问事件之间的关联关系。

可选地,所述关联数据指示所述页面访问事件与触发生成所述页面访问事件所在页面的另一页面访问事件之间的关联关系。

可选地,所述Session数据生成模块包括:

事件记录子模块,用于将当前捕捉的页面访问事件记录在所述Session数据中;

事件查找子模块,用于查找触发生成当前捕捉的页面访问事件所在页面的另一页面访问事件;

关联数据建立子模块,用于建立指示当前捕捉的页面访问事件与所述另一页面访问事件之间关联关系的关联数据;

关联数据添加子模块,用于将所述关联数据添加到所述Session数据中记录当前捕捉的页面访问事件的对应位置。

可选地,所述Session数据中针对各个页面访问事件添加唯一标识所述页面访问事件的事件标识。

可选地,所述关联数据为与所述页面访问事件关联的另一页面访问事件的事件标识;

所述第一关联关系创建模块包括:

事件标识提取子模块,用于针对各个页面访问事件,采用预置的事件标识获取函数从所述关联数据中提取所述页面访问事件的事件标识,以及与所述页面访问事件关联的另一页面访问事件的事件标识;

事件标识添加子模块,用于对提取的两个页面访问事件的事件标识添加关联标识。

可选地,所述事件标识包括所述页面访问事件对应的事件类型标识,以及标识所述页面访问事件在所属事件类型对应的至少一个页面访问事件中的触发顺序的顺序标识,所述事件类型标识包括搜索事件类型标识和搜索结果点击事件类型标识。

可选地,所述关联数据指示在搜索结果页面触发的搜索事件或搜索结果点击事件与触发生成所述搜索结果页面的搜索事件之间的关联关系。

可选地,所述页面访问事件包括:

在所述搜索结果页面的搜索栏的关联位置点击第一查询关键词触发生成另一搜索结果页面的第一搜索事件,所述第一查询关键词通过对触发所述搜索结果页面的第二查询关键词纠错后生成;

和/或,在所述搜索结果页面输入第三查询关键词触发生成另一搜索结果页面的第二搜索事件;

和/或,通过点击所述搜索结果页面中展示的翻页链接触发生成下一页搜索结果页面的第三搜索事件;

和/或,通过点击所述搜索结果页面中任意搜索结果触发生成所述搜索结果对应页面的搜索结果点击事件,所述搜索结果包括所述第二查询关键词在常用词搜索引擎、长尾词搜索引擎或热点搜索引擎中搜索结果,或根据所述第二查询关键词确定的推荐搜索结果。

可选地,当所述页面访问事件包括在所述搜索结果页面的搜索栏的关联位置点击第一查询关键词触发生成另一搜索结果页面的第一搜索事件时,所述装置还包括:

第二关联关系创建模块,用于创建所述第一查询关键词与所述第二查询关键词的关联关系,和/或,创建所述第一查询关键词与所述第二查询关键词对应的搜索结果的关联关系。

可选地,当所述页面访问事件包括在所述搜索结果页面输入第三查询关键词触发生成另一搜索结果页面的第二搜索事件时,所述装置还包括:

第三关联关系创建模块,用于创建所述第三查询关键词与所述第二查询关键词的关联关系,和/或,创建所述第三查询关键词与所述第二查询关键词对应的搜索结果的关联关系。

可选地,当所述页面访问事件包括通过点击所述搜索结果页面中展示的翻页链接触发生成下一页搜索结果页面的第三搜索事件时,所述装置还包括:

第四关联关系创建模块,用于创建所述第二查询关键词分别与所述下一页搜索结果页面中搜索结果的关联关系。

可选地,当所述页面访问事件包括通过点击所述搜索结果页面中任意搜索结果触发生成所述搜索结果对应页面的搜索结果点击事件时,所述装置还包括:

第五关联关系创建模块,用于创建所述第二查询关键词与点击的搜索结果的关联关系。

根据本发明实施例,基于搜索过程中依序触发的多个页面访问事件,生成记录各个页面访问事件的Session数据,进一步从Session数据中解析出指示页面访问事件关联关系的关联数据,根据关联数据可以创建各个页面访问事件之间的关联关系,便于获取用户在某一搜索行为前后进行的操作,作为分析用户潜在搜索需求的依据,从而可以进一步挖掘用户在一系列和搜索引擎的交互行为中的特定行为模式,以优化搜索结果,有利于提高搜索效率,减少向搜索引擎发送搜索请求的次数,降低搜索服务器的负载。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明实施例1的一种基于搜索的页面访问事件关联方法流程图;

图2示出了根据本发明实施例2的一种基于搜索的页面访问事件关联方法流程图;

图3示出了根据本发明实施例1的一种基于搜索的页面访问事件关联方法结构框图;

图4示出了根据本发明实施例2的一种基于搜索的页面访问事件关联方法结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1,其示出了根据本发明实施例1的一种基于搜索的页面访问事件关联方法实施例的流程图,所述方法具体可以包括:

步骤101、基于搜索过程中依序触发的多个页面访问事件,生成记录所述多个页面访问事件的Session数据。

搜索过程中包括多个页面访问事件,例如,根据用户输入的搜索关键词触发的搜索事件、对搜索结果页面上展示的搜索结果进行点击的搜索结果点击事件、查看下一页搜索结果搜索事件、重新输入搜索关键词触发新的搜索事件、点击纠错后的搜索关键词触发新的搜索事件等等。

在搜索过程中发生的页面访问事件以及各个页面访问事件的发生顺序根据实际搜索情况有所不同,针对一次搜索过程,按照各个页面访问事件的发生顺序,将多个页面访问事件进行记录为Session数据,Session数据对应描述一次完整的搜索过程中依序发生的多个页面访问事件。

步骤102、解析生成的Session数据,并从所述Session数据提取指示各个页面访问事件之间关联关系的关联数据。

从Session数据解析出关联数据,关联数据标识各个页面访问事件之间的关联关系,关联关系可以根据后续分析搜索过程的需求来记录。例如,关联数据可以是标识页面访问事件之间的发生顺序的数据,例如事件先后顺序编号等;也可以是页面关联事件所关联的页面,例如,一个页面事件是在另一个页面事件触发生成的页面中发生,则两个页面事件对应关联了同一个页面,并且,两者之间有父子事件关系,这种情况下关联数据也可以是针对各个页面访问事件标识的父事件或子事件;还可以是页面访问事件的事件类型或是搜索关键词,可以按照事件类型或搜索关键词对页面访问事件进行关联,关联数据还可以是任何其他可以将多个页面访问事件进行关联的数据,本发明对此并不做限制。

步骤103、根据提取的关联数据创建搜索过程中的各个页面访问事件之间的关联关系。

根据关联数据可以确定页面访问事件之间的关联关系,便于获取用户在某一搜索行为前后进行的操作,作为分析用户潜在搜索需求的依据,从而可以进一步挖掘用户在一系列和搜索引擎的交互行为中的特定行为模式,以优化搜索结果,有利于提高搜索效率,减少向搜索引擎发送搜索请求的次数,降低搜索服务器的负载。

例如,关联数据为标识页面访问事件之间的发生顺序的数据时,根据关联数据可以确定页面访问事件之间发生先后顺序;关联数据为页面访问事件所关联的页面时,则可以将关联同一个页面的页面访问事件进行关联;关联数据为针对各个页面访问事件标识的父事件或子事件时,则可以根据将页面访问事件与其对应的父事件或子事件进行关联,进一步,根据两个事件的关联对更多的页面访问事件进行关联;关联数据为页面访问事件的事件类型或是搜索关键词时,根据事件类型可以得到在同一搜索过程中具备同一搜索类型的多个页面访问事件,根据搜索关键词可以得到在同一搜索过程中对应同一搜索关键词的页面访问事件。

本发明实施例中,优选地,所述关联数据具体指示所述页面访问事件与触发生成所述页面访问事件所在页面的另一页面访问事件之间的关联关系。即根据所述另一页面访问页面事件触发生成一个页面,在该页面中触发所述页面访问事件,则所述页面访问事件与所述另一页面访问事件之间有关联关系,具体为父子事件的关系。

相应的,所述步骤101中生成记录所述多个页面访问事件的Session数据包括:

子步骤S11、将当前捕捉的页面访问事件记录在所述Session数据中;

子步骤S12、查找触发生成当前捕捉的页面访问事件所在页面的另一页面访问事件,建立指示当前捕捉的页面访问事件与所述另一页面访问事件之间关联关系的关联数据;

子步骤S13、将所述关联数据添加到所述Session数据中记录当前捕捉的页面访问事件的对应位置。

采用Session数据记录一次搜索过程中触发的页面访问事件,当捕捉到一个页面访问事件时,确定该页面访问事件所在的页面,由于该页面已经生成,因此,触发生成该页面的另一页面访问事件已经被记录在Session数据中,可以进一步从Session数据中查找另一页面访问事件,并建立指示两个页面访问事件之间的关联数据,例如,针对该页面访问事件添加父事件为另一页面访问事件的标识,或是针对另一页面访问事件添加子事件为所述页面访问事件的标识,并将该关联数据记录在Session数据与页面访问事件相关位置。

本发明实施例中,优选地,所述Session数据中针对各个页面访问事件添加唯一标识所述页面访问事件的事件标识,事件标识可以为事件的编号或在所有事件中的排序等。相应的,所述关联数据可以为与所述页面访问事件关联的另一页面访问事件的事件标识。

相应的,本发明实施例中,优选地,所述步骤103可以包括:

子步骤S21、针对各个页面访问事件,采用预置的事件标识获取函数从所述关联数据中提取所述页面访问事件的事件标识,以及与所述页面访问事件关联的另一页面访问事件的事件标识;

子步骤S22、对提取的两个页面访问事件的事件标识添加关联标识。

根据关联数据可以确定一个页面访问事件所关联的另一个访问事件的事件标识,通过事件标识获取函数提取关联的两个事件的事件标识,并对事件标识添加关联标识即可。

本发明实施例中,优选地,所述事件标识包括所述页面访问事件对应的事件类型标识,以及标识所述页面访问事件在所属事件类型对应的至少一个页面访问事件中的触发顺序的顺序标识。

具体的,所述事件类型标识包括搜索事件类型标识SearchEvent和搜索结果点击事件类型标识ResultClickEvent。

相应的,所述页面访问事件为在搜索结果页面的搜索结果点击事件,触发生成搜索结果页面的搜索事件,因此,所述关联数据指示在搜索结果页面触发的搜索事件或搜索结果点击事件与触发生成所述搜索结果页面的搜索事件之间的关联关系。

以下给出一个Session数据的具体示例进行说明。

Session数据在HDFS上也以Sequence File存储,其key为Text格式的guid(全局唯一标识符)。key值在value的结构中都有重复,value为序列化的qsslog::Session消息。其定义为:

其中最主要的是repeated的EventEntry消息,表示按照时间顺序组织的页面访问事件(Event),EventEntry是个复合消息类型,内部存储多种类型的具体事件类型,目前只有SearchEvent和ResultClickEvent两种。

具体的,针对不同搜索过程,所述页面访问事件可以包括下述四种事件中任意多种。

所述页面访问事件可以包括:在所述搜索结果页面的搜索栏的关联位置点击第一查询关键词触发生成另一搜索结果页面的第一搜索事件,所述第一查询关键词通过对触发所述搜索结果页面的第二查询关键词纠错后生成。

用户通过输入法在页面相关位置输入查询关键词时,可能会出现错字的情况,特别是五笔输入法或拼音输入法,由于同一由于形近字的原因,很容易出现误操作,输入其他语言文字。例如,若用户在搜索引擎中想输入搜索词“项羽”,搜索历史人物项羽的相关网页信息,但是将“项”误输入为“顶”,由于“项”和“顶”也很相近,用户很可能输入了“顶羽”而没有察觉,直接请求搜索引擎搜索与“顶羽”相关的网页信息。

对此,可以在接收到用户输入的查询关键词之后,进行纠错处理。具体地,可以使用自然语言处理技术(Natural Language Processing,NLP)对搜索关键词进行纠错处理,也可以可以预先采集用户的输入文本信息,然后训练语言模型(Language Model)对当前输入的文字信息进行纠错处理。

对第一查询关键词进行纠错处理后得到第二查询关键词,可以展示在根据第一查询关键词触发的搜索结果页面的搜索栏的关联位置,例如搜索栏下方,通过点击第二查询关键词可以触发新的搜索事件,获得相应的搜索结果页面。

所述页面访问事件可以包括:在所述搜索结果页面输入第三查询关键词触发生成另一搜索结果页面的第二搜索事件。当第二关键词对应的搜索结果中没有用户需要的搜索结果,或是用户发现查询关键词不合适时,可以重新输入新的第三查询关键词触发新的搜索事件。

所述页面访问事件可以包括:通过点击所述搜索结果页面中展示的翻页链接触发生成下一页搜索结果页面的第三搜索事件。用户在搜索结果页面第一页的搜索结果没有发现需要的搜索结果或是查看完第一页的搜索结果之后,可以进一步查看下一页的搜索结果,进而触发展示下一页搜索结果的搜索事件。

所述页面访问事件可以包括:通过点击所述搜索结果页面中任意搜索结果触发生成所述搜索结果对应页面的搜索结果点击事件,所述搜索结果包括所述第二查询关键词在常用词搜索引擎、长尾词搜索引擎或热点搜索引擎中搜索结果,或根据所述第二查询关键词确定的推荐搜索结果。

搜索引擎根据搜索关键词搜索对应的搜索结果,本发明实施例中,搜索引擎可以分为多种,搜索引擎包括常用词的搜索引擎,针对用户搜索较多的查询关键词反馈搜索结果;搜索引擎还可以包括长尾词搜索引擎,长尾关键词的特征是比较长,往往是2-3个词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中,搜索量非常少且不稳定,另一方面,长尾关键词带来的客户,转化为网站产品客户的概率比目标关键词低很多,当第二查询关键词为长尾词时,进一步采用长尾词搜索引擎进行搜索搜索引擎;还可以包括热点搜索引擎,用于针对查询关键词查询热点分类下的搜索结果,例如新闻、微博等;还可以包括用于搜索广告推荐、纠错词以及与查询关键词相关其他关键词的搜索引擎。

第二查询关键词发送到搜索引擎之前可以首先分发到各种搜索引擎中进行搜索,进一步将在各种搜索引擎中分别获得的搜索结果进行组合。

参照图2,其示出了根据本发明实施例2的一种基于搜索的页面访问事件关联方法实施例的流程图,所述方法具体可以包括:

步骤201、基于搜索过程中依序触发的多个页面访问事件,生成记录所述多个页面访问事件的Session数据。

步骤202、解析生成的Session数据,并从所述Session数据提取指示各个页面访问事件之间关联关系的关联数据。

步骤203、根据提取的关联数据创建搜索过程中的各个页面访问事件之间的关联关系。

步骤204、当所述页面访问事件包括在所述搜索结果页面的搜索栏的关联位置点击第一查询关键词触发生成另一搜索结果页面的第一搜索事件时,创建所述第一查询关键词与第二查询关键词的关联关系,和/或,创建所述第一查询关键词与所述第二查询关键词对应的搜索结果的关联关系,所述第一查询关键词通过对触发所述搜索结果页面的第二查询关键词纠错后生成。

针对第一查询关键词纠错后获得的第二查询关键词,若用户选择点击该第二查询关键词获得搜索结果,则可以确认第二查询关键词是针对第一查询关键词有效的纠错词,可以与第一查询关键词建立关联,从而可以在下次输入第一查询关键词后,直接切换到第二查询关键词,根据第二查询关键词搜索对应的搜索结果,或者将第一查询关键词语与第二查询关键词对应的搜索结果进行绑定,从而直接根据第一查询关键词搜索得到绑定的搜索结果,无需经过纠错的步骤。

步骤205、当所述页面访问事件包括在所述搜索结果页面输入第三查询关键词触发生成另一搜索结果页面的第二搜索事件时,创建所述第三查询关键词与所述第二查询关键词的关联关系,和/或,创建所述第三查询关键词与所述第二查询关键词对应的搜索结果的关联关系。

在输入第一查询关键词并展示搜索结果之后,若用户再次输入第三查询关键词,则说明用户想要输入的第一查询关键词目前绑定的搜索结果并不是用户想要的,而调整后的第三查询词对应的搜索结果可能更符合用户的需求,因此,可以将第一查询关键词与第三查关键词进行关联,下次输入第一查询关键词后,可以与第一查询关键词建立关联,从而可以在下次输入第一查询关键词后,直接切换到第三查询关键词,根据第三查询关键词搜索对应的搜索结果,或者将第一查询关键词语与第三查询关键词对应的搜索结果进行绑定,从而直接根据第一查询关键词搜索得到绑定的第三查询关键词对应的搜索结果,无需经过调整关键词的步骤。

步骤206、当所述页面访问事件包括通过点击所述搜索结果页面中展示的翻页链接触发生成下一页搜索结果页面的第三搜索事件时,创建所述第二查询关键词分别与所述下一页搜索结果页面中搜索结果的关联关系。

当用户点击下一页搜索结果时,说明上一页搜索结果中并不包括用户需要的搜索结果,可以将第二关键词与点击的下一页搜索结果进行关联,从而在下一次搜索时,将不符合搜索需要的上一页搜索结果排在后面展示。

步骤207、当所述页面访问事件包括通过点击所述搜索结果页面中任意搜索结果触发生成所述搜索结果对应页面的搜索结果点击事件时,创建所述第二查询关键词与点击的搜索结果的关联关系。

当用户在搜索结果页面中选择点击搜索结果时,说明针对用户查询的第二查询关键词,该点击的搜索结果相比于没有点击的搜索结果更符合用户的需求,因此,可以进一步将第二查询关键词与点击的搜索结果进行关联,下次根据第二查询关键词进行搜索时,直接将与第二查询关键词关联的搜索结果展示在靠前的位置,便于用户尽快找到需要的搜索结果,提高搜索效率。

根据本发明实施例,基于搜索过程中依序触发的多个页面访问事件,生成记录各个页面访问事件的Session数据,进一步从Session数据中解析出指示页面访问事件关联关系的关联数据,根据关联数据可以创建各个页面访问事件之间的关联关系,便于获取用户在某一搜索行为前后进行的操作,作为分析用户潜在搜索需求的依据,从而可以进一步挖掘用户在一系列和搜索引擎的交互行为中的特定行为模式,以优化搜索结果,有利于提高搜索效率,减少向搜索引擎发送搜索请求的次数,降低搜索服务器的负载。

需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必需的。

为使本领域技术人员更好地理解本发明,以下通过具体的示例对本发明实施例的基于搜索的页面访问事件的关联方案进行说明。

本示例中,页面访问事件包括搜索事件SearchEvent和搜索结果点击事件ResultClickEvent,例如,翻页、点击提示纠错、重新输入查询词等可以将两个SearchEvent关联起来,点击搜索结果可将SearchEvent和ResultClickEvent关联起来。

SearchEvent及用户点击的ResultClickEvent组织生成便于进行用户行为分析的Session数据,使用MapReduce方式完成。

在Map阶段,使用guid作为输出的key,将同一用户产生的SearchEvent输出到同一个Reduce过程中。

在Reduce阶段,首先将多个搜索过程中记录的所有SearchEvent和ResultClickEvent组织生成EventEntry序列,EventEntry代表按照时间顺序组织的页面访问事件(Event),事件之间可能存在父子关系,然后在序列中用父子关系标注Event之间的行为关系,并将子Event的parent_event_order域设置为父Event在Event序列中的序号。

EventEntry之间的父子关系分为两种:(1)SearchEvent和SearchEvent之间(2)ResultClickEvent和SearchEvent之间。对于SearchEvent之间的父子关系,选定一个SearchEvent,对在EventEntry序列中它之后的SearchEvent进行遍历。如果后一个SearchEvent的psid等于前一个SearchEvent的sid,则判定后一个SearchEvent是前一个SearchEvent的子Event。如果log中不存在psid域,则用后一个SearchEvent的previous_query域等于前一个SearchEvent的query域来判定父子关系。对于ResultClickEvent和SearchEvent之间,点击某SearchEvent的搜索结果的ResultClickEvent是该SearchEvent的子Event。

在生成Session数据时,用父事件事件顺序标识的parent_event_order和父事件的事件类型标识parent_event_id指向其父亲EventEntry。进一步,提取关联数据时通过Protocol Buffer方法has_search_event()或是has_result_click_event()获取关联的两个事件的事件标识,进一步对事件标识添加关联标识。

基于上述方法实施例的说明,本发明还提供了相应的基于搜索的页面访问事件关联装置实施例,来实现上述方法实施例所述的内容。

参照图3,其示出了根据本发明实施例1的一种基于搜索的页面访问事件关联装置实施例的结构框图,包括:

Session数据生成模块301,用于基于搜索过程中依序触发的多个页面访问事件,生成记录所述多个页面访问事件的Session数据。

关联数据提取模块302,用于解析生成的Session数据,并从所述Session数据提取指示各个页面访问事件之间关联关系的关联数据。

第一关联关系创建模块303,用于根据提取的关联数据创建搜索过程中的各个页面访问事件之间的关联关系。

本发明实施例中,优选地,所述关联数据指示所述页面访问事件与触发生成所述页面访问事件所在页面的另一页面访问事件之间的关联关系。

本发明实施例中,优选地,所述Session数据生成模块包括:

事件记录子模块,用于将当前捕捉的页面访问事件记录在所述Session数据中;

事件查找子模块,用于查找触发生成当前捕捉的页面访问事件所在页面的另一页面访问事件;

关联数据建立子模块,用于建立指示当前捕捉的页面访问事件与所述另一页面访问事件之间关联关系的关联数据;

关联数据添加子模块,用于将所述关联数据添加到所述Session数据中记录当前捕捉的页面访问事件的对应位置。

本发明实施例中,优选地,所述Session数据中针对各个页面访问事件添加唯一标识所述页面访问事件的事件标识。

本发明实施例中,优选地,所述关联数据为与所述页面访问事件关联的另一页面访问事件的事件标识;

所述第一关联关系创建模块包括:

事件标识提取子模块,用于针对各个页面访问事件,采用预置的事件标识获取函数从所述关联数据中提取所述页面访问事件的事件标识,以及与所述页面访问事件关联的另一页面访问事件的事件标识;

事件标识添加子模块,用于对提取的两个页面访问事件的事件标识添加关联标识。

本发明实施例中,优选地,所述事件标识包括所述页面访问事件对应的事件类型标识,以及标识所述页面访问事件在所属事件类型对应的至少一个页面访问事件中的触发顺序的顺序标识,所述事件类型标识包括搜索事件类型标识和搜索结果点击事件类型标识。

本发明实施例中,优选地,所述关联数据指示在搜索结果页面触发的搜索事件或搜索结果点击事件与触发生成所述搜索结果页面的搜索事件之间的关联关系。

本发明实施例中,优选地,所述页面访问事件包括:

在所述搜索结果页面的搜索栏的关联位置点击第一查询关键词触发生成另一搜索结果页面的第一搜索事件,所述第一查询关键词通过对触发所述搜索结果页面的第二查询关键词纠错后生成;

和/或,在所述搜索结果页面输入第三查询关键词触发生成另一搜索结果页面的第二搜索事件;

和/或,通过点击所述搜索结果页面中展示的翻页链接触发生成下一页搜索结果页面的第三搜索事件;

和/或,通过点击所述搜索结果页面中任意搜索结果触发生成所述搜索结果对应页面的搜索结果点击事件,所述搜索结果包括所述第二查询关键词在常用词搜索引擎、长尾词搜索引擎或热点搜索引擎中搜索结果,或根据所述第二查询关键词确定的推荐搜索结果。

根据本发明实施例,基于搜索过程中依序触发的多个页面访问事件,生成记录各个页面访问事件的Session数据,进一步从Session数据中解析出指示页面访问事件关联关系的关联数据,根据关联数据可以创建各个页面访问事件之间的关联关系,便于获取用户在某一搜索行为前后进行的操作,作为分析用户潜在搜索需求的依据,从而可以进一步挖掘用户在一系列和搜索引擎的交互行为中的特定行为模式,以优化搜索结果,有利于提高搜索效率,减少向搜索引擎发送搜索请求的次数,降低搜索服务器的负载。

参照图4,其示出了根据本发明实施例2的一种基于搜索的页面访问事件关联装置实施例的结构框图,包括:

Session数据生成模块401,用于基于搜索过程中依序触发的多个页面访问事件,生成记录所述多个页面访问事件的Session数据。

关联数据提取模块402,用于解析生成的Session数据,并从所述Session数据提取指示各个页面访问事件之间关联关系的关联数据。

第一关联关系创建模块403,用于根据提取的关联数据创建搜索过程中的各个页面访问事件之间的关联关系。

第二关联关系创建模块404,用于当所述页面访问事件包括在所述搜索结果页面的搜索栏的关联位置点击第一查询关键词触发生成另一搜索结果页面的第一搜索事件时,创建所述第一查询关键词与第二查询关键词的关联关系,和/或,创建所述第一查询关键词与所述第二查询关键词对应的搜索结果的关联关系,所述第一查询关键词通过对触发所述搜索结果页面的第二查询关键词纠错后生成。

第三关联关系创建模块405,用于当所述页面访问事件包括在所述搜索结果页面输入第三查询关键词触发生成另一搜索结果页面的第二搜索事件时,创建所述第三查询关键词与所述第二查询关键词的关联关系,和/或,创建所述第三查询关键词与所述第二查询关键词对应的搜索结果的关联关系。

第四关联关系创建模块406,用于当所述页面访问事件包括通过点击所述搜索结果页面中展示的翻页链接触发生成下一页搜索结果页面的第三搜索事件时,创建所述第二查询关键词分别与所述下一页搜索结果页面中搜索结果的关联关系。

第五关联关系创建模块407,用于当所述页面访问事件包括通过点击所述搜索结果页面中任意搜索结果触发生成所述搜索结果对应页面的搜索结果点击事件时,创建所述第二查询关键词与点击的搜索结果的关联关系。

根据本发明实施例,基于搜索过程中依序触发的多个页面访问事件,生成记录各个页面访问事件的Session数据,进一步从Session数据中解析出指示页面访问事件关联关系的关联数据,根据关联数据可以创建各个页面访问事件之间的关联关系,便于获取用户在某一搜索行为前后进行的操作,作为分析用户潜在搜索需求的依据,从而可以进一步挖掘用户在一系列和搜索引擎的交互行为中的特定行为模式,以优化搜索结果,有利于提高搜索效率,减少向搜索引擎发送搜索请求的次数,降低搜索服务器的负载。

对于上述基于搜索的页面访问事件关联装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于搜索的页面访问事件关联设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1