网络搜索行为识别方法及其系统与流程

文档序号:12041264阅读:220来源:国知局
网络搜索行为识别方法及其系统与流程
本发明涉及网络搜索的技术领域,特别是涉及一种网络搜索行为识别方法,以及一种网络搜索行为识别系统。

背景技术:
在通常的网络搜索技术中,用户搜索行为是指用户通过搜索获取自己感兴趣的内容的行为;主动搜索是指用户主动在搜索表单中输入关键词,而获取搜索结果的行为;而非主动搜索即为用户不输入关键词,而直接访问他人预先设好的包含某个关键词的搜索URL(UniformResourceLocator,统一资源定位符),来获取搜索结果的行为。根据以上对主动搜索的定义可以看出,例如,用户在搜索文本框中输入关键词,然后点击“搜索”按钮的行为是主动搜索;而不输入关键词,直接点击网页上由网站预先筛选好并推荐展示的热门关键词,进入搜索页获取搜索结果的行为,则不是主动搜索。因为文本输入框下方的关键词是搜索网页通过人工或者算法推荐出来的关键词,属于预设的关键词,不是用户主动输入的。以目前QQ网购平台识别主动搜索的方式为例,其操作流程如下:1.用户在搜索输入框输入关键词,然后点击搜索按钮。2.用户的搜索表单提交到QQ网购的搜索CGI(CommonGatewayInterface,公共网关接口),并会附上查询参数KeyWord(关键字)=用户输入的关键词,另外带上查询参数as=1。比如用户搜索iphone,则提交到搜索CGI的URL可能是:http://searchex.buy.qq.com/html?KeyWord=iphone&as=1。其中,查询参数as=1是标记本次搜索是否是主动搜索的一个参数,若as参数的值为1,则表明是主动搜索,否则不是主动搜索。在搜索CGI获取用户给定关键词的搜索结果并以HTML方式返回搜索结果给用户。返回给用户侧的搜索结果对本次搜索进行上报,若发现URL的查询参数as等于1,则上报为主动搜索,否则上报为非主动搜索。然而,通过上述方法识别用户的主动搜索行为会有以下的缺点:当用户通过主动搜索后获得搜索URL后,再传送给别人,比如通过邮件或者即时消息发送给他人,他人点击该搜索URL的操作同样会被说明是主动搜索,因为此操作中的搜索URL的as参数会等于1。网站运营通过主动搜索得到搜索URL后,把该搜索URL预先埋好在网站的页面里面,作为关键词推荐,而一旦用户点击这些关键词,触发该搜索URL,则同样会被说明是主动搜索。综上所述,上述用户的搜索行为识别方法并不可靠,存在多种非主动搜索被误识别为主动搜索的情形。事实上,通过对某些用户搜索上报数据的研究发现,很多明显是网站的运营预先在页面设好的推荐关键词触发的搜索,占据了主动搜索词排行榜的大部分。

技术实现要素:
针对背景技术中存在的上述问题,本发明的目的在于提供一种网络搜索行为识别方法,能够准确地识别用户的主动搜索和非主动搜索。一种网络搜索行为识别方法,包括以下步骤:接收输入关键字并触发搜索的指令,生成搜索请求,并在所述搜索请求中添加用户标识;接收根据所述搜索请求返回的搜索结果,比较所述搜索结果中包含的用户标识和接收所述搜索结果的用户的用户标识是否一致;如果所述用户标识不一致,则将本次搜索识别为非主动搜索。针对背景技术中存在的上述问题,本发明的目的还在于提供一种能够准确地识别用户的主动搜索和非主动搜索的网络搜索行为识别系统。一种网络搜索行为识别系统,包括:搜索请求生成模块,用于接收输入关键字并触发搜索的指令,生成搜索请求,并在所述搜索请求中添加用户标识;用户标识判断模块,用于接收根据所述搜索请求返回的搜索结果,比较所述搜索结果中包含的用户标识和接收所述搜索结果的用户的用户标识是否一致;以及,搜索行为识别模块,用于在用户标识不一致时,将本次搜索识别为非主动搜索。与现有技术相比较,本发明的网络搜索行为识别方法及其系统,通过在搜索URL中添加用户标识,对比接收到搜索结果的用户的用户标识,准确地识别用户的主动搜索和非主动搜索行为。在所述用户标识不相同,识别为非主动搜索。若用户复制其主动搜索的搜索URL并传播给他人,则他人点击该搜索URL后,由于用户标识不一致,则同样识别为非主动搜索;同理,若网站运营预先在页面上设置好的关键词链接被访客点击后,也会因为用户标识不一致被识别为非主动搜索。解决了对主动搜索的标记和识别问题,更加可靠,并且做到开发代价的最低化,保证对用户主动搜索上报的准确性和稳定性。由于用户主动搜索的数据,是搜索引擎对用户搜索行为进行统计分析的源泉,对用户主动搜索数据的分析和研究是每一个搜索引擎都极为关注和重视的工作,几乎每一个搜索引擎在对用户搜索数据的上报和分析上都相对投入了非常多的资源,无论是搜索引擎的自动完成功能,还是搜索风云榜,或者搜索引擎的搜索词推荐,都是对用户主动搜索的数据挖掘的成果。因此,用户主动搜索数据上报的准确性和可靠性极大地关系着搜索引擎的可用性和友好度。本发明的网络搜索行为识别方法及其系统可以可靠地标记和识别用户搜索行为中的主动搜索,而且无需依赖复杂技术,可行性高,开发代价非常低。本发明还可以极大加强用户搜索数据上报的准确性和稳定性,更好地助力搜索产品研究用户的主动搜索,了解用户关注热点,以及进行针对性营销。附图说明图1是本发明网络搜索行为识别方法第一实施方式的流程示意图;图2是本发明网络搜索行为识别方法第一实施方式的流程示意图;图3是本发明网络搜索行为识别系统第一实施方式的结构示意图;图4是本发明网络搜索行为识别系统第一实施方式的结构示意图。具体实施方式请参阅图1,图1是本发明网络搜索行为识别方法第一实施方式的流程示意图。所述网络搜索行为识别方法,包括以下步骤:步骤S101,接收输入关键字并触发搜索的指令,生成搜索请求,并在所述搜索请求中添加用户标识;步骤S102,接收根据所述搜索请求返回的搜索结果,比较所述搜索结果中包含的用户标识和接收所述搜索结果的用户的用户标识是否一致;如果用户标识不一致,则执行步骤S103,将本次搜索识别为非主动搜索。其中,对于步骤S101,是在用户端接收输入关键字并触发搜索的指令之后,将所述搜索请求递交到搜索引擎之前,在所述搜索请求中添加所述用户标识。所述生成搜索请求的步骤可以通过递交搜索URL的方式实现,亦即在步骤S101中,在用户输入关键词,点击提交搜索的按钮时,通过监听用户的提交搜索事件,接收输入关键字并触发搜索的指令,根据输入的关键字生成搜索URL,并在所述搜索URL中添加用户标识。再将所述搜索URL提交到搜索CGI(CommonGatewayInterface,公共网关接口),从而向相应的搜索引擎发送所述搜索URL。在所述搜索请求中添加的所述用户标识可为搜索发起人的会话标识sid,也可以为其他的可用于标识搜索发起人的用户身份的标识。在用户端发送所述搜索请求后,各个搜索引擎或者搜索服务端根据所述搜索请求进行搜索,并通过所述搜索CGI返回相应的搜索结果,因为搜索请求中包含用户的用户标识,因此返回的搜索结果中也包含所述用户标识。通常,所述搜索结果可为根据所述搜索URL进行搜索后生成的搜索结果URL。在步骤S102中,在用户端接收所述搜索CGI返回的搜索结果,比较所述搜索结果中包含的用户标识和接收所述搜索结果的用户的用户标识是否一致。例如,接收根据所述搜索URL进行搜索后返回的搜索结果URL,比较所述搜索结果URL中记录的sid参数和当前浏览该搜索结果URL的用户的用户ID,若两个ID不一致,则说明搜索的发起人与搜索结果的浏览人不是同一个用户,执行步骤S103,将所述搜索行为识别为非主动搜索,流程结束。所述接收所述搜索结果的用户的用户标识与步骤1中在搜索请求中添加的所述用户标识相对应,可以为接收所述搜索结果的用户的会话标识sid,也可以为其他的可用于标识接收所述搜索结果的用户的身份标识。并可从接收所述搜索结果的当前用户设备或应用程序中获取。与现有技术相比较,本发明的网络搜索行为识别方法通过在搜索URL中添加用户标识,并对比接收到搜索结果的用户标识,据此进行搜索行为的识别。通常,同一个用户使用同一个浏览器进行搜索和浏览搜索结果,其用户ID不变;而如果用户点击他人预先设好的搜索链接,用户的ID与搜索结果链接上包含的搜索发起人ID不同,则可以判定为不是同一个人发起搜索请求和接收搜索结果,不是主动搜索。因此,本发明的网络搜索行为识别方法能够准确地识别用户的主动搜索行为和非主动搜索行为。本发明的网络搜索行为识别方法中,在识别出用户的搜索行为是主动搜索或者非主动搜索之后,可进一步根据用户的本次搜索行为的识别结果,上报用户的搜索行为。为服务器端统计用户的搜索行为提供准确的数据基础。请参阅图2,图2是本发明网络搜索行为识别方法第二实施方式的流程示意图。在本实施方式中,所述网络搜索行为识别方法,包括以下步骤:步骤S201,接收输入关键字并触发搜索的指令,生成搜索请求,并在所述搜索请求中添加用户标识和触发搜索的时刻;步骤S202,接收根据所述搜索请求返回的搜索结果,比较所述搜索结果中包含的用户标识和接收所述搜索结果的用户的用户标识是否一致;如果用户标识不一致,则执行步骤S203,将本次搜索识别为非主动搜索;如果用户标识一致,则执行步骤S204,比较接收所述搜索结果的时刻和所述搜索结果中包含的触发搜索的时刻相差是否超过预定时长;如果不超过所述预定时长,则执行步骤S205,将本次搜索识别为主动搜索;如果超过所述预定时长,则执行步骤S203,将本次搜索识别为非主动搜索。与现有技术相比较,本实施方式的网络搜索行为识别方法通过在搜索请求中添加用户标识和触发搜索的时刻,并与接收搜索结果的用户的用户标识和接收时刻进行对比,据此进行搜索行为的识别。本实施方式中进一步在用户的主动搜索请求中添加触发搜索的时刻作为参数,据此进一步判断用户的搜索行为性质。通常主动搜索从触发搜索到接收到搜索结果的间隔足够短,通常在5s以内;而非主动搜索,通常是网站的运营人员预先配置的搜索链接,经历了运营筛选、录入和发布的过程后,用户再去点击该搜索链接,接收搜索结果。因此在接收搜索结果的时间和搜索结果中包含的触发搜索的时刻相差较大时,判断其不是主动搜索,准确性较高。因此,本实施方式的网络搜索行为识别方法能够进一步提高识别用户的主动搜索和非主动搜索行为的准确性。在本实施方式中,所述触发搜索的时刻,可以为触发搜索时当前用户的客户端时间sendTime。则,在接收输入关键字并触发搜索的指令后,可通过以下方式生成搜索请求,并在所述搜索请求中添加用户标识和触发搜索的时刻:根据输入的关键字生成搜索URL,并在所述搜索URL中添加用户标识sid参数以及触发搜索的时刻sendTime参数。并且,根据不同的需要,可将所述用户标识和触发搜索的时刻添加为所述搜索URL的查询参数、查询路径或锚点等等。通常的搜索URL包括搜索网址以及搜索关键字,如:http://searchex.buy.qq.com/html?KeyWord=iphone;假设定义用户主动搜索的触发时刻为sendTime,而用户标识为sid。如果将所述用户标识和触发搜索的时刻添加为所述搜索URL的锚点,则可在所述搜索URL中的搜索关键字之后添加“#”符号,并在“#”符号后添加所述触发搜索的时刻和用户标识,如:http://searchex.buy.qq.com/html?KeyWord=iphone#&sendTime=xx&sid=xx;而如果将所述用户标识和触发搜索的时刻添加为所述搜索URL的查询参数,则可在所述搜索URL中的搜索关键字之后以添加“&”符号,并在“&”符号后添加所述触发搜索的时刻和用户标识,如:http://searchex.buy.qq.com/html?KeyWord=iphone&sendTime=xx&sid=xx。在设定好所述搜索URL后,将所述搜索URL提交到搜索CGI,所述搜索CGI根据所述搜索URL向搜索引擎或者其他的搜索服务端获取搜索结果并可以HTML形式生成搜索结果返回给客户端浏览器,或者直接将搜索结果以搜索结果URL的形式返回。在步骤S202中,接收搜索CGI返回的搜索结果,比较其中包含的用户标识和接收所述搜索结果的用户的用户标识是否一致;若两个用户标识不一致,则执行步骤S203,将所述搜索行为识别为非主动搜索。而如果用户标识一致,则执行步骤S204,即计算接收所述搜索结果的当前用户侧的时刻currentTime和所述搜索URL的提交时刻sendTime的时间之差。若当前时刻currentTime减去提交时刻sendTime超过了所述预定时长,则说明用户从触发搜索到接收到搜索结果已经超过了较长的时间,不是本人发起的搜索,因此,同样执行步骤S203,将所述搜索行为识别为非主动搜索,流程结束;反之,若该时间之差未超过所述预定时长,则说明触发搜索和接收搜索结果是同一用户连续的搜索过程,执行步骤S205,将所述搜索行为识别为主动搜索。其中,所述预定时长可以根据需要灵活配置,优选地,设置所述预定时长为搜索CGI的最大耗时。所述搜索CGI的最大耗时优选设置为60秒以内。本实施方式的网络搜索行为识别方法中,只有用户标识相同,并且接收搜索结果的时间和触发搜索的时间之差不超过预定时长时,才会识别为主动搜索。若用户复制其主动搜索的搜索URL并传播给他人,则他人点击该搜索URL后,由于用户标识不一致,识别为非主动搜索;同理,若网站运营预先在页面上设置好的关键词链接被访客点击后,也会因为用户标识不一致被识别为非主动搜索。而对于同一个用户,用户标识不变,如果此用户访问了以前预设好的搜索URL而非输入关键字主动搜索,则会因为接收搜索结果和触发搜索的时间差超过预定时长,而同样识别为非主动搜索。本实施方式的网络搜索行为识别方法解决了对主动搜索的标记和识别问题,更加可靠,并且做到开发代价的最低化,保证对用户主动搜索上报的准确性和稳定性。请参阅图3,图3是本发明网络搜索行为识别系统第一实施方式的结构示意图。所述网络搜索行为识别系统包括:搜索请求生成模块11,用于接收输入关键字并触发搜索的指令,生成搜索请求,并在所述搜索请求中添加用户标识;用户标识判断模块12,用于接收根据所述搜索请求返回的搜索结果,比较所述搜索结果中包含的用户标识和接收所述搜索结果的用户的用户标识是否一致;以及,搜索行为识别模块13,用于在用户标识不一致时,将本次搜索识别为非主动搜索。其中,所述搜索请求生成模块11是在用户端接收输入关键字并触发搜索的指令之后,将所述搜索请求递交到搜索引擎之前,在所述搜索请求中添加所述用户标识。所述搜索请求可以通过递交搜索URL的方式实现,亦即在用户输入关键词,点击提交搜索的按钮时,所述搜索请求生成模块11通过监听用户的提交搜索事件,接收输入关键字并触发搜索的指令,生成搜索URL,并在所述搜索URL中添加用户标识和触发搜索的时刻,再将所述搜索URL提交到搜索CGI(CommonGatewayInterface,公共网关接口),从而向相应的搜索引擎发送所述搜索URL。所述搜索请求生成模块11在所述搜索请求中添加的所述用户标识可为搜索发起人的会话标识sid,也可以为其他的可用于标识用户身份的标识。在用户端发送所述搜索请求后,各个搜索引擎或者搜索服务端根据所述搜索请求进行搜索,并通过所述搜索CGI返回相应的搜索结果,因为搜索请求中包含用户的用户标识,因此返回的搜索结果中也包含有所述用户标识。通常,所述搜索结果可为根据所述搜索URL进行搜索后生成的搜索结果URL。在用户端,所述用户标识判断模块12接收所述搜索CGI返回的搜索结果,比较所述搜索结果中包含的用户标识和接收所述搜索结果的用户的用户标识是否一致。例如,接收根据所述搜索URL进行搜索后返回的搜索结果URL,比较所述搜索结果URL中记录的sid参数和当前浏览该搜索结果URL的用户ID。若两个ID不一致,则说明搜索的发起人与搜索结果的浏览人不是同一个用户,所述搜索行为识别模块13将所述搜索行为识别为非主动搜索。所述接收所述搜索结果的用户标识与所述搜索请求生成模块11在搜索请求中添加的所述用户标识相对应,可以为接收所述搜索结果的用户的会话标识sid,也可以为其他的可用于标识接收所述搜索结果的用户的身份标识。所述用户标识判断模块12可在用户端接收搜索结果时,从当前的用户设备或应用程序中获取。与现有技术相比较,本发明的网络搜索行为识别系统通过在搜索URL中添加用户标识,并对比接收到搜索结果的用户标识,据此进行搜索行为的识别。通常,同一个用户使用同一个浏览器进行搜索和浏览搜索结果,其用户ID不变;而如果用户点击他人预先设好的搜索链接,用户的ID与搜索结果链接上包含的搜索发起人ID不同,则可以判定为不是同一个人发起搜索请求和接收搜索结果,不是主动搜索。因此,本发明的网络搜索行为识别系统能够准确地识别用户的主动搜索行为和非主动搜索行为。本发明的网络搜索行为识别系统可进一步包括:搜索行为上报模块。所述搜索行为上报模块在所述搜索行为识别模块13识别出用户的搜索行为是主动搜索或者非主动搜索之后,可进一步根据用户的本次搜索行为的识别结果,上报用户的搜索行为。为服务器端统计用户的搜索行为提供准确的数据基础。请参阅图4,图4是本发明网络搜索行为识别系统第二实施方式的结构示意图。在本实施方式中,所述网络搜索行为识别系统包括:搜索请求生成模块21、用户标识判断模块22以及搜索行为识别模块23,并且还包括搜索时间判断模块24。所述搜索请求生成模块21用于接收输入关键字并触发搜索的指令,生成搜索请求,并在所述搜索请求中添加用户标识以及触发搜索的时刻;所述用户标识判断模块22用于接收根据所述搜索请求返回的搜索结果,比较所述搜索结果中包含的用户标识和接收所述搜索结果的用户的用户标识是否一致;所述搜索时间判断模块24用于比较接收所述搜索结果的时刻和所述搜索结果中包含的触发搜索的时刻相差是否超过预定时长;所述搜索行为识别模块23用于在所述用户标识不一致时,或者所述用户标识一致但超过所述预定时长时,将本次搜索识别为非主动搜索;在所述用户标识一致并且不超过所述预定时长时,将本次搜索识别为主动搜索。本实施方式中,所述搜索请求生成模块21进一步在用户的主动搜索请求中添加触发搜索的时刻作为参数,通过所述搜索时间判断模块24据此进一步判断用户的搜索行为性质。通常主动搜索从触发搜索到接收到搜索结果的间隔足够短,通常在5s以内;而非主动搜索,通常是网站的运营人员预先配置的搜索链接,经历了运营筛选、录入和发布的过程后,用户再去点击该搜索链接,接收搜索结果。因此在接收搜索结果的时间和这个搜索结果中包含的触发搜索的时刻相差较大时,判断其不是主动搜索,准确性较高。因此,本实施方式的网络搜索行为识别方法能够进一步提高识别用户的主动搜索和非主动搜索行为的准确性。在本实施方式中,所述触发搜索的时刻,可以为触发搜索时当前用户的客户端时间sendTime。则,所述搜索请求生成模块21在接收输入关键字并触发搜索的指令后,可根据输入的关键字生成搜索URL,并在所述搜索URL中添加用户标识sid参数以及触发搜索的时刻sendTime参数。并且,根据不同的需要,所述搜索请求生成模块21可将所述用户标识和触发搜索的时刻添加为所述搜索URL的查询参数、查询路径或锚点等等。通常的搜索URL包括搜索网址以及搜索关键字,如:http://searchex.buy.qq.com/html?KeyWord=iphone;假设定义用户主动搜索的触发时刻为sendTime,而用户标识为sid。则,假如所述搜索请求生成模块21将所述用户标识和触发搜索的时刻添加为所述搜索URL的锚点,则可在所述搜索URL中的搜索关键字之后添加“#”符号,并在“#”符号后添加所述触发搜索的时刻和用户标识,如:http://searchex.buy.qq.com/html?KeyWord=iphone#&sendTime=xx&sid=xx;而如果所述搜索请求生成模块21将所述用户标识和触发搜索的时刻添加为所述搜索URL的查询参数,则可在所述搜索URL中的搜索关键字之后以添加“&”符号,并在“&”符号后添加所述触发搜索的时刻和用户标识,如:http://searchex.buy.qq.com/html?KeyWord=iphone&sendTime=xx&sid=xx。所述搜索请求生成模块21在设定好所述搜索URL后,将所述搜索URL提交到搜索CGI,所述搜索CGI根据所述搜索URL向搜索引擎或者其他的搜索服务端获取搜索结果,并可以HTML形式生成搜索结果返回给客户端浏览器,或者直接将搜索结果以搜索结果URL的形式返回。其中,所述搜索结果包含有所述用户标识和触发搜索的时刻。所述用户标识判断模块22接收搜索CGI返回的搜索结果,比较其中的用户标识和接收所述搜索结果的用户标识是否一致;若两个用户标识不一致,则所述搜索行为识别模块23将所述搜索行为识别为非主动搜索。而如果用户标识一致,则所述搜索时间判断模块24计算接收所述搜索结果的当前用户侧的时刻currentTime和所述搜索URL的提交时刻sendTime的时间之差。若当前时刻currentTime减去提交时刻sendTime超过了所述预定时长,则说明用户从触发搜索到接收到搜索结果已经超过了较长的时间,不是本人发起的搜索,因此,所述搜索行为识别模块23同样将所述搜索行为识别为非主动搜索;反之,若该时间之差未超过所述预定时长,则说明触发搜索和接收搜索结果是同一用户连续的搜索过程,则所述搜索行为识别模块23将所述搜索行为识别为主动搜索。其中,所述搜索时间判断模块24中设定的预定时长可以根据需要灵活配置,优选地,设置所述预定时长为搜索CGI的最大耗时。所述搜索CGI的最大耗时优选设置为60秒以内。本实施方式的网络搜索行为识别系统中,只有用户标识相同,并且接收搜索结果的时间和触发搜索的时间之差不超过预定时长时,所述搜索行为识别模块23才会识别为主动搜索。若用户复制其主动搜索的搜索URL并传播给他人,则他人点击该搜索URL后,由于用户标识不一致,识别为非主动搜索;同理,若网站运营预先在页面上设置好的关键词链接被访客点击后,也会因为用户标识不一致被识别为非主动搜索。而对于同一个用户,用户标识不变,如果此用户访问了以前预设好的搜索URL而非输入关键字主动搜索,则会因为接收搜索结果和触发搜索的时间差超过预定时长,而同样识别为非主动搜索。本实施方式的网络搜索行为识别方法解决了对主动搜索的标记和识别问题,更加可靠,并且做到开发代价的最低化,保证对用户主动搜索上报的准确性和稳定性。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1