计算站内搜索有效度的方法及装置与流程

文档序号:12121105阅读:275来源:国知局
计算站内搜索有效度的方法及装置与流程

本发明涉及互联网技术领域,尤其涉及一种计算站内搜索有效度的方法及装置。



背景技术:

随着Web2.0带来的海量信息井喷式涌现,企业自身对信息架构、管理、发布的需求,以及用户对信息的组织、查询、可寻性的要求越来越高,于是出现了站内搜索。其中网站站内搜索有效度是评价网站绩效的一项重要指标,它反应的是用户在网站通过站内搜索找到目标页面(内容)的成功率。

目前,站内搜索的有效度的计算是通过人工的方式实现的,具体的需要人工设置关键词多次登录访问目标网站进行搜索,然后统计得到目标站点的站内搜索有效度。

在上述站内搜索有效度计算中,发明人发现:人工统计耗时较长;而且若每隔一段时间都需要统计站内搜索有效度,则需要一直重复进行劳动;人工统计属于抽样统计,不能准确反应网站真实的站内搜索有效度。综上所述,人工统计网站的站内搜索有效度的方式效率低。



技术实现要素:

本发明提供了一种计算站内搜索有效度的方法及装置,能够解决人工统计网站的站内搜索有效度的方式效率低的问题。

为解决上述技术问题,一方面,本发明提供了一种计算站内搜索有效度的方法,该方法包括:

获取站点的访问日志,所述访问日志中记录有用户访问所述站点的访问信息;

从所述访问信息中提取用户访问的页面的统一资源定位符URL;

从所述页面的URL中查找搜索结果页的URL,将所述搜索结果页的 URL的数量确定为M,所述搜索结果页为用户通过站内搜索访问的网页页面,其中包含根据站内搜索条件筛选出的目标页面的页面链接;

根据所述访问信息判断用户是否点击过所述页面链接,将用户点击所述页面链接的次数确定为N;

计算N与M的比值,获得所述站内搜索有效度。

另一方面,本发明还提供了一种计算站内搜索有效度的装置,该装置包括:

获取单元,用于获取站点的访问日志,所述访问日志中记录有用户访问所述站点的访问信息;

提取单元,用于从所述获取单元获取的所述访问信息中提取用户访问的页面的统一资源定位符URL;

查找单元,用于从所述提取单元提取的所述页面的URL中查找搜索结果页的URL,将所述搜索结果页的URL的数量确定为M,所述搜索结果页为用户通过站内搜索访问的网页页面,其中包含根据站内搜索条件筛选出的目标页面的页面链接;

判断单元,用于根据所述获取单元获取的所述访问信息判断用户是否点击过所述页面链接,将用户点击所述页面链接的次数确定为N;

计算单元,用于计算所述判断单元获得的N与所述查找单元获得的M的比值,获得所述站内搜索有效度。

本发明提供的计算站内搜索有效度的方法及装置,能够在目标站点部署可以捕获日志的程序来获取用户的访问信息,从用户访问信息中提取出用户进行站内搜索的数量M和用户进行了有效的站内搜索的次数N,并计算N与M的比值,从而获得站内搜索有效度。与现有技术相比,本发明可以自动获取用户的访问信息,并根据访问信息自动计算站内搜索有效度,无需人工登录目标站点进行手动搜索操作,能够大大减少统计的时间,也可以保证统计结果的准确性,所以可以解决人工统计网站的站内搜索有效度的方式效率低的问题。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和 其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种计算站内搜索有效度的方法流程图;

图2示出了本发明实施例提供的另一种计算站内搜索有效度的方法流程图;

图3示出了本发明实施例提供的一种计算站内搜索有效度的装置的组成框图;

图4示出了本发明实施例提供的另一种计算站内搜索有效度的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决现有技术中解决人工统计网站的站内搜索有效度的方式效率低的问题,本发明实施例提供了一种计算站内搜索有效度的方法,如图1所示,该方法包括:

101、获取站点的访问日志,访问日志中记录有用户访问站点的访问信息。

站点的访问日志里,记录了所有用户对该站点访问的所有信息,包括哪个用户使用什么IP、在什么时间、用什么操作系统、什么浏览器、什么分辨率显示器访问了站点的哪个页面,是否访问成功。因此,为了计算站内搜索有效度,就需要获取站点的访问日志,为后面的提取访问日志中的 有用信息作准备。

本实施例中的站点指代的是具有站内搜索的一类网站,比如新浪网、央视网等,但不包括像百度、360等带有搜索引擎的网站。

102、从访问信息中提取用户访问的页面的统一资源定位符URL。

从步骤101中获得的访问信息中提取用户访问的页面的统一资源定位符(Uniform Resource Locator,简称URL)。URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。也就是说,互联网上每个页面都对应了唯一的URL,因此提取用户访问的页面的URL也是为后面判断用户是否访问了一些特定页面作准备工作。

103、从页面的URL中查找搜索结果页的URL,将搜索结果页的URL的数量确定为M,搜索结果页为用户通过站内搜索访问的网页页面,其中包含根据站内搜索条件筛选出的目标页面的页面链接。

由步骤102已经提取得到了用户访问的所有的页面的URL,然后就可以设定条件从中筛选出某些特定的页面的URL。本实施例中某些特定的页面指站点中用户访问过的搜索结果页。具体的实现方法是:在用户访问的所有的页面的URL中找出搜索结果页的URL,然后将所有搜索结果页的URL的数量进行统计,记为M。M也就是用户进行站内搜索的数量。

本实施例中的搜索结果页的URL是具有一定共性的许多URL,而不是一个绝对的URL。

104、根据访问信息判断用户是否点击过页面链接,将用户点击页面链接的次数确定为N。

由步骤103知道搜索结果页中包含根据站内搜索条件筛选出的目标页面的页面链接,然后根据用户点击页面链接的情况来确定用户点击页面的次数N。具体的确定规则为:如果用户点击了搜索结果页中的某一个页面链接,或者是某几个页面链接,均记录用户点击页面链接的次数记为1。用户点击页面链接的次数的判断依据是在搜索结果页中是否进行了点击页面链接的行为,与在同一个搜索结果页中进行了几次点击页面链接的行为没有关系,即如果有点击链接的行为就记录1次,如果没有就不记录。

通常用户在搜索结果页中进行了点击页面链接的行为就认为用户通过 搜索结果页找到了目标页面,即进行了一次有效搜索。

105、计算N与M的比值,获得站内搜索有效度。

站内搜索有效度是指用户在站点通过站内搜索找到目标页面的成功率,因此通过计算步骤104中获得的有效搜索的次数与步骤103中获得的用户进行站内搜索的数量M的比值来得到。

本实施例中计算的站内搜索有效度是指某个时间区域内的站内搜索有效度,本实施例对具体的时间区域不做限制。实际应用中该时间区域可以是某几个小时、某一天、某一周、某一个月等。时间区域的选择根据具体的用户需要来确定,计算不同的时间区域内的站内搜索有效度时根据不同的时间区域对应的用户信息进行分析计算就可以。

本发明实施例提供的计算站内搜索有效度的方法,能够在目标站点部署可以捕获日志的程序来获取用户的访问信息,从用户访问信息中提取出用户进行站内搜索的数量M和用户进行了有效的站内搜索的次数N,并计算N与M的比值,从而获得站内搜索有效度。与现有技术相比,本发明实施例可以自动获取用户的访问信息,并根据访问信息自动计算站内搜索有效度,无需人工登录目标站点进行手动搜索操作,能够大大减少统计的时间,也可以保证统计结果的准确性,所以可以解决人工统计网站的站内搜索有效度的方式效率低的问题。

进一步的,作为对图1所示实施例的细化及扩展,本发明还提供了以下不同实施例。

如图2所示,计算站内搜索有效度的方法包括:

201、通过日志获取程序获取站点的访问日志。

首先,在站点侧部署日志获取程序。

一般的日志获取程序是做成一个跟踪工具然后嵌入在客户网站的页面源代码中,用于收集用户在网站的访问行为。其中技术比较成熟的跟踪工具有Tracker、Userfly等。

以Tracker为例,具体的日志获取程序的部署过程是:在客户网站的网页源代码中加入一段JavaScript代码,这个代码片段一般会动态创建一个script标签,并将script标签指向一个单独的JavaScript脚本文件,这个单独 的JavaScript脚本文件是真正的存放日志获取程序的文件。

通常的,上述单独的JavaScript脚本文件放在指定的用来收集获取的日志的服务器里。

然后,运行日志获取程序获取站点的访问日志。

在部署好日志获取程序之后,如果用户在站内进行了搜索或是别的行为,日志获取程序开始运行,获取用户的访问日志,并将用户的访问日志发送到指定的用来收集获取的日志的服务器里。

获取到的访问日志中记录有用户访问站点的访问信息。

202、从访问信息中提取用户访问的页面的URL。

由步骤201获取到的访问信息中包含有所有的用户的行为,本实施例从中提取用户访问页面的URL。

URL是我们通常所说的网址,基本URL包含模式(或称协议)、主机名(或IP地址)、路径和文件名。一个完整的、带有授权部分的普通URL语法形式可以如下:

protocol://hostname[:port]/path/[;parameters][?query]#fragment

其中:protocol指定使用的传输协议;

hostname是指存放资源的服务器的域名系统(DNS)主机名或IP地址;

port是指端口号,是可选项,有的URL里没有给出被认为是默认值,不同的协议有不同的默认端口号;

path是指路径,是由零或多个“/”符号隔开的字符串,用于表示主机上的一个目录或文件地址;

parameters是指参数,用于指定特殊参数的可选项;

query是指查询,是可选项,用于给动态网页传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开;

Fragment是指信息片断,用字符串的形式表示,用于指定网络资源中的片断。

为了进一步更清楚的表述URL,本实施例给出一个具体的URL进行说明。由于本实施例中用到的URL的内容,只需考虑协议、主机名、路径这 三部分,因此下面给出了是一个包括协议、主机名、路径的URL:

http://tianqi.2345.com/tianjin/54527.htm

对应于上述的URL语法进行说明,其中http是协议,它告诉浏览器如何处理将要打开的文件;tianqi.2345.com是主机名;tianjin是路径。

203、根据预设的正则表达式从页面的URL中查找搜索结果页的URL,将搜索结果页的URL的数量确定为M。

将页面的URL与预设的正则表达式进行匹配,正则表达式用于描述检测搜索结果页的URL的检测规则。

正则表达式是一种使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,其中包含有许多规定不同的查找规则的符号,比如“.”、“*”“%”等。

本实施例中,是用正则表达式来检索符合某个检测规则的URL。

具体的符合某个检测规则的URL的正则表达式设定的过程是:对步骤202中URL的结构对每个字段部分按照一定的检测规则用正则表达式中规定的符号来描述。通常的符合某个检测规则的URL的正则表达式结构为:

http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?

实际的情况中根据不同的检测规则设定的URL的正则表达式是不同的。

由上述设定的符合某个检测规则的URL的正则表达式的过程就可以确定预设的正则表达式,然后将页面的URL与预设的正则表达式中的相应字段进行匹配。

将与正则表达式匹配的页面的URL确定为搜索结果页的URL,包括:

将主机名字段与正则表达式中记录的域名相同的URL,确定为搜索结果页的URL。

由步骤202可以知道,在URL中主机名字段的位置,本步骤是根据主机名字段与正则表达式中记录的域名相同来确定为搜索结果页的URL。下面,给出具体的例子进行说明。以下是三条从新浪的站内搜索中分别输入关键字天津爆炸、国庆、天天向上的搜索结果页的URL:

http://search.sina.com.cn/?range=all&c=news&q=%CC%EC%BD%F2+% B1%AC%D5%A8&from=home

http://search.sina.com.cn/?c=blog&from=home&q=%B9%FA%C7%EC

http://search.sina.com.cn/?c=video&range=title&q=%CC%EC%CC%EC%CF%F2%C9%CF&from=home

这三个关键词是分别在新闻、博客、视频三种不同的条件下进行的搜索,因此具有一定的代表性。从上面三条URL可以看到他们的域名都为search.sina.com.cn,只是后面的路径不同,因此可以根据主机名字段与正则表达式中记录的域名相同来确定为搜索结果页的URL。

将主机名字段与正则表达式中记录的域名相同,并且路径字段内容与正则表达式中记录的路径内容相同的URL,确定为搜索结果页的URL。

由步骤202可以知道,在URL中主机名字段和路径字段的位置,本步骤是根据主机名字段与正则表达式中记录的域名相同,并且路径字段内容与正则表达式中记录的路径内容相同的URL,来确定为搜索结果页的URL。下面,给出具体的例中进行说明。以下是三条从央视网的站内搜索中分别输入关键字天津爆炸、国庆、天天向上的搜索结果页的URL:

http://search.cctv.com/search.php?qtext=%E5%A4%A9%E6%B4%A5%E7%88%86%E7%82%B8&type=web

http://search.cctv.com/search.php?qtext=%E5%9B%BD%E5%BA%86&ty pe=blog

http://search.cctv.com/search.php?qtext=%E5%A4%A9%E5%A4%A9%E5%90%91%E4%B8%8A&type=video

这三个关键词是分别在新闻、博客、视频三种不同的条件下进行的搜索,因此具有一定的代表性。从上面三条URL可以看到他们的域名都为search.cctv.com,路径里都是search.php,只是后面参数不同,因此可以根据主机名字段与正则表达式中记录的域名相同,并且路径字段内容与正则表达式中记录的路径内容相同的URL,来确定为搜索结果页的URL。

上述的两个具体站内搜索的例子并不是总结搜索结果页的URL的方法,实际的操作过程是把所有的搜索结果页进行分析总结,因此上述例子只是给出具体的说明和展示。

将所有的确定为搜索结果页的URL的数量进行统计,记为M。

204、通过查看访问信息中的链接点击字段判断用户是否点击过页面链接,将用户点击所述页面链接的次数确定为N。

查看访问信息中的链接点击字段,链接点击字段用于记录用户是否点击过页面链接。

用户的访问信息中记录了用户的所有操作行为,其中链接点击字段是IsClickThrough,这个字段里记录了用户是否点击了页面链接。这里对IsClickThrough字段的中文名称不做限定,可以是链接点击字段、是否点击了结果列字段等,都表示用户访问信息中的同一个字段。

如果IsClickThrough字段中记录“是”则表示用户点击了页面链接。然后统计所有用户信息中IsClickThrough字段中“是”的记录的数量,记为N。

205、计算N与M的比值,获得站内搜索有效度。

该步骤的实现方式与图1步骤105的实现方式相同,此处不再赘述。

进一步的,在执行步骤203之前,还可以根据搜索结果页的URL特征自动生成用于检测搜索结果页的检测规则。具体的:在将页面的URL与预设的正则表达式进行匹配之前,统计已确认搜索结果页的URL的字段特征。通常的一个站点站内搜索结果页的URL具有一些相同的字段,可以将所有的搜索结果页的URL进行分析,找出他们共有的字段特征,然后根据字段特征生成检测规则。需要说明的是,本实施例中生成检测规则所用的URL为此前已经确认为搜索结果页的URL,而非步骤203中搜索结果页的URL。实际应用中,在通过步骤203找出搜索结果页的URL之后,可以将这些URL作为已确认搜索结果页的URL对检测规则进行优化训练。

进一步的,作为对上述图1或图2所示方法的实现,本发明另一实施例还提供了一种计算站内搜索有效度的装置,用于对上述图1或图2所示的方法进行实现。如图3所示,该装置包括:获取单元31、提取单元32、查找单元33、判断单元34以及计算单元35,其中,

获取单元31,用于获取站点的访问日志,访问日志中记录有用户访问站点的访问信息;

提取单元32,用于从获取单元31获取的访问信息中提取用户访问的页 面的统一资源定位符URL;

查找单元33,用于从提取单元32提取的页面的URL中查找搜索结果页的URL,将搜索结果页的URL的数量确定为M,搜索结果页为用户通过站内搜索访问的网页页面,其中包含根据站内搜索条件筛选出的目标页面的页面链接;

判断单元34,用于根据获取单元31获取的访问信息判断用户是否点击过页面链接,将用户点击页面链接的次数确定为N;

计算单元35,用于计算判断单元34获得的N与查找单元33获得的M的比值,获得站内搜索有效度。

进一步的,如图4所示,获取单元31,包括:

部署模块311,用于在站点侧部署日志获取程序;

运行模块312,用于运行部署模块311部署的日志获取程序获取站点的访问日志。

进一步的,如图4所示,查找单元33,包括:

匹配模块331,用于将页面的URL与预设的正则表达式进行匹配,正则表达式用于描述检测搜索结果页的URL的检测规则;

确定模块332,用于将与正则表达式匹配的页面的URL确定为搜索结果页的URL。

进一步的,确定模块332用于:

将主机名字段与正则表达式中记录的域名相同的URL,确定为搜索结果页的URL。

进一步的,确定模块332用于:

将主机名字段与正则表达式中记录的域名相同,并且路径字段内容与正则表达式中记录的路径内容相同的URL,确定为搜索结果页的URL。

进一步的,该装置进一步包括生成单元36,用于:

在匹配模块331将页面的URL与预设的正则表达式进行匹配之前,统计已确认搜索结果页的URL的字段特征;

根据字段特征生成检测规则。

进一步的,判断单元34,用于查看访问信息中的链接点击字段,链接 点击字段用于记录用户是否点击过页面链接。

本发明实施例提供的计算站内搜索有效度的装置,能够在目标站点部署可以捕获日志的程序来获取用户的访问信息,从用户访问信息中提取出用户进行站内搜索的数量M和用户进行了有效的站内搜索的次数N,并计算N与M的比值,从而获得站内搜索有效度。与现有技术相比,本发明实施例可以自动获取用户的访问信息,并根据访问信息自动计算站内搜索有效度,无需人工登录目标站点进行手动搜索操作,能够大大减少统计的时间,也可以保证统计结果的准确性,所以可以解决人工统计网站的站内搜索有效度的方式效率低的问题。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将 该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限 制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1