使用访问时间和频率的网页搜索系统和方法

文档序号:6480019阅读:174来源:国知局
专利名称:使用访问时间和频率的网页搜索系统和方法
技术领域
本发明涉及搜索因特网上的网页领域,尤其涉及基于网页连接时间和网页访问频率的网页搜索系统及其方法,所述网页连接时间和网页访问频率通过使用安装在用户终端上的客户端程序来提取。
背景技术
通常,网页搜索领域考虑类似度、链接的数量以及每个网页的访问者的数量,以便提供搜索结果。这种网页搜索领域通过在按照访问者的数量、链接数量或者类似度的顺序对网页进行排序之后向用户提供包含该用户输入的关键字的网页,来提供具有进一步的更高关系的搜索结果。然而,这种基于访问者的数量、链接的数量或者类似度的搜索方法和装置是不利的,因为当用户通过使用被提供作为搜索结果的标题、概要信息等来访问网页时,它们被反映到该搜索结果上,虽然用户或许没有从访问的网页中获得有用的信息,从而不能正确地获得并提供实际使用网页上的信息的程度。

发明内容
技术问题本发明意欲解决的技术问题是提供使用访问时间和频率的网页搜索系统和方法, 其能够在获得了使用被搜索的网页上的信息的程度之后,向用户提供搜索结果。技术方案本发明致力于解决上面的问题,并且本发明的目的是提供基于用户的网页连接时间和网页访问频率的网页搜索系统及其方法,其在获得了使用被搜索的网页上的信息的程度之后向用户提供搜索结果。本发明的另一目的是提供记录有用于在计算机中执行所述方法的程序的计算机可读记录介质。为了实现本发明的上述目的,根据本发明的一个方面,提供了一种基于网页连接时间和网页访问频率的网页搜索方法,该方法包括以下步骤(a)将关于连接时间的信息 (即在特定用户终端上实际显示特定网页的时间段)存储到网页搜索系统中;(b)网页搜索系统通过将用户终端连接到所述网页的所有时间段相加来计算并存储累积连接时间,即显示所述网页的总的时间段;以及(C)在按照累积连接时间的顺序对网页进行排序之后,由网页搜索系统向用户终端提供该用户终端已经连接到的网页的列表,其中步骤(a)包括以下步骤(a-l)测量网页活动时间,该网页活动时间从激活网页的时刻开始到改变网址或者关闭网页窗口的时刻为止;(a_2)在网页活动时间期间,当用户终端的输入设备在参考时间逝去之前没有接收到输入信号时,测量从参考时间期满的时刻开始到接收到下一输入信号的时刻为止的丢失时间;以及(a_3)计算从网页活动时间中去除丢失时间之后的连接时间。根据本发明的另一方面,提供了一种基于网页连接时间和网页访问频率的网页搜索方法,该方法包括以下步骤(a)将关于连接时间的信息(即在特定用户终端上实际显示特定网页的时间段)存储到网页搜索系统中;(b)网页搜索系统通过将用户终端连接到所述网页的所有时间段相加来计算并存储累积连接时间,即显示所述网页的总的时间段;以及(C)在按照累积连接时间的顺序对网页进行排序之后,由网页搜索系统向用户终端提供该用户终端已经连接到的网页的列表,其中步骤(a)包括以下步骤(a_l)在用户终端连接到活动的网页时,通过对输入设备输入有效信号的时间进行累积来计算连接时间。该网页搜索方法还包括以下步骤(d)计算访问频率,该访问频率是用户终端的访问量与连接时间的比率;以及(e)在按照访问频率的顺序对网页进行排序之后,提供由用户终端搜索的网页的列表。参考时间是1到3分钟。该网页搜索方法还包括以下步骤(f)计算包含到所述网页的链接的其他网页的数量,作为链接流行度(link popularity) ; (g)计算包含在所述网页中的关键字的频率, 作为类似度;以及(h)在按照链接流行度和/或类似度的比率的顺序对所述网页进行排序之后,提供由用户终端搜索的网页的列表。该网页搜索方法还包括以下步骤(i)计算网页的累积连接时间与所有网页的累积连接时间的比率;以及(j)在按照累积连接时间的比率对网页进行排序之后,提供由用户终端搜索的网页的列表。根据本发明的另一方面,提供了一种基于网页连接时间和网页访问频率的网页搜索系统,该系统包括网页使用结果数据库,用于接收并存储与连接时间相关的信息,即在特定用户终端上实际显示特定网页的时间段;以及中央处理装置,用于通过将用户终端连接到所述网页的所有时间段相加来计算累积连接时间(即在用户终端上显示所述网页的总的时间段),在网页使用结果数据库中存储累积连接时间,以及在按照累积连接时间的顺序对网页进行排序之后向用户终端提供该用户终端已经连接到的网页的列表,其中,客户端程序测量网页活动时间,该网页活动时间从激活网页的时刻开始到改变网址或者关闭网页窗口的时刻为止;在网页活动时间期间,当用户终端的输入设备在参考时间逝去之前没有接收到输入信号时,测量从参考时间期满的时刻开始到接收到下一输入信号的时刻为止的丢失时间;以及计算从网页活动时间中去除丢失时间之后的连接时间。根据本发明的另一方面,提供了一种基于网页连接时间和网页访问频率的网页搜索系统,该系统包括网页使用结果数据库,用于接收并存储与连接时间相关的信息,即在特定用户终端上实际显示特定网页的时间段;以及中央处理装置,用于通过将用户终端连接到所述网页的所有时间段相加来计算累积连接时间(即在用户终端上显示所述网页的总的时间段),在网页使用结果数据库中存储累积连接时间,以及在按照累积连接时间的顺序对网页进行排序之后向用户终端提供该用户终端已经连接到的网页的列表,其中,客户端程序在用户终端连接到活动的网页时,通过对输入设备输入有效信号的时间进行累积来计算连接时间。网页使用结果数据库还存储网页访问频率,以及中央处理装置在按照访问频率的顺序对网页进行排序之后提供由用户终端搜索的网页的列表。
网页使用结果数据库还存储网页的链接流行度和/或类似度,以及中央处理装置在按照链接流行度和/或类似度的顺序对网页进行排序之后提供由用户终端搜索的网页的列表。根据本发明的又一实施方式,提供了一种用于执行计算机中的网页搜索方法的计算机可读记录介质。有益效果根据本发明的基于网页连接时间和网页访问频率的网页搜索系统和网页搜索方法,安装在用户终端中的客户端程序收集用户访问的网页的网址,存储基于每个网页的连接时间、访问频率、链接流行度和类似度的信息,根据连接时间、访问频率、链接流行度和类似度来提取包含用户输入的关键字的网页,以及向用户提供提取的网页,从而按照使用网页上的信息的程度的升序顺序来提供搜索结果。


图1是示出了根据本发明的基于每个网页的连接时间的网页搜索装置的系统配置的视图,其中,通过使用用户的网页连接信息来提取每个网页的连接时间;图2是示出了根据本发明的基于每个网页的连接时间来向网页使用结果数据库中存储信息的方法的流程图,其中,通过使用网页连接信息来提取每个网页的连接时间;图3示出了计算用户的网页连接时间的方法的图示;图4是示出了存储在网页使用结果数据库中的记录结构的视图;图5是示出了根据本发明的基于每个网页的连接时间来提供网页搜索结果的流程图,其中,通过使用用户的网页连接信息来提取每个网页的连接时间。
具体实施例方式下文中,将参照附图来描述根据本发明实施方式的基于网页连接时间和网页访问频率的网页搜索系统及其方法(下文中,称为“网页搜索系统”和“网页搜索方法”)。图1是示出了根据本发明的基于每个网页的连接时间的网页搜索装置的系统配置的视图,其中,通过使用用户的网页连接信息来提取每个网页的连接时间。本发明的网页搜索系统100包括中央处理单元110、网页使用结果数据库120以及索引数据库130。虽然该网页搜索系统还包括用于向通过因特网200连接的用户终端300 传送网页搜索结果数据的构成部件,但是这些构成部件是已经公开的配置的部件,因此将不对其进行详细描述。为了使用本发明的搜索方法,应当在用户终端200中安装客户端程序。该客户端程序监控用户终端200中执行的搜索过程,并提取与用户频繁使用的关键字相关的数据。 提取的数据被传送给本发明的网页搜索系统100,并被用作用于提供正确搜索结果的基本数据。用户下载客户端程序,并在线地或者通过离线地使用获得的记录介质来在他或她的终端中安装该客户端程序。由于客户端程序应当向网页搜索系统100传送用户终端200 获得的搜索结果,所以在安装客户端程序时最好获得用户的同意。网页使用结果数据库120存储从安装有客户端程序的用户终端200传送的用户的网页使用信息。该网页使用信息包括能够通过客户端程序从用户终端200获得的所有排序信息, 诸如除了连接流行度和类似度之外还有网址、访问频率以及由用户终端200连接的网页的累积连接时间。索引数据库130将用户输入的关键字、语句等与到包含相应关键字、语句等的网页的URL的链接一起进行存储。如果用户输入了关键字,则从索引数据库130中提取包含该关键字的网页URL,并将其提供给中央处理单元110。中央处理单元110基于存储在网页使用结果数据库120中的链接流行度、类似度、 访问频率以及累积连接时间的比率来对接收自索引数据库130的网页链接进行排序,并提供用户搜索的网页的列表。下面将描述如上述配置的根据本发明的网页使用结果数据库120的操作。图2是示出了根据本发明的基于每个网页的连接时间来向网页使用结果数据库中存储信息的方法的流程图,其中,通过使用网页连接信息来提取每个网页的连接时间;如果用户访问网页,则用户终端200的客户端程序提取用户终端200当前连接的网页的网址上的信息。然后,在步骤S210,客户端程序确认用户访问的网页是否是活动的。网页是活动的意味着相应的网页被显示在用户终端200的上窗口上。如果网页没有被显示在顶部窗口而是显示在较靠下部的窗口,则意味着用户当前没有看到该窗口,虽然网页被显示了。因此, 网页是否是活动的是用于确定用户是否看到网页的重要因素。接下来,在步骤S220,客户端程序以有规律的间隔确认是否通过用户终端200的输入设备输入了信号。该输入设备包括能够接收用户输入的所有类型的装置,诸如鼠标、键盘、输入板等。接下来,在步骤S230,当活动网页的网址被改变或者网页的窗口被关闭时,客户端程序提取用户访问的网页的连接时间。然后,在步骤S240,当前网页的累积连接时间与特定网页的累积连接时间或者所有网页的累积连接时间的比率被传送给网页搜索系统100,并被存储在网页使用结果数据库120中。作为另一方法,如果客户端程序提取并向网页搜索系统100传送了关于连接时间的信息,则网页搜索系统100可以计算并存储连接时间、累积连接时间和特定网页的累积连接时间的比率。用于提取网页的连接时间的方法如下所述。安装在用户终端200中的客户端程序监控网页是否是活动的、地址窗口中的网址是否被改变、窗口是否被关闭以及输入设备是否正在操作。客户端程序测量从激活网页的时刻开始到改变网址或者关闭网页窗口的时刻为止的网页活动时间。从这一点上看,如果在预定的时间段没有通过用户终端200的输入设备接收到输入,则客户端程序将去除该时间段(丢失时间)的值计算为相应网页的连接时间。图3是示出了计算用户的网页连接时间的方法的图示,将参照图3对该用于计算网页连接时间的方法进行描述。首先,通过测量从激活网页的时刻开始到改变网址或者关闭网页窗口的时刻为止的时间段(T1+T2+T3+T4),来获得特定网页的活动时间。然后,确定在网页活动时,从接收到前一输入(第η个输入)的时刻开始直到参考时间Τ2逝去为止,输入设备是否接收到下一输入(第η+1个输入)。如果直到参考时间逝去,输入设备都没有接收到信号,则确定用户没有看到该网页,并从总的连接时间中减去从参考时间逝去的时刻开始直到接收到下一输入(第η+1个输入)为止的丢失时间Τ3。通过上面描述的计算,能够获得用户实际连接到特定网页的时间段。这在数学上可以表示如下。网页活动时间(Τ1+Τ2+Τ3+Τ4)-丢失时间(Τ3)=连接时间(Τ1+Τ2+Τ4),其中,丢失时间指的是在预定时间段内相应的网页没有通过输入设备接收到输入的时间。如果使用了该方法,则用于确定是否输入信号的参考时间Τ2可以依赖于网页的特性或特征、主要用户的级别等而改变,并且在网页具有通用入口站点的情况中,参考时间可以设为1到3分钟。作为用于提取网页的连接时间的另一方法,将网页活动时用户通过输入设备输入有效信号的时间的累积值提取为连接时间。输入有效信号的时间是在上一次输入时间之后在参考时间内通过输入设备接收到输入的时间。在网页活动时,通过对输入设备输入有效信号的时间进行累积直到网页改变或者窗口被关闭位置,来获得连接时间。图4是示出了存储在网页使用结果数据库120中的记录结构的视图,并且每个记录包括网址、连接时间、累积连接时间的比率、链接流行度、类似度以及访问数量。与具有从安装有客户端程序的用户终端200的用户访问的所有网页连接的链接的网页的数量相比,链接流行度是链接到相应网页的网页数量。类似度是包含在网页中的并由用户输入的、作为关键字的字的频率。访问频率是使用安装有客户端程序的用户终端200的用户访问的网页的频率。客户端程序增加访问该网页的数量,同时监控用户终端200中的网址是否被改变。当在短的连接时间内存在着大量访问而不是在长的连接时间内存在着小数量的访问时,采用更高的文档权重因子,从而使用文档的程度被测量为高。访问频率在数学上表示如下访问频率=(访问数量/连接时间)*k可替换地,(访问数量*k)的值可以用作访问频率。从这一点来看,k是用于表示访问频率的、位于0到1的实值内的某个实数。存储在网页使用结果数据库中的记录的结构可以变化。图5是示出了根据本发明实施方式的基于每个网页的累积连接时间来搜索网页并提供中央处理单元110执行的搜索结果的流程图,其中,通过使用用户的网页连接信息来提取每个网页的累积连接时间。如果在步骤S310中用户输入关键字,则在步骤S320,中央处理单元110搜索包含输入的关键字的网页,并从索引数据库130中提取网页。然后,中央处理单元110基于文档权重因子来重新排列(步骤S330)并提供(步骤S340)提取的网页,其中,该文档权重因子包括存储在网页使用结果数据库120中的累积连接时间的比率、链接流行度、类似度以及访问频率。访问频率在数学上表示如下文档权重因子=a*累积连接时间的比率+b*链接流行度+C*类似度+d*访问频这里,将a、b、c和d设置成使得a+b+c+d = 1。被搜索的网页的累积连接时间的比率、链接流行度、类似度以及访问频率以升序进行排序并用0与1之间的实值来表示。设置表示排序结果的权重的a、b、c和d的值,并且中央处理单元110基于搜索结果来重新排列网页列表。测量过去特定时间段的文档权重因子以及近来特定时间段的文档权重因子,并且可以将更高的权重因子施加给近来特定时间段的文档权重因子。也就是说,可以通过将访问者的近来连接记录与该访问者的之前连接记录相区分来计算访问频率,以便忠实地反映当前网页的流行度。例如,如果特定时间段被设置为1个月,并且过去特定时间段和近来特定时间段的权重因子分别被设置成0. 3和0. 7,则可以通过使用下面所示的表达式来获得文档权重因子。文档权重因子=0. 3*上一个月的文档权重因子+0. 7*近一个月的文档权重因子。这里,“上一个月”是从当前时刻后退的、“近一个月”之前的月。也就是说,如果今天是2008年12月20日,则从10月20日到11月19日之间的一个月是“近一个月”,而从 9月20日到10月19日之间的一个月是“上一个月”。特定时间段的持续时间可以设置成不同的值。例如,将“近三个月”的文档权重因子设置成与这近三个月之前的“所有时间段”的文档权重因子不同。如上面的示例所示,如果今天是2008年12月20日,则从8月20日到11月19日之间的“近三个月”的文档权重因子乘以0.7,而8月19日之前的“所有时间段”的文档权重因子乘以0. 3。可以通过使用上面描述的方法来更进一步地反映最近的数据。与特定时间段或文档权重因子相乘的常数仅是示例,并且考虑到网页的特性、访问者的级别、趋势周期等,可以采用各种常数。能够设置是否将权重因子应用到累积连接时间、链接流行度、类似度和访问频率中的每一者,并且之后能够相应地设置权重因子。下面参照示例来描述用于基于累积连接时间、链接流行度、类似度和访问频率来搜索网页的方法。如果用户输入关键字并因输入该关键字而搜索m个网页,则按照累积连接时间的比率、链接流行度、类似度以及访问频率的升序来对搜索到的网页进行排序,类似于N0, Nl,... , N(m-l)和Nm,并将0到1之间的实值设置给每个网页。如果通过将更高的权重施加给累积连接时间的比率和类似度来设置文档权重因子,类似于a = 0. 4、b = 0. l、c = 0. 4和d = 0. 1,则依赖于设置文档权重因子的结果来重新排列并提供网页列表。
当提供了网页搜索结果时,能够提供由连接时间、链接流行度、类似度和访问频率中的任意一者排序的数据或者由连接时间、链接流行度、类似度和访问频率中的两者或更多者排序的数据。工业实用性虽然已经参照若干优选实施方式对本发明进行了描述,但是这些描述仅是用于对本发明进行说明而非用于限制本发明。对本领域技术人员而言,在不背离所附权利要求书定义的本发明的范围的情况下,能够进行各种修改和变形。
权利要求
1.一种基于网页连接时间和网页访问频率的网页搜索方法,该方法包括以下步骤(a)将关于所述连接时间的信息存储到网页搜索系统中,其中,所述连接时间是在特定用户终端上实际显示特定网页的时间段;(b)所述网页搜索系统通过将所述用户终端连接到所述网页的所有时间段相加,来计算并存储累积连接时间,其中,所述累积连接时间为显示所述网页的总的时间段;以及(c)在按照所述累积连接时间的顺序对所述网页进行排序之后,由所述网页搜索系统向所述用户终端提供该用户终端已经连接到的网页的列表,其中步骤(a)包括以下步骤(a-Ι)测量从激活所述网页的时刻开始到改变网址或者关闭网页窗口的时刻为止的网页活动时间;(a-2)在所述网页活动时间期间,当所述用户终端的输入设备在参考时间逝去之前没有接收到输入信号时,测量从所述参考时间期满的时刻开始到接收到下一输入信号的时刻为止的丢失时间;以及(a-3)计算从所述网页活动时间中去除所述丢失时间之后的所述连接时间。
2.一种基于网页连接时间和网页访问频率的网页搜索方法,该方法包括以下步骤(a)将关于所述连接时间的信息存储到网页搜索系统中,其中,所述连接时间是在特定用户终端上实际显示特定网页的时间段;(b)所述网页搜索系统通过将所述用户终端连接到所述网页的所有时间段相加,来计算并存储累积连接时间,其中,所述累积连接时间为显示所述网页的总的时间段;以及(c)在按照所述累积连接时间的顺序对所述网页进行排序之后,由所述网页搜索系统向所述用户终端提供该用户终端已经连接到的网页的列表,其中步骤(a)包括以下步骤(a-Ι)在所述用户终端连接到活动的网页时,通过对输入设备输入有效信号的时间进行累积来计算所述连接时间。
3.根据权利要求1或2所述的方法,还包括以下步骤(d)计算所述访问频率,该访问频率是所述用户终端的访问量与所述连接时间的比率;以及(e)在按照所述访问频率的顺序对所述网页进行排序之后,提供由所述用户终端搜索的网页的列表。
4.根据权利要求1或2所述的方法,其中,所述参考时间为1到3分钟。
5.根据权利要求3所述的方法,还包括以下步骤(f)计算包含到所述网页的链接的其他网页的数量,作为链接流行度;(g)计算包含在所述网页中的关键字的频率,作为类似度;以及(h)在按照所述链接流行度和/或所述类似度的比率的顺序对所述网页进行排序之后,提供由所述用户终端搜索的网页的列表。
6.根据权利要求5所述的方法,还包括以下步骤(i)计算所述网页的累积连接时间与所有网页的累积连接时间的比率;以及(j)在按照所述累积连接时间的比率对所述网页进行排序之后,提供由所述用户终端搜索的网页的列表。
7.一种基于网页连接时间和网页访问频率的网页搜索系统,该系统包括网页使用结果数据库,用于接收并存储关于所述连接时间的信息,所述连接时间是在特定用户终端上实际显示特定网页的时间段;以及中央处理装置,用于通过将所述用户终端连接到所述网页的所有时间段相加来计算累积连接时间,在所述网页使用结果数据库中存储所述累积连接时间,以及在按照所述累积连接时间的顺序对所述网页进行排序之后向所述用户终端提供该用户终端已经连接到的网页的列表,其中,所述累积连接时间是在所述用户终端上显示所述网页的总的时间段,并且其中,客户端程序测量网页活动时间,该网页活动时间从激活网页的时刻开始到改变网址或者关闭网页窗口的时刻为止;在所述网页活动时间期间,当所述用户终端的输入设备在参考时间逝去之前没有接收到输入信号时,测量从所述参考时间期满的时刻开始到接收到下一输入信号的时刻为止的丢失时间;以及计算从所述网页活动时间中去除所述丢失时间之后的所述连接时间。
8.一种基于网页连接时间和网页访问频率的网页搜索系统,该系统包括网页使用结果数据库,用于接收并存储关于所述连接时间的信息,所述连接时间是在特定用户终端上实际显示特定网页的时间段;以及中央处理装置,用于通过将所述用户终端连接到所述网页的所有时间段相加来计算累积连接时间,在所述网页使用结果数据库中存储所述累积连接时间,以及在按照所述累积连接时间的顺序对所述网页进行排序之后向所述用户终端提供该用户终端已经连接到的网页的列表,其中,所述累积连接时间是在所述用户终端上显示所述网页的总的时间段,并且其中,客户端程序在所述用户终端连接到活动的网页时,通过对输入设备输入有效信号的时间进行累积来计算所述连接时间。
9.根据权利要求7或8所述的系统,其中,所述网页使用结果数据库还存储所述网页访问频率,以及所述中央处理装置在按照所述访问频率的顺序对所述网页进行排序之后提供由所述用户终端搜索的网页的列表。
10.根据权利要求9所述的系统,其中,所述网页使用结果数据库还存储所述网页的链接流行度和/或类似度,以及所述中央处理装置在按照所述链接流行度和/或所述类似度的顺序对所述网页进行排序之后提供由所述用户终端搜索的网页的列表。
11.一种用于在计算机中执行权利要求1或2中所述的网页搜索方法的计算机可读记录介质。
全文摘要
本发明涉及基于网页连接时间和网页访问频率的网页搜索系统及其方法。根据本发明实施方式的基于网页连接时间和网页访问频率的网页搜索系统及其方法包括以下步骤提取用户的网页连接时间;使用提取的连接时间来计算网页的累积连接时间;以及在按照累积连接时间的比率的顺序对网页进行排序之后,提供用户搜索的网页的列表。
文档编号G06Q10/00GK102227737SQ200880132153
公开日2011年10月26日 申请日期2008年11月28日 优先权日2008年11月28日
发明者金将中 申请人:Est软件公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1