透过分析网页结构抓取网站信息的方法

文档序号:6477382阅读:120来源:国知局

专利名称::透过分析网页结构抓取网站信息的方法
技术领域
:本发明涉及一种网页结构分析方法,更具体地,本发明涉及一种透过网页结构分析以确定网站信息的方法,该方法如同一个轨迹程序可以分析网页结构,该轨迹程序预先安装于客户端及服务器,当每次网页作动或存取时产生一特别讯息。该方法可以藉由使用客户端-服务器系统的使用者确定存取至特定网页以及网络漫游路径,然后制作一使用此结果的数据库,从而确定例如对于网站的存取状态、使用者感兴趣的领域等信息,并改善客户关系管理(CustomerRelationshipManagement,CRM),并标签客户管理。
背景技术
:最近几年,记录分析(loganalysls)已被广泛的使用于侦査信息,例如一使用者对于一特殊网页的存取状态。记录分析基于如访客人数、浏览网页次数、网络cookie值(cookleValue)等的信息分析来提供信息以确定一网络状态。记录分析被分类为(l)一种记录文件插入方法,直接将一记录文件插入管理特殊网页的网络服务器中,再产生如在记录文件中的存取信号,再基于该信号产生数据并分析该数据,(2)—种码插入方法,将描述法及/或码插入一网站中,再基于该码的数量产生数据,并分析该数据,以及(3)—间接记录分析方法,分析外部的统计资料。该记录文件插入方法的缺点在于当使用者(存取该服务器者)数量增加,该纪录文件数据量变的很大,则此作业必须委托一特殊的分析组织。该码插入方法适合用于被由较少数量的访客所存取的网站,但缺点在于如果存取此网站的访客数目超过预定数目的时候,比起该记录文件插入方法,此方法的工作量会变的很大。因为该记录分析是由必须将该等码及/或记录文件插入一网站这样的方式所执行,故其可由一网站管理者使用来只检査他/她管理的网站的使用状态。换言之,该传统的记录分析只可执行一受限的管理中心分析。当一管理者需要策略上地确定竞争同业的网站与他/她所拥有的网站的使用状态,以侦测哪些网站受欢迎、在该些网站中和网页中的哪些使用者有较高的兴趣、哪些网站由广告商所赞助,并经由使用者的网络漫游周期来分析客户关系管理(CRM)时,除了该管理者所拥有的网站、该管理者必须确定网站的存取状态。然而,该提供管理中心分析的传统记录分析无法获得有关其它网站使用状态的信息或有关顾客喜好的网站的信息等。当网络营销被迅速的开发时,比起竞争同业,该传统的记录分析能使一网站管理者只能够确定他/她管理的网站的存取状态,而无法允许该管理者建立进阶的营销策略。再者,该传统的记录分析未提出可以迅速处理使用者需求的方法。因此,分析网站需要一个新的方法。因应此需求,例如,已建议一种确定在使用者项目中的网络漫游状态与网络漫游路径而非确定管理网站的管理者的方法。换言之,该方法基于一使用者特殊族群可以撷取有关网络存取的信息。为了确定一特殊使用者是否存取一特殊网站以及为了确定该使用者网络漫游路径,前导过程需被执行需分析由使用者存取的该网站的特殊网页结构,以及需产生与该被分析的网页结构匹配的存取信号并处理所有信号。通常,一网页被设计为使用框架集标签(framesettags)和/或I框架标签(Iframetags)的一单一页面或一复合式页面。一单一页面为仅使用一个网站位置(UnlformResourceLocator,URL)来连接一单一网络服务器的网页型态。也就是说,一单一页面具有最普通的结构并为不需使用巻标的超文件标记语言(html)页面,例如框架集(frameset)或I框架(Iframe)。一复合式页面为使用不同URL来连接一个网络服务器或复数个网络服务器的网页型态。一复合式页面为一使用标签的网页,例如frameset或Iframe。该主页面辨别页面导览并引用在网址列(addressbar)中对应URL的页面。该次页面由在该主页面中的frameset或Iframe产生。因特网的网站皆是由一单一网页和/或一复合式网页所组成。该网页被连接至各个网站,因此使用者可以在这些网站间作动。使用者在网页下载期间可以从一个网页作动至另一个网页。使用者亦可在当一网页在被完全下载前就被终止时,从一个网页作动至另一个网页。为了分析一网页结构,该传统方法需优先解决下列问题(1)由于藉由一单一网页和/或一复合式网页来设计网页且该等网页根据使用者的网络漫游被重复作动,故须根据该网页型态来精确的分析网页结构。(2)由于该复合式页面包含复数个次页面且只有在所有次页面都被载入时整个页面才可被完全载入,故需辨别复合式页面中的次页面。(3)当网页没有作动但被重新整理时,只有该页面的内容被改变。因此,当网页被重新整理时,需确定该内容是否与先前的内容一致。(4)当只有网页中的框架被改变时,需确定该框架是否由使用者任意选择或改变或者是否为根据定期性的操作来改变。(5)由于一单一页面不具有任何额外的次页面,故需寻找一种确认一单一页面是否被重新整理的方法,此方法为除了用以检查次页面是否存在的方法之外的方法。因此,有一种情形为一管理者意图检査使用者中心的网页动作状态来确定非由该管理者操作的网页种类的使用状态。在这样的情形下,为了更精确地确定使用者在网页间的动作状态,需要一种精确地分析该网结构并确定动作型样种类的方法,例如下载所有对应使用者存取的网页的网络文件、重新整理网页、不规则的动作等。
发明内容(发明所欲解决的问题)本发明解决上述问题,并提供一种方法,其不于网络服务器中插入一记录档案或一描述法,但处理并分析关于使用者的网站使用状态,以确定不被管理者操作的各种网站的使用状态,此不包括一特定的管理者的管理网站,并当网页作动时,为各别网页产生与处理网页动作讯息,以追踪一使用者的网页动作路径,假设应获得关于一使用状态以及一使用者如何使用网站的信息。本发明进一步提供一种方法,其以一时间顺序细分一网页动作讯息,并根据各别网页动作类型来管理细分的讯息,以获得一高等级的网页动作信息,该等级等于其它由不同结构所建立的网页的等级,例如一单一网页和/或一复合网页。本发明进一步提供一种方法,当一网页经重新整理时,根据一浏览器标题是否已改变而确定一单一网页的动作,并当一网页经重新整理时,根据一次网页是否已改变而确定一复合网页的动作。本发明进一步提供一种方法,藉由分享网页使用信息以获得各种信息,例如使用追踪使用者动作路径的轨迹程序的使用者间的网页动作路径,所述轨迹程序安装于相互沟通的客户端与服务器端。本发明进一步提供一种方法,用于分别地与系统性地将由轨迹程序所得的信息传送至一额外的管理服务器,并分析使用者的网页动作路径,以使信息可用做为各种网络营销数据。本发明进一步提供一种方法,用于重新产生附加于网页的标识的精确位置、纪录在管理服务器中关于重新产生的位置等的信息,并且与一标识执行程序以管理该等信息。(解决问题的技术装置)根据本发明的示例性实施例,本发明提供一种透过网页结构分析以确定网站信息的方法,包括当一网页开始作动时,产生一动作开始讯息,该动作开始讯息含有所核发的身份认证以识别各别网页;当一网页开始作动时,产生一动作终止讯息,该动作终止讯息含有URL信息,该URL信息关于一对应网页以及透过该身份认证确定一对应网页是否为一主页面或一次页面的信息;当已加载所有网页时,产生一文件终止讯息,该文件终止讯息含有分析何网页已被作动的信息;收集该等讯息并产生一讯息数据库;以及根据该讯息数据库的分析,确定一特定使用者的参访状态的网站信息以及该网站的存取状态。如上所述,根据本发明的透过网页结构分析以确定网站信息的方法,具有下列优点1)由于网站信息与网站结构藉由分析一使用者的网络漫游路径而确定,故不需将一记录档案或一描述法插入至网络服务器中,并可以确定由其它管理者所管理的网站的所有使用状态以及由一特定管理者所管理的网站的使用状态;2)可获得网站的结构与信息以及相对高等级的网页动作信息,该等级等于任何其它网页中的等级,例如一单一网页和/或一复合网页,该等网页在结构上彼此不同;3)使用于网页分析的程序能于其中沟通,以使使用程序的使用者能相互分享网页使用信息,例如关于网页动作路径等的信息,以获得各种信息;4)可详细确定是否重新整理一单一页面/一复合页面及是否变更次页面的一部分;以及5)可执行于传统浏览器结构中因标志的结合而不易执行的一精确的附加于网页的标识的重新产生,可令标识精确地于网络中实现,并获得关于目标使用者广告与CRM数据的特殊与各种信息。本发明的上述或其它目的、特征和优点,透过以下实施例的详细描述并结合附图,而可更清晰地理解,图式中第1图为一区块示意图,用以显示本发明一种适合透过网页结构分析以确定网站信息的方法的系统;第2图为一个连结标识100的网页;第3图为一流程图,用以描述本发明一种透过网页结构分析以确定网站信息的方法;第4图是本发明的一个示意图,用以描述当网页作动时,讯息产生的顺序;第5图是本发明的一个示意图,用以描述透过动作讯息所产生的网页的树状结构;第6图是一示意图,用以描述一个确认页面是否终止的程序;第7图是一示意图,用以描述一种当一复合页面重新整理时,侦测页面是否作动的程序;一第8图为一示意图,用以描述一种当一单一页面重新整理时,侦测页面是否作动的程序;以及第9图为一示意图,用以描述当次页面变化时,而因此仅变化次页面的动作循环时,确定页面是否作动的程序。具体实施例方式本发明提供一种透过网页结构分析而用于确定网站信息的方法,包含当网页开始作动时,产生一动作开始讯息,该动作开始讯息含有复数个核发以识别各个网站的身份认证(Indentlflcatlon,ID);当网页开始作动时,产生一动作终止讯息,该动作终止讯息含有关于一对应网页的URL信息及透过ID确定一对应网页是否为一主页面或一次页面的信息;当所有的网页己经加载时,产生一文件终止讯息,该文件终止讯息包含分析何网页是否已作动的信息;收集该等讯息并产生一讯息数据库;以及基于该讯息数据库的分析,确定特定使用者的参访状态的网站信息及网站的存取状态。在此,本发明的实施例将参考附图详细说明。在该等图中,即使在不同的图中描述,相同或相似的组件将以相同参照数字符号标示。第1图为一区块示意图,用以显示本发明一种适合透过网页结构分析以确定网站信息的方法的系统。术语「网页」在本发明中也被称为「页面」。术语「工作ID」也被称为「线程ID」或「ID」。本发明提供一种藉由分析网页结构以及确定使用者网页动作路径而获得网页使用信息及纪录分析结果的技术。为达此目的,一种用于分析始用者网页动作路径的程序,在本发明中称为轨迹程序200,必须安装于客户端以及允许使用者存取网络的服务器。轨迹程序200可以不用让使用者了解而安装于客户端和服务器中。轨迹程序200可以安装于客户端和服务器中而达到策略的多样化。举例来说,一标识100、一标识执行模块230及一轨迹程序200己经揭露于本申请人所拥有的名称为「使用8标识在网页中显示和管理信息的系统」的韩国专利第705474号中。在此揭露中,如同执行以使用标识100的标识执行模块230被安装于轨迹程序200中,轨迹程序200可以与标识执行模块230—起自然地安装于客户端及服务器。在此,标识100如同收集信息的变化的信息显示窗口,使得信息可以被环绕网页的特定内容堆栈,并且被使用者所分享。第2图为一个连结标识100的网页。本发明的标识100如同对应于网页所纪录的文件、照片、动画等的一部分。举例来询,标识100如同暂时地贴附于笔记本、墙、桌子等的3M'sArtFry的便利贴。g卩,标识100为一种在线的便条纸。标识100为一种具有特定尺寸的区块空间,其中可以添加关于对应网页的内容的建议、额外解释、备注等。标识100可以被加载作为一实时需求。当标识100显示时,同时也可以启动网页。标识100包含如内容、连结至网页的位置、标识所连结至网页的URL地址等信息。该标识关连的信息被储存于标识执行模块230,并且被传送至管理服务器300。管理服务器300从标识100分类信息,如存在/位置/内容,储存为一数据库并管理。该数据库化的标识信息使能够确定连结于网页的标识的精确位置、撷取关于使用标识的使用者的特定信息、以及使用该信息作为一指针使用者广告及一CRM数据。相反地,传统的浏览器对于确定额外连结标识的对应的网页的网络文件具有困难度。当使用者认可轨迹程序200的安装,一使用者网页动作收寻功能,此为本发明的主要焦点,可以被任意限制以保护使用者的私密。参考第1图,使用网页结构分析的网页信息系统包含一管理服务器300,其包含一讯息分析模块310以管理及分析一讯息数据库222、以及一轨迹程序200,其安装于客户端及服务器中以追踪使用者的网页漫游路径、准备用于分析网页结构分析的数据,并且包含一标识执行模块230以及一标识确认模块240。轨迹程序200用于确定一网页动作路径,这为本发明的主要概念。轨迹程序200包含一讯息产生模块210、一讯息储存模块220、一标识执行模块230以及一标识确认模块240。讯息产生模块210用以基于动作程序产生三个网页动作讯息,动作程序将在的后详述。讯息储存模块220用以储存网页动作讯息,将该等网页动作讯息数据库化为一讯息数据库222,并将网页动作讯息传送至管理服务器300。标识执行模块230用以产生及执行标识100并收集关于标识100的信息。标识确认模块240用以确定标识100是否存在于作动的网页。管理服务器300从讯息数据库222接收该等讯息,并储存及管理该等讯息。管理服务器300透过讯息分析模块310分析讯息数据库222以分析网页结构及包含该网页的网站结构。管理服务器300基于使用者及网页计算统计的存取数据的变化。管理服务器300从标识确认模块240接收标识信息,并收集及管理如连结至网页的标识100的存在和位置的信息。第3图为一流程图,用以描述本发明一种透过网页结构分析以确定网页信息的方法。如第3图所示,该方法从开始一网页动作到中止该动作,依序产生三个网页动作讯息。该等网页动作讯息参照下列讯息,从当使用者执行一浏览器到该浏览器终止时连续产生的讯息的部分。1)一页面动作开始讯息,就是当一使用者在URL地址列直接输入一URL或击点一网页连结,而因此一页面开始作动时,在一讯息产生模块所产生的一讯息。该网页动作开始讯息对于所有网页能够获得一个线程ID(在此后被称为ID或工作ID)。如果一网络浏览器起始连结于一特定网页,可以获得一个新的线程ID,这将在的后详述。2)—页面动作终止讯息,就是关于所有作动网页的信息已被接收的后、网页显示在屏幕的前所立即产生的讯息,该页面动作终止讯息包括URL信息、ID信息等。3)—文件终止讯息,就是在使用网页的所有工作都终止后所产生的讯息。文件终止讯息在每当一个线程终止时都会产生。文件终止讯息被要求以确定次页面终止、所有线程的终止等。此讯息被使用以确定一种因为页面已作动、然后仅藉由Iframe巻标或frameset巻标等部分地改变、而被使用者认定此页面为不同的页面的情形。在此,网页动作可能在最高线程持续地产生时终止。除此之外,在产生文件终止讯息时,也决定标识是否存在。既然这三个网页动作讯息根据网页动作程序而产生(在此网页动作顺序依据网页是单一页面或复合页面而有所不同,此将在之后详述),可使用该等网页动作讯息以确定网页结构。在此,术语工作ID(线程ID或ID)如同一种网页身份认证号码,当网页终止讯息/文件终止讯息在每个次页面中随机地产生时,该工作ID用以认定次页面的精确来源。为了获得一浏览器所产生的讯息,必须使用COM讯息行使功能。浏览器在每个URL产生一线程,并独立地执行各别网页动作。随后,网页动作不再以序列动作方法执行,而以平行动作方法执行,平行动作方法将在的后参照图示详细说明。因此,当所有动作讯息被产生以确定网页结构,必须确定每个动作讯息线程(最高ID),即特别的ID从属于何,以及每个动作讯息状态,即特别的ID从属于何。为了确定那些状态,本发明的方法产生动作讯息以产生和撷取网页组成的变化。动作讯息产生的顺序将在之后详细说明。当网页开始作动,产生一页面动作开始讯息,并且可以获得一对应URL的线程ID(ID或工作ID)以及其它的信息。如果在浏览器开始后该页面动作开始讯息初始地产生,可以获得可以区别网页动作的最高工作ID。在接收到相关于对应页面的信息后,产生一页面动作终止讯息。在此,该讯息所对应的线程被确定。更具体地,透过在产生页面动作开始讯息的步骤中所产生的ID,藉由分析与当下作动相关的主页面的ID及/或该网页的最高页面,而达成确认程序。更进一步地,在产生页面动作终止讯息的步骤,藉由撷取一对应的URL而可以得到一精确的URL地址。而为何不在页面动作开始时撷取URL的理由是因为使用者的输入操作或管理对应网站的网络服务器的URL相关系统可能任意地改变信息,而使得在页面动作开始时所产生的URL信息可能包含错误的URL。根据这些理由,当页面作动后,如网页信息固定并接收后,才撷取URL。该两个讯息产生时,使用关于每个动作的ID、URL以及ID产生顺序等信息,藉由产生以树状结构分析的讯息数据库而分析页面结构。当文件终止讯息产生时,在先前已确定的网页树状结构所构成的讯息数据库中,确定工作终止的网页(如果是第一次参访的网站,对于已参访网站的树状结构,在确认操作后将以新的方式产生)。当藉由网页被终止情况时或用于检查最高级工作是否被终止的方法时,来处理网页终止工作。在此之后,对于各别网页的该三个动作讯息将产生为一讯息数据库,并且将该讯息数据库传送至管理服务器。透过该讯息数据库,管理服务器可以分析网页结构、汇编在主页面参访和次页面参访上的统计数据、使用关于网站存取状态的信息,如参访时间、以及使用藉由分析一特定使用者的网站参访状态所获得的CRM数据及客户管理数据。进一步地,透过这些程序,管理服务器可以获得对于使用标识的使用者执行一巻标广告的数据。第4图是本发明的一个示意图,用以描述当网页作动时,讯息产生的顺序。在描述第4图之前,解释形成网站的网页结构。网页结构就是于客户端屏幕上所显示的网页结构,并且被区分为由一个URL地址所构成的单一页面结构,以及由复数个URL地址所构成的复合页面结构。复合页面结构被区分为一主页面(最高页面)以及一次页面。该主页面为对应于可以区别网页动作的URL的一页面,并且被显示于一地址列中。次页面为使用Iframe巻标或框架集巻标而产生于主页面中。主页面就是一个可以区别网页变化的页面。一个不需使用框架(frame)的页面只具有一相配于URL的页面。一使用框架集标签的主页面仅仅藉由构成内部页面的URL的框架标签所构成,并且显示于客户端屏幕上的所有内容都在内部框架中处理。依据在复合页面中一种众所皆知的方法,虽然基本页面变化可以藉由主页面变化来确认,但不可能确认内部页面的变化或重新整理功能等。次页面就是所有包含在主页面下的所有页面。页面动作区别无法单由次页面确定。然而,次页面可以作为一确定页面动作区别的间接方法。举例来说,透过关于次页面的动作/变化的信息,可以确认复合页面是否重新整理,或内部页面是否改变。因此,次页面是否改变对于复合页面是重要的。本发明的方法对于次页面产生三种动作讯息的型式,并且侦测主页面和次页面的间的关系,从而精确地确定整个网站结构。如第4图所示,当一页面作动为一复合页面,首先产生一主页面的一页面动作开始讯息,然后在内部内容加载时,产生页面动作终止讯息。在此,当页面包含其它次页面,产生次页面的页面动作开始讯息/页面动作终止讯息/文件终止讯息。复数个页面动作开始讯息依序产生。其它页面动作终止讯息/文件终止讯息随机产生。这是因为每个页面中会产生一线程,并且同步地执行页面动作,使得讯息产生顺序直到内部内容加载不会等待。更具体地,在包含ID核发步骤的状态中,在只有一线程被指定的页面开始的时间,页面动作开始讯息依序产生以保障一ID,然后其它的讯息根据次页面的编码的设置以及加载时间而产生。在此之后,当对于主页面的文件终止讯息最后产生时,确认对应的页面动作已终止,并且透过网页结构,如URL信息、复数个从网页核发的ID的关系,来分析是否为主页面及/或是次页面。第5图是本发明的一个示意图,用以描述透过动作讯息所产生的网页的树状结构。网页的树状结构是一个来自基于在网页上阶层式排列的讯息信息库的讯息。那就是,网页以树枝状结构阶层式地表示,从而主要信息和次要信息可以以树枝状结构排列。在此,此结构从最高页面(主页面)至较低页面(次页面)被以树枝装形式扩张。当藉由树状结构准备讯息数据库并分析网页时,工作时间量可以被縮减,而主页面和次页面的位置和信息也可以被容易地确定。还有,也简单决定对页面的变化,如页面新增、页面删除等。除此之外,关于已经存取的网站,其结构,如树状结构也被储存。因此,本发明的方法可以藉由比较此信息和以储存的树状结构,而快速地处理信息。为了透过页面动作讯息而取得网页结构,在产生页面动作开始讯息时的步骤中核发用以区别页面的ID,该等ID被储存于页面树状结构中。如果特定的网页被作动至第一页,维持在产生动作开始讯息时的步骤中核发的工作ID,直到浏览器的动作工作终止,从而对动作工作确认身份认证。不同于藉由第一动作所产生的ID,其它页面的工作ID是全部随机产生。当页面作动或页面重新整理时,会以新的方式重新产生工作ID。因此,管理服务器比较这些ID,并确定现存ID的URL信息是否与新ID的URL信息一致,从而可以确定对于特定网页的存取号码以及网站是否作动的确定。然而,当只改变复合页面的一部分时,工作ID将不会核发。依据此准则,当网页改变时,确定页面是否藉由通常的动作而改变。此外,当页面的一部份改变时,确定该页面是否必须被认定为一新页面。为了分析网页结构,产生并纪录形成一讯息数据库的数据。该数据可能为ID、URL信息、关于动作讯息产生顺序的信息等,将对于其使用目的的术语详细解释。当产生一页面动作开始讯息时,确认一对应页面的最高页面ID是否精确地储存,以分析该页面是否对应于一新的存取状态。如果最高页面ID没有被储存,这表示首先开始浏览器,并因此未核发初始的工作ID。因此,核发新的最高页面ID。如果最高页面ID已经核发,这有两种情形。当再一次产生初始ID,这确定开始新网页动作。相反地,当产生不同于初始ID的ID,这确定在复合页面中的次页面开始,但是一页面不作动。关于一单一页面,既然一页面动作循环只执行一次,且因此次页面信息不存在,网页结构可以仅使用单一ID来分析。在此,单一页面的URL可以被使用为一额外信息。关于一复合页面,对于仅使用一页面ID,难以确定页面被重新整理或是页面的一部份被改变。因此,必须产生与纪录不同于ID的其它信息,如页面的URL以及页面产生顺序。这就是,既然在主页面之下的次页面存在于复合页面中,如次页面工作ID、次页面URL、次页面产生顺序等不同于关于主页面的ID信息的信息在页面树状结构中被记录与管理。在比较ID、比较URL以及分析关于次页面产生顺序的信息之后,可以确定复合页面是否作动,及/或复合页面结构是否可以确定。因此,复合页面需要URL的信息以及关于次页面产生顺序的信息。13以下的描述提供用以确认单一页面和复合页面动作的流程。第6图是一示意图,用以描述一个确认页面是否终止的程序。在单一页面的情形下,既然单一页面动作循环只产生一次,且单一页面之下不包含次页面,藉由产生三种动作讯息的型式而确定页面是否终止,而不需要记录额外的树状结构。在复合页面的情形下,既然主页面动作循环之下有复数个次页面^J作循环,主页面和次页必须彼此区别。更具体地,当产生主页面动作开始讯息时,次页面动作讯息根据加载顺序随机地产生,而所有的次页面动作程序已终止后,产生一主页面动作循环的文件终止讯息。在此程序中,可以根据主页面文件终止讯息是否存在而确定复合页面动作的终止。第7图是一示意图,用以描述一种当一复合页面重新整理时,侦测页面是否作动的程序。当精确地准备如第5图所示的页面树状结构,并且参访对应的网页时,整体网页结构可以轻易地确定。特别地,既然复合页面之下具有复数个次页面,需要详细地以树状结构记录次页面信息,以执行一管理操作,如重新整理等。参照第7图,当在复合页面中执行一重新整理功能时,除了主页面之外所有的次页面重新加载。在此情形,页面动作循环的ID将以新的方式产生。重新产生的ID不同于先前页面的工作ID。因此,如果产生文件终止讯息,然后再一次产生页面动作开始讯息,将确认工作ID是否包含在先前准备的页面树状结构中,以及确认工作ID是否为主页面ID。如果工作ID不包含于先前准备的页面树状结构中,且不是主页面ID,可以确定重新整理过复合页面。第8图为一示意图,用以描述一种当一单一页面重新整理时,侦测页面是否作动的程序。一单一页面不包含任何的次页面。因此,不像复合页面,不可能藉由产生一次页面讯息而确定单一页面是否重新整理。为了解决此问题,使用以下两个讯息。表l<table>tableseeoriginaldocumentpage14</column></row><table>如上表所示,当浏览器标题改变时产生标题变更讯息,以及当内容内页下载后产生下载终止讯息。换句话说,当单一页面重新整理时,首先产生一标题变更讯息,当产生一标题变更讯息时,在页面动作终止后且当该页面结构也为单一页面,而页面动作开始讯息并未产生的状态,可以想象存在一种当页面重新整理可能发生的情形。也就是,既然重新整理是一种在执行已加载网页之后的操作,重新整理的状态根据在确认网页为单一页面后是否产生序列讯息,以及根据序列讯息的型式而决定。单一页面的重新整理状态可以根据指示文件终止的决定的标题变更讯息或下载终止讯息而确定,而不需要在产生文件终止讯息之后产生额外的动作开始讯息。在此,产生标题变更讯息的状态并不能确定为一页面重新整理,但仅假设为一页面重新整理。这是因为标题变更讯息可能藉由描述的校正等而在页面产生。因此,标题的变更被使用为仅认可一页面动作开始的预期。当产生标题变更讯息,然后产生下载终止讯息时,这认可页面被重新整理。第9图为一示意图,用以描述当次页面变更,而因此仅变更次页面的动作循环时,确定页面是否作动的程序。网站可以被设计而操作如下一网站藉由将网页信息显示于以内部框架执行的(网页)板面的方式设计,从而可以只变更内部板面,而不必改变主页面;以及一网站藉由将页面上的广告与框架执行的方式设计,从而可以在一特定的时间周期过后,将该等广告以其它方式取代。在这两种方法中,内部的页面产生一页面动作循环。然而,使用者在第一板面改变的前后之间,会认定页面已改变为另一个。相反地,虽然广告被更新,但是使用者并不认定页面被改变为一个新的页面。因此,当次页面作动时,需要去认定次页面是否为一个新的页面,或该动作是否被忽略。当只有一个次页面变更时,并不会核发一个工作ID,而是使用先前的工作ID。该工作ID被用以在树状结构中收寻对应至该次页面的页面。当一个新的URL与先前储存的URL不相同时,则认定页面己经改变。相反地,当新的URL与先前储存的URL—致时,页面的变化则被忽略。。当一新的URL不同于所储存的URL,次页面可根据新的URL而加至于其上。于此情况中,加上的次页面必须加至网页树状结构。透过此等程序,可确定特定使用者的网页动作路径。换句话说,当纪录藉由收集特定使用者的网页漫游动作路径而产生的数据的讯息数据库传送至管理服务器时,分析该讯息数据库以提供统计数据,例如存取各别网站的状态、特定使用者的存取路径分析等。并且,当标识附加于网页时,管理伺服期收集关于标识的信息,并确定标识的数据以及关于标识所附加的位置的信息等。更精确地说,于产生文件终止讯息的步骤中,确定标识是否具有需被传送的信息。当査明标识具有需被传送的信息时,将存在有对应标识的信息连同文件终止讯息一并传送至管理服务器。管理服务器使存在有对应标识的信息被包含至讯息数据库中。当产生文件终止讯息时,将文件信息传送至管理服务器,搜寻并重新传送存在于对应文件中的标识,以及包含一标识于一网页中并再于显示。仅使用本身的结构的传统浏览器不易确定标识的信息的位置和/或存在。然而,本发明的方法可透过现存的标识的信息而重新产生关于附加于特定网页的标识的精确位置的信息,并收集此信息以将信息记录/管理/储存至管理服务器中,以向使用标识与信息的使用者执行目标广告,可收集传统纪录分析所无法获得的标识与信息。上所述者仅为用以解释本发明的较佳实施例,并非企图据以对本发明作任何形式上的限制,是以,凡有在相同的发明精神下所作有关本发明的任何修饰或变更,皆仍应包括在本发明意图保护的范畴。(工业应用)叙述至目前为止,其该根据本发明的叙述与相应图式来描的结构与操作,然而前面的描述与相应图式仅为较佳实施例的说明并非意图限制,凡对本发明所做的任何修改及变动都无法脱离本发明的精神与范围。权利要求1.一种透过网页结构分析以确定网站信息的方法,包括当一网页开始作动时,产生一动作开始讯息,该动作开始讯息含有所核发的身份认证以识别各别网页;当一网页开始作动时,产生一动作终止讯息,该动作终止讯息含有网页位置,该网页位置关于一对应网页以及透过该身份认证确定一对应网页是否为一主页面或一次页面的信息;当已加载所有网页时,产生一文件终止讯息,该文件终止讯息含有分析何网页已被作动的信息;收集该等讯息并产生一讯息数据库;以及根据该讯息数据库的分析,确定一特定使用者的参访状态的网站信息以及该网站的存取状态。2.如权利要求1所述的方法,其中,当该复数个网页被作动时,根据网页依序产生该动作开始讯息,并且根据该加载顺序随机产生该动作终止讯息以及该文件终止讯息;以及所收集的关于产生该等讯息的顺序的信息储存于该讯息数据库中。3.如权利要求1所述的方法,其中一讯息数据库的产生包括于一树状结构,透过各别讯息自该主页面至次页面,产生有一特定网站的复数个网页被确定的讯息数据库。4.如权利要求1所述的方法,其中一动作开始讯息的产生包括为确定该对应网页是否为第一次参访,确认关于该对应网页的身份认证信息是否储存于该讯息数据库中。5.如权利要求1所述的方法,当该网页执行一对应于一复合页面的重新整理功能时,进一步包括-以一现存身份认证比较一核发至该次页面的身份认证;执行该比较的一分析;以及确定该复合页面是否重新整理。6.如权利要求1所述的方法,当该网页执行一对应于一单一页面的重新整理功能时,进一步包括产生一标题变更讯息;以及当该网页的内部内容已下载时,产生一额外的下载终止讯息,其中该单一页面的重新整理状态根据该标题变更讯息或该下载终止讯息而确定。7.如权利要求1所述的方法,当于一复合页面中仅该次页面变更时,进一步包括维护该次页面的一工作身份认证;透过所维护的该工作身份认证,自该讯息数据库搜寻该对应网页的一位置;以及当现用的网页位置不同于关于所搜寻的网页的网页位置信息时,辨识该网页经变更。8.如权利要求1所述的方法,其中一文件终止讯息的产生包括确认一标识是否额外地附加于该对应网页;以及当一标识附加于该对应网页时,产生关于该标识的现存信息。9.如权利要求8所述的方法,其中,关于该标识的该现存信息包括标识位置信息以及标识内容信息;以及该现存信息储存于一额外数据库中。全文摘要本发明提供一种透过网页结构分析以确定网站信息的方法,包括当一网页开始作动时,产生一动作开始讯息,该动作开始讯息含有所核发的身份认证以识别各别网页;当一网页开始作动时,产生一动作终止讯息,该动作终止讯息含有网站位置,该网站位置关于一对应网页以及透过该身份认证确定一对应网页是否为一主页面或一次页面的信息;当已加载所有网页时,产生一文件终止讯息,该文件终止讯息含有分析何网页已被作动的信息;收集该等讯息并产生一讯息数据库;以及根据该讯息数据库的分析,确定一特定使用者的参访状态的网站信息以及该网站的存取状态。文档编号G06F17/00GK101689176SQ200880017826公开日2010年3月31日申请日期2008年5月29日优先权日2007年5月29日发明者崔文圣,金泰均,韩万镇申请人:怡斯福乐株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1