产生用户浏览属性的方法、以及非暂存计算机可读介质与流程

文档序号:14519191阅读:127来源:国知局
本发明涉及一种产生用户的浏览属性的方法、以及一种非暂存计算机可读介质。
背景技术
::目前商品推荐或数字广告投放的运作方式不外乎是从用户过往的浏览记录中,找出用户有兴趣的商品或信息,然后在用户现在浏览的网页中进行投放,以争取用户进行购买或点选广告的机会。然而这样的分析过程主要着重于在于发掘用户浏览网站的特定项目或商品,较少针对用户跨网站浏览属性的发掘。技术实现要素:本发明涉及一种产生用户的浏览属性的方法、以及一种非暂存计算机可读介质。本发明提供一种产生用户的浏览属性的方法,包含:根据网络浏览历程找出群聚网站;根据该群聚网站的网站类别的比例取得该群聚网站的标签;计算相似度,取得该用户的浏览偏好属性;由该用户的该网站浏览历程中分析纯度,取得该用户当前的浏览模式属性。本发明提供一种非暂存计算机可读介质,使用于一计算机程序产品中,该计算机程序产品包括复数个指令,该复数个指令被配置使一计算设备执行上述产生用户浏览属性的方法。附图说明图1举例说明本发明产生用户的浏览属性的示例性流程图。图2举例说明本发明用户的浏览模式属性。图3举例说明本发明用户的浏览模式属性的足迹范例。图4举例说明本发明用户的浏览模式属性的足迹范表列。附图标记说明110:取得用户的网络浏览记录120:决定记录处理区间130:群聚网站处理140:取得群聚网站的标签150:计算用户记录与群聚网站的相似度160:产出用户的浏览偏好属性170:计算用户的网站记录类别与跨主网站纯度180:产出用户的浏览模式属性具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。本发明提出一种产生用户的浏览属性的方法,主要是以用户于跨网站上浏览的数据为基础,先找出会一同群聚发生的网站(即,网站群聚),然后再以网站分类的比例来定义各网站群聚的标签(tag),接着再针对个别用户近期的网站浏览数据,计算对于各网站群聚的标签的相似度,以决定此个别用户的浏览偏好属性(卷标)。另以用户于跨网站类别与跨主网站的纯度(purity)比例,定义用户当前的浏览模式属性成旅居型(sojourner)、定居型(resident)、跨站流浪型(inter-wanderer)与站内流浪型(intra-wanderer)共四类,提供作为商品推荐与数字广告投放的参考,增进商品推荐与数字广告投放的成功率。针对跨网站浏览行为,可以下述范例来说明。例如:a君想要买一个单眼相机,使用google搜寻单眼相机后,逐步开启浏览搜寻结果中的数个电子商务网站,然后又开启mobile01,看看其它用户的开箱文,最后还开启比价网站查看各电子商务网站的价格。就上述的案例来看,a君进行最终采购前有一连串的行为模式,而这一连串的行为模式是由多个目的相关的网站所串连组成,如数个电子商务网站、论坛网站与比价网站,因此,若能找出这样的采购浏览行为属性,将更能掌握用户的消费与行为意图。本发明亦对跨网站类别与跨主网站的属性做探索,更有助于了解用户的行为意识。举例来说,a君开启多个不同网站,但都属于购物网站性质,所以其消费意图明显,若a君开启多个不同网站,但类别散落于购物、生活等多种不同网站类别,则或许表示为无目的式的闲逛。本专利申请案便是想针对用户的网站浏览行为进行属性探索,并从中找出用户的浏览偏好属性与浏览模式属性,更精准的提供给商品推荐与数字广告投放作参考。图1为本发明的产生用户的浏览属性的流程图。步骤110取得每个用户的网站浏览数据(例如:网站浏览历程(cs_uid)、点击历程或网站浏览记录),每个用户的网站浏览数据报包括用户标识符、时间序列、跨网站浏览记录等。步骤120依使用情境决定记录处理区间;例如:观察大方向或市场趋势可以选择较长的时间区间如一年;观察短期现象,可以选择较短区间,如一周或一个月。步骤130使用群聚算法决定所有网站浏览数据中,共同频繁出现的网站记录若干群,即决定出若干群的群聚网站;可依群聚算法选择定义频繁出现的门坎值定义。步骤140取得各网站的代表类别,然后依各群聚网站记录中的网站类别的比例,选择高比例的网站类别,作为该群聚网站的标签。步骤150,依每个用户的网站浏览记录,计算与步骤140的各群聚网站记录的相似度,将该些用户归类到该若干群的群聚网站中,并于步骤160将每个用户所属的群聚网站的标签作为该用户的浏览偏好属性。步骤170则将每个用户于步骤120所取得的处理区间的网站浏览记录转换为网站类别浏览记录,再计算跨网站类别与跨主网域的纯度,并于步骤180中,产生出用户的浏览模式属性,包括旅居型(sojourner)、定居型(resident)、跨站流浪型(inter-wanderer)、以及站内流浪型(intra-wanderer)共四类。以下将说明用户的浏览偏好属性的实施方式,即步骤120到步骤160的细节实施方式。用户的浏览模式属性即:挖掘出群体共通的浏览历程,就可定义出特定意图或行为历程的热门集合。cs_uid1_x:{i1,i2,i3,i4,...}--比价,...cs_uid2_x:{i2,i3,i4,i6,...}--比价,...cs_uid2x:{i10,i11,i2,i13,...}--彩妆,...cs_uid3_x:{i3,i4,i15,i2,...}--比价,...cs_uid3_x:{i10,i11,i18,i19,...}--彩妆,...以上述为例,{i2,i3,i4}可视为一种比价类别的共通历程(某种比价标签)。接着再与用户长期的历史网络浏览历程进行比对,便可反推出用户个人的偏好属性卷标,达到初步分众的效果。因此,实施步骤分成两个阶段:阶段1:找出经常群聚在一起的共通热门的网络浏览历程的集合x={x1,x2,…,xm}。每个xi∈x表示一群聚网站集合(至少包含一个网站),xi的标签(例如:比价、找工作)以群聚网站的主要类别(类别比例高者)来决定,其中,1≤i≤m,m为一正整数。阶段2:提出卷标化用户的算法。此算法的输入为x以及个别用户的网络浏览历程(cs_uid)。输出则为该用户关联至x中各群聚网站的标签的权重值,例如:label(uid)=<x1(50%),x2(30%),…>。在群体行为或历程的分析应用上,可以参考许多相关的技术。例如,在典型的购物篮分析(marketbasketanalysisoraffinityanalysis)中,探勘频繁项目集(frequentitemsetmining,fim)以及关联法则(associationrules,ar)算法常被用来挖掘顾客的购买习惯(购买产品项之间的关联性)。先验算法(apriori)是一种典型用于计算关联法则的算法。其运算过程中,会同时产生许多频繁项目集,例如,若{a,b}为频繁项目集,则表示a与b同时出现在事务数据的程度高于某个门坎值,而这个门坎值称为支持度(support)。在本发明的一实施例中,取样数据为连续9天中随机取出的10%用户的网站浏览数据。由于fim的输入数据必须是交易(transaction)型态数据,每一笔记录(tablerow)代表某个用户在单一时间区间(session)中的浏览历程(clickstream)。进行fim后,很明显可以发现这些频繁项目集的组成基本上都属于类别相近的网站,即群聚网站。例如,一群聚网站{www.yes123.com.tw,www.1111.com.tw,www.104.com.tw,pda.104.com.tw,www.518.com.tw}聚集了一群找工作类别的网站,这意味着,大多数找工作者的网络共通历程可以被定义出;也可以因为用户的历程跟这个频繁项目集很类似,进而推论该用户正在找工作。此外也可以观察到许多与购物相关的频繁项目集,利用这些辅助信息,例如频繁项目集,可以找到更多同构型高的热门网站历程,扩增了原先对特定类别用户可能的历程范围(广度)的理解,例如,利用上述辅助信息可以因此找出一群同为购物属性的一热门网站集合{www.momoshop.com.tw,shopping.udn.com,shopping.pchome.com.tw,www.pingle.com.tw,www.gohappy·com.tw,…}。这些频繁项目集可以用来定义群体用户的浏览偏好属性,而相似度是通过个别用户的浏览记录对于这些频繁项目集的相似程度,当相似程度够接近时,例如此相似程度大于一门坎值时,在本发明的一实施例中,用户与频繁项目集被给予相同的标签(tag),并且将此标签做为用户的浏览偏好属性。以下将说明用户的浏览模式属性,即步骤120到步骤180。根据网站浏览历程(假定在某个时间区间s中的网站浏览历程表示为s={i1,i2,…,in})关连到用户的网站浏览行为,定义用户的浏览模式属性将以网站类别纯度(categorypurity)与站内行为纯度(in-sitepurity)进行计算与归类。本发明的网站类别纯度通过飞塔防火墙(fortiguard)的外部分类数据。每一个网站连结都会有一个类别(category,因此网站浏览历程s会有一组对应的类别集合{t1,t2,…,tn}。网站类别纯度(p_cat)的定义如下:换句话说,此网站类别纯度指在该网站浏览历程的所有网站连结中,至少一网站连结落在同一网站类别所占的比例。当p_cat值偏高,表示s这段网站浏览历程的同构型偏高。举例来说,当p_cat=1,表示这n个连结都落在同一网站类别,如果此网站类别为找工作(jobsearch),那就表示s这段网站浏览历程的背后意图很可能就是在找工作。若p_cat值偏低,就表示s这段浏览历程的意图相对发散。本发明的站内行为纯度中的“站内”是指网站的网址有相同的主域名(主域名在此处是指第二阶域名(second-leveldomainlabel)),例如:以下网址{′tw.yahoo.com′,′tw.news.yahoo.com′,′tw.search.yahoo.com′}皆属于yahoo这个主域名的站内连结。类似p_cat,站内行为纯度(p_ins)的定义如下:换句话说,此站内行为纯度是指在该网站浏览历程的所有网站连结中,至少一网站连结的一网址具有相同的一主网域所占的比例。当p_ins值偏高,表示s这段网站浏览历程的站内行为偏高。举例来说,当p_ins=1,表示这n个连结都属于站内行为,如果此站为yahoo,那就表示s这段网站浏览历程的浏览习性偏好此yahoo网站。若p_ins值偏低,就表示s这段网站浏览历程的浏览特性属于跨站浏览。根据网站类别纯度与站内行为纯度,任一段网站浏浏览历程皆可对应到图2的用户的浏览模式属性的分类矩阵,例如,类别-网域一致性矩阵(category-domaincoherencematrix:,cdcmatrix)。为了方便解读,初步将cdcmatrix分为四个区域,并分别对应到不同的浏览模式。在图2的左上为用户的浏览模式属性的旅居型(sojourner):指来回跨越多网站而且浏览的网站类别相近的浏览行为。例如:在多个不同网站来回查阅商品进行比价。由于旅居型的用户行为通常专注在寻找某个物品或研究某种主题,所以这些用户可以被合理假设就是潜在的广告受众。在图2的右上为用户的浏览模式属性的定居型(resident):指驻足于特定站内观看类别相近内容的浏览行为(即在站内为了单一目的的浏览行为)。例如:用户习惯在momo或pchome系列网站进行商品浏览。由于意图明确,因此这些用户也是合理的广告受众。在图2左下为用户的浏览模式属性的跨站流浪型(inter-wanderer):指来回跨越多网站但是目的不明显(观看类别分散)的浏览行为。因为足迹分散,可能属于漫无目的的浏览行为,也可能是综合跨站行为但难以判读的意图。在图2右下为用户的浏览模式属性的站内流浪型(intra-wanderer):指特定网站内目的不明显(观看类别分散)的浏览行为。类似跨站流浪型,差别在用户的浏览行为偏重于站内,这些站通常是比较大型的复合式网站(具有各种不同的网站类别),如yahoo。点击历程的偏好属性分类器可简单定义如以下的浏览模式程序(programbrowsing-mode):输入(input):点击历程s={i1,i2,…,in};参数k(介于0到1)定义了区分网站类别相近或相异的纯度门坎值;参数l(介于0到1)定义了区分跨站或站内行为的纯度门坎值。输出(output):浏览模式属性。可以是旅居型(s-mode)、定居型(r-mode)、跨站流浪型(cw-mode)或站内流浪型(iw-mode)。programbrowsing-mode(s):ifp_cat(s)≥kandp_ins(s)≤l:returns-modeelifp_cat(s)≥kandp_ins(s)>l:returnr-modeelifp_cat(s)<kandp_ins(s)≤l:returncw-modeelsep_cat(s)<kandp_ins(s)>l:returniw-mode假定由一群网站浏览历程组成的集合s={s1,s2,…,sn}代表某用户在一段时间内的一群网站浏览历程,通过程序browsing-mode(s)可以将s对应到如图2的cdcmatrix进行浏览行为的解读。基于本发明的上述实施例,也将先前提及的群体用户的网站点击频繁项目集x={x1,x2,…,xn}投射到cdcmatrix,进而对群体用户的网站浏览行为作综合解读。由于输入的结构类似,在程序上只需以网站点击频繁项目集x代替下列程序browsing-mode-summary(s)中的参数(argument)s即可。programbrowsing-mode-summary(s):foreachsins:countbrowsing-mode(s)bymodes(s-mode,r-mode,cw-modeandiw-mode)displaycountandpercentageforeachmodereturnmodexsuchthatx.countisthemaximum(amongthefourmodes)相关的数据观察将在以下讨论。上述利用cdcmatrix从网站点击频繁项目集的角度,进行群体浏览行为的综合分析与讨论,其取样数据同样为连续9天中随机取出的10%用户的网站浏览历程,并经过适当的数据处理。图3为网站点击频繁项目集对应到cdcmatrix的分布情况(取k=0.5,l=0.5),其中每一个标记代表一个频繁项目集。由图3中可以观察到,大部分的热门的网站浏览历程落在上半部(旅居型与定居型),这是因为热门的共同网站浏览历程通常会有比较明确的意图(p_cat偏高);漫无目的的网站浏览历程,相对不易形成频繁项目集。这当中又以旅居型的网站浏览历程居多,这说明当用户专注在寻找某个物品或研究某种主题时,通常会寻求跨站的资源,例如找工作的网站浏览历程可能会遍及104,518,1111,yes123等热门求职网站(如图4)。整体而言,只要能取得网站浏览历程以及该些历程所对应的分类,便可通过网站类别纯度(p_cat)与站内行为纯度(p_ins)此两指针进行浏览模式的归类、浏览行为的趋势解读,同时找出潜在的广告受众包括旅居型与定居型用户。现今电子商务商的商品推荐与数字广告的投放除了要争取商品与服务的曝光外,本发明可强化因应用户当下的需求与状况,及提升商品与服务销售的可能性。在本发明中另一实施范例中,发明一种非暂存计算机可读介质,此储存媒介使用于一计算机程序产品中,此计算机程序产品包括复数个指令,此复数个指令被配置使一计算设备执行上述产生用户的浏览属性的方法。以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1