基于交互数据的用户特征识别方法_2

文档序号:9911198阅读:来源:国知局
面文档分为u个不同的部分,vk是每个部分的权重,fu代表特征词在 第u个部分中出现的词频数,ul u代表第u个部分的实际长度,avulu是指在页面集合中该部分 的平均长度;k和bu是调节因数,分别用来调节特征词在页面文档的词频和用来对当前部分 进行调节,最终得到相应的特征词条在文档集中的权重Wi。
[0052] 在上文对页面文本特征提取的基础上,本发明继续对交易业务进行特征化表示, 形成结构化的存储形式,便于个性化推荐系统处理。在经过对交易业务的结构化表示后,为 了挖掘推荐信息,提供精确的推荐结果,需要进行相应的聚类处理。
[0053]首先对每一个单独的页面进行特征词条提取,进而上升到该交易业务的所有页 面。根据特征词条出现的频率可以发现用户的兴趣爱好和浏览过的相关商品信息。在组成 交易业务的页面链接关系中,以链接关系为主线,分析链接前后页面的关键特征词的变化, 进而及时的提取用户当前兴趣爱好的迀移。故对交易业务的特征词条表示的第一步是汇总 交易业务所有页面的特征表示。
[0054]在对单个页面进行特征词提取后,得到单个页面的特征词集合T= …tn},预 先设定提取η个特征词条;在一个交易业务中页面集合表示为P={Pl,p2…pm},每个不同的 页面用其相对应的唯一 URL地址进行单独识别。交易业务的特征词条根据空间向量初步形 成矩阵关系。交易业务的特征词条更进一步的表示可以转化为特征词条的权重。所以此时 将单个页面 ?1使用特征词条的权重表示为如下关系:
[0055] 卩1={^〈1:1#>3?<七2心>七《<1^#>,"七《<1:11,卩1>}。这里的权重七¥选择计算如下:
[0056] tw<ti, ρι> = Σ log((TF/k+TF) ((ri+0.5)/(R-ri+0.5))/(( Ci-ri+0.5)/(C-R)-(Ci-η)+0.5))
[0057] 利用这种表示方式,将交易业务页面集合P表示为关联矩阵Q。
[0058] 对于某一个符合用户潜在需求的中意商品,用户在浏览该页面时会停留相对较长 的时间。给出基于停留时间的权重表示如下:交易业务集表示为3={ 81,^_8(1}共(1个交易 业务,交易业务集S与页面P之间的访问关系可通过访问权重w〈 Pl,Sj>表示,形成关联矩阵N。 该访问权重是基于停留时间的,w〈Pi,s j> = t imei/content j
[0059]即停留时间time与访问页面的文本长度大小content之间的比值。
[0060]将基于特征词频和停留时间的关联矩阵矩阵Q和N进行矩阵相乘运算,可以得出新 的关联矩阵Q',作为最终的交易业务特征化表示,矩阵中的每个元素表示交易业务和特征 词条之间的权重关系,并且作为对交易业务进行聚类的输入值。
[0061 ]聚类的目的是在相似性的基础之上将目标数据进行分类。每次将两个旧类合并成 一个新类,直到最终合并成一个类为止。每合并一次,则在距离矩阵中删除相对应的行与 列。描述如下:
[0062]步骤1:初始共设有N个类,每个类由一个对象类形成。令顺序号m = 0,L(m)=0; [0063] 步骤2:在距离矩阵D中寻找最小距离d[(r),(s)]=min d[(i),G)]。
[0064] 步骤:3将两个类(r)和(s)合并成一个新类(r,s);令m=m+l,L(m)=d[(r),(s)]。
[0065] 步骤4:更新距离矩阵D:将表示类(r)和类(s)的行列删除,同时加入表示新类(r, s)的行列;同时定义新类(r,s)与各旧类(k)的距离为d[(k),(r,s)]=min d[(k),(r)],d [㈦,(s)]。
[0066] 步骤5反复步骤2-4,直到所有对象合并成一个类为止。
[0067] 对于词条重合度的信息度量,本发明获取两个集合A和B的交集元素在A,B的并集 中所占的比例,用符号J(A,B)表示。在计算列之间的权重比例相似度时,在计算出的交集 中,计算各词条权重的差,单独出现在一列中的词条,其自身的权重就记为该词条的权重 差,汇总所有词条的差值的和,此时设定数值为二者之间的距离。迭代计算完成聚类。
[0068] 对关联矩阵Q'进行分层聚类处理后,可以得到TC= {tC1,tc2,…,tck),即基于特征 词条的交易聚类。为了是推荐规则更加精确,还需要对TC集合进行相应的转换,转换为附有 权重的页面集合,该集合将是最直接的推荐候选集合。最终形成基于交易业务聚类转换的 网页文档集合可以表示为Tcp={pci,pc2…,pck},pci是指对交易业务聚类tCi通过计算所有 页面的权重而得出的文本文档,该权重计算的过程如下,该文档是推荐候选页面集,其可以 通过权重进行如下的关系表示:Pci= {〈Pi,W'〈Pi,pCi>> IpiEP)。
[0069]
[0070] w'〈Pi,pci>代表贝_Pi在文本文档p Ci中的权里。最终,通过对交易业务进行特征 化表示、分层聚类以及聚类结果的相应转换过程,得到了文本挖掘后的网页文本文档集合 对其进行进一步的优化,利用 W'〈Pl,pCl>得出新的关联矩阵Q"。
[0071] 当当前用户进入网站后产生一系列的访问页面,这些页面同样需要进行特征词条 提取和页面停留时间计算等特征化表示。对于用户访问形成的当前会话,同样需要利用网 页网站日志进行本次会话的跟踪,并将跟踪的结果进行网页文本文档预处理,形成用特征 词条及其权重表示的网页文本文档集合。处理过的当前用户会话表示为U={m,u2,H_,um}, 每个u表示页面在当前用户会话中的权重,使用多重链表进行存储。针对当前用户会话U,每 一个页面P的推荐值由两部分组成。第一部分是用户会话与文本文档计算的余弦相似值,第 二部分是页面P在文本文档中的权重。如果页面P出现在当前用户会话U中,即待推荐给用户 的页面中,存在用户已经访问过的页面,那么不再将其列入推荐列表。
[0072] 具体的推荐值用Rec表示rec(p,U) =Sim(U,pc) Xw'〈p,pc>
[0073] 其中
[0074] 通过对交易业务分层聚类后转换的网页文本文档有多个,所以产生的候选推荐页 面也有多个,此时进一步对推荐的网页文本经过过滤处理,然后形成推荐集。过滤的方式可 以设定阈值e,小于该阈值的推荐页面不被列入推荐集。
[0075]最后对所有推荐值进行排序,选取排在推荐集前段的作为推荐结果。
[0076]综上所述,本发明提出了一种基于交互数据的用户特征识别方法,基于文本特征 挖掘用户兴趣,并准确跟踪用户在访问电商网站的过程中的需求变化,为用户提供有效的 内容个性化推送。。
[0077]显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用 的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成 的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储 在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。 [0078]应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的 原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何 修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨 在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修 改例。
【主权项】
1. 一种基于交互数据的用户特征识别方法,其特征在于,包括: 获取用户交互产生的网页文本; 对网页文本进行分词; 基于分词结果建立网页文本的特征表示。2. 根据权利要求1所述的方法,其特征在于,所述基于分词结果建立网页文本的特征表 示,进一步包括: 将文档分割成为不同的部分,在特征词条查找匹配页面时,将目标页面集划分为相关 页面和无关页面,用P(D | R)表示特征词对页面D的相关性概率,p(D | NR)表示特征词对页面D 的无关性概率;若P(D|R)>p(D|NR),则页面D确定为相关页面,否者确定为无关页面;利用特 征词在相关页面中出现的概率与在无关页面中出现的概率进行相关性值的计算: w= Σ log(pi(l-si)/(si(l-pi))) 其中p(D |R)/p(D |NR) = Π pi(l-si)/(si(l-pi)),pi为特征词ti在相关页面中出现的概 率,Sl为特征词^在无关页面中出现的概率; 令R表示相关页面的个数,C-R代表无关页面个数;对于特征词U,包含该特征词的页面 个数为Cl,相关页面为η,包含该特征词的无关页面个数为Cl_ri; 计算特征词U在相关页面中出现的概率Pl = ri/R,在无关页面中出现的概率Sl=(Cl_ η)/((Μ〇,选择的平滑参数0.5和0.1,平滑后公式如下: Pi =(ri+0.5)/(R+1.0) si=(ci-ri+0.5)/(C-R+1.0) 得到相关性值: w= 2 1〇g(((ri+0.5)/(R-ri+0.5))/((ci-ri+0.5)/(C-R)-(ci-ri)+0.5)) 将页面分解成为不同的部分,考虑特征词在不同部分内权重的计算: Wi= Σ l〇g( (TF/k+TF) ((ri+0 · 5)/(R-ri+0 · 5))/((ci-ri+0 · 5)/(C-R)-(ci-ri)+0 · 5)) 其中TF包括特征词条在不同部分出现的词频以及在不同部分的权重信息;其具体的表 达式如下:其中,将一个页面文档分为u个不同的部分,Vk是每个部分的权重,fu代表特征词在第u 个部分中出现的词频数,ulu代表第u个部分的实际长度,avulu是指在页面集合中该部分的 平均长度;k和b u是调节因数,分别用来调节特征词在页面文档的词频和用来对当前部分进 行调节,最终得到相应的特征词条在文档集中的权重 Wl。
【专利摘要】本发明提供了一种基于交互数据的用户特征识别方法,该方法包括:获取用户交互产生的网页文本;对网页文本进行分词;基于分词结果建立网页文本的特征表示。本发明提出了一种基于交互数据的用户特征识别方法,基于文本特征挖掘用户兴趣,并准确跟踪用户在访问电商网站的过程中的需求变化,为用户提供有效的内容个性化推送。
【IPC分类】G06F17/30, G06Q30/02, G06F17/27
【公开号】CN105677832
【申请号】CN201610003959
【发明人】董政, 吴文杰, 陈露, 李学生
【申请人】成都陌云科技有限公司
【公开日】2016年6月15日
【申请日】2016年1月4日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1