一种基于异构信息网络的移动应用排序和聚类方法

文档序号:9249269阅读:829来源:国知局
一种基于异构信息网络的移动应用排序和聚类方法
【技术领域】
[0001] 本发明属于应用推荐领域,尤其设及一种基于异构信息网络的特质W及基于排序 的聚类方法,实现了一种对移动应用进行有效聚类和排序的方法。
【背景技术】
[0002] 随着移动互联网的迅速发展,移动市场中涌现出了数量庞大的应用,该些各式各 样的移动应用正在逐渐改变着人们的生活。每个移动应用都关联着各自相关的信息,而 成千上万的移动应用就形成了一个庞大的异构信息网络,该个网络包含了大量有价值的信 息,因此对移动应用信息网络的研究将具有很重要的意义。一方面,深入分析大量移动应用 的使用情况可W帮助我们详细了解用户的使用行为,从而为用户提供更为个性化的服务。 例如个性化的应用推荐通过挖掘用户之间或者应用之间的潜在结构化关系来为目标用户 推荐更为准确的移动应用,从而提升用户的体验度。另一方面,对移动应用数据的分析还能 帮助公司找到更加有效的广告推广平台。通常用户从应用市场中获取应用的方法主要分为 =种途径;一种是使用应用市场的捜索引擎,直接进行捜索,第二种是使用应用市场中的应 用分类标签W及排名来寻找需要的应用,第S种是在系统推荐的应用列表中获取应用。其 中,应用捜索主要是采用关键字匹配方法,使用到的信息类型是移动应用的名称,而分类标 签往往是固定的、人为事先设定的,随着应用数量的增长,标签设定的不合理之处将会逐渐 显现出来,有鉴于此,采用一种有效的信息提取技术W弥补该些不足之处是十分必要的。聚 类是一种了解数据,掌握有效信息的重要方法之一,大量杂乱的数据通过使用聚类方法被 归于不同的组,有利于对数据的分析和学习,对移动应用数据进行聚类分析可W作为预测 建模之前的预处理步骤。目前,大部分的能够用于应用数据聚类分析的方法主要是针对同 构信息网络的,即基于应用的某一类型信息,使用单一类型的信息源由于忽略了其他相关 信息,在很大程度上限制了聚类的准确度。因此一种通过提取应用的不同类型的信息W构 建一个移动应用异构网络,然后基于该网络对应用本身W及其相关信息进行聚类分析的方 法已成为学术界与工业界的迫切需求。

【发明内容】

[0003] 针对上述技术问题,本发明提出一种基于异构信息网络的移动应用排序和聚类方 法
[0004] 为了解决上述技术问题,本发明的技术方案如下;
[0005] -种基于异构信息网络的移动应用排序和聚类方法,系统包括数据预处理模块、 排序分布计算模块W及概率生成模块,具体包括如下步骤:
[0006] 11)数据预处理模块从移动应用市场中获得移动应用信息文档,对该移动应用信 息文档进行预处理,所述预处理过程包括信息过滤,分词处理W及关键词提取;
[0007] 12)构建起一个由四类信息组成的星形异构网络;对该星形异构网络进行随机聚 类,星形异构网络随之分为多个子网络;
[0008] 13)排序分布计算模块接收子网络分别结算每个子网络中属性节点的排序分布, 然后输出;
[0009] 13)概率生成模型接收属性节点的排序分布用于计算中屯、节点在每个子网络中的 后验概率,之后通过近邻关系计算其他属性节点的后验概率,最后检查聚类结果是否收敛, 如果不收敛就按照新的概率分布重新划分子网络输入到排序分布计算模块,如果收敛就作 为聚类结果输出。
[0010] 进一步的,所述排序分布计算模块排序流程具体包括如下步骤:
[0011] 首先输入为聚类数KW及K个移动应用的子网络,然后分别计算=类属性节点在 每个子网络中的排序分布,针对AUT册R和CATEGORY类型的对象,采用传递性排序方法,该 方法是一个迭代的过程,终止条件是排序分布收敛或者迭代次数大于设定的最大次数;针 对TERM类型的对象采用计数排序方法来计算其排序分布,整个排序分布计算流程最终将 输出每个属性类型的排序分布;所述AUT册R、CATEGORY和TERM类型的对象均为提取的关键 词。
[0012] 进一步的,首先输入部分包括聚类数K,K个移动应用子网络及其对应的属性类型 的排序分布,在建立概率生成模型之后将采用EM方法获得最佳参数值,利用得到的最优参 数值W及属性类型的排序分布生成中屯、类型节点在每个聚类中的后验概率,然后利用近邻 关系计算每个属性类型节点的后验概率,最后根据概率分布情况重新分配每个节点到不同 的聚类,然后输出聚类结果。
[0013] 进一步的,构建起一个由四类信息组成的星形异构网络为建立星形网络;G= (V,E,W),其中V= (APP,AUT册R,CATEGORY,TERM},包括应用的四类信息节点,APP= (ap。啡2......apj是中屯、节点集合,AUT册R= {aUi,au2......au。},CATEGORY= {ca。ca]...... ca。},TERM= {te。te2......te。}是^类属性节点集合,E是连接中屯、节点与属性节点的边集 合,W是边的权重集合,权值分为S种,第一,如果边e;连接的是APP与{AUT册R,CATEGORY} 的节点,那么Wi的值为1,第二,如果边ei连接的是APP与TERM的节点,那么Wi的值可W为 任何正整数,第=,如果两个节点之间没有连接边,那么Wi表示为0。
[0014] 进一步的,星形网络经过排序分布计算将得到属性类型信息的排序分布结果, =种类型信息节点都有自己的排序分布,它们将作为条件概率输入到概率生成模型中, 其中AUT册R的排序分布为R={r(aui),r細2)......r(au。)},其中r(ai〇 > 0,并且
其他两种属性类型信息的排序分布也W同样方式表示,排序分布的具体 计算过程分为两个部分,第一个部分采用的是传递性排序方法,针对AUT册R,CATEGORY两 种类型的信息,该是一个迭代的计算过程:
[00 巧]F(Airni0R|G) - (WaUTHOR,APP。AUTHOR,APP) (WaPP,CATEGORY。APP,CATEG0脚)P(CATOGORYG) (1) [001 引P(CATEGORYIG) - (Wcategory'app0category,app) (Wapp,author0app,author)P(AUT册R|G) 口)
[0017]其中OAUTHC?,APP,OAPP,CATEGC?Y,OCATEG(;KY,APP,OAPP,AUTHC?是对角矩阵,值分别專于权 矩阵WautHC?,APP,WApp,eATEGC?Y,WeATEGC?Y,APP,Wapp,AUTHC?的母一列值的总和,束一部分疋计数排序方法, 针对TERM类型,具体的计算过程如下:
[001 引
口)
[001引其中Ne(tei)表示G网络中,te;的邻居节点。
[0020] 进一步的,概率生成模型将会使用排序分布作为输入条件之一,然后使用EM方法 评APP节点在不同聚类中的后验概率分布,定义访问某个子网络Gk中d某个属性节点X的 概率为:
[0021 ]P (XIGk) =P狂IGk)XP (XI)(,Gk) (4)
[002引其中P狂|Gk)表示在网络Gk中访问类型X的概率,p(x|X,Gk)表示在网络Gk中,访 问类型X中某一个节点的概率,为了避免P (XIX,Gk)出现零概率现象,加入全局信息,对其 进行平滑处理:
[002引P'(xIX,Gj= (1-e)p(xIX,Gj+ep(xIX,G) 妨
[0024] 在某个子网络中Gk访问一个中屯、节点api的概率由其属性节点来决定;
[00 巧]
[0026] 根据贝叶斯定律,获得中屯、节点aPi的后验概率;P(GklaPi)P(aPi|Gk)Xp咕), 为了得到合适的P(Gk)考虑最大化后验概率p(Gk|aPi),然后使用EM方法来
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1