一种基于异构信息网络的移动应用排序和聚类方法_3

文档序号：9249269阅读：来源：国知局

(XIGk) =p狂IGk)Xp (XI)(,Gk) (4)
[00对其中p狂|Gk)表示在网络Gk中访问类型X的概率，p(x|X，Gk)表示在网络Gk中，访问类型X中某一个节点的概率。为了避免p(x|X，Gk)出现零概率现象，加入全局信息，对其进行平滑处理：
[005引 P'(xIX,Gj= (1-e)p(xIX,Gj+ep(xIX,G)妨
[0057] 在某个子网络中Gk访问一个中屯、节点api的概率由其属性节点来决定；
[0058]
[0059] 根据贝叶斯定律，可W获得中屯、节点api的后验概率： p(Gk|aPi) °^p(aPi|Gk)Xp(Gk)。为了得SJ合适的P(Gk)考虑最大化后验概率p(Gk|aPi)，然后使用EM方法来得到最佳的P(Gk)，具体计算步骤如下：
[0062] 其中，K是用户输入的需要聚类的数量，当得到了所有中屯、类型概率分布后，我们可W为每一个属性节点计算其在每个聚类中的后验概率，具体公式如下：
[0063] (9)
[0064] 其中X是某个属性节点，N(x)是一个中屯、节点集合，是X的邻居节点。对于某个属性节点来说，其在某个聚类中的后验概率等于其邻居节点在该聚类中的后验概率的均值。
[0065] W上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可W做出若干改进和润饰，该些改进和润饰也应视为本发明保护范围内。
【主权项】
1. 一种基于异构信息网络的移动应用排序和聚类方法，其特征在于，系统包括数据预处理模块、排序分布计算模块以及概率生成模块，具体包括如下步骤： 11) 数据预处理模块从移动应用市场中获得移动应用信息文档，对该移动应用信息文档进行预处理，所述预处理过程包括信息过滤，分词处理以及关键词提取； 12) 构建起一个由四类信息组成的星形异构网络；对该星形异构网络进行随机聚类，星形异构网络随之分为多个子网络； 13) 排序分布计算模块接收子网络分别结算每个子网络中属性节点的排序分布，然后输出； 13)概率生成模型接收属性节点的排序分布用于计算中心节点在每个子网络中的后验概率，之后通过近邻关系计算其他属性节点的后验概率，最后检查聚类结果是否收敛，如果不收敛就按照新的概率分布重新划分子网络输入到排序分布计算模块，如果收敛就作为聚类结果输出。2. 根据权利要求1所述的一种基于异构信息网络的移动应用排序和聚类方法，其特征在于，所述排序分布计算模块排序流程具体包括如下步骤：首先输入为聚类数K以及K个移动应用的子网络，然后分别计算三类属性节点在每个子网络中的排序分布，针对AUTHOR和CATEGORY类型的对象，采用传递性排序方法，该方法是一个迭代的过程，终止条件是排序分布收敛或者迭代次数大于设定的最大次数；针对 TERM类型的对象采用计数排序方法来计算其排序分布，整个排序分布计算流程最终将输出每个属性类型的排序分布；所述AUTHOR、CATEGORY和TERM类型的对象均为提取的关键词。3. 根据权利要求2所述的一种基于异构信息网络的移动应用排序和聚类方法，其特征在于，首先输入部分包括聚类数K，K个移动应用子网络及其对应的属性类型的排序分布，在建立概率生成模型之后将采用EM方法获得最佳参数值，利用得到的最优参数值以及属性类型的排序分布生成中心类型节点在每个聚类中的后验概率，然后利用近邻关系计算每个属性类型节点的后验概率，最后根据概率分布情况重新分配每个节点到不同的聚类，然后输出聚类结果。4. 根据权利要求1所述的一种基于异构信息网络的移动应用排序和聚类方法，其特征在于，构建起一个由四类信息组成的星形异构网络为建立星形网络：G= (V，E，W)，其中V= {APP，AUTHOR,CATEGORY,TERM}，包括应用的四类信息节点，APP= {aPl，ap2……apj是中心节点集合，AUTHOR= {aUi,au2......aun}，CATEGORY=Ica1,ca2......caj，TERM=Ite1,te2...... tej是三类属性节点集合，E是连接中心节点与属性节点的边集合，W是边的权重集合，权值分为三种，第一，如果边一库接的是APP与{AUTHOR，CATEGORY}的节点，那么Wi的值为1，第二，如果边4连接的是APP与TERM的节点，那么w啲值可以为任何正整数，第三，如果两个节点之间没有连接边，那么Wi表示为0。5. 根据权利要求4所述的一种基于异构信息网络的移动应用排序和聚类方法，其特征在于，星形网络经过排序分布计算将得到属性类型信息的排序分布结果，三种类型信息节点都有自己的排序分布，它们将作为条件概率输入到概率生成模型中，其中AUTHOR的排序分布为R=Irfeu1),r(au2)......r(aun)}，其中r(au)彡 0,并且HLiF(HUi) = 1，其他两种属性类型信息的排序分布也以同样方式表示，排序分布的具体计算过程分为两个部分，第一个部分采用的是传递性排序算法，针对AUTHOR，CATEGORY两种类型的信息，这是一个迭代的计算过程：其中GAUTHOK，APP，GAPP，CATEGORY，GCATEGORY，APP，GAPP，AUTHOK疋对角矩阵，值分别等于权矩阵WauTHOR,APP，胃APP，CATEGORY，胃CATEGORY,APP，WAPP，AUTmK的每一列值的总和，第二部分是计数排序算法，针对 term类型，具体的计算过程如下：其中NGUei)表示G网络中，tei的邻居节点。6.根据权利要求5所述的一种基于异构信息网络的移动应用排序和聚类方法，其特征在于，概率生成模型将会使用排序分布作为输入条件之一，然后使用EM方法评APP节点在不同聚类中的后验概率分布，定义访问某个子网络Gk中d某个属性节点X的概率为： p(XIGk) =p(XIGk)Xp(XIX，Gk) (4) 其中p(X|Gk)表示在网络Gk中访问类型X的概率，p(x|X,Gk)表示在网络Gk中，访问类型X中某一个节点的概率，为了避免p(XIX，Gk)出现零概率现象，加入全局信息，对其进行平滑处理： P1(xIX,Gk) = (I-e)p(xIX,Gk) +ep(xIX,G) (5) 在某个子网络中Gk访问一个中心节点ap,的概率由其属性节点来决定：根据贝叶斯定律，获得中心节点aPi的后验概率：P(GkIapi)~PfepiIGk)Xp(Gk)，为了得到合适的P(Gk)考虑最大化后验概率p(GkIaPi)，然后使用EM方法来得到最佳的p(Gk)，具体计算步骤如下：其中，K是用户输入的需要聚类的数量，当得到了所有中心类型概率分布后，为每一个属性节点计算其在每个聚类中的后验概率，具体公式如下：其中X是某个属性节点，N(x)是一个中心节点集合，是x的邻居节点，对于某个属性节点来说，其在某个聚类中的后验概率等于其邻居节点在该聚类中的后验概率的均值。
【专利摘要】本发明公开了一种基于异构信息网络的移动应用排序和聚类方法，由于排序结果主要是反映对象的重要性程度，聚类过程中引入该排序结果使得聚类结果更有意义，并且采用迭代的方法使得排序结果与聚类结果不断调整，相辅相成，从整体上提升了聚类的效果。传统的，能够用于移动应用聚类的方法中，通常只使用一种或者两种类型的信息，本发明基于由应用的四种类型信息组成的异构信息网络，使用的信息源更多，可以从本质上提升聚类的正确率。
【IPC分类】G06F17/30
【公开号】CN104965869
【申请号】CN201510312733
【发明人】吴健, 白双伶, 陈亮, 邓水光, 李莹, 尹建伟, 吴朝晖
【申请人】浙江大学
【公开日】2015年10月7日
【申请日】2015年6月9日

完整全部详细技术资料下载

当前第3页1 2 3