一种基于异构信息网络的移动应用排序和聚类方法_2

文档序号:9249269阅读:来源:国知局
得到最佳的p(Gk),具体计算步骤如下:
[002引其中,K是用户输入的需要聚类的数量,当得到了所有中屯、类型概率分布后,为每 一个属性节点计算其在每个聚类中的后验概率,具体公式如下:
[0030] (9)
[0031] 其中X是某个属性节点,N(x)是一个中屯、节点集合,是X的邻居节点,对于某个属 性节点来说,其在某个聚类中的后验概率等于其邻居节点在该聚类中的后验概率的均值。
[0032] 本发明的有益效果在于;排序结果主要是反映对象的重要性程度,聚类过程中引 入该排序结果使得聚类结果更有意义,并且采用迭代的方法使得排序结果与聚类结果不断 调整,相辅相成,从整体上提升了聚类的效果。传统的,能够用于移动应用聚类的方法中,通 常只使用一种或者两种类型的信息,本发明基于由应用的四种类型信息组成的异构信息网 络,使用的信息源更多,可w从本质上提升聚类的正确率。
【附图说明】
[0033] 图1为本发明整体结构图;
[0034] 图2为本发明排序分布计算模块内部流程图;
[0035] 图3为本发明概率生成模块内部流程图;
【具体实施方式】
[0036] 下面将结合附图和具体实施例对本发明做进一步的说明。
[0037] 传统聚类方法中,对移动应用数据的分析往往忽略了与应用相关的其他类型数 据,该在一定程度上限制了聚类方法的准确性。本发明采用了一种基于排序的聚类方法, 首先对移动应用数据进行了预处理,提取出四种类型的数据,包括被称为中屯、类型的应用 名称W及其他=个属性类型;应用发布者、应用类别W及应用描述信息,其中对应用描述信 息进行了分词处理,采用TF-IDF方法提取出关键词汇,然后将该些信息联合起来形成一个 星形异构信息网络,采用类别权重矩阵来进行标识,接着采用基于排序的聚类方法,通过排 序方法计算类别信息的排序分布,用于反映类别重要性的程度。然后在排序分布的基础上 建立概率生成模型,W此获取应用在每个聚类中的后验概率,在计算出每个应用在每个聚 类中的后验概率分布后,通过近邻关系获得其他属性类别节点在每个聚类中的概率分布, 计算排序分布W及估计后验概率该两个部分是连续并迭代的,迭代将不断进行直至结果收 敛。
[0038] 整个移动应用排序和聚类方法主要由=个模块组成;数据预处理模块、排序分布 计算模块W及概率生成模块。
[0039] 从图1中可W看出,整个对移动应用排序和聚类的过程主要由数据预处理模块、 排序分布计算模块W及概率生成模块=个部分顺序构成。首先数据预处理模块从移动应 用市场中获得移动应用信息文档,预处理过程包括信息过滤,分词处理W及关键词提取,然 后构建起一个由四类信息组成的星形异构网络;初始化部分进行随机聚类,星形网络随之 分为多个子网络,排序分布计算模块接收子网络分别结算每个子网络中属性节点的排序分 布,然后输出;概率生成模型接收属性节点的排序分布用于计算中屯、节点在每个子网络中 的后验概率,之后通过近邻关系计算其他属性节点的后验概率,最后检查聚类结果是否收 敛,如果不收敛就按照新的概率分布重新划分子网络输入到排序分布计算模块,如果收敛 就作为聚类结果输出。
[0040] 数据预处理模块对从移动市场中获取的移动应用文档进行数据提取、信息过滤、 分词处理W及关键词提取,首先要提取出每个应用所对应的四种类型的数据,接下来要对 提取出来的应用描述信息进行分词处理,利用TF-IDF方法提取出每个应用的关键描述词 汇,最后用权重矩阵来标识该些信息,形成一个异构信息网络。
[0041] 图2介绍了排序分布计算模块的流程。首先输入为聚类数KW及K个移动应用的 子网络,然后分别计算S类属性节点在每个子网络中的排序分布,针对AUT册R和CATEGORY 类型的对象,采用传递性排序方法,该方法是一个迭代的过程,终止条件是排序分布收敛或 者迭代次数大于设定的最大次数;针对TERM类型的对象采用计数排序方法来计算其排序 分布。整个排序分布计算流程最终将输出每个属性类型的排序分布。
[0042] 排序分布计算模块用于获取能够反映对象在不同聚类中重要程度的排序分布,针 对不同类型数据排序模块又被细分为两个部分,其中一个部分采用的是传递性排序方法, 主要是用于计算应用发布者W及应用类别该两个属性类型的排序分布,另一个部分采用的 是计数排序方法,主要是用于计算应用关键词汇的排序分布。
[0043] 图3介绍了概率生成模块的内部工作流程。首先输入部分包括聚类数K,K个移动 应用子网络及其对应的属性类型的排序分布,在建立概率生成模型之后将采用EM方法获 得最佳参数值,利用得到的最优参数值W及属性类型的排序分布生成中屯、类型节点在每个 聚类中的后验概率,然后利用近邻关系计算每个属性类型节点的后验概率,最后根据概率 分布情况重新分配每个节点到不同的聚类,然后输出聚类结果。
[0044] 概率生成模块用于计算中屯、类型,即应用本身在不同聚类中的后验概率,采用EM 方法来估计中屯、类型的后验概率,然后根据近邻关系获得应用的其他=个属性类型信息的 概率分布,最后根据后验概率来重新聚类,输出聚类结果。
[0045] 在进行排序和聚类之前需要将移动应用的文档转换为由四类信息组成的异构信 息网络:
[0046] 星形网络;G= (V,E,W),其中V= (APP,AUT册R,CATEGORY,TERM},包括应用的 四类信息节点,APP= {ap。ap2......apj是中屯、节点集合,AUT册R= {au。au2......au。}, CATEGORY= {ca。ca2……ca。},TERM= {te。te]……te。}是立类属性节点集合,E是连接 中屯、节点与属性节点的边集合,W是边的权重集合,权值分为=种,第一,如果边e;连接的是 APP与{AUT册R,CATEG0R刊的节点,那么Wi的值为1,第二,如果边ei连接的是APP与TERM 的节点,那么Wi的值可W为任何正整数,第S,如果两个节点之间没有连接边,那么W康示 为0。
[0047] 星形网络经过排序分布计算将得到属性类型信息的排序分布结果,=种类型信息 节点都有自己的排序分布,它们将作为条件概率输入到概率生成模型中,其中AUT册R的排 序分布为R= (r(aui),r(au2)......r(au。)},其中r(au;) > 0,并且r(aUj)二 1,其他 两种属性类型信息的排序分布也W同样方式表示。排序分布的具体计算过程分为两个部 分,第一个部分采用的是传递性排序方法,主要是针对AUT册R,CATEGORY两种类型的信息, 该是一个迭代的计算过程:
[004引F(AirniOR|G) - (WaUTH0R,APP0AUTHOR,APP) (WaPP,CATEGORY0APP,CATEGORY)P(CATOGORYG) (1) [004引P(CATEGORYIG) - (Wcategory'app。category,app) (Wapp,author。app,author)P(AUT册R|G) 口)
[0050] 其中OAUTHC?,APP,OAPP,GATEGC?Y,OGATEG0KY,APP,OAPP,AUTHC?是对角矩阵,值分别專于权 矩阵WautHC?,APP,WApp,eATECC?Y,Wovree日KY,APP,Wapp,autHC?的母一列值的总和。束一部分疋计数排序方 法,针对TERM类型,具体的计算过程如下:
[0051]
(3)
[0052] 其中Ne(tei)表示G网络中,tei的邻居节点。概率生成模型将会使用排序分布作
[0053] 为输入条件之一,然后使用EM方法评估APP节点在不同聚类中的后验概率分布。 定义访问某个子网络Gk中d某个属性节点X的概率为:
[0054]p
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1