一种基于内容的计算移动应用相似性的方法_2

文档序号:9911062阅读:来源:国知局
包 括以下步骤:
[0039] S201与S202,从数据库中获取所有的app数据,并将其名称、类型、大小及描述信 息读取出来;
[0040] S203,将app描述信息分成单独的文档的形式,首先将各个文档的内容在去 掉停止词并且添加保留词的前提下进行分词,然后对整个文档集计算其TF-IDF(Term Frequency - Inverse Document Frequency,词频-逆文档频率)值,得到每个文档的关键 词及其权重;
[0041] S204,将所有的分好词后的app描述信息组成一个大的文档,然后将其作为 word2vec的训练语料库,进行训练;
[0042] S205,将步骤S203的结果内容存入到HBase数据仓库中,以便进行基于app描述 信息的数据检索。将每个文档对应的app包名作为HBase的rowkey,将所有关键词作为 HBase的列内容。当存储一款计算后的app的描述信息时,其包名作为rowkey,其所有的关 键词作为对应的列,同时关键词的权重值作为列对应的值。这样不仅能够快速的查找某款 app对应的信息,同时能够动态的扩展其对应的关键词,方便检索;
[0043] 步骤S30,找一种能够将根据相似性结果进行权重调整的方法,将app的名称、类 型、大小及描述信息进行整合,在保持得到最优相似app的条件下,使用多组案例计算出这 四个属性组合的最佳权重。
[0044] 步骤S40,将数据准备完毕后,便可以开始进行相似app的检索步骤,其内容进一 步包括如下步骤:
[0045] S401,得到待检索app的包名;
[0046] S402,根据待检索的app包名,在HBase中检索出其作为rowkey所对应的行,并从 中找到其对应的所有关键词及权重;
[0047] S403,将所有的关键词使用W〇rd2VeC的训练结果进行同义词扩展,并将扩展出来 的词计算其加权权重,然后将相同的词进行合并,同时将权重相叠加;
[0048] S404,依据扩展出的关键词及其权重,将每个词列中的权重均归一化后,在HBase 数据仓库中纵向查找其对应的app。每个词对应多个app,然后计算出每个app的权重,并 进行整合,降序并过滤出根据描述信息最相似的多个app ;
[0049] S405,根据S404得出的app,提取它们的名称、类型、大小等信息;
[0050] S406,使用编辑距离的方法计算app名称与检索app的名称的相似性;
[0051] S407,使用分类讨论的方法计算app的类型与检索app类型的相似性: 粗似個
[0052] S408,计算app的大小与检索app的相似性。使用公式:
[0053]
[0054] 其中,a为待检索app,x为S404中计算出的基于描述信息相似的每个app,sizemax 为这些相似app的占用最大空间的app的大小,sizemin为这些相似app的占用最小空间的 app的大小。
[0055] S409,将app的名称、类型、大小及描述信息计算出的相似度依据每个属性的权重 进行加权整合,得到一个最终的相似度值,也即以下公式:
[0056] Similarity = λ 1Simnallie+ λ 2Simcategory+ λ 3Simslze+ λ 4Simdescriptlon
[0057] 其中,name 指 app 名称,category 指 app 类型,size 指 app 的大小,description 指app描述信息,分别指计算出的整合各方面权重时app名称、类型、大小及描述信息的权 重,且有 λ Α λ 2+λ 3+λ 4= 1。
[0058] 然后按照Similarity值将结果进行排序并过滤,得到最后的最相似的一个或多 个 app。
[0059] 以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对 于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行 若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
【主权项】
1. 一种基于内容的计算移动应用相似性的方法,其特征在于,包括如下步骤: S10.爬取大量app数据并进行数据的特征整理,将整理好的特征保存到数据库中,建 立一个特征库以供查询; S20.根据待查询app的特征信息,在所述特征库中进行查询及计算,找出待查询app的 相似app ;所述待查询app的特征信息由用户提供或从所述特征库中查询得到。2. 根据权利要求1所述的基于内容的计算移动应用相似性的方法,其特征在于,步骤 S10包括以下步骤: 5101. 将大量app数据爬取下来,结构化整理后存入到数据库中; 5102. 将所述数据库中每个app的描述信息单独整合成文件,然后分别分词; 5103. 分词完成后得到的数据,一份拷贝作为完整语料库合并,然后使用W〇rd2vec进 行语料库的训练;另一份拷贝则按照原有的文件结构,进行各文档间TF-IDF的计算,得出 每个文档中所有关键词的权重; 5104. 将计算得出的关键词及其权重写入HBase中,其中行对应每个app包名,列对应 所有关键词,值为关键词权重,建立特征库以供查询; 5105. 计算出app的名称、类型、描述和应用大小四个方面特征的相似性并以各自的权 重进行整合,作为算法最后的相似性值。3. 根据权利要求1所述的基于内容的计算移动应用相似性的方法,其特征在于,步骤 S20包括以下步骤: 5201. 获取要查询的app的包名作为其唯一名称; 5202. 在HBase中的特征库库中,按照app的包名进行横向查询,找出此app所有的关 键词; 5203. 对于每个关键词,分别使用W〇rd2vec找出这个关键词前K个近义词进行扩展; 5204. 将扩展后的关键词进行权重的整合,并挑选出其前N个关键词作为此app的绝对 关键词; 5205. 根据绝对关键词,按列查询HBase中的特征库,将所述绝对关键词对应的所有的 app查询出来,并将app的权重进行整合; 5206. 分别计算这些app与待查询app之间的名称、类别及大小的相似值,然后将这些 app与待查询app之间的描述信息、名称、类别及大小的相似值按照各自的权重进行整合, 作为这些app与待查询app之间的相似性值; 5207. 将整合后的app按照权重降序排列,建立app的相似性排序,权重越大的即为越 相似的app。
【专利摘要】本发明涉及一种基于内容的计算移动应用相似性的方法。包括如下步骤:在获取大量移动应用信息后,进行移动应用信息的提取,包括应用名称、应用类型、应用描述和应用大小等;将应用描述信息进行分词;将分词完毕后的内容分为两份,一份整合后作为word2vec的模型的训练语料,另一份存成文档集的形式并进行TF-IDF的计算,然后将结果存入HBase数据仓库;进行app相似性查询及计算。实施本发明的一种基于内容的计算移动应用相似性的方法,具有以下有益效果:可以快速的响应app的相似性查询,基于内容的app特征及描述信息能够很好地代指app,准确率高,可提高app的搜索及推荐的准确率。
【IPC分类】G06F17/30
【公开号】CN105677695
【申请号】
【发明人】吴明晖, 刘泽民, 金苍宏, 应晶
【申请人】杭州圆橙科技有限公司
【公开日】2016年6月15日
【申请日】2015年11月13日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1