一种基于内容的计算移动应用相似性的方法_2

文档序号：9911062阅读：来源：国知局

包括以下步骤：
[0039] S201与S202,从数据库中获取所有的app数据，并将其名称、类型、大小及描述信息读取出来；
[0040] S203,将app描述信息分成单独的文档的形式，首先将各个文档的内容在去掉停止词并且添加保留词的前提下进行分词，然后对整个文档集计算其TF-IDF(Term Frequency - Inverse Document Frequency，词频-逆文档频率）值，得到每个文档的关键词及其权重；
[0041] S204,将所有的分好词后的app描述信息组成一个大的文档，然后将其作为 word2vec的训练语料库，进行训练；
[0042] S205,将步骤S203的结果内容存入到HBase数据仓库中，以便进行基于app描述信息的数据检索。将每个文档对应的app包名作为HBase的rowkey，将所有关键词作为 HBase的列内容。当存储一款计算后的app的描述信息时，其包名作为rowkey，其所有的关键词作为对应的列，同时关键词的权重值作为列对应的值。这样不仅能够快速的查找某款 app对应的信息，同时能够动态的扩展其对应的关键词，方便检索；
[0043] 步骤S30,找一种能够将根据相似性结果进行权重调整的方法，将app的名称、类型、大小及描述信息进行整合，在保持得到最优相似app的条件下，使用多组案例计算出这四个属性组合的最佳权重。
[0044] 步骤S40,将数据准备完毕后，便可以开始进行相似app的检索步骤，其内容进一步包括如下步骤：
[0045] S401，得到待检索app的包名；
[0046] S402,根据待检索的app包名，在HBase中检索出其作为rowkey所对应的行，并从中找到其对应的所有关键词及权重；
[0047] S403,将所有的关键词使用W〇rd2VeC的训练结果进行同义词扩展，并将扩展出来的词计算其加权权重，然后将相同的词进行合并，同时将权重相叠加；
[0048] S404,依据扩展出的关键词及其权重，将每个词列中的权重均归一化后，在HBase 数据仓库中纵向查找其对应的app。每个词对应多个app，然后计算出每个app的权重，并进行整合，降序并过滤出根据描述信息最相似的多个app ;
[0049] S405,根据S404得出的app，提取它们的名称、类型、大小等信息；
[0050] S406,使用编辑距离的方法计算app名称与检索app的名称的相似性；
[0051] S407,使用分类讨论的方法计算app的类型与检索app类型的相似性：粗似個
[0052] S408,计算app的大小与检索app的相似性。使用公式：
[0053]
[0054] 其中，a为待检索app，x为S404中计算出的基于描述信息相似的每个app，sizemax 为这些相似app的占用最大空间的app的大小，sizemin为这些相似app的占用最小空间的 app的大小。
[0055] S409,将app的名称、类型、大小及描述信息计算出的相似度依据每个属性的权重进行加权整合，得到一个最终的相似度值，也即以下公式：
[0056] Similarity = λ 1Simnallie+ λ 2Simcategory+ λ 3Simslze+ λ 4Simdescriptlon
[0057] 其中，name 指 app 名称，category 指 app 类型，size 指 app 的大小，description 指app描述信息，分别指计算出的整合各方面权重时app名称、类型、大小及描述信息的权重，且有 λ Α λ 2+λ 3+λ 4= 1。
[0058] 然后按照Similarity值将结果进行排序并过滤，得到最后的最相似的一个或多个 app。
[0059] 以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。
【主权项】
1. 一种基于内容的计算移动应用相似性的方法，其特征在于，包括如下步骤： S10.爬取大量app数据并进行数据的特征整理，将整理好的特征保存到数据库中，建立一个特征库以供查询； S20.根据待查询app的特征信息，在所述特征库中进行查询及计算，找出待查询app的相似app ;所述待查询app的特征信息由用户提供或从所述特征库中查询得到。2. 根据权利要求1所述的基于内容的计算移动应用相似性的方法，其特征在于，步骤 S10包括以下步骤： 5101. 将大量app数据爬取下来，结构化整理后存入到数据库中； 5102. 将所述数据库中每个app的描述信息单独整合成文件，然后分别分词； 5103. 分词完成后得到的数据，一份拷贝作为完整语料库合并，然后使用W〇rd2vec进行语料库的训练；另一份拷贝则按照原有的文件结构，进行各文档间TF-IDF的计算，得出每个文档中所有关键词的权重； 5104. 将计算得出的关键词及其权重写入HBase中，其中行对应每个app包名，列对应所有关键词，值为关键词权重，建立特征库以供查询； 5105. 计算出app的名称、类型、描述和应用大小四个方面特征的相似性并以各自的权重进行整合，作为算法最后的相似性值。3. 根据权利要求1所述的基于内容的计算移动应用相似性的方法，其特征在于，步骤 S20包括以下步骤： 5201. 获取要查询的app的包名作为其唯一名称； 5202. 在HBase中的特征库库中，按照app的包名进行横向查询，找出此app所有的关键词； 5203. 对于每个关键词，分别使用W〇rd2vec找出这个关键词前K个近义词进行扩展； 5204. 将扩展后的关键词进行权重的整合，并挑选出其前N个关键词作为此app的绝对关键词； 5205. 根据绝对关键词，按列查询HBase中的特征库，将所述绝对关键词对应的所有的 app查询出来，并将app的权重进行整合； 5206. 分别计算这些app与待查询app之间的名称、类别及大小的相似值，然后将这些 app与待查询app之间的描述信息、名称、类别及大小的相似值按照各自的权重进行整合，作为这些app与待查询app之间的相似性值； 5207. 将整合后的app按照权重降序排列，建立app的相似性排序，权重越大的即为越相似的app。
【专利摘要】本发明涉及一种基于内容的计算移动应用相似性的方法。包括如下步骤：在获取大量移动应用信息后，进行移动应用信息的提取，包括应用名称、应用类型、应用描述和应用大小等；将应用描述信息进行分词；将分词完毕后的内容分为两份，一份整合后作为word2vec的模型的训练语料，另一份存成文档集的形式并进行TF-IDF的计算，然后将结果存入HBase数据仓库；进行app相似性查询及计算。实施本发明的一种基于内容的计算移动应用相似性的方法，具有以下有益效果：可以快速的响应app的相似性查询，基于内容的app特征及描述信息能够很好地代指app，准确率高，可提高app的搜索及推荐的准确率。
【IPC分类】G06F17/30
【公开号】CN105677695
【申请号】
【发明人】吴明晖, 刘泽民, 金苍宏, 应晶
【申请人】杭州圆橙科技有限公司
【公开日】2016年6月15日
【申请日】2015年11月13日

完整全部详细技术资料下载

当前第2页1 2