一种基于内容的计算移动应用相似性的方法

文档序号:9911062阅读:175来源:国知局
一种基于内容的计算移动应用相似性的方法
【技术领域】
[0001] 本发明涉及数据信息检索及推荐系统领域,特别涉及一种通过信息检索而完成的 基于特征内容的计算移动应用相似性的方法。
【背景技术】
[0002] 随着移动互联网的日益兴盛以及"互联网+"的提出,移动互联网的便捷性与高效 性越来越为人们所熟知。020(0nline To Offline,线上到线下)概念的提出及各种线上线 下的应用,不仅快速促进了商品的买卖,也极大的丰富了人们的生活。
[0003] 在大众的"互联网+"的生活中,海量的移动应用(Mobile Applications,简称 app)占据着举足重要的地位。国内各大移动应用市场为大众的app需求提供了强有力的 支撑。在移动应用市场中,用户往往会搜索自己需要的app。但在这样海量的条件下,对作 为非专业人员的大众用户来说,会出现很多搜索的结果并不是自己需要的情况。因此,急需 一种方法,可以在用户查询相关app的同时,能够为用户提供一些相似的app,用以满足用 户可能的粗略查询等。同时在推荐系统中,可以主动为用户推荐一些与用户终端上安装的 app类似的移动应用,根据用户的喜好来推荐移动应用可以提高推荐的准确率。
[0004] 现有的对于应用的相似性计算,有基于底层代码和接口的相似性计算。这些基于 代码层的相似性计算,无法直接反映普通用户的语义需求,且开发完成的移动应用app均 是完整的.apk文件,无法获取其底层的代码细节,故已经不适应用户的当前需求。
[0005] 对于应用的相似性计算,同时还有基于app内容的相似性计算方法。大部分的基 于内容的相似性计算方法是基于app的描述信息,因为描述信息是能够描述一个app本身 比较权威的资料。但是,现有的描述信息的计算方法一般是基于词袋模型来做的。词袋模 型没有考虑词与词之间的顺序,这样就忽略了很多词的上下文关系,在计算向量间的相似 性时,比如两个近义词,由于不是同一个词,很有可能使得相似性变小而出现很大的误差。
[0006] 同时,计算相似性应用时,现有大多数方法并未将app的其他诸如名称、类别及大 小等信息考虑在内。而有的方法又将诸如app的评论信息也加入其中。据我们观察发现, app的评论信息的质量非常差,一般无法反应出app的真实内容。
[0007] 因此,针对目前现有的技术中存在的上述缺陷,有必要进行研究,提供一种方案, 解决现有技术中存在的缺陷,使得相似性计算方法能够更深层次的依赖于app特征信息。

【发明内容】

[0008] 本发明的目的在于提供一种移动应用app的相似性计算方法,用于更好的从海量 app库中找到某个app的最相似app,以便提高app的搜索的准确率和推荐的成功率。
[0009] 为实现上述目的,本发明的技术方案为:
[0010] -种基于内容的计算移动应用相似性的方法,包括如下步骤:
[0011] S10.爬取大量app数据并进行数据的特征整理,将整理好的特征保存到数据库 中,建立一个特征库以供查询;
[0012] S20.根据待查询app的特征信息,在所述特征库中进行查询及计算,找出待查询 app的相似app ;所述待查询app的特征信息由用户提供或从所述特征库中查询得到。
[0013] 进一步的,步骤S10包括以下步骤:
[0014] S101.将大量app数据爬取下来,结构化整理后存入到数据库中;
[0015] S102.将所述数据库中每个app的描述信息单独整合成文件,然后分别分词;
[0016] S103.分词完成后得到的数据,一份拷贝作为完整语料库合并,然后使用 W〇rd2vec进行语料库的训练;另一份拷贝则按照原有的文件结构,进行各文档间TF-IDF的 计算,得出每个文档中所有关键词的权重;
[0017] S104.将计算得出的关键词及其权重写入HBase中,其中行对应每个app包名,列 对应所有关键词,值为关键词权重,建立特征库以供查询;
[0018] S105.计算出app的名称、类型、描述和应用大小四个方面特征的相似性并以各自 的权重进行整合,作为算法最后的相似性值。
[0019] 进一步的,步骤S20包括以下步骤:
[0020] S201.获取要查询的app的包名作为其唯一名称;
[0021] S202.在HBase中的特征库库中,按照app的包名进行横向查询,找出此app所有 的关键词;
[0022] S203.对于每个关键词,分别使用W〇rd2VeC找出这个关键词前K个近义词进行扩 展;
[0023] S204.将扩展后的关键词进行权重的整合,并挑选出其前N个关键词作为此app的 绝对关键词;
[0024] S205.根据绝对关键词,按列查询HBase中的特征库,将所述绝对关键词对应的所 有的app查询出来,并将app的权重进行整合;
[0025] S206.分别计算这些app与待查询app之间的名称、类别及大小的相似值,然后将 这些app与待查询app之间的描述信息、名称、类别及大小的相似值按照各自的权重进行整 合,作为这些app与待查询app之间的相似性值;
[0026] S207.将整合后的app按照权重降序排列,建立app的相似性排序,权重越大的即 为越相似的app。
[0027] 本发明的有益效果是:提供了一种移动应用app的相似性计算方法,用于更好的 从海量app库中找到某个app的最相似app,以便提高app的搜索的准确率和推荐的成功 率。具体表现在如下方面:
[0028] 1)使用app的描述信息,同时使用word2vec进行近义词的计算,不仅能够很好地 反映 app的具体语义内容,同时能够结合描述信息中的上下文关系,更好的挖掘出其中的 近义词特征;
[0029] 2)结合了 app的名称、类型、大小及描述信息,充分使用app的特征,同时将app的 评论等的内容较差的信息排除在外,计算结果更准确全面;
[0030] 3)使用HBase作为数据仓库进行数据的查询,对于海量的app数据可以更快速的 进行处理。
【附图说明】
[0031] 图1为本发明的基于内容的计算移动应用相似性的方法的实施例的流程示意图。
【具体实施方式】
[0032] 为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是 应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的 限制。
[0033] 本发明提供了一种基于内容的计算移动应用相似性的方法,依赖于app的名称、 描述信息、类型及大小等特征,找到与此app最为相似的app,具体包括以下步骤:
[0034] S1.爬取大量app数据并进行数据的特征整理,将整理好的特征保存到数据库中, 建立一个特征库以供查询;
[0035] S2.根据待查询app的特征信息,在所述特征库中进行查询及计算,找出待查询 app的相似app ;所述待查询app的特征信息由用户提供或从所述特征库中查询得到。
[0036] 下面结合【具体实施方式】,对上述内容作进一步详细说明。
[0037] 步骤S10,从网上爬取大量app的相关信息,其中包括app的名称、类别、大小及描 述信息,并将这些信息保存到关系型数据库中。
[0038] 步骤S20,提取出所有app的描述信息,并将此信息分为两部分,分别进行计算,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1