个性化的移动应用app推荐方法_2

文档序号：9667463阅读：来源：国知局

号如"以及去除数字如"1"、"23"。然后去除停用词即stopping，比如介词 "for"，"to" ；代词 "it"，"he" ；冠词 "a"，"an" "the"。最后词干化即stemming，将每个单词转化为它的原型，比如"fixed"为过去时，转化为原型"fix" ；"moving"为现在进行时，转化为原型"move"。词干化时选用的算法为Porterstemmingalgorithm。三步操作之后，产生去除噪声的预处理后的文档。处理后结果如图5/6/7所示。
[0056]步骤3) ·
[0057] 利用SAR模型，将APP的功能描述及用户评论信息作为输入文档，分别得到如下信息：
[0058]A)Google Maps的功能关键词：nayigate，fast，easy，comprehensive， accurate，voice-guided，report，reroute，detailed以及不足之处：not-all_regions， battery-loss
[0059] 补充说明：较长短语需转化为合成词。
[0060] B)该用户对于已使用过的Yellow Pages的a)情感即sentiment词汇：best， love ;b)方面即aspect词汇：navigation，price (free)，view ;c)使用地区即region : not-all-regions以及该用户对于Commander Compass Lite的a) sentiment词汇：well， great ;b) aspect词汇：accurate，tech，price，display艮P view。
[0061] 如图8所示，由上得到用户对APP导航（navigation)、免费（free)以及视图 (view)等方面的的潜在偏好及地理位置影响，最后根据公式得到用户选择APP的预测概率值p(t，s+1u)为 5.91267063568302。
[0062]步骤 4).
[0063] 对步骤2)得到的数据作进一步整理，分别转换为APP索引文件和用户索引文件。首先，对所获得的所有4??进行编号，依次为0，1，2,3,4，...，11，每一个编号对应其4??信息，即为步骤3)中SAR模型所过滤得到的信息，用户编号同上。整理得GoogleMaps的编号为3,用户编号为6。其次，如图9所示，将所收集的数据整理成一份用户索引输入文件，一行为一个用户的信息，行首即为用户的编码+1，第二列为用户所评级过的APP数量，余下列为用户评级过的所有APP编号。除此以外，如图10所示，将所收集的数据整理成一份APP 索引输入文件，一行为一个APP的信息，行首即为APP的编码+1，第二列为给此APP进行评级的用户数量，余下列为所有给APP评级的用户编号。
[0064]步骤5) ·
[0065] 如图11所示，将以上两份整理得到的文件输入CTM模型，得到一个User-App推荐分数矩阵，推荐值为正则表示可推荐，值越大越值得推荐，反之，推荐值为负则表示该APP 对该用户是没有推荐价值的，该矩阵行为APP，列为用户，由图得APP3对用户6的推荐值为 5.14723419271134。
[0066]步骤6) ·
[0067] 将SAR模型与CTM模型分别得到的概率值p(t，s+1u)与推荐分数rutSltt结合，如下：设定两个输入参数权重α，β，其权值可根据用户的自身偏好自行分配，比如，如果用户更偏好SAR模型的推荐结果，则可将α，β分别赋值为60%，40%，由此得GoogleMaps对用户6的合并推荐分数Score为3. 477934629648461，除此以外，还有其他导航类APP对用户 6的推荐分数，再用Top-N在线推荐算法进行排序，将预测评分较高的APP推荐给用户6,达到推荐的目的。
[0068] 特别说明：
[0069] Top-N在线推荐算法是常用的一种直接向用户进行个性化信息推送的手段，它能够有效缩短计算的时间，从而提高计算效率。假设存在一个数组，上述得到的合并推荐分数为数组里的元素，Top-N在线推荐指的就是从已经存在的这个数组中，找出最大或最小的前 η个元素。由于此推荐方法的目的是找到推荐分数较高的APP向用户进行推荐，因此此处的 Top-N指的是找到最大的前η个元素，具体实现如下：
[0070] Α)取出数组的前η个元素，创建长度为η的最小堆。
[0071] Β)从η开始循环数组的剩余元素，如果元素a比最小堆的根节点大，将a设置成最小堆的根节点，并让堆保持最小堆的特性。
[0072] C)循环完成后，最小堆中的所有元素就是需要找的最大的η个元素，即为推荐分数最高的η个ΑΡΡ，由此排序进行有效的推荐。
【主权项】
1. 个性化的移动应用APP推荐方法，其特征在于步骤如下：步骤1).数据收集：从应用市场获取用户及移动应用即APP的信息，包括功能描述及评论信息；步骤2).对获取的原始APP数据进行预处理来避免出现冷启动问题；步骤3).利用情感-方面-地区即SAR模型，将APP的评论信息作为输入文档，分别得到用户对于APP的情感、APP的方面以及APP的使用地区，由此得到用户对APP不同属性的潜在偏好并预测用户选择APP的概率值；步骤4).对步骤2)得到的数据作进一步处理，分别转换为APP索引文件和用户索引文件；步骤5).利用协相关主题即CTM模型，输入前述步骤4)的两份文件，得到User-App的推荐分数矩阵；步骤6).将SAR模型与CTM模型分别得到的概率值与推荐分数线性结合，然后用Top-N 在线推荐算法进行排序，将预测评分较高的APP推荐给相应的用户。2. 根据权利要求1所述的个性化的移动应用APP推荐方法，其特征在于步骤1)中，在应用商店Google Play里，用户对他所使用过的APP的评级是公开可见的，一旦获得用户的 ID就能看到用户所评论过的所有APP，由此通过爬数据工具将所有原始数据检索出来。3. 根据权利要求1所述的个性化的移动应用APP推荐方法，其特征在于步骤2)中原始数据的预处理过程包括： a) 清除写少于2条评论的用户以及过滤用户后没有任何评论的APP ; b) 托肯化：去除标点符号，去除数字； c) 去除停用词：去除英文停用词，包括介词、代词、冠词； d) 词干化：将每个单词转化为它的原型，过去时转化为原型，现在进行时转化为原型。4. 根据权利要求1所述的个性化的移动应用APP推荐方法，其特征在于步骤3)中计算推荐概率的计算公式：即表示用户u喜欢APP t并且给其评级的概率，其中，t，s+，u，r，a，(^分别代表APP，正面情感，用户，地区，APP的方面以及APP的种类。5. 根据权利要求1所述的个性化的移动应用APP推荐方法，其特征在于步骤4)中的数据处理，其分为以下几个步骤： a) 对步骤2)中所获得的所有APP进行编号，依次为0，1，2, 3,4，...，n，每一个编号对应其APP信息，即为步骤3)中SAR模型所过滤得到的信息； b) 对步骤2)中所获得的所有用户进行编号，依次为0,1，2, 3,4, ...，n，每一个编号对应其用户信息，即为步骤3)中SAR模型所过滤得到的信息； c) 将所收集的数据整理成一份用户索引输入文件，格式要求：一行为一个用户的信息，行首即为用户的编码+1，第二列为用户所评级过的APP数量，余下列为用户评级过的所有APP编号； d) 将所收集的数据整理成一份APP索引输入文件，格式要求：一行为一个APP的信息，行首即为APP的编码+1，第二列为给此APP进行评级的用户数量，余下列为所有给APP评级的用户编号； e)将以上两份文件输入CTM模型，得到一个User-App推荐分数矩阵，推荐值为正则表示可推荐，值越大越值得推荐，反之，推荐值为负则表示此APP对该用户是没有推荐价值的，矩阵行为APP，列为用户。6.根据权利要求1所述的个性化的移动应用APP推荐方法，其特征在于步骤6)中将 SAR模型得到的概率p(t，s+|u)及CTM模型得到的推荐值rut的线性结合计算公式，如下：设定两个参数α，β，则合并推荐分数Score为： Score = a p (t, s+1 u) + β rut 其中，α，β是输入参数权重。
【专利摘要】本发明涉及个性化的移动应用APP推荐方法。本发明从应用市场获取用户及APP的信息，并对此进行预处理来，利用情感-方面-地区模型，输入预处理后的文档，分别得到用户对于APP的情感-方面-地区的潜在偏好，预测用户选择某个APP的概率值，处理后转换为APP索引文件和用户索引文件，利用协相关主题模型，得到User-App的推荐分数矩阵，将上述SAR模型得到的概率值与CTM模型得到的推荐分数线性结合，分配权值，达到最终的推荐值。本发明克服了只考虑单个元素的传统推荐方法存在的缺陷。本发明综合考虑评论里的方面、情感、种类及地区来发现用户的潜在偏好，更符合用户的实际需求，探索用户对APP各属性的偏好程度，更好地了解用户需求与APP特征，克服了冷启动问题。
【IPC分类】G06F17/30
【公开号】CN105426514
【申请号】CN201510867018
【发明人】孙小兵, 柏敏琦, 李斌, 李云, 杨辉
【申请人】扬州大学
【公开日】2016年3月23日
【申请日】2015年11月30日

完整全部详细技术资料下载

当前第2页1 2