一种基于云计算和大数据的信息推送方法及装置与流程

文档序号:33274827发布日期:2023-02-24 19:24阅读:26来源:国知局
一种基于云计算和大数据的信息推送方法及装置与流程

1.本发明属于数据处理技术领域,尤其涉及一种基于云计算和大数据的信息推送方法及装置。


背景技术:

2.目前,随着旅游业需求的日益旺盛,旅游市场的规模也在不断扩大,在发展过程中不断满足人们需求时,也暴露出了传统旅游业的弊端。旅游行业随着社会进步越来越来越信息化, 逐渐发展为“互联网+旅游”的模式。随之而来的问题就会出现信息过载,信息过载是指伴随着社会和经济技术的发展,越来越多的信息被生产出来,最终信息总量大大超过了人们的需要,从而给人们在选择利用时造成困难。信息过载问题在旅游业同样存在,网站、app等平台在运行过程中会记录大量日志数据,这些日志数据包含的用户行为数据包含页面浏览、购买、点击、评分和评论等,面对网络上日益丰富的用户和旅游信息,如何能快速有效地获取、挖掘其中的有效信息,并未用户进行快速精准的推送成为人们关注的问题。


技术实现要素:

3.有鉴于此,本发明提供了一种可以提高网站用户粘度、节省用户查找和比对旅游景点的时间和精力的基于云计算和大数据的信息推送方法及装置,来解决上述存在的技术问题,具体采用以下技术方案来实现。
4.第一方面,本发明提供了一种基于云计算和大数据的信息推送方法,应用于云平台,所述云平台包括数据输入层、推荐算法层和数据输出层,所述数据输入层用于输入用户数据,所述推荐算法层用于将云平台对用户数据进行整合以对所有信息进行分类并提供推荐信息,所述数据输出层用于根据推荐算法层将数据输入层的所有数据进行统一和个性化处理的结果输出到系统后台作为推送推送的内容进行返回,所述方法包括以下步骤:获取景点信息并对所述景点信息进行分类,从所述景点信息中提取出关键词信息判断景点所属类型,根据所述景点所属类型构建旅游景点评价指标,其中,所述旅游景点评价指标包括景点的指标数据和用户对景点的评分数据;对所述景点评价指标对应的景点数据进行预处理,建立用户与景点的评分矩阵 quote 、景点与评价指标的指标矩阵 quote
ꢀꢀ
,采用层次分析算法确定景点评价指标中得各指标权重;根据所述指标权重和用户评分的拟合程度加入景点与评价指标矩阵 quote
ꢀꢀ
内的数据计算矩阵中每两个景点之间的第一相似度,根据所述第一相似度排序选取 quote
ꢀꢀ
得出最近邻居集合;基于用户与景点评分矩阵 quote
ꢀꢀ
通过对景点的评分计算用户间的第二相似度得到用户的最近邻用户,选取 quote
ꢀꢀ
的邻居用户,根据 quote
ꢀꢀ
的景点数据和 quote
ꢀꢀ
的用户数据完成景点信息推送。
5.作为上述技术方案的进一步改进,根据 quote
ꢀꢀ
的景点数据和 quote
ꢀꢀ
的用户数据完成景点信息推送,包括:获取 quote
ꢀꢀ
的邻居用户对于用户未评分景点的评分,通过加权平均法预测用户对未评分景点的评分;判断预测评分中高分的景点个数,当景点个数少于推荐列表个数时缺失部分由列表中已有景点的相似景点进行填充。
6.作为上述技术方案的进一步改进,基于用户与景点评分矩阵 quote
ꢀꢀ
通过对景点的评分计算用户间的第二相似度得到用户的最近邻用户,包括:获取用户对景点的具体评分数据,并将所述具体评分数据构建为用户-景点评分矩阵,该矩阵的行表示用户 quote
ꢀꢀ
,该矩阵的列表示景点 quote
ꢀꢀ
,矩阵中得每个数据表示用户n对于景点m的评分值,具体矩阵表示为 quote
ꢀꢀ
,在得出该矩阵后根据具体的用户评分数据采样不同的相似度计算公式计算出用户或景点之间的相似度以得到计算结果,将计算结果排序得到用户或者景点的k个近邻,推送结果从邻居用户的数据中选取生成;当需要向目标用户 quote
ꢀꢀ
推送旅游景点 quote
ꢀꢀ
时先判断用户 quote
ꢀꢀ
的k个近邻对于该景点的评分情况,若邻居用户对于该景点的评分偏高,则预测目标用户对于景点 quote
ꢀꢀ
的评分偏高,并向用户推送景点 quote
ꢀꢀ
,反之不予推送。
7.作为上述技术方案的进一步改进,相似度计算过程包括修正的相似度和修正的预测公式,修正的相似度表达式为 quote
ꢀꢀ
,其中 quote
ꢀꢀ
表示用户u对内容i执行操作的时间,f函数的目标是用户对内容i和内容j的操作时间相隔越久,则 quote
ꢀꢀ
越小,使用的衰减函数为 quote
ꢀꢀ
,其中 quote
ꢀꢀ
表示时间衰减参数, quote
ꢀꢀ
表示超参数;修正的预测公式为 quote
ꢀꢀ
,其中 quote
ꢀꢀ
表示时间衰减参数, quote
ꢀꢀ
表示控制时间衰减程度的超参数, quote
ꢀꢀ
与 quote
ꢀꢀ
相差越小,与内容j相似度高的内容也会在目标用户u的推送列表中的到高相似度的排名。
8.作为上述技术方案的进一步改进,使用k-means聚类算法对用户进行聚类并形成k聚类以得到集群信息,在查询用户的最近邻居时,需要搜索集群中的用户并重新计算该用户与集群用户之间的相似度值,以找到前n个用户并完成推送,其过程包括:初始化评分矩阵 quote
ꢀꢀ
、目标用户ui、矩阵不全的参数 quote
ꢀꢀ
、近邻参数m、时间衰减参数 quote
ꢀꢀ
,对用户的评分矩阵进行svt算法求解,补全矩阵;
对补全后的矩阵进行大数据下的k-means算法进行聚类,通过划分得到所有用户的相关性高的簇,对于目标用户所在的聚类簇,在其中寻找目标用户中的其他相似度最高的top-k作为目标用户的近邻集合;采用引入时间因子的相似度去进行基于景点的个性化推送,选取前n个内容作为推送结果以完成 quote
ꢀꢀ
推送。
9.作为上述技术方案的进一步改进,对所述景点评价指标对应的景点数据进行预处理,包括:将采集的用户信息转化为二维矩阵进行数字化表示得到用户数据,并对用户数据进行降噪与归一化处理,将预处理过的用户数据构建为用户与景点评分矩阵;通过对用户数据使用相似度计算公式得到 quote
ꢀꢀ
的第一相似度所对应的相似用户列表,获取相似用户的已评分数据,加权平均计算得到目标用户的预测分数值;根据预测分数值结果排序的 quote
ꢀꢀ
作为产生的推送结果为用户推送。
10.作为上述技术方案的进一步改进,根据预测分数值结果排序的 quote
ꢀꢀ
作为产生的推送结果为用户推送,包括:将用户数据对应的数据集划分为训练集合测试集,采用训练集对用户的行为和兴趣的模型进行训练得到训练结果;根据训练结果对测试集数据应用于该模型进行测试,并根据训练集与测试集结果对比计算模型预测的精确度,评分预测的过程包括;预测用户对未评分过得景点评多少分,通过分析用户已评分数据来预测,预测评分的算法为均方根误差rmse,均方根误差的表达式为 quote
ꢀꢀ
,其中t表示用来测试模型的数据集,t内元素数据的个数为 quote
ꢀꢀ
,u表示用户,i表示景点, quote
ꢀꢀ
表示训练集得出的u对i的真实评分, quote
ꢀꢀ
表示预测集得出的u对i的预测评分。
11.作为上述技术方案的进一步改进,根据所述指标权重和用户评分的拟合程度加入景点与评价指标矩阵 quote
ꢀꢀ
内的数据计算矩阵中每两个景点之间的第一相似度,包括:使用基于内容的协同过滤算法用于推送用户之前喜欢的景点相似的景点,第一相似度的表达式为 quote
ꢀꢀ
,用户感兴趣的景点按照时间衰减的表达式为 quote
ꢀꢀ
;在得到景点的第一相似度之后,通过表达式为 quote
ꢀꢀ
,其中 quote
ꢀꢀ
表示用户u喜欢景点的集合, quote
ꢀꢀ
表示和景点j最相似的k个景点的集合, quote
ꢀꢀ
表示景点i和景点j的第一相似度, quote
ꢀꢀ
表示用户u对景点i的兴趣。
12.作为上述技术方案的进一步改进,景点的第一相似度选用欧氏距离计算,其过程
包括:确定评价指标中每项数据权重之后,从采集到的数据构建关于景点与评价指标的 quote
ꢀꢀ
维矩阵: quote
ꢀꢀ
,其中每一行表示一个景点的数据,列表示已构建的评价指标数据,将每一列的数据与该指标权重相乘得到景点与权重指标矩阵 quote
ꢀꢀ
, quote
ꢀꢀ
;对矩阵 quote
ꢀꢀ
中的景点数据结构进行相似度计算,分别两两计算其欧式距离并选取响应的top-k作为景点的相似景点。
13.第二方面,本发明还提供了一种基于云计算和大数据的信息推送装置,包括:获取单元,用于获取景点信息并对所述景点信息进行分类,从所述景点信息中提取出关键词信息判断景点所属类型,根据所述景点所属类型构建旅游景点评价指标,其中,所述旅游景点评价指标包括景点的指标数据和用户对景点的评分数据;预处理单元,用于对所述景点评价指标对应的景点数据进行预处理,建立用户与景点的评分矩阵 quote
ꢀꢀ
、景点与评价指标的指标矩阵 quote
ꢀꢀ
,采用层次分析算法确定景点评价指标中得各指标权重;计算单元,用于根据所述指标权重和用户评分的拟合程度加入景点与评价指标矩阵 quote
ꢀꢀ
内的数据计算矩阵中每两个景点之间的第一相似度,根据所述第一相似度排序选取 quote
ꢀꢀ
得出最近邻居集合;信息推送单元,用于基于用户与景点评分矩阵 quote
ꢀꢀ
通过对景点的评分计算用户间的第二相似度得到用户的最近邻用户,选取 quote
ꢀꢀ
的邻居用户,根据 quote
ꢀꢀ
的景点数据和 quote
ꢀꢀ
的用户数据完成景点信息推送。
14.本发明提供了一种基于云计算和大数据的信息推送方法及装置,通过获取景点信息并对所述景点信息进行分类,从所述景点信息中提取出关键词信息判断景点所属类型,根据所述景点所属类型构建旅游景点评价指标,对所述景点评价指标对应的景点数据进行预处理,建立用户与景点的评分矩阵 quote
ꢀꢀ
、景点与评价指标的指标矩阵 quote
ꢀꢀ
,采用层次分析算法确定景点评价指标中得各指标权重,根据所述指标权重和用户评分的拟合程度加入景点与评价指标矩阵 quote
ꢀꢀ
内的数据计算矩阵中每两个景点之间的第一相似度,根据所述第一相似度排序选取 quote
ꢀꢀ
得出最近邻居集合,基于用户与景点评分矩阵 quote
ꢀꢀ
通过对景点的评分计算用户间的第二相似度得到用户的最近邻用户,选取 quote
ꢀꢀ
的邻居用户,根据 quote
ꢀꢀ
的景点数据和 quote
ꢀꢀ
的用户数据完成景点信息推送,可以建立旅游景点评价指标并通过采集相关景点指标数据,分析处理结合确定的指标权重得到景点-指标体系矩阵,具有更高的推送质量,也可以为用户提供更好的信息推送,提升了信息推送的准确性和系统的工作效率。
附图说明
15.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
16.图1为本发明的基于云计算和大数据的信息推送方法的流程图;图2为本发明的景点数据预处理的过程图;图3为本发明的基于云计算和大数据的信息推送装置的结构框图。
具体实施方式
17.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
18.参阅图1,本发明提供了一种基于云计算和大数据的信息推送方法,应用于云平台,所述云平台包括数据输入层、推荐算法层和数据输出层,所述数据输入层用于输入用户数据,所述推荐算法层用于将云平台对用户数据进行整合以对所有信息进行分类并提供推荐信息,所述数据输出层用于根据推荐算法层将数据输入层的所有数据进行统一和个性化处理的结果输出到系统后台作为推送推送的内容进行返回,所述方法包括以下步骤:s1:获取景点信息并对所述景点信息进行分类,从所述景点信息中提取出关键词信息判断景点所属类型,根据所述景点所属类型构建旅游景点评价指标,其中,所述旅游景点评价指标包括景点的指标数据和用户对景点的评分数据;s2:对所述景点评价指标对应的景点数据进行预处理,建立用户与景点的评分矩阵 quote
ꢀꢀ
、景点与评价指标的指标矩阵 quote
ꢀꢀ
,采用层次分析算法确定景点评价指标中得各指标权重;s3:根据所述指标权重和用户评分的拟合程度加入景点与评价指标矩阵 quote
ꢀꢀ
内的数据计算矩阵中每两个景点之间的第一相似度,根据所述第一相似度排序选取 quote
ꢀꢀ
得出最近邻居集合;s4:基于用户与景点评分矩阵 quote
ꢀꢀ
通过对景点的评分计算用户间的第二相似度得到用户的最近邻用户,选取 quote
ꢀꢀ
的邻居用户,根据 quote
ꢀꢀ
的景点数据和 quote
ꢀꢀ
的用户数据完成景点信息推送。
19.本实施例中,根据 quote
ꢀꢀ
的景点数据和 quote
ꢀꢀ
的用户数据完成景点信息推送,包括:获取 quote
ꢀꢀ
的邻居用户对于用户未评分景点的评分,通过加权平均法预测用户对未评分景点的评分;判断预测评分中高分的景点个数,当景点个数少于推荐列表个数时缺失部分由列表中已有景点的相似景点进行填充。用户建模是旅游推送系统比较重要的部分,对于推送结果起决定性作用,旅游推送系统的适用对象为用户,为用户进行推送的依据是获取用户的偏好信息,信息越全面推送结果越具有个性化,因此,大多是关于如何更加完善地提取用户信息,但构成推送系统的还有旅游景点,对于旅游景点信息的分析计算也很重要。
20.具体地,根据偏好特性、年龄特性、性别特性和地址特性来计算用户对内容的偏好度,然后根据当前用户注册信息的特征,分别获得喜欢的值,最后使用加权求和获得最终的喜欢的值,并选择最感兴趣的钱n个景点进行页面显示。将新的推送景点添加到云平台对应的数据库中,没有用户行为信息,根据协同过滤算法无法找到类似的推送,这将导致新内容不能出现在用户推荐中得情况,结合使用内容的推荐算法可以提取推送内容的特征,且可以为新添加系统的内容找到并推荐类似的内容。内容类别主要是特征和内容标题,目的和对象是次要特征,且权重值被确定,功能越重要,内容类型的权重就越大,内容功能越多,标签信息越详细,相似内容推送准确性越高。
21.需要说明的是,由于用户评分行为具有随机性,用户景点评分矩阵的数据会显得极度稀疏,在计算用户或景点的相似度top-k时,而可用数据有限,大量无用数据参与计算,得到的准确率过低,同时推送系统的推送质量也会受到影响,导致推送效果不满足预期。评分矩阵是一个非常稀疏的矩阵,具有低秩的特征,在个性化吐送中,从用户的角度和推送的角度进行分析,若用户 quote
ꢀꢀ
和用户 quote
ꢀꢀ
倾向于同时推送景点i,则用户 quote
ꢀꢀ
和用户 quote
ꢀꢀ
优先于其他推送景点的相似性更高。或者,若用户 quote
ꢀꢀ
同时喜欢景点i和j,则其他用户优先于景点i和景点j的相似性更高。该假设反映在矩阵m中,矩阵m是矩阵的低秩,根据评分矩阵的低秩性,对矩阵进行补全,以缓解数据稀疏的问题。当系统向用户提供推送时,需要计算每个用户之间的相似关系,以解决用户最近的邻居,当用户数量少且内容数量少时,用户可以快速推送信息,但随着用户数量和景点数量的增加,这种计算将耗时且占用系统资源,对完整的点击得分矩阵执行聚类分析,并将用户划分为多个聚类,当用户正在寻找最近的邻居时,只需在集群中搜索,而无需计算所有用户,这样减少了搜索最近的邻居的时间,也降低了算法的复杂性。采用k-means聚类算法对用户机芯聚类并形成k聚类,对于特定用户,可以获得集群信息,在寻找用户的最近邻居时,只需搜索集群中得用户,然后重新计算该用户与集群之间的相似度值,找到前n个用户来完成推送。在推送系统的数据中,不仅有用户评分数据,还有许多隐藏数据,如用户浏览信息,评估时间信息、评估位置信息等,这些数据在兴趣挖掘中起着重要作用。
22.应理解,通过svt算法来补充稀疏的用户评分矩阵,再通过k-means算法对用户进行聚类,实现用户聚类,减小邻居搜索范围,通过时间因子的相似度算法完成top-k的推送,此处取前k个景点进行显示。新用户注册后,由于没有行为信息,只能从注册信息开始,用户的注册信息包括用户的偏好、性别、年龄、地址和其他信息,对于个性化推送系统,用户的偏好信息最为重要,其次是性别,第三年龄和最后地址信息,在计算用户偏好时,这些功能将获得不同的权重,特征越重要,权重越高。注册信息的推送过程可以为:获取用户注册信息,根据用户注册信息对用户进行分类,分类可以是多重分类如多个特征,将用户所属类别中得用户最喜欢的景点推送给用户,并对各个类别中用户的偏好项即功能进行加权求和,核心的问题是对每个功能即类别杰斯安用户喜欢的景点,也就是说,针对每个功能f,每个景点计算具有此功能的用户的偏好程度 quote
ꢀꢀ
,其中 quote
ꢀꢀ
表示对推送景点i感兴趣的用户集合, quote
ꢀꢀ
表示特征中包含f的用户集合。
23.可选地,基于用户与景点评分矩阵 quote
ꢀꢀ
通过对景点的评分计算用户
间的第二相似度得到用户的最近邻用户,包括:获取用户对景点的具体评分数据,并将所述具体评分数据构建为用户-景点评分矩阵,该矩阵的行表示用户 quote
ꢀꢀ
,该矩阵的列表示景点 quote
ꢀꢀ
,矩阵中得每个数据表示用户n对于景点m的评分值,具体矩阵表示为 quote
ꢀꢀ
,在得出该矩阵后根据具体的用户评分数据采样不同的相似度计算公式计算出用户或景点之间的相似度以得到计算结果,将计算结果排序得到用户或者景点的k个近邻,推送结果从邻居用户的数据中选取生成;当需要向目标用户 quote
ꢀꢀ
推送旅游景点 quote
ꢀꢀ
时先判断用户 quote
ꢀꢀ
的k个近邻对于该景点的评分情况,若邻居用户对于该景点的评分偏高,则预测目标用户对于景点 quote
ꢀꢀ
的评分偏高,并向用户推送景点 quote
ꢀꢀ
,反之不予推送。
24.本实施例中,相似度计算过程包括修正的相似度和修正的预测公式,修正的相似度表达式为 quote
ꢀꢀ
,其中 quote
ꢀꢀ
表示用户u对内容i执行操作的时间,f函数的目标是用户对内容i和内容j的操作时间相隔越久,则 quote
ꢀꢀ
越小,使用的衰减函数为 quote
ꢀꢀ
,其中 quote
ꢀꢀ
表示时间衰减参数, quote
ꢀꢀ
表示超参数;修正的预测公式为 quote
ꢀꢀ
,其中 quote
ꢀꢀ
表示时间衰减参数, quote
ꢀꢀ
表示控制时间衰减程度的超参数, quote
ꢀꢀ
与 quote
ꢀꢀ
相差越小,与内容j相似度高的内容也会在目标用户u的推送列表中的到高相似度的排名。使用k-means聚类算法对用户进行聚类并形成k聚类以得到集群信息,在查询用户的最近邻居时,需要搜索集群中的用户并重新计算该用户与集群用户之间的相似度值,以找到前n个用户并完成推送,其过程包括:初始化评分矩阵 quote
ꢀꢀ
、目标用户ui、矩阵不全的参数 quote
ꢀꢀ
、近邻参数m、时间衰减参数 quote
ꢀꢀ
,对用户的评分矩阵进行svt算法求解,补全矩阵;对补全后的矩阵进行大数据下的k-means算法进行聚类,通过划分得到所有用户的相关性高的簇,对于目标用户所在的聚类簇,在其中寻找目标用户中的其他相似度最高的top-k作为目标用户的近邻集合;采用引入时间因子的相似度去进行基于景点的个性化推送,选取前n个内容作为推送结果以完成 quote
ꢀꢀ
推送。
25.需要说明的是,在实际的系统中用户未旅游景点进行-评分时,不可能为所有的旅游景点都一一评分,反之一个景点也不可能被所有的用户都评过分,所以该矩阵在应用中通常是稀疏矩阵,在得出上述矩阵后根据具体的用户评分数据可以采用不同的相似度计算公式计算出用户或景点之间的相似度,得出结果以后排序得到用户或者景点的k个近邻,推荐结果从邻居用户的数据中选取生成。当需要想目标用户 quote
ꢀꢀ
推送旅游景点 quote
ꢀꢀ
时先判断用户 quote
ꢀꢀ
的k个近邻对于该景点的评分情况,若邻居用户对于该景点的评分普遍偏高,则预测目标用户对于景点 quote
ꢀꢀ
的评分偏向于高,并向
用户推送景点 quote
ꢀꢀ
,反之不予推送。推送结果主要依据为用户评分数据,由于新用户未产生足够的数据,该算法对于系统的新用户不具有个性化的推送,或新景点加入系统之后由于没有产生评分数据不会被推送出去。相似度可以通过获取用户的显性或隐性行为如评分、转发、保存、标记、评论、收藏、点击、页面停留时间和是否购买等,并经过处理后计算得到相似度,计算结果相似度越接近的认为兴趣相投的相似用户。其算法过程可以为:将所有采集到的用户信息转化为二维矩阵进行数字化表示,并对数据进行减噪与归一化处理,将预处理过得数据构建为用户-景点评分矩阵,通过对数据使用相似度计算公式得到top-n的相似用户列表,获取相似用户的已评分数据,加权平均计算得到目标用户的预测分数值,根据预测分数值结果排序的top-n作为产生的推送结果为用户推送,从而提高了信息推送的准确性。
26.参阅图2,可选地,对所述景点评价指标对应的景点数据进行预处理,包括:s10:将采集的用户信息转化为二维矩阵进行数字化表示得到用户数据,并对用户数据进行降噪与归一化处理,将预处理过的用户数据构建为用户与景点评分矩阵;s11:通过对用户数据使用相似度计算公式得到 quote
ꢀꢀ
的第一相似度所对应的相似用户列表,获取相似用户的已评分数据,加权平均计算得到目标用户的预测分数值;s12:根据预测分数值结果排序的 quote
ꢀꢀ
作为产生的推送结果为用户推送。
27.本实施例中,根据预测分数值结果排序的 quote
ꢀꢀ
作为产生的推送结果为用户推送,包括:将用户数据对应的数据集划分为训练集合测试集,采用训练集对用户的行为和兴趣的模型进行训练得到训练结果;根据训练结果对测试集数据应用于该模型进行测试,并根据训练集与测试集结果对比计算模型预测的精确度,评分预测的过程包括;预测用户对未评分过得景点评多少分,通过分析用户已评分数据来预测,预测评分的算法为均方根误差rmse,均方根误差的表达式为 quote
ꢀꢀ
,其中t表示用来测试模型的数据集,t内元素数据的个数为 quote
ꢀꢀ
,u表示用户,i表示景点, quote
ꢀꢀ
表示训练集得出的u对i的真实评分, quote
ꢀꢀ
表示预测集得出的u对i的预测评分。确定数据权重的算法是专家打分法和ahp层次分析法,其确定过程可以为:先选取10位专家为9项评价指标打分,构建判断矩阵,判断矩阵的构建方式为计算:计算出各分析项的平均值,接着采用平均值大小相除得到判断矩阵,平均值越大表示重要性越高,权重也会越高,得到判断矩阵之后需要对cr值进行计算,具体计算表达式为 quote
ꢀꢀ
,其中对于一致性指标即cr值得检验过程包括以下步骤:先描述上述计算得到的ci值,其表达式为 quote
ꢀꢀ
,结合判断矩阵阶数得到ri值,将求得的ci值与ri值得到cr值,根据结果判断所得权重是否具有一致性。判断矩阵是否一致性的标准是cr值,cr值越小矩阵的一致性越高,用cr值判断矩阵是否具有一致性的阈值为0.1,根据构建的景点评价指标可知旅游景点共有13个指标值,其中用来表示权重的共有9个可用指标,故本次判断矩阵为9阶矩阵且ci值为0.000,对于ri值查表
为1.460,计算出的cr值为 quote
ꢀꢀ
,可知本评价指标判断矩阵在一致性结果检验中符合相关的要求,故求得的权重结果具有一致性。
28.可选地,根据所述指标权重和用户评分的拟合程度加入景点与评价指标矩阵 quote
ꢀꢀ
内的数据计算矩阵中每两个景点之间的第一相似度,包括:使用基于内容的协同过滤算法用于推送用户之前喜欢的景点相似的景点,第一相似度的表达式为 quote
ꢀꢀ
,用户感兴趣的景点按照时间衰减的表达式为 quote
ꢀꢀ
;在得到景点的第一相似度之后,通过表达式为 quote
ꢀꢀ
,其中 quote
ꢀꢀ
表示用户u喜欢景点的集合, quote
ꢀꢀ
表示和景点j最相似的k个景点的集合, quote
ꢀꢀ
表示景点i和景点j的第一相似度, quote
ꢀꢀ
表示用户u对景点i的兴趣。
29.本实施例中,景点的第一相似度选用欧氏距离计算,其过程包括:确定评价指标中每项数据权重之后,从采集到的数据构建关于景点与评价指标的 quote
ꢀꢀ
维矩阵: quote
ꢀꢀ
,其中每一行表示一个景点的数据,列表示已构建的评价指标数据,将每一列的数据与该指标权重相乘得到景点与权重指标矩阵 quote
ꢀꢀ
, quote
ꢀꢀ
;对矩阵 quote
ꢀꢀ
中的景点数据结构进行相似度计算,分别两两计算其欧式距离并选取响应的top-k作为景点的相似景点。
30.需要说明的是,以景点x和景点y为例,将景点x的指标数据结合 quote
ꢀꢀ
与景点y的指标数据集合 quote
ꢀꢀ
结合得到相似度值 quote
ꢀꢀ
。由于旅游景点数量不容易发生大的变动且远远小于用户数量,且所得的景点-评价指标矩阵数据密集且变量之间基本存在共有值,对于景点相似度选用欧式距离计算。根据用户对景点的评分构建用户级-景点评分矩阵 quote
ꢀꢀ
,这里每一个用户未一个m维向量,其中 quote
ꢀꢀ
表示第n个用户对第m个景点的评分值,当用户 quote
ꢀꢀ
为系统已评过分的用户时,通过用户-景点评分矩阵中用户 quote
ꢀꢀ
的特征向量 quote
ꢀꢀ
与其他用户的特征向量进行相似度计算得到相似用户top-n。当用户为未对系统中景点评分过得用户时,根据用户信息提取用户特征对用户进行相似度计算,计算相似用户对景点评分的加权平均数作为新用户的评分加入 quote
ꢀꢀ
矩阵中,得出用户的最近邻居用户,根据邻居用户对于未评分计算加权平均值得到用户的预测评分并得到top-n的景点列表 quote
ꢀꢀ

31.应理解,若最终生成的推送列表l中得景点个数为s,帅选判断列表 quote
ꢀꢀ
中预测用户评分大于等于3分的个数n,当 quote
ꢀꢀ
时,在列表 quote
ꢀꢀ
中取前s个景点填入到列表l中生成推送列表;当 quote
ꢀꢀ
时,现将列表 quote
ꢀꢀ
中得b个景点填入到列表l中,剩下的 quote
ꢀꢀ
个值在列表 quote
ꢀꢀ
中筛选出列表l中得n个景点的相似景点中相似度值排名与用户评分排名结合在前 quote
ꢀꢀ
位的景点,与已有的n个景点共同组成最终推送列表l,为用户进行推送。
32.参阅图3,本发明还提供了一种基于云计算和大数据的信息推送装置,包括:获取单元,用于获取景点信息并对所述景点信息进行分类,从所述景点信息中提取出关键词信息判断景点所属类型,根据所述景点所属类型构建旅游景点评价指标,其中,所述旅游景点评价指标包括景点的指标数据和用户对景点的评分数据;预处理单元,用于对所述景点评价指标对应的景点数据进行预处理,建立用户与景点的评分矩阵 quote
ꢀꢀ
、景点与评价指标的指标矩阵 quote
ꢀꢀ
,采用层次分析算法确定景点评价指标中得各指标权重;计算单元,用于根据所述指标权重和用户评分的拟合程度加入景点与评价指标矩阵 quote
ꢀꢀ
内的数据计算矩阵中每两个景点之间的第一相似度,根据所述第一相似度排序选取 quote
ꢀꢀ
得出最近邻居集合;信息推送单元,用于基于用户与景点评分矩阵 quote
ꢀꢀ
通过对景点的评分计算用户间的第二相似度得到用户的最近邻用户,选取 quote
ꢀꢀ
的邻居用户,根据 quote
ꢀꢀ
的景点数据和 quote
ꢀꢀ
的用户数据完成景点信息推送。
33.本实施例中,采用余弦相似度来计算两个空间向量的预先夹角来测算相似度,衡量不同物体间的差异,在推送系统中被广泛应用,根据每个向量所在空间的坐标值将其绘制到坐标空间中,采用公式计算它们之间的相似度,若计算出向量与向量间的夹角余弦值在区间 quote
ꢀꢀ
内,则根据该结果推断出该公式适用于任一维度的向量。向量与向量是否同向是根据余弦值判断的,如向量与向量之间的余弦值接近1即它们的夹角几乎是零度,则可以判断这两个向量是同向的,而长度与向量是否同向无关,对于n维向量 quote
ꢀꢀ
、 quote
ꢀꢀ
来计算它们之间夹角的余弦值的表达式为 quote
ꢀꢀ
,在用户信息经过处理转化为字符串向量之后,再运用预先相似度进行相似度计算。欧式距离计算的是某向量空间中点与点的真实距离,即个体与个体之间在空间中得真实距离判断两个个体之间的相似程度,欧式距离在使用时需要保证两点之间始终保持的一个刻度标尺内,欧式距离计算的是在多维空间中点与点的绝对距离。余弦相似度算法计算的是向量与向量之间是否同向,而欧式距离计算的是点与点之间的真实距离,因此在将用户行为作为指标进行用户相似度计算时,该算法比余弦相似度更适用,向量x、向量y欧氏距离计算表达式为 quote
ꢀꢀ
,根据用户评分对用户进行相似度计算时,欧式距离侧重于表现用户评分的拟合程度,而预先相似度则能更好的区分用户的分离状态即评分层次。
34.在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不
是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
35.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
36.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1