基于分布式防噪声干扰的社交网络推荐方法及系统与流程

文档序号：12124252阅读：364来源：国知局

本发明属于计算机技术领域，涉及通过计算机来完成的信息推荐技术，尤其涉及基于分布式集群的推荐方法。

背景技术：

自十二五大数据战略提出，面对信息化高度膨胀、海量数据的低价值密度行业背景，社交系统商业推荐面临信息过载愈现突出。随着云计算、人工智能与大数据的行业融合，基于社交网路的商业推荐应用愈现重要，商业推荐系统的出现极大程度上缓解了数据冗余、信息过载难题。

但传统单机的推荐算法运算能力有限，日益膨胀的网络数据量逐渐超出传统推荐算法的承受极限。随着IDC分布式集群的深入化，基于分布式集群的推荐算法破除了传统社交网络推荐算法的运算瓶颈，大大提升商业推荐的计算性能。

如申请号为CN2011101256632的中国专利申请(发明人：邱飞、陈国庆)提出的一种基于云计算的推荐系统构建方法。该方法首先构建多个节点的Hadoop云平台，然后采用MapReduce作为分布式并行计算模型，在Hadoop上构建Mahout中间件，再根据业务需求定制Mahout算法库，在Mahout中间件上实现传统推进算法、伪分布式推进算法和分布式算法，最后根据用户需求，通过设置Mahout算法库中算法的相关参数大小或调用不同算法构建推荐应用框架。该方法将串行推荐算法与MapReduce结合实现并行算法，有效地提高了处理的效率，能完成单机下无法处理的大量数据，解决了传统社交网络推荐算法的运算瓶颈问题。

然而，不论是传统社交网络推荐算法，还是后来提出的基于云分布式集群的推荐算法，其设计基础都基于相对理想化的网络环境，而忽略了噪声干扰对推荐结果的影响。现实中，不可避免地会有用户出于不正当的目的，利用社交网络推荐的漏洞，采用批量植入虚假用户等方法，达到低评分或高评分的恶意攻击或虚假宣传的目的。

例如电商平台，其中也会存在大量的噪声评分，而现有行业推荐的算法并未能将这一因素考虑在内。其结果是虚假用户的植入在很大程度上影响、阻碍物联网社区用户的购买可信度。

申请号为201510186307X的中国专利申请公开的基于协同过滤推荐算法的手机机型推荐方法中，提出了去除噪声的概念，但是其给出的去除噪声的方法基于正规手机均带有唯一串号这一特点，将串号重复的山寨机做为噪声排除在推荐目标之外。其去除噪声的方法不具有普遍适用性。

技术实现要素：

本发明目的是在上述现有商业化推荐结果受噪声影响较大的现实背景下，提出一种基于分布式防噪声干扰的社交网络推荐策略，以实现更真实、更具有粘性的推荐系统。

为实现上述目的，本发明采用的技术方案是：

一种用于网络推荐的防噪声干扰方法，包括如下步骤：

步骤S1，获取网络服务器中用户对商品的评分r_u，i；

步骤S2，甄别噪声评分，并对噪声评分进行校正；

步骤S3，将经过校正的评分r_u，i＝n_u，i用于推荐。

进一步地，步骤S2所述甄别噪声评分的方法为：设定最高评分阈值β和最低评分阈值γ，将r_u，i≥β_u或r_u，i≤γ_u的评分判断为噪声评分。

进一步地，步骤S2所述对噪声评分进行校正的方法为：基于步骤S1获取的用户对商品的评分构建观测评分矩阵R＝[r₁，r₂，...，r_n]，r_u，i∈R，利用观测评分矩阵R，通过协同过滤算法预测对商品给出噪声评分的用户对该商品的评分，将预测评分值作为校正评分。

本发明进一步提出一种基于分布式防噪声干扰的社交网络推荐方法，包括如下步骤：

步骤S1，获取网络服务器中用户对商品的评分r_u，i；

步骤S2，甄别其中的噪声评分，并对其中的噪声评分进行校正；

步骤S3-1，将校正过噪声评分的评分存储于Hadoop分布式集群中；

步骤S3-2，Hadoop分布式集群将其存储的评分分发至实时推荐集群中；

步骤S3-3，实时推荐集群判断目标用户可能感兴趣的商品，并推荐给目标用户。

进一步地，步骤S2中甄别噪声评分的方法为：设定最高评分阈值β和最低评分阈值γ，将r_u，i≥β_u或r_u，i≤γ_u的评分判断为噪声评分。

进一步地，步骤S2中对噪声评分进行校正的方法为：基于步骤S1获取的用户对商品的评分构建观测评分矩阵R＝[r₁，r₂，...，r_n]，r_u，i∈R，利用观测评分矩阵R，通过协同过滤算法预测对商品给出噪声评分的用户对该商品的评分，将预测评分值作为校正评分。

进一步地，步骤S3-3中，采用非负矩阵分解算法对经噪声校正的评分矩阵进行降维处理，采用协同过滤算法预测目标用户对商品的评分，根据预测评分判断目标用户可能感兴趣的商品。

本发明还提出一种基于分布式防噪声干扰的社交网络推荐系统，包括评分处理系统、Hadoop分布式集群、实时推荐集群，所述评分处理系统包括噪声甄别系统、噪声校正系统；

所述评分处理系统获取网络服务器中用户对商品的评分r_u，i；

所述噪声甄别系统甄别评分处理系统所获取的评分中的噪声评分；

所述噪声校正系统对甄别的噪声评分进行校正；

所述评分处理系统将校正过噪声评分的评分数据存储于Hadoop分布式集群中；

所述Hadoop分布式集群将其存储的评分数据分发至实时推荐集群中；

所述实时推荐集群根据评分数据判断目标用户可能感兴趣的商品，并推荐给目标用户。

进一步地，噪声甄别系统中设定有最高评分阈值β和最低评分阈值γ，噪声甄别系统将r_u，i≥β_u或r_u，i≤γ_u的评分判断为噪声评分。

进一步地，噪声校正系统基于评分处理系统获取的用户对商品的评分构建观测评分矩阵R＝[r₁，r₂，...,r_n]，r_u，i∈R，利用观测评分矩阵R，通过协同过滤算法预测对商品给出噪声评分的用户对该商品的评分，将预测评分值作为校正评分。

本发明解决了商业推荐中噪声干扰问题，很好的剔除大量作弊网络评分提高推荐行业的置信度；并且与行业发展方向接轨，具有普适性，为商业推荐提供一致的方法论。

附图说明

图1为本发明防噪声推荐系统服务器框架示意图。

图2为本发明防噪声推荐系统原理框图。

图3为本发明噪声甄别过程流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的解释说明。

参照图1，本发明提出的网络推荐方法基于分布式集群实现，本发明将推荐系统完全构建于分布式集群中，通过多台服务器完成数据的计算过程，其计算能力具有巨大的扩展空间，尤其适于大数据背景下的网络推荐。在本发明防噪声的社交网络推荐构架中将清洗过的ETL商业数据存储于Hadoop分布式集群中，将集群处理后的数据分发至实时推荐集群中供进行处理完成对用户的推荐。

参照图2，本发明在传统推荐方法中引入噪声处理机制，在对于系统评分采用协同过滤算法进行处理之前，先对系统评分逐一进行噪声甄别，筛选出其中的噪声评分，并对噪声评分进行校正，最后将其中噪声评分经过校正的评分集用于推荐。

以下为实现噪声甄别的技术说明

一、甄别噪声干扰源机制

为甄别自然噪声的评论干扰，我们将噪声源分为、基于用户评论的噪声、基于商品的噪声。下面分别给出技术定义。

基于用户评分的噪声甄别技术定义：

A、正向评价：给予商品过高评分；

B、平均水平：用户给予一般评分；

C、偏激：给予极低评分；

D、跟风：持续保持一贯风格评分。

基于商品评分的噪声甄别技术定义：

A、火热化：被大量用户给予高评分；

B、平均水平：一般评分；

C、偏激：不被大多数用户接受；

D、迟疑性：怀有矛盾意见的评分。

二、噪声甄别技术层框架：

1、本发明与传统社交网络推荐相比，引入恶意广告甄别系统

2、并对含噪声的评分进行技术校正，将处理后的不含噪声的评分采用协同过滤推荐框架进行推荐；

3、本发明添加的防噪声干扰系统采用非负矩阵分解策略，将超高维的系统评分降维至低维，并建立用户无物品图。

三、噪声甄别技术实现层：

(1)模型转换层：给定商业ETL数据的用户集U及物品集合I，那么最原始的用户商品矩阵R＝[r₁，r₂，...,r_n]，r_u，i∈R，为用户u对物品i的评分。基于矩阵分解的协同过滤模型旨在利用观测评分矩阵R，构造预测矩阵R＝PQ，显然，R由两个低秩的因子P,Q构成，特征维数为f。其数学模型即最小化目标函数使观测矩阵与预测矩阵的最小方差最小，其目标函数数学形式如下：

其中，b为评分线性偏置相，mu为常数校准。

(2)用户甄别系统数学定义：根据前述节一的甄别机制，给出用户技术层数学定义：

(a).偏激集其中γ为最低评分阈值

(b).平均水平集：其中β为最高评分阈值

(c).正向集：

(3)用户甄别系统技术实现层：

读取评分值r_u，i，对比r_u，i和γ_u，若r_u，i≤γ_u，则将r_u，i置于集合Weak，若否，则对比r_u，i和β_u，若r_u，i≥β_u，将r_u，i置于集合Pos，若否，则将r_u，i置于集合Aver。如图3所示。

(4)含噪声评分系统实现层伪代码：

本发明创造性地提出噪声评分校正机制，而不是简单粗暴地将判断为噪声的评分剔除，不仅有效消除噪声对网络推荐结果的影响，还进一步避免了因为数据缺失而导致的结果失真，下面举例说明本发明的防噪声干扰的社交网络推荐具体过程。

实施例1

步骤1，从网络服务器获取一组用户u作为用户集U，再获取一组商品对象i作为商品集I，获取用户集U中各用户u分别对商品集I中各商品i的评分r。

步骤2，根据获取的评分r建立一个用户-商品的评分矩阵R＝[r₁，r₂，...，r_n]，r_u，i∈R，为用户u对物品i的评分。在该矩阵中，横向排列的是同一用户针对不同商品的评分，纵向排列的是不同用户针对同一商品的评分，若用户对某商品未评分，则取数值0。

步骤3，分别对用户集U中各用户u设置最高评分阈值β和最低评分阈值γ。

步骤4，逐一读取评分值r_u，i，对比r_u，i和γ_u，若r_u，i≤γ_u，则将r_u，i置于集合Weak，若否，则对比r_u，i和β_u，若r_u，i≥β_u，将r_u，i置于集合Pos，若否，则将r_u，i置于集合Aver。

步骤5，通过下式逐一计算集合Weak和Pos中的评分的预测评分。

步骤6，以步骤5计算获得的预测评分与集合Aver中的评分重新组成评分矩阵。

步骤7，基于步骤6的评分矩阵，通过下式逐一计算目标用户到其他用户间的相似度。

式中，和分别表示用户ui和uj在评分矩阵中所对应的向量。

步骤8，选择与目标用户相似度大于预设阈值的n个用户，计算该n个用户对同一商品的评分的平均值。

步骤9，将平均值最高的一个或几个商品推荐给目标用户。

本实施例直接将评分矩阵中用户对各商品的评分集作为一用户特征向量。逻辑简单直接，当评分矩阵维数较低时，计算效率高。

实施例2

步骤1，从网络服务器获取一组用户u作为用户集U，再获取一组商品对象i作为商品集I，获取用户集U中各用户u分别对商品集I中各商品i的评分r。

步骤3，分别对用户集U中各用户u设置最高评分阈值β和最低评分阈值γ。

步骤5，通过下式逐一计算集合Weak和Pos中的评分的预测评分。

步骤6，以步骤5计算获得的预测评分与集合Aver中的评分重新组成评分矩阵。

步骤7，对步骤6的评分矩阵，采用非负矩阵分解算法进行降维处理，获得用户特征向量。

步骤8，通过下式逐一计算目标用户到其他用户间的相似度。

式中，和分别表示用户ui和uj的特征向量。

步骤9，选择与目标用户相似度大于预设阈值的n个用户，计算该n个用户对同一商品的评分的平均值。

步骤10，将平均值最高的一个或几个商品推荐给目标用户。

本例在计算用户相似度之前，先采用非负矩阵分解算法对评分矩阵进行降维处理，当评分矩阵维数高，数据量庞大时，效率提高显著。

实施例3

步骤1，从网络服务器获取一组用户u作为用户集U，再获取一组商品对象i作为商品集I，获取用户集U中各用户u分别对商品集I中各商品i的评分r。

步骤2，根据获取的评分r建立一个用户-商品的评分矩阵R＝[r₁，r₂，...，r_n]，r_u，i∈R，为用户u对物品i的评分。在该矩阵中，横向排列的是同一用户针对不同商品的评分，纵向排列的是不同用户针对同一商品的评分，若用户对某商品未评分，则以一预设值作为假定的评分，例如预设值取最高评分与最低评分的平均值。

步骤3，分别对用户集U中各用户u设置最高评分阈值β和最低评分阈值γ。

步骤4，逐一读取评分值r_u，i，对比r_u，i和γ_u，若r_u，i≥γ_u，则将r_u，i置于集合Weak，若否，则对比r_u，i和β_u，若r_u，i≥β_u，将r_u，i置于集合Pos，若否，则将r_u，i置于集合Aver。

步骤5，通过下式逐一计算集合Weak和Pos中的评分的预测评分。

步骤6，以步骤5计算获得的预测评分与集合Aver中的评分重新组成评分矩阵。

步骤7，对步骤6的评分矩阵，采用非负矩阵分解算法进行降维处理，获得用户特征向量。

步骤8，通过下式逐一计算目标用户到其他用户间的相似度。

式中，和分别表示用户ui和uj的特征向量。

步骤9，选择与目标用户相似度大于预设阈值的n个用户，计算该n个用户对同一商品的评分的平均值。

步骤10，将平均值最高的一个或几个商品推荐给目标用户。

如果简单地以0作为未评分用户的假定评分，则会拉低平均评分，尤其对于评分总量较少的新的商品来说，预测的评分将失真严重，本实施例中，对此预设一个假定评分，例如最高分与最低分的平均值，可以避免因未评分导致的预测偏差。

以上三个实施例相对较为典型，然而在具体实践过程中，实施者可以根据实际情况做出调整，以灵活应用，例如：可以用基于商品相似度的预测评分算法替代上述实施例中的基于用户相似度的预测评分算法。再例如，采用基于模型的评分预测方法预测评分，针对评分矩阵建立训练模型，采用交替最小二乘法对训练模型进行处理。再例如，采用Pearson相似度算法替代以上实施例中的余弦相似度算法，等等。

本发明技术所具有的有益效果有如下几点：

1.针对传统商业推荐的噪声难题的性能，部署分布式集群；

2.解决商业推荐中噪声干扰，很好的剔除大量作弊网络评分提高推荐行业的置信度；

3.与行业发展方向接轨，具有普适性，为商业推荐提供一致的方法论；

4.提出了具有创造性的方法甄别恶意评分。

本文中所描述的优选实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何海洋;
技术所有人：上海斐讯数据通信技术有限公司;
我是此专利的发明人

上一篇：一种超级电容供能的永磁开关控制器的制作方法与工艺
上一篇：一种远程自动续卡的自助发卡机的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。