数据重新采样的方法及装置、储存介质、电子装置与流程

文档序号:17721863发布日期:2019-05-22 02:13阅读:303来源:国知局
数据重新采样的方法及装置、储存介质、电子装置与流程

本发明涉及智能技术领域,具体而言,涉及一种数据重新采样的方法及装置、存储介质、电子装置。



背景技术:

近年来随着互联网的蓬勃发展,推荐系统越来越受到人们的重视。推荐系统是指利用用户的过往数据,通过数据挖掘的手段,发现用户感兴趣的物品并为用户进行推荐的产品和技术。推荐系统已经蓬勃发展了近20年,广泛应用于各个商业领域例如电商、新闻、视频等。国内外的各大互联网公司均有自己的推荐系统战略和储备。推荐系统领域的发展表现为一系列算法的发展和演化。推荐系统最早的模型为协同过滤,随后发展为逻辑回归,排序学习,混合模型已经基于深度学习的推荐系统。协同过滤模型因为其易用性和可扩展性,成为许多互联网公司设计开发推荐系统的必备基础算法。

现有的协同过滤系统存在马太效应和稀疏性问题,其中,马太效应是指在协同过滤的计算过程中,当计算用户和用户的相似性,或者物品和物品的相似性的时候,热门用户或者热门物品会和非常多的用户或者物品相似。这会导致推荐结果中出现偏差。稀疏性问题是指在协同过滤的计算过程中,因为输入数据的不全面和分布不均衡而导致推荐结果中出现偏差的现象。

针对现有技术中推荐系统存在马太效应和数据稀疏性的问题,尚未有合理的解决方案。



技术实现要素:

本发明实施例提供了一种数据重新采样的方法及装置、存储介质、电子装置,以至少解决相关技术中推荐系统存在马太效应和数据稀疏性的问题。

根据本发明的一个实施例,提供了一种数据重新采样的方法,包括:通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;根据所述输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;根据确定的所述马太效应的评价指标和所述稀疏性问题的评价指标对所述输入数据进行重新采样。

优选地,根据所述输入数据的概率分布确定马太效应的评价指标包括:根据所述用户或所述物品在协同过滤中的相似性得分,确定评价所述马太效应的指标。

优选地,根据所述输入数据的概率分布确定稀疏性问题的评价指标包括:根据协同过滤中与某个用户或物品相似的其他用户或物品参与计算的数量,确定评价所述稀疏性问题的指标。

优选地,根据确定的所述马太效应的评价指标和所述稀疏性问题的评价指标对所述输入数据进行重新采样包括:确定所述输入数据中每个所述用户或每个所述物品的概率分布公式;根据推导出来的所述概率分布公式计算所述马太效应评价指标和所述稀疏性问题的评价指标,与每个所述用户或每个所述物品概率分布公式之间的数学关系;根据所述数学关系对所述输入数据进行重新采样,以通过改变所述输入数据的概率分布公式来改善所述马太效应评价指标和所述稀疏性问题的评价指标。

根据本发明的另一个实施例,还提供了一种数据重新采样的装置,包括:第一确定模块,用于通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;第二确定模块,用于根据所述输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;采样模块,用于根据确定的所述马太效应的评价指标和所述稀疏性问题的评价指标对所述输入数据进行重新采样。

优选地,所述第二确定模块包括:第一确定单元,用于根据所述用户或所述物品在协同过滤中的相似性得分,确定评价所述马太效应的指标。

优选地,所述第二确定模块包括:第二确定单元,用于根据协同过滤中与某个用户或物品相似的其他用户或物品参与计算的数量,确定评价所述稀疏性问题的指标。

优选地,所述采样模块包括:第三确定单元,用于确定所述输入数据中每个所述用户或每个所述物品的概率分布公式;计算单元,用于根据推导出来的所述概率分布公式,计算所述马太效应评价指标和所述稀疏性问题的评价指标,与每个所述用户或每个所述物品概率分布公式之间的数学关系;采样单元,用于根据所述数学关系对所述输入数据进行重新采样,以通过改变所述输入数据的概率分布公式来改善所述马太效应评价指标和所述稀疏性问题的评价指标。

根据本发明的另一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的另一个实施例,还提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明实施例,通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;根据输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;根据确定的马太效应的评价指标和稀疏性问题的评价指标对输入数据进行重新采样,解决了相关技术中推荐系统存在马太效应和数据稀疏性的问题,使得推荐系统的精准度更高,针对性更强,节省推荐系统的开发时间,并提升推荐系统计算资源的使用效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明实施例的一种数据重新采样的方法的移动终端的硬件结构框图;

图2是根据本发明实施例中数据重新采样的方法的流程图;

图3是根据本发明实施例的数据重新采样的装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的数据重新采样的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种数据重新采样的方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的数据信息的获取方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(networkinterfacecontroller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radiofrequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。

本发明实施例提供了一种数据重新采样的方法。图2是根据本发明实施例中数据重新采样的方法的流程图,如图2所示,该方法包括:

步骤s201,通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;

步骤s203,根据输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;

步骤s205,根据确定的马太效应的评价指标和稀疏性问题的评价指标对输入数据进行重新采样。

通过上述方法,通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;根据输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;根据确定的马太效应的评价指标和稀疏性问题的评价指标对输入数据进行重新采样,解决了相关技术中推荐系统存在马太效应和数据稀疏性的问题,使得推荐系统的精准度更高,针对性更强,节省推荐系统的开发时间,并提升推荐系统计算资源的使用效率。

优选地,上述步骤s203可以通过以下步骤实现:根据用户或物品在协同过滤中的相似性得分,确定评价马太效应的指标。

优选地,上述步骤s203可以通过以下步骤实现:根据协同过滤中与某个用户或物品相似的其他用户或物品参与计算的数量,确定评价稀疏性问题的指标。

优选地,上述步骤s205可以通过以下步骤实现:确定输入数据中每个用户或每个物品的概率分布公式;根据推导出来的概率分布公式计算马太效应评价指标和稀疏性问题的评价指标,与每个用户或每个物品概率分布公式之间的数学关系;根据数学关系对输入数据进行重新采样,以通过改变输入数据的概率分布公式来改善马太效应评价指标和稀疏性问题的评价指标。

本方案首先通过对推荐系统输入数据进行分析,确定输入数据的具体分布。然后选定测定推荐系统马太效应和稀疏性的指标。

具体的,首先确立如下指标:

1)通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布以及马太效应/数据稀疏性的情况。例如:以last.fm站点提供的数据集来自于http://www.grouplens.org/node/462。last.fm数据集包含1892个用户和17632个音乐作品作为输入数据来进行说明。

受欢迎程度影响某个用户/物品与其他用户/物品之间的相似性评分。对于更受欢迎的用户/物品来说,这种相似性评分显示出更大程度的失衡,表明了马太效应的严重性。

马太效应:被推荐系统所推荐的物品将会越来越热门,这就导致了大量很好的物品可能会被推荐系统所淹没。解决这个问题的主要方法是增加推荐系统的多样性,比如一个推荐系统发现一个用户非常喜欢吃德芙巧克力,那么他给这个用户推荐10个产品,不需要都是德芙巧克力,也可以推荐别的一些巧克力,或者一些和巧克力相似的甜品。

稀疏性:是在用户和物品的数量都巨大的情况下,而用户曾经观看过的物品很少,势必促使用户评分矩阵的异常稀疏。

2)计算在协同过滤中的相似性得分,作为衡量马太效应的标准。

用户a和用户b的相似性得分:

其中,na表示用户a听过的音乐数量,nb表示用户b听过的音乐数量,m表示数据集中总共的音乐数量,ia表示用户a听过的音乐集合,ib表示用户b听过的音乐集合。

3)计算协同过滤中与某个用户/物品相似的其他用户/物品有多少参与了计算,作为衡量稀疏性的标准。协同过滤中与某个用户相似的其他用户参与计算的数量为:

其中,n表示用户总数,m表示音乐总数,i表示第i个最受欢迎物品,j表示第j个最受欢迎物品。

协同过滤中与第i个最受欢迎物品相似的其他物品参与计算的数量为:

其中,n表示用户总数,i表示第i个最受欢迎物品,j表示第j个最受欢迎物品。

指标确立完成之后根据如下流程进行重新采样:

11)进行公式推导,确立输入数据中每个用户或者物品的概率分布公式。用户a和用户b均点击第i个最受欢迎音乐的概率为:

用户点击第i个最受欢迎音乐和第j个最受欢迎音乐的概率是:

12)根据11)中推导出的公式,计算评价指标与每个用户或者物品概率分布公式之间的数学关系:

zipf定律利用以下概率质量函数捕捉到马太效应:

从分析结果可以看出,用户协同过滤的稀疏性问题可以用zipf定律分布来建模。基于用户的协同过滤对输入数据结构的倾斜性非常敏感。

13)根据12)中的数学关系对输入数据进行重新采样,以通过改变输入数据的概率分布公式来改善评价指标。

通过本发明实施例中的技术方案,有效的解决马太效应和稀疏性问题,提升推荐系统的效果,有效提升公司产品的用户数和公司的经济效益;有效的解决马太效应问题,可以节省推荐系统的开发时间,并提升推荐系统计算资源的使用效率。

实施例2

在本实施例中还提供了一种数据重新采样的装置,用于执行上述任一方法实施例中的步骤,已经描述过的内容此处不再赘述。图3是根据本发明实施例的数据重新采样的装置的结构框图,如图3所示,该装置包括:

第一确定模块30,用于通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;第二确定模块32,用于根据输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;采样模块34,用于根据确定的马太效应的评价指标和稀疏性问题的评价指标对输入数据进行重新采样。

通过上述装置,第一确定模块30通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;第二确定模块32根据输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;采样模块34根据确定的马太效应的评价指标和稀疏性问题的评价指标对输入数据进行重新采样,解决了相关技术中推荐系统存在马太效应和数据稀疏性的问题,使得推荐系统的精准度更高,针对性更强,节省推荐系统的开发时间,并提升推荐系统计算资源的使用效率。

优选地,第二确定模块包括:第一确定单元,用于根据用户或物品在协同过滤中的相似性得分,确定评价马太效应的指标。

优选地,第二确定模块包括:第二确定单元,用于根据协同过滤中与某个用户或物品相似的其他用户或物品参与计算的数量,确定评价稀疏性问题的指标。

优选地,采样模块包括:第三确定单元,用于确定输入数据中每个用户或每个物品的概率分布公式;计算单元,用于根据推导出来的概率分布公式,计算马太效应评价指标和稀疏性问题的评价指标,与每个用户或每个物品概率分布公式之间的数学关系;采样单元,用于根据数学关系对输入数据进行重新采样,以通过改变输入数据的概率分布公式来改善马太效应评价指标和稀疏性问题的评价指标。

实施例3

本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:

s1,通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;

s2,根据输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;

s3,根据确定的马太效应的评价指标和稀疏性问题的评价指标对输入数据进行重新采样。

可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:

确定输入数据中每个用户或每个物品的概率分布公式;根据推导出来的概率分布公式计算马太效应评价指标和稀疏性问题的评价指标,与每个用户或每个物品概率分布公式之间的数学关系;根据数学关系对输入数据进行重新采样,以通过改变输入数据的概率分布公式来改善马太效应评价指标和稀疏性问题的评价指标。

可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-onlymemory,简称为rom)、随机存取存储器(randomaccessmemory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

s1,通过计算输入数据中用户或者物品的出现频率来确定输入数据的概率分布;

s2,根据输入数据的概率分布确定马太效应的评价指标和稀疏性问题的评价指标;

s3,根据确定的马太效应的评价指标和稀疏性问题的评价指标对输入数据进行重新采样。

可选地,处理器还被设置为存储用于执行以下步骤的计算机程序:

确定输入数据中每个用户或每个物品的概率分布公式;根据推导出来的概率分布公式计算马太效应评价指标和稀疏性问题的评价指标,与每个用户或每个物品概率分布公式之间的数学关系;根据数学关系对输入数据进行重新采样,以通过改变输入数据的概率分布公式来改善马太效应评价指标和稀疏性问题的评价指标。

本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1