数据处理方法及装置与流程

文档序号:16631702发布日期:2019-01-16 06:38阅读:183来源:国知局
数据处理方法及装置与流程

本申请涉及计算机技术领域,特别涉及一种数据处理方法及装置。



背景技术:

随着计算机技术的发展,人们在对可动态变化的事物(例如某一网站的访问次数、某一文件的下载量、应用商城中某一应用的图标的点击率或视频网站中某一视频的点击率)进行分析时,通常可以获取事物的多个特征数据(特征数据用于表征事物的属性),并对该多个特征数据进行处理,得到用于表征该事物的发展方向的预测数据。

相关技术中,人们可以向数据处理装置输入事物的多个特征数据,数据处理装置能够对事物的多个特征数据进行高阶非线性组合处理,得到多个高阶数据,并根据该多个高阶数据确定预测数据,其中,高阶数据为该多个特征数据中至少三个特征数据的非线性组合。例如,数据处理装置可以对应用商城中某一应用的多个特征数据进行高阶非线性组合处理,得到用于表征该应用的图标的点击率的预测数据,根据该预测数据可以确定该应用的推荐优先级。

由于相关技术中的预测数据是数据处理装置基于多个高阶数据得到的,而准确的预测需要基于大量的数据来实现,上述多个高阶数据的数据量依然无法满足准确预测需求,因此,相关技术确定的预测数据的准确度较低。



技术实现要素:

为了解决相关技术确定的预测数据的准确度较低的问题,本申请提供了一种数据处理方法及装置。所述技术方案如下:

第一方面,提供了一种数据处理方法,所述方法包括:获取多个特征数据;自动对所述多个特征数据进行两种不同的非线性组合处理得到两组处理数据,其中,所述两组处理数据包括一组高阶数据和一组低阶数据,所述高阶数据与所述多个特征数据中m个特征数据的非线性组合相关,所述低阶数据与所述多个特征数据中n个特征数据的非线性组合相关,m≥3,m>n≥2;根据多个目标数据确定预测数据,所述多个目标数据包括所述两组处理数据。

相关技术中对多个特征数据进行一种非线性组合处理(高阶非线性组合处理)能够得到的一组处理数据(包括至少一个高阶数据);而本申请能够自动对多个特征数据进行两种不同的非线性组合处理(高阶非线性组合处理和低阶非线性组合处理)并得到两组处理数据。也即是,本申请中得到的两组处理数据的数据量大于相关技术中得到的一组处理数据的数据量,且准确的预测需要基于大量的数据来实现,因此,本申请中基于两组处理数据得到的预测数据的准确度高于相关技术中基于一组处理数据得到的预测数据的准确度。

可选的,所述自动对所述多个特征数据进行两种不同的非线性组合处理得到两组处理数据,包括:自动对所述多个特征数据进行高阶非线性组合处理,得到所述一组高阶数据;自动对所述多个特征数据进行低阶非线性组合处理,得到所述一组低阶数据。

需要说明的是,在获取到多个特征数据后,如果对该多个特征数据中的一部分特征数据进行高阶非线性组合处理得到的高阶数据的个数为第一个数,对该多个特征数据中的另一部分特征数据进行低阶非线性组合处理得到的低阶数据的个数为第二个数,则最终确定预测数据所基于的目标数据的个数等于第一个数与第二个数之和。如果对该多个数据进行高阶非线性组合处理,则得到的高阶数据的个数大于第一个数,且对该多个数据也进行低阶非线性组合处理,则得到的低阶数据的个数大于第二个数,且最终确定预测数据所基于的目标数据的个数也大于第一个数与第二个数之和。也即是,在对多个特征数据分别进行高阶非线性组合处理以及低阶非线性组合处理时,最终确定预测数据所基于的目标数据的个数就会较多,预测数据的准确度就会越高。

可选的,在所述获取多个特征数据之后,所述方法还包括:自动对所述多个特征数据进行线性组合处理,得到一组第一辅助数据,所述第一辅助数据与所述多个特征数据中的至少两个特征数据的线性组合相关,所述多个目标数据还包括:所述至少一个第一辅助数据。

也即是,本申请不仅能够对多个特征数据进行高阶非线性组合处理以及低阶非线性组合处理,并且还能够对多个特征数据进行线性组合处理,得到一组第一辅助数据,从而进一步的增多了最终确定预测数据所基于的目标数据的个数,进一步提高了预测数据的准确度。

可选的,所述自动对所述多个特征数据进行低阶非线性组合处理,得到所述一组低阶数据,包括:通过基于因子分解机fm的处理模块自动对所述多个特征数据进行低阶非线性组合处理,得到所述一组低阶数据;所述自动对所述多个特征数据进行线性组合处理,得到一组第一辅助数据,包括:通过基于fm的处理模块,自动对所述多个特征数据进行线性组合处理,得到所述一组第一辅助数据;或者,所述自动对所述多个特征数据进行低阶非线性组合处理,得到所述一组低阶数据,包括:通过基于域感知分解机ffm的处理模块,自动对所述多个特征数据进行低阶非线性组合处理,得到所述一组低阶数据;所述自动对所述多个特征数据进行线性组合处理,得到一组第一辅助数据,包括:通过基于ffm的处理模块,自动对所述多个特征数据进行线性组合处理,得到所述一组第一辅助数据。

可选的,在所述根据多个目标数据确定预测数据之前,所述方法还包括:结合专家经验以及所述多个特征数据,确定x个经验特征数据,x≥1,所述x个经验特征数据包括:结合专家经验在所述多个特征数据中获取到的数据,和/或,结合专家经验对所述多个特征数据中的至少两个特征数据进行非线性组合处理得到数据;自动对所述x个经验特征数据进行处理,得到一组第二辅助数据,所述多个目标数据还包括:所述一组第二辅助数据,其中,当x=1时,所述第二辅助数据与一个经验特征数据相关,当x>1时,所述第二辅助数据与所述x个经验特征数据中的至少两个经验特征数据的线性组合相关,和/或,所述第二辅助数据与所述x个经验特征数据中的至少两个经验特征数据的非线性组合相关。

也即是,本申请能够根据专家经验的指导,确定对预测数据影响较大的x个经验特征数据,并对x个经验特征数据进行处理得到的一组第二辅助数据。且最终确定预测数据所依据的目标数据还包括该第二辅助数据,从而进一步的增多了最终确定预测数据所基于的目标数据的个数,进一步提高了预测数据的准确度。

可选的,所述多个特征数据为多个稀疏特征数据,在所述获取多个特征数据之后,所述方法包括:将所述多个稀疏特征数据,转换为多个稠密特征数据;所述自动对所述多个特征数据进行两种不同的非线性组合处理得到两组处理数据,包括:自动对所述多个稠密特征数据进行两种不同的非线性组合处理得到所述两组处理数据。

也即是,本申请在获取到多个稀疏特征数据后,还能够对该多个稀疏特征数据进行转换,得到多个稠密特征数据,且稠密特征数据的数据量远小于稀疏特征数据的数据量,对多个稠密特征数据进行处理的效率高于对多个稀疏特征数据进行处理的效率。

第二方面,提供了一种数据处理装置,所述数据处理装置包括:获取单元,用于获取多个特征数据;非线性处理单元,用于自动对所述多个特征数据进行两种不同的非线性组合处理得到两组处理数据,其中,所述两组处理数据包括一组高阶数据和一组低阶数据,所述高阶数据与所述多个特征数据中m个特征数据的非线性组合相关,所述低阶数据与所述多个特征数据中n个特征数据的非线性组合相关,m≥3,m>n≥2;预测单元,用于根据多个目标数据确定预测数据,所述多个目标数据包括所述两组处理数据。

可选的,所述非线性处理单元包括:高阶处理子单元,用于自动对所述多个特征数据进行高阶非线性组合处理,得到所述一组高阶数据;低阶处理子单元,用于自动对所述多个特征数据进行低阶非线性组合处理,得到所述一组低阶数据。

可选的,所述数据处理装置还包括:线性处理单元,用于自动对所述多个特征数据进行线性组合处理,得到一组第一辅助数据,所述第一辅助数据与所述多个特征数据中的至少两个特征数据的线性组合相关,所述多个目标数据还包括:所述至少一个第一辅助数据。

可选的,所述数据处理装置还包括:基于因子分解机fm的处理模块或基于域感知分解机ffm的处理模块,所述基于fm的处理模块包括:所述低阶处理子单元和所述线性处理单元;所述基于ffm的处理模块包括:所述低阶处理子单元和所述线性处理单元。

可选的,所述数据处理装置还包括:确定单元,结合专家经验以及所述多个特征数据,确定x个经验特征数据,x≥1,所述x个经验特征数据包括:结合专家经验在所述多个特征数据中获取到的数据,和/或,结合专家经验对所述多个特征数据中的至少两个特征数据进行非线性组合处理得到数据;经验处理单元,用于自动对所述x个经验特征数据进行处理,得到一组第二辅助数据,所述多个目标数据还包括:所述一组第二辅助数据,其中,当x=1时,所述第二辅助数据与一个经验特征数据相关,当x>1时,所述第二辅助数据与所述x个经验特征数据中的至少两个经验特征数据的线性组合相关,和/或,所述第二辅助数据与所述x个经验特征数据中的至少两个经验特征数据的非线性组合相关。

可选的,所述多个特征数据为多个稀疏特征数据,所述数据处理装置还包括:转换单元,用于将所述多个稀疏特征数据,转换为多个稠密特征数据;所述非线性处理单元还用于:自动对所述多个稠密特征数据进行两种不同的非线性组合处理得到所述两组处理数据。

第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面述的数据处理方法。

第四方面,提供了一种计算机程序产品,当其在计算机上运行时,使得计算机执行第一方面所述的数据处理方法。

第五方面,提供了一种数据处理装置,所述数据处理装置包括:至少一个处理器、至少一个网络接口、存储器以及至少一个总线,存储器与网络接口分别通过总线与处理器相连;处理器被配置为执行存储器中存储的指令;处理器通过执行指令来实现上述第一方面或第一方面中任意一种可能的实现方式所提供的数据处理方法。

上述第二方面至第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似,本申请在此不再赘述。

本申请提供的技术方案带来的有益效果是:

相关技术中对多个特征数据进行一种非线性组合处理(高阶非线性组合处理)能够得到的一组处理数据(包括至少一个高阶数据);而本申请能够自动对多个特征数据进行两种不同的非线性组合处理(高阶非线性组合处理和低阶非线性组合处理)并得到两组处理数据。也即是,本申请中得到的两组处理数据的数据量大于相关技术中得到的一组处理数据的数据量,且准确的预测需要基于大量的数据来实现,因此,本申请中基于两组处理数据得到的预测数据的准确度高于相关技术中基于一组处理数据得到的预测数据的准确度。

附图说明

图1为本发明实施例提供的一种数据处理方法的应用场景示意图;

图2为本发明实施例提供的一种数据处理装置的结构示意图;

图3为本发明实施例提供的一种程序模块的结构示意图;

图4为本发明实施例提供的一种数据处理方法的方法流程图;

图5为本发明实施例提供的另一种数据处理装置的结构示意图;

图6为本发明实施例提供的又一种数据处理装置的结构示意图;

图7为本发明实施例提供的再一种数据处理装置的结构示意图;

图8为本申请另一实施例提供的一种数据处理装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

图1为本发明实施例提供的一种数据处理方法的应用场景示意图,如图1所示,服务器1可以与多个客户端2建立通信连接,且服务器1能够获取与客户端2相关的数据;客户端2也能够从服务器1上获取服务器上存储的数据。数据处理装置0与服务器1相连接,数据处理装置0还能够设置在服务器1上,数据处理装置0能够对服务器获取到的数据进行处理。示例的,数据处理装置0和服务器1,以及服务器1和客户端2均可以通过有线网络或者无线网络连接。

需要说明的是,本发明实施例会涉及到“线性组合相关”、“非线性组合相关”、“线性组合处理”以及“非线性组合处理”这几个名词,本发明实施例在此对这几个名词进行解释说明:

示例的,在对多个特征数据进行组合处理(线性组合处理或者非线性组合处理)时,可以根据预设方程对多个特征数据进行组合处理。当该预设方程为线性方程时,对多个特征数据的组合处理也称为“线性组合处理”,此时,组合处理得到的数据与该多个特征数据的“线性组合相关”。当该预设方程为非线性方程时,对多个特征数据的“组合处理”也称为“非线性组合处理”,此时,组合处理得到的数据与该多个特征数据的“非线性组合相关”。其中,线性方程为多元一次方程,线性方程中的自变量与因变量的关系是线性关系,线性方程在笛卡尔坐标系上表示为一条直线。非线性方程为多元多次方程,非线性方程中的自变量与因变量的关系并不是线性关系,且非线性方程在笛卡尔坐标系上表示为曲线。

例如,若该多个特征数据包括:特征数据a1和特征数据a2,则对多个特征数据进行线性组合处理能够得到数据y1=d1*a1+d2*a2,其中,d1为特征数据a1的权重,d2为特征数据a2的权重,y1与特征数据a1和特征数据a2的线性组合相关;对多个特征数据进行非线性组合处理能够得到数据y2=a1*a2,y2与特征数据a1和特征数据a2的非线性组合相关。需要说明的是,本发明实施例仅仅以y1=d1*a1+d2*a2与y2=a1*a2为例,对多个特征数据的线性组合处理以及非线性组合处理进行举例说明,实际应用中,线性组合处理得到的数据可以不为d1*a1+d2*a2,非线性组合处理得到的数据可以不为a1*a2,本发明实施例对此不作限定。

图2为本发明实施例提供的一种数据处理装置的结构示意图,可选的,该数据处理装置可以为图1所示的数据处理装置。如图2所示,该数据处理装置可以为包括:至少一个处理器10221(例如中央处理器),至少一个网络接口10222,存储器10223,和至少一个总线10224,总线10224可以用于实现处理器、网络接口和存储器之间的连接通信;存储器10223与网络接口10222分别通过总线10224与处理器10221相连。处理器10221用于执行存储器10223中存储的可执行模块,例如计算机程序。存储器10223可能包含高速随机存取存储器(randomaccessmemory,ram),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个网络接口10222(有线或者无线)实现该数据处理装置与至少一个其他装置之间的通信连接。在一些实施方式中,存储器10223存储了程序模块10225,程序模块10225能够被处理器10221执行,以实现如图4所示的数据处理方法。

示例的,如图3所示,该程序模块可以包括:

获取模块01,用于获取多个特征数据,该多个特征数据为多个稀疏特征数据。

转换模块02,用于将多个稀疏特征数据,转换为多个稠密特征数据;

非线性处理模块(图3中未标出),用于自动对多个特征数据进行两种不同的非线性组合处理得到两组处理数据,其中,两组处理数据包括一组高阶数据和一组低阶数据,高阶数据与多个特征数据中m个特征数据的非线性组合相关,低阶数据与多个特征数据中n个特征数据的非线性组合相关,m≥3,m>n≥2;非线性处理模块还用于:自动对多个稠密特征数据进行两种不同的非线性组合处理得到两组处理数据。

线性处理模块04,用于自动对多个特征数据进行线性组合处理,得到一组第一辅助数据,第一辅助数据与多个特征数据中的至少两个特征数据的线性组合相关,多个目标数据还包括:至少一个第一辅助数据。

预测模块05,用于根据多个目标数据确定预测数据,多个目标数据包括两组处理数据;

可选的,该非线性处理模块可以包括:高阶处理子模块031和低阶处理子模块032,高阶处理子模块031可以用于自动对多个特征数据进行高阶非线性组合处理,得到一组高阶数据;低阶处理子模块032可以用于自动对多个特征数据进行低阶非线性组合处理,得到一组低阶数据。

可选的,程序模块还可以包括:基于因子分解机(factorizationmachine,fm)的处理模块或基于域感知分解机(field-awarefactorizationmachine,ffm)的处理模块,该基于fm的处理模块包括:低阶处理子模块032和线性处理模块04;基于ffm的处理模块包括:低阶处理子模块032和线性处理模块04。

可选的,该程序模块还可以包括:确定模块和经验处理模块(图3中均未示出),确定模块可以用于结合专家经验以及多个特征数据,确定x个经验特征数据,x≥1,x个经验特征数据包括:结合专家经验在多个特征数据中获取到的数据,和/或,结合专家经验对多个特征数据中的至少两个特征数据进行非线性组合处理得到数据;经验处理模块可以用于自动对x个经验特征数据进行处理,得到一组第二辅助数据,多个目标数据还包括:一组第二辅助数据,其中,当x=1时,第二辅助数据与一个经验特征数据相关,当x>1时,第二辅助数据与所述x个经验特征数据中的至少两个经验特征数据的线性组合相关,和/或,第二辅助数据与所述x个经验特征数据中的至少两个经验特征数据的非线性组合相关。

图4为本发明实施例提供的一种数据处理方法的方法流程图,该数据处理方法可以用于图2所示的数据处理装置,如图4所示,该数据处理方法可以包括:

步骤401、获取多个稀疏特征数据。

人们在对可动态变化的事物(例如某一网站的访问次数、某一文件的下载量、应用商城中某一应用的图标的点击率或视频网站中某一视频的点击率)进行分析时,通常可以获取事物的多个稀疏特征数据。

例如,应用商城的客户端中显示有多个应用的图标,用户需要下载某一应用时,可以在该多个应用中点击需要下载的应用的图标,从而进入该应用的下载界面,并决定是否下载该应用。因此,用户是否会下载应用与用户是否会点击应用的图标相关,应用商城的服务器可以基于应用的图标的点击率(clickthroughrate,ctr)来决定该应用的推荐优先级,为点击率高的应用的分配较高的优先级,相应的在应用商城中优先显示这些应用的图标,以将符合用户需求的应用及时准确得推荐给用户,提高用户黏性,在这种场景中,对应用的图标的点击率的预测就显得尤为重要。在需要对应用的图标的点击率进行预测时,在步骤401中数据处理装置获取的多个稀疏特征数据可以为该应用的稀疏特征数据,其中,应用的稀疏特征数据包括:用户的属性数据和应用的属性数据。用户的属性数据可以包括:用户的标识、用户的性别、用户的年龄、用户的职业、用户的收入、用户的爱好、用户的教育情况等属性数据。应用的属性数据可以包括:应用的标识、应用的名称、应用的开发者、应用的类型、应用的安装包大小、应用的标签、应用的打分、应用的评论等属性数据。例如,某一应用的稀疏特征数据中:用户的标识为小明、用户的性别为男、用户的年龄为20岁、应用的名称为f1以及应用的类型为聊天应用,步骤401中获取的上述稀疏特征数据可以按照一定规则排布,例如“小明、男、20、f1、聊天”。

又例如,当用户通过终端登录网站,并在能够下载文件的网站中搜索某一关键词后,网站可以根据该关键词,控制终端显示与该关键词相关的多个文件的入口,用户可以根据需求点击某一文件的入口进行文件的下载。示例的,被多次下载的文件通常会较符合多个用户的下载需求,因此,网站可以根据文件的下载量来决定文件的推荐优先级,为下载量高的文件分配较高的优先级,相应的控制终端优先显示这些文件入口。当人们需要对某一文件的下载量进行分析时,人们可以获取该文件的多个稀疏特征数据。示例的,文件的多个稀疏特征数据可以包括:文件的名称、文件的大小和文件的标签。例如,某一文件的稀疏特征数据中:文件的名称为f2、文件的大小为2兆和文件的标签为科技,步骤401中获取的上述稀疏特征数据可以按照一定规则排布,例如“f2、2兆、科技”。

如图3所示,数据处理装置中的程序模块可以包括获取模块,在步骤401中数据处理装置可以通过该获取模块获取多个稀疏特征数据。

步骤402、对多个稀疏特征数据进行转换,得到多个稠密特征数据。

数据处理装置在获取到多个数据量较多的稀疏特征数据后,可以对多个稀疏特征数据进行转换,以得到数据量较少的多个稠密特征数据,且稠密特征数据的数据量远小于稀疏特征数据的数据量,后续数据处理装置对该多个稠密特征数据进行处理的效率高于数据处理装置对多个稀疏特征数据进行处理的效率。

如图3所示,数据处理装置中的程序模块还可以包括转换模块,在步骤402中数据处理装置可以通过该转换模块对获取模块获取到的多个稀疏特征数据进行转换,以得到多个稠密特征数据。

步骤403、自动对多个稠密特征数据进行高阶非线性组合处理,得到一组高阶数据。

在获取到多个稠密特征数据后,数据处理装置能够对输入的多个稠密特征数据进行高阶非线性组合处理,得到一组高阶数据,每个高阶数据与该多个稠密特征数据中的m个特征数据的非线性组合相关。其中,m为大于或等于3的任意一个整数,也即是,一组高阶数据可以包括:多个与至少三个特征数据的非线性组合相关的高阶数据。例如,m为5、6或7,此时,该一组高阶数据包括:与五个特征数据的非线性组合相关的高阶数据、与六个特征数据的非线性组合相关的高阶数据以及与七个特征数据的非线性组合相关的高阶数据。

可选的,数据处理装置中的程序模块还可以包括非线性处理模块,该非线性处理模块包括:高阶处理子模块,在步骤403中数据处理装置可以通过该高阶处理子模块自动对多个稠密特征数据进行高阶非线性组合处理,得到一组高阶数据。示例的,该高阶处理子模块可以为:基于深度神经网络(deepneuralnetwork,dnn)的处理子模块、基于分解机支持神经网络(factorization-machinesupportedneuralnetwork,fnn)的处理子模块或基于产品基神经网络(product-basedneuralnetwork,pnn)的处理子模块。

在第一种可实现方式中,如图3所示,高阶处理子模块可以为基于dnn的处理子模块,基于dnn的处理子模块可以包括多个级联的第一处理元0311。该基于dnn的处理子模块共包括h+1层的第一处理元(图3中示意性的示出了两层第一处理元0311),第一层的第一处理元与转换模块02以及非第一层的第一处理元相连接;第i层的第一处理元与第i-1层的第一处理元以及第i+1层的第一处理元相连接;第h+1层的第一处理元与第h层级的第一处理元以及该数据处理装置中最终用于确定预测数据的预测模块05相连接,i为大于1且小于h+1的整数,h为大于或等于1的整数。该转换模块02可以向第一层的第一处理元输入该多个稠密特征数据,每一层的第一处理元021均可以对输入的数据进行非线性组合处理,并将处理后得到的数据输入下一层的第一处理元021,第h+1层级的每个第一处理元能够在对输入的数据进行非线性组合处理后,向预测模块05输出一个高阶数据,每个高阶数据均与数据处理装置获取到的多个稠密特征数据中的m个特征数据的非线性组合相关。

需要说明的是,多个级连的第一处理元中,任意两个相连的第一处理元具有一个用于连接这两个第一处理元的连边,且该连边具有预设的权重;第h+1层的第一处理元与预测模块的连边以及第一层的第一处理元与转换模块的连边也具有预设的权重。每个第一处理元处理后的数据均为:由通过连边输入该第一处理元的数据以及该连边上的权重计算得到的数据。

在第二种可实现方式中,高阶处理子模块可以为基于dnn的处理子模块,基于dnn的处理子模块可以包括多个级联的第二处理元。假设该基于dnn的处理子模块共包括h+1层的第二处理元,该高阶处理子模块自动对多个稠密特征数据进行高阶非线性组合处理得到的一组高阶数据为其中,σ(x)是为激活函数,ah为以第h层级的第二处理元处理后数据为元素的向量,bh+1为第h+1层级的第二处理元的偏移项,wh+1为以第h层级的第二处理元与第h+1层级的第二处理元的连边上的权重为元素的矩阵。示例的,激活函数可以为sigmoid函数(也称s形函数)、修正线性单元(rectifiedlinearunits,relu)函数或双曲正切(tangentialhyperbolic,tanh)函数等激活函数。

第h层第二处理元共包括mh个第二处理元,且mh个第二处理元中每个第二处理元处理后得到的数据均为实数,第h+1层第二处理元共包括mh+1个第二处理元,且mh+1个第二处理元中每个第二处理元处理后得到的数据均为实数,第h层第二处理元与第h+1层第二处理元的连边上的所有权重共包括mh×mh+1个实数。l为大于或等于1,且小于或等于h的整数,al为以每个第l层的第二处理元处理后的数据为元素的向量,bl+1为第l+1层第二处理元的偏移项,wl+1为以第l层的第二处理元与第l+1层第二处理元的每个连边上的权重为元素的向量,al+1为以每个第l+1层的第二处理元处理后的数据为元素的向量,al+1=σ(wl+1al+bl+1)。

步骤404、自动对多个稠密特征数据进行低阶非线性组合处理,得到一组低阶数据。

在获取到多个稠密特征数据后,数据处理装置还能够对输入的多个稠密特征数据进行低阶非线性组合处理,得到一组低阶数据,每个低阶数据与该多个稠密特征数据中的n个特征数据的非线性组合相关。其中,n为大于或等于2,且小于m的任意一个整数。例如,m为5、6或7,此时,n可以为2、3或4,该一组低阶数据包括:与两个特征数据的非线性组合相关的低阶数据、与三个特征数据的非线性组合相关的低阶数据以及与四个特征数据的非线性组合相关的低阶数据。

步骤405、自动对多个稠密特征数据进行线性组合处理,得到一组第一辅助数据。

在获取到多个稠密特征数据后,数据处理装置还能够对输入的多个稠密特征数据进行线性组合处理,得到一组第一辅助数据,每个第一辅助数据与该多个稠密特征数据中的至少两个特征数据的线性组合相关。示例的,一组第一辅助数据可以包括:与两个特征数据的线性组合相关的第一辅助数据、与三个特征数据的线性组合相关的第一辅助数据以及与四个特征数据的线性组合相关的第一辅助数据。

需要说明的是,在步骤404中数据处理装置可以通过数据处理装置中的低阶处理子模块自动对多个稠密特征数据进行低阶非线性组合处理,得到一组低阶数据。在步骤405中数据处理装置可以通过数据处理装置中的线性处理模块自动对多个稠密特征数据进行线性组合处理,得到一组第一辅助数据。

进一步的,图4所示的数据处理装置中的程序模块还可以包括基于fm的处理模块或基于ffm的处理模块,该基于fm的处理模块包括:低阶处理子模块032和线性处理模块04,基于ffm的处理模块包括:低阶处理子模块032和线性处理模块04。也即是,在执行步骤404和步骤405时,数据处理装置可以直接通过基于fm的处理模块或基于ffm的处理模块对多个稠密特征数据分别进行低阶非线性组合处理以及线性组合出来,以得到一组低阶数据和一组第一辅助数据。

在第一种可实现方式中,数据处理装置可以直接通过基于fm的处理模块对多个稠密特征数据分别进行低阶非线性组合处理以及线性组合,以得到一组低阶数据和一组第一辅助数据,该基于fm的处理模块处理得到的可以表示为:包括一组低阶数据和一组第一辅助数据。该一组低阶数据为该一组第一辅助数据为

其中,n为获取模块获取到的多个稠密特征数据的数量,va为该多个稠密特征数据中第a个特征数据的隐式向量,1≤a≤n-1,且va为具有指定维度,va中的每个元素均为实数,vb为该多个稠密特征数据中第b个特征数据的隐式向量,a+1≤b≤n,且vb具有指定维度,vb中的每个元素均为实数,xi,a为该多个稠密特征数据中的第a个特征数据,xi,b为该多个稠密特征数据中的第b个特征数据,xi,j为该多个稠密特征数据中的第j个特征数据,1≤j≤n,wj为该第j个特征数据的权重。

在第二种可实现方式中,数据处理装置可以直接通过基于ffm的处理模块对多个稠密特征数据分别进行低阶非线性组合处理以及线性组合,以得到一组低阶数据和一组第一辅助数据,该基于ffm的处理模块处理得到的可以表示为:包括一组低阶数据和一组第一辅助数据。该一组低阶数据为该一组第一辅助数据为

其中,函数fa表示该多个稠密特征数据中的第a个特征数据所处的域,函数fb表示输入该多个稠密特征数据中的第b个特征数据所处的域,为该多个稠密特征数据中第a个特征数据对fb的隐式向量,且为具有指定维度,中的每个元素均为实数,为该多个稠密特征数据中第b个特征数据对fa的隐式向量,且具有指定维度,中的每个元素均为实数。

步骤406、根据多个目标数据确定预测数据,该多个目标数据包括一组低阶数据、一组高阶数据和一组第一辅助数据。

在获取到一组低阶数据、一组高阶数据以及一组第一辅助数据后,数据处理装置就可以根据包括该一组低阶数据、一组高阶数据以及一组第一辅助数据的多个目标数据,确定预测数据。示例的,请继续参考图3,该数据处理装置中的程序模块还可以包括预测模块05,在步骤406中,数据处理装置可以通过该预测模块05确定预测数据,可选的,预测模块确定的预测数据可以为:

示例的,当步骤401中获取到的多个稀疏特征数据为应用的稀疏特征数据(包括用户的属性数据和应用的属性数据)时,步骤406中数据处理装置得到的预测数据可以用于表征该应用的图标的点击率。需要说明的是,如图1所示,服务器1(应用商城的服务器)可以通过数据处理装置0对用户以及应用商城中的每个应用进行分析,以确定该用户对应用商城中每个应用的图标的点击率,并根据每个应用的图标的点击率对多个应用进行排序,并相应的应用商城界面的信息发送给客户端2(应用商城的客户端),客户端2基于该信息显示应用商城界面,该界面中显示的应用的图标按照上述确定的顺序排布。

也即是,服务器1会针对每个用户,重新对所有的应用的图标进行排序,从而使得每个用户使用的应用商城的客户端中所有应用的排序均与该用户的属性特征相关,使应用的排序更能够符合每个用户的需求。例如,若应用商城包括四个应用,分别为应用q1、应用q2、应用q3和应用q4,数据处理装置在应用的稀疏特征数据进行处理后,确定用户对应用q1的图标的点击率最大,其次是应用q2的图标、应用q4的图标和应用q3的图标。则服务器可以将这四个应用的图标按照应用q1的图标、应用q2的图标、应用q3的图标和应用q4的图标的顺序进行排列,进而使得客户端显示的应用商城界面中的这四个应用的图标按照应用q1的图标、应用q2的图标、应用q3的图标和应用q4的图标的顺序排列。

进一步的,为了提高数据处理装置得到的预测数据的准确性,在数据处理装置执行步骤401之前,服务器可以获取多条训练数据,并可以通过训练装置根据该多条数据对数据处理装置进行训练,以调整数据处理装置在处理数据过程中使用到的权重。示例的,每条训练数据可以包括:一组稀疏特征数据和与该组稀疏特征数据对应的点击数据。

以用户p和应用q为例,一条训练数据中的一组稀疏特征数据可以包括:用户p的属性数据和应用q的属性数据,该条训练数据中的点击数据可以包括:用户p的标识、应用q的标识以及用于指示用户p是否对应用q的图标进行点击的指示数据。可选的,该条训练数据中的点击数据还可以包括:统计该条训练数据的时间、统计该条训练数据时的天气情况、统计该条训练数据时的交通情况、统计该条训练数据时的网络连接情况等统计该条训练数据时的上下文信息。用户p的标识可以为用户p的身份标识号(identification,id),应用q的标识也可以为应用q的id。

训练装置在对该数据处理装置进行训练时,可以首先向该数据处理装置中的获取模块输入多条训练数据中的多组稀疏特征数据,数据处理装置能够依次对输入的每组稀疏特征数据进行处理,得到一个预测数据,该预测数据用于指示用户是否会点击应用的图标。训练装置还能够将数据处理装置根据一组稀疏特征数据得到的预测数据与该组稀疏特征数据对应的点击数据进行比较,并判断该预测数据与该点击数据是否均指示:用户会点击应用的图标,或用户不会点击应用的图标。如果该预测数据与该点击数据不是同时指示:用户会点击应用的图标,或用户不会点击应用的图标,则该训练装置需要对数据处理装置处理数据的过程中使用到的权重进行调整。在通过训练装置对数据处理装置训练完毕后,该数据处理装置在处理数据的过程中使用到的权重已经经过了多次调整,数据处理装置能够对多个稀疏特征数据进行处理得到较准确的预测数据。

另外,在获取到多个特征数据后,如果对该多个特征数据中的一部分特征数据进行高阶非线性组合处理得到的高阶数据的个数为第一个数,对该多个特征数据中的另一部分特征数据进行低阶非线性组合处理得到的低阶数据的个数为第二个数,则最终确定预测数据所基于的目标数据的个数等于第一个数与第二个数之和。如果对该多个数据进行高阶非线性组合处理,则得到的高阶数据的个数大于第一个数,且对该多个数据也进行低阶非线性组合处理,则得到的低阶数据的个数大于第二个数,且最终确定预测数据所基于的目标数据的个数也大于第一个数与第二个数之和。也即是,在对多个特征数据分别进行高阶非线性组合处理以及低阶非线性组合处理时,最终确定预测数据所基于的目标数据的个数就会较多,预测数据的准确度就会越高。因此,本发明实施例中,在步骤403、步骤404和步骤405中均是对步骤402中得到的所有稠密特征数据进行处理,从而使得步骤406中确定预测数据所依据的目标数据较多,步骤406中得到的预测数据的准确度较高。

可选的,图3所示的数据处理装置中的程序模块还可以包括确定模块和经验处理模块,在步骤406之前,数据处理装置还可以通过该确定模块结合专家经验以及该多个稠密特征数据,确定x个经验特征数据,以及通过该经验处理模块自动对x个经验特征数据进行处理,以得到一组第二辅助数据。在步骤406中数据处理装置中的程序模块中的预测模块确定预测数据所依据的多个目标数据还可以包括:该一组第二辅助数据。也即是,该多个目标数据可以包括:一组高阶数据、一组低阶数据、一组第一辅助数据以及一组第二辅助数据。

示例的,x为大于或等于1的整数,x个经验特征数据包括:结合专家经验在多个稠密特征数据中获取到的数据,和/或,结合专家经验对多个稠密特征数据中的至少两个特征数据进行非线性组合处理得到数据。其中,当x=1时,第二辅助数据与一个经验特征数据相关,当x>1时,第二辅助数据与x个经验特征数据中的至少两个经验特征数据的线性组合相关,和/或,第二辅助数据与x个经验特征数据中的至少两个经验特征数据的非线性组合相关。

可选的,本发明实施例中提到的“专家”是指计算机技术领域的一个技术人员或多个技术人员,且“专家”知晓计算机技术领域所有的普通技术知识,并且能够获知计算机技术领域的现有技术,并且具有常规的实验手段能力。本发明实施例中提到的“专家经验”为“专家”确定出的“预设公式”。确定模块结合“专家经验”以及多个稠密特征数据,确定x个经验特征数据,包括:确定模块将多个稠密特征数据作为“预设公式”的自变量输入“预设公式”,预设公式得到的结果为x个经验特征数据。示例的,假设该多个稠密特征数据分别为:数据a1、数据a2、数据a3、数据a4、数据a5、数据a6、数据a7、数据a8、数据a9以及数据a10共10个数据。则确定模块可以结合专家经验在多个稠密特征数据中获取数据a1,作为一个经验特征数据;或者,确定模块可以结合专家经验对多个稠密特征数据中的数据a9和数据a10进行非线性组合处理得到一个经验数据;或者,确定模块获取数据a1并将数据a1作为一个经验特征数据,并且结合专家经验对数据a9和数据a10进行非线性组合处理得到另一个经验数据。

确定模块在得到x个经验特征数据后,经验处理单元还能够自动对x个经验特征数据进行处理,得到一组第二辅助数据。需要说明的是,当x=1时,该第二辅助数据与一个经验特征数据相关,当x>1时,第二辅助数据与x个经验特征数据中的至少两个经验特征数据的线性组合和/或非线性组合组合相关。示例的,当x>1时,该第二辅助数据与x个经验特征数据中至少两个经验特征数据的线性组合相关;或者该第二辅助数据与x个经验特征数据中至少两个经验特征数据的非线性组合相关;或者第二辅助数据同时与该至少两个经验特征数据的线性组合和非线性组合相关。可选的,该经验处理模块可以为基于对数几率回归(logisticregression,lr)的处理模块、基于fm的处理模块、基于ffm的处理模块或基于dnn的处理模块。

需要说明的是,经验处理模块在对多个稠密特征数据进行处理时,需要结合专家经验,但是非线性处理模块和线性处理模块在对多个稠密特征数据进行处理时,均不需要结合专家经验,就能够自动的对特征数据进行处理。

另外,为了对本发明实施例提供的数据处理装置得到的预测数据的准确度进行验证,本发明实施例使用了多条训练数据和多组检测数据,分别对本发明实施例提供的数据处理装置以及相关技术中的数据处理装置分别进行了多次实验。并采用受试者工作特征(receiveroperatingcharacteristiccurve,roc)曲线下的面积(areaundertheroccurve,auc)和损失函数(logloss)对本发明实施例中的数据处理装置与相关技术中的数据处理装置进行了比较。经过比较得知:本发明实施例提供的数据处理装置得到的预测数据的准确度高于相关技术中的数据处理装置得到的预测数据。

示例的,当需要对应用q的图标的点击率进行预测时,基于上述数据处理方法可知,数据处理装置可以获取应用q的多个稀疏特征数据,并对该多个稀疏特征数据进行转换,得到应用q的多个稠密特征数据。然后,数据处理装置再分别自动对应用q的多个稠密特征数据分别进行:高阶非线性组合处理、低阶非线性组合处理以及线性组合处理,得到一组高阶数据、一组低阶数据以及一组第一辅助数据。进一步的,数据处理装置还可以结合专家经验以及应用q的多个稠密特征数据,确定x个经验特征数据;以及自动对该x个经验特征数据进行处理,得到一组第二辅助数据。最后,数据处理装置根据包括该一组高阶数据、一组低阶数据、一组第一辅助数据以及一组第二辅助数据的多个目标数据,确定预测数据。该预测数据可以用于表征应用q的图标的点击率。

综上所述,本发明实施例提供了一种数据处理方法中,能够自动对特征数据进行两种不同的非线性组合处理(高阶非线性组合处理和低阶非线性组合处理)并得到两组处理数据。而相关技术中对特征数据进行一种非线性组合处理(高阶非线性组合处理)能够得到的一组处理数据(包括至少一个高阶数据)。也即是,本发明实施例得到的两组处理数据的数据量大于相关技术中得到的一组处理数据的数据量,且准确的预测需要基于大量的数据来实现,因此,本发明实施例中基于两组处理数据得到的预测数据的准确度高于相关技术中基于一组处理数据得到的预测数据的准确度。

进一步的,本发明实施例中确定预测数据所依据的目标数据还可以包括:一组第一辅助数据和一组第二辅助数据,也即是,本发明实施例中的目标数据可以包括:一组高阶数据、一组低阶数据、一组第一辅助数据和一组第二辅助数据共四组数据,从而进一步的增多了最终确定预测数据所基于的目标数据的个数,进一步提高了预测数据的准确度。

图5为本发明实施例提供的另一种数据处理装置的结构示意图,该数据处理装置可以为图1所示的数据处理装置,如图5所示,该数据处理装置50可以包括:

获取单元501,用于获取多个特征数据;

非线性处理单元502,用于自动对多个特征数据进行两种不同的非线性组合处理得到两组处理数据,其中,两组处理数据包括一组高阶数据和一组低阶数据,高阶数据与多个特征数据中m个特征数据的非线性组合相关,低阶数据与多个特征数据中n个特征数据的非线性组合相关,m≥3,m>n≥2;

预测单元503,用于根据多个目标数据确定预测数据,多个目标数据包括两组处理数据。

综上所述,本发明实施例提供了一种数据处理装置,非线性处理单元能够自动对特征数据进行两种不同的非线性组合处理(高阶非线性组合处理和低阶非线性组合处理)并得到两组处理数据。而相关技术中对特征数据进行一种非线性组合处理(高阶非线性组合处理)能够得到的一组处理数据(包括至少一个高阶数据)。也即是,本发明实施例得到的两组处理数据的数据量大于相关技术中得到的一组处理数据的数据量,且准确的预测需要基于大量的数据来实现,因此,本发明实施例中基于两组处理数据得到的预测数据的准确度高于相关技术中基于一组处理数据得到的预测数据的准确度。

可选的,请继续参考图5,该非线性处理单元502可以包括:

高阶处理子单元5021,用于自动对多个特征数据进行高阶非线性组合处理,得到一组高阶数据;

低阶处理子单元5022,用于自动对多个特征数据进行低阶非线性组合处理,得到一组低阶数据。

可选的,图6为本发明实施例提供的又一种数据处理装置的结构示意图,如图6所示,在图5的基础上,该数据处理装置50还可以包括:

线性处理单元504,用于自动对多个特征数据进行线性组合处理,得到一组第一辅助数据,第一辅助数据与多个特征数据中的至少两个特征数据的线性组合相关,多个目标数据还包括:至少一个第一辅助数据。

可选的,数据处理装置还包括:基于因子分解机fm的处理模块或基于域感知分解机ffm的处理模块,其中,基于fm的处理模块包括:低阶处理子单元和线性处理单元,基于ffm的处理模块包括:低阶处理子单元和线性处理单元。

可选的,图7为本发明实施例提供的再一种数据处理装置的结构示意图,如图7所示,在图5的基础上,该数据处理装置50还可以包括:

确定单元505,结合专家经验以及多个特征数据,确定x个经验特征数据,x≥1,x个经验特征数据包括:结合专家经验在多个特征数据中获取到的数据,和/或,结合专家经验对多个特征数据中的至少两个特征数据进行非线性组合处理得到数据;

经验处理单元506,用于自动对x个经验特征数据进行处理,得到一组第二辅助数据,多个目标数据还包括:一组第二辅助数据,其中,当x=1时,第二辅助数据与一个经验特征数据相关,当x>1时,第二辅助数据与所述x个经验特征数据中的至少两个经验特征数据的线性组合相关,和/或,第二辅助数据与所述x个经验特征数据中的至少两个经验特征数据的非线性组合相关。

多个特征数据为多个稀疏特征数据,图8为本申请另一实施例提供的一种数据处理装置的结构示意图,如图8所示,在图5的基础上,该数据处理装置50还可以包括:

转换单元507,用于将多个稀疏特征数据,转换为多个稠密特征数据;

该非线性处理单元502还可以用于:自动对多个稠密特征数据进行两种不同的非线性组合处理得到两组处理数据。

综上所述,本发明实施例提供了一种数据处理装置,非线性处理单元能够自动对特征数据进行两种不同的非线性组合处理(高阶非线性组合处理和低阶非线性组合处理)并得到两组处理数据。而相关技术中对特征数据进行一种非线性组合处理(高阶非线性组合处理)能够得到的一组处理数据(包括至少一个高阶数据)。也即是,本发明实施例得到的两组处理数据的数据量大于相关技术中得到的一组处理数据的数据量,且准确的预测需要基于大量的数据来实现,因此,本发明实施例中基于两组处理数据得到的预测数据的准确度高于相关技术中基于一组处理数据得到的预测数据的准确度。

进一步的,本发明实施例中确定预测数据所依据的目标数据还可以包括:线性处理单元得到的一组第一辅助数据和经验处理单元得到的一组第二辅助数据,也即是,本发明实施例中的目标数据可以包括:一组高阶数据、一组低阶数据、一组第一辅助数据和一组第二辅助数据共四组数据,从而进一步的增多了最终确定预测数据所基于的目标数据的个数,进一步提高了预测数据的准确度。

在上述实施例中,能够全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,能够全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机能够是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令能够存储在计算机的可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令能够从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质能够是计算机能够存取的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质能够是磁性介质(例如,软盘、硬盘、磁带)、光介质,或者半导体介质(例如固态硬盘)等。

本发明实施例中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

需要说明的是,本发明实施例提供的方法实施例能够与相应的装置实施例相互参考,本发明实施例对此不做限定。本发明实施例提供的方法实施例步骤的先后顺序能够进行适当调整,步骤也能够根据情况进行相应增减,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本发明实施例的保护范围之内,因此不再赘述。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1