基于神经网络的数据处理方法、介质、装置和计算设备与流程

文档序号:13095274阅读:182来源:国知局
基于神经网络的数据处理方法、介质、装置和计算设备与流程

本发明的实施方式涉及计算机领域,更具体地,本发明的实施方式涉及一种基于神经网络的数据处理方法、介质、装置和计算设备。



背景技术:

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

bp(backpropagation,反向传递)神经网络是目前应用较为广泛的神经网络之一,是一种按误差逆传播算法训练的多层前馈网络。bp神经网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用梯度下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。bp神经网络模型拓扑结构包括输入层(inputlayer)、隐层(hiddenlayer)和输出层(outputlayer)。如图1所示。

bp神经网络学习训练是一种误差反传误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过输出层,使用梯度下降法修正各层权值,向隐层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。

目前的bp神经网络训练方法通常是使用随机值初始化各隐层节点的权值,然后使用梯度下降法向隐层、输入层逐层反传来不断调整网络的权值,最终达到实际输出与期望输出相符或者相近。



技术实现要素:

但是,出于为了达到实际输出与期望输出相符或者相近的原因,现有技术在特征数据(输入信息)较多,通过随机值初始化的方式进行误差反传误差反向传播算法的学习时,在正向传播的过程中需要较长时间进行大量随机数不断调整各层权值。

因此在现有技术中,训练神经网络模型的效率较低这是非常令人烦恼的过程。

为此,非常需要一种改进的基于神经网络的数据处理方法、介质、装置和计算设备,以解决训练神经网络模型效率较低的问题。

在本上下文中,本发明的实施方式期望提供一种基于神经网络的数据处理方法、介质、装置以及计算设备。

在本发明实施方式的第一方面中,提供了一种基于神经网络的数据处理方法,包括:获取训练特征数据样本s,所述s包括至少一组特征数据组,所述特征数据组包括至少两个特征信息对应的特征数据和目标变量;

通过所述s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的模型最终权值,所述n为大于1的整数,所述n个隐层节点的模型最终权值为n个隐层节点的初始化权值通过反向传递backpropagation算法得到的系数值;

根据所述n个隐层节点的模型最终权值以及所述s中的特征信息,确定目标神经网络模型,所述目标神经网络模型为代入所述s中的任意一组特征信息对应的特征数据时,得到的目标概率y与其对应的目标变量之间的均方误差值或对数损失函数值小于预定值的神经网络模型。

在本发明的一个实施例中,所述还包括,包括:

设定预定概率yp;

通过线性回归方式和所述预定概率yp在所述s中选取子样本,在所述子样本上通过所述子样本的特征数据和目标变量得到线性回归系数,将所述线性回归系数作为所述n个隐层节点的初始化权值。

在本发明的另一实施例中,所述通过线性回归方式和所述预定概率在所述s中选取子样本,在所述子样本上通过所述子样本的特征数据和目标变量得到线性回归系数,将所述线性回归系数作为所述n个隐层节点的初始化权值,包括:

根据所述s中的每组特征信息对应的特征数据和目标变量,确定第一logistic回归模型lm1,和所述第一logistic回归模型系数w1;

使用所述lm1计算所述s中的每组特征数据对应的目标概率,提取目标概率小于等于所述yp的特征数据组作为训练特征数据样本s1,s1∈s;

根据所述s1中的每组特征信息对应的特征数据和目标变量,确定第二logistic回归模型lm2,和所述第二logistic回归模型系数w2;

使用所述w1和w2作为2个隐层节点的初始权值,确定第一神经网络模型nnet(h1,h2);

使用所述nnet(h1,h2)计算所述s的每组特征数据对应的目标概率,提取目标概率小于所述yp的特征数据组作为训练特征数据样本s2,s2∈s;

根据所述s2中的每组特征信息对应的特征数据和目标变量,确定第三logistic回归模型lm3,和所述第三logistic回归模型系数w3;

使用所述nnet(h1,h2)的w′1、w′2和所述w3作为3个隐层节点的初始权值,确定第二神经网络模型nnet(h1,h2,h3);

使用所述nnet(h1,h2,h3)计算所述s的每组特征数据对应的目标概率,提取目标概率小于所述yp的特征数据组作为训练特征数据样本s3,s3∈s;

以此类推,直到得到的第n神经网络模型nnet(h1,h2,h3,……,hn)计算训练特征数据样本sn的目标概率与所述预定概率之间的差值小于等于预定值时,确定所述w′1、w′2、w′3、……、w′n-1、wn作为所述n个隐层节点的初始权值,所述wn为第nlogistic回归模型lmn对应的第nlogistic回归模型系数wn。

在本发明的又一个实施例中,所述根据所述n个隐层节点的初始化权值以及所述s中的特征信息,生成目标神经网络模型,包括:

确定所述第n神经网络模型nnet(h1,h2,h3,……,hn)为所述目标神经网络模型。

在本发明的再一个实施例中,在所述获取训练特征数据样本s之前,所述方法还包括:

确定目标场景,所述目标场景为通过所述目标神经网络模型计算特征对象的匹配率的场景,所述特征对象为使用所述目标场景的对象;

确定所述特征对象的标签属性,将所述特征对象的标签属性作为特征信息x;

确定所述目标场景的标签属性,将所述目标场景的标签属性作为特征信息y。

在本发明的再一个实施例中,所述获取训练特征数据样本s,包括:

获取至少一个特征对象针对所述目标场景进行的目标操作,所述目标操作为所述特征对象使用所述目标场景的操作;

将所述目标操作量化为目标变量;

获取每个特征对象包含的标签属性信息,将每个特征对象包含的标签属性信息量化为所述x对应的特征数据;

获取所述目标场景包含的标签属性信息,将所述目标场景包含的标签属性信息量化为所述y对应的特征数据,其中,一个特征对象对应一组特征数据组。

在本发明的再一个实施例中,每组特征数据组包含的特征信息相同。

在本发明实施方式的第二方面中,提供了一种介质,其上存储有程序,该程序被处理器执行时实现上述方法实施方式中的各步骤,例如,获取训练特征数据样本s,所述s包括至少一组特征数据组,所述特征数据组包括至少两个特征信息对应的特征数据和目标变量;通过所述s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的模型最终权值,所述n为大于1的整数,所述n个隐层节点的模型最终权值为n个隐层节点的初始化权值通过反向传递backpropagation算法得到的系数值;根据所述n个隐层节点的模型最终权值以及所述s中的特征信息,确定目标神经网络模型,所述目标神经网络模型为代入所述s中的任意一组特征信息对应的特征数据时,得到的目标概率y与其对应的目标变量之间的均方误差值或对数损失函数值小于预定值的神经网络模型。

在本发明实施方式的第三方面中,提供了一种基于神经网络的数据处理装置,包括:获取模块,用于获取训练特征数据样本s,所述s包括至少一组特征数据组,所述特征数据组包括至少两个特征信息对应的特征数据和目标变量;

第一确定模块,用于通过所述s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的模型最终权值,所述n为大于1的整数,所述n为大于1的整数,所述n个隐层节点的模型最终权值为n个隐层节点的初始化权值通过反向传递backpropagation算法得到的系数值;

第二确定模块,用于根据所述n个隐层节点的模型最终权值以及所述s中的特征信息,确定目标神经网络模型,所述目标神经网络模型为代入所述s中的任意一组特征信息对应的特征数据时,得到的目标概率y与其对应的目标变量之间的均方误差值或对数损失函数值小于预定值的神经网络模型。

在本发明实施方式的第四方面中,提供了一种计算设备,主要包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,下述指令被运行:获取训练特征数据样本s,所述s包括至少一组特征数据组,所述特征数据组包括至少两个特征信息对应的特征数据和目标变量的指令;通过所述s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的模型最终权值,所述n为大于1的整数,所述n个隐层节点的模型最终权值为n个隐层节点的初始化权值通过反向传递backpropagation算法得到的系数值;根据所述n个隐层节点的模型最终权值以及所述s中的特征信息,确定目标神经网络模型,所述目标神经网络模型为代入所述s中的任意一组特征信息对应的特征数据时,得到的目标概率y与其对应的目标变量之间的均方误差值或对数损失函数值小于预定值的神经网络模型。

在本发明的一个实施例中,还包括指令:用于设定预定概率yp的指令;通过线性回归方式和所述预定概率yp在所述s中选取子样本,在所述子样本上通过所述子样本的特征数据和目标变量得到线性回归系数,将所述线性回归系数作为所述n个隐层节点的初始化权值的指令。

在本发明的另一个实施例中,所述通过线性回归方式和所述预定概率在所述s中选取子样本,在所述子样本上通过所述子样本的特征数据和目标变量得到线性回归系数,将所述线性回归系数作为所述n个隐层节点的初始化权值的指令包括:用于根据所述s中的每组特征信息对应的特征数据和目标变量,确定第一logistic回归模型lm1,和所述第一logistic回归模型系数w1;使用所述lm1计算所述s中的每组特征数据对应的目标概率,提取目标概率小于等于所述yp的特征数据组作为训练特征数据样本s1,s1∈s;根据所述s1中的每组特征信息对应的特征数据和目标变量,确定第二logistic回归模型lm2,和所述第二logistic回归模型系数w2;使用所述w1和w2作为2个隐层节点的初始权值,确定第一神经网络模型nnet(h1,h2);使用所述nnet(h1,h2)计算所述s的每组特征数据对应的目标概率,提取目标概率小于所述yp的特征数据组作为训练特征数据样本s2,s2∈s;根据所述s2中的每组特征信息对应的特征数据和目标变量,确定第三logistic回归模型lm3,和所述第三logistic回归模型系数w3;使用所述nnet(h1,h2)的w′1、w′2和所述w3作为3个隐层节点的初始权值,确定第二神经网络模型nnet(h1,h2,h3),所述w′1是所述w1通过反向传递backpropagation算法得到的系数值,所述w′2是所述w2通过反向传递backpropagation算法得到的系数值;使用所述nnet(h1,h2,h3)计算所述s的每组特征数据对应的目标概率,提取目标概率小于所述yp的特征数据组作为训练特征数据样本s3,s3∈s;以此类推,直到得到的第n神经网络模型nnet(h1,h2,h3,……,hn)计算训练特征数据样本sn的目标概率与所述预定概率之间的差值小于等于预定值时,确定所述w′1、w′2、w′3、……、w′n-1、wn作为所述n个隐层节点的初始权值,所述wn为第nlogistic回归模型lmn对应的第nlogistic回归模型系数wn。

在本发明的又一个实施例中,所述计算设备还包括:用于确定所述第n神经网络模型nnet(h1,h2,h3,……,hn)为所述目标神经网络模型的指令。

在本发明的再一个实施例中,所述计算设备还包括:用于确定目标场景的指令,所述目标场景为通过所述目标神经网络模型计算特征对象的匹配率的场景的指令,所述特征对象为使用所述目标场景的对象;确定所述特征对象的标签属性,将所述特征对象的标签属性作为特征信息x的指令;确定所述目标场景的标签属性,将所述目标场景的标签属性作为特征信息y的指令。

在本发明的再一个实施例中,所述获取训练特征数据样本s指令包括:用于获取至少一个特征对象针对所述目标场景进行的目标操作,所述目标操作为所述特征对象使用所述目标场景的操作;将所述目标操作量化为目标变量;获取每个特征对象包含的标签属性信息,将每个特征对象包含的标签属性信息量化为所述x对应的特征数据;获取所述目标场景包含的标签属性信息,将所述目标场景包含的标签属性信息量化为所述y对应的特征数据,其中,一个特征对象对应一组特征数据组。

在本发明的再一个实施例中,每组特征数据组包含的特征信息相同。

本发明实施例提供的一种基于神经网络的数据处理方法、介质、装置和计算设备,通过获取训练特征数据样本s;以及通过该s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的模型最终权值;根据该n个隐层节点的模型最终权值以及该s中的特征信息,确定目标概率y与其对应的目标变量之间的差值小于预定值的目标神经网络模型。与现有技术中随机初始化权值,导致训练神经网络模型的效率低的问题相比,本发明通过优先确定隐层节点的初始化权值,从而减少反复随机赋值初始化权值的时间,从而提高神经网络模型的训练效率。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

图1示意性地示出了背景技术中bp神经网络模型的拓扑结构示意图;

图2示意性地示出了根据本发明一实施例的计算机实现的基于神经网络的数据处理方法的流程图;

图3示意性地示出了根据本发明另一实施例的实施例的计算机实现的基于神经网络的数据处理方法的流程图;

图4示意性地示出了根据本发明又一实施例的实施例的计算机实现的基于神经网络的数据处理方法的流程图;

图5示意性地示出了根据本发明再一实施例的实施例的计算机实现的基于神经网络的数据处理方法的流程图;

图6示意性地示出了根据本发明一实施例的介质的示意图;

图7示意性地示出了根据本发明一实施例的装置的结构示意图;

图8示意性地示出了根据本发明一实施例的计算设备的结构示意图。

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。

根据本发明的实施方式,提出了一种基于神经网络的数据处理方法、介质、装置和计算设备。

在本文中,需要理解的是,所涉及的术语为了帮助理解,在此进行简单描述。

bp神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用较为广泛的神经网络之一。

bp神经网络模型是一种真正能够使用的人工神经网络模型,用于数据概率的预测。

logistic回归模型是一种广义的线性回归分析模型,用于数据概率的预测,在本发明中用于进行数据挖掘。

训练特征数据样本用于对bp神经网络模型进行训练,通过该样本中的数据,可以得到训练模型(bp神经网络模型、logistic回归模型)。

此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。

下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。

发明概述

本发明人发现,现有技术在训练神经网络模型(如bp神经网络模型)时,因神经网络训练结果受初始值影响较大,为取得良好训练效果,需要尝试遍历各种不同初始值,在特征数据(输入信息)较多,需要较长时间用于训练,效率低。而通过本方法提前确定各层的一组较好的初始值,可以避免遍历各种不同初始值导致训练模型时间长,效率低的问题。

在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

现代广告系统除了帮助广告主投放广告外,一个重要的工作是提升广告效果,通常是点击率,提升平台和广告主的收益。目前广告系统都会采用一些精准定向的技术,通过模型事先判断用户对广告是否感兴趣,来决定广告的投放。因此需要提前对用户是否会点击广告进行建模预测。建模的方式可以通过获取训练特征数据样本s,该训练特征数据样本s包括至少一组特征数据组,该特征数据组包括至少两个特征信息对应的特征数据和目标变量;通过该训练特征数据样本s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的初始化权值,n为大于1的整数;根据n个隐层节点的初始化权值以及s中的特征信息,生成目标神经网络模型,目标神经网络模型为代入s中特征信息对应的特征数据时,得到的目标概率y与其对应的目标变量之间的均方误差(或logloss)小于预定值的神经网络模型。通过该目标神经网络模型来预测用户对广告是否会点击。

示例性方法

下面结合图2至图5的应用场景,参考图2至图5来描述根据本发明示例性实施方式的用于基于神经网络的数据处理方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明实施方式的用于基于神经网络的数据处理方法的流程示意图。如图2所示,该方法包括:

s201,获取训练特征数据样本s。

该s包括至少一组特征数据组,特征数据组包括至少两个特征信息对应的特征数据和目标变量。

其中,s中包括用于训练神经网络模型的数据。例如,当需要建立提升广告效果的模型时,需要的数据为用户以及广告的信息,如,用户的信息可以为用户的性别、年龄、地域、访问时段等;广告的信息可以为广告类型(文字、图片、视频)、广告分类、广告位尺寸、广告内容等。

s202,通过s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的模型最终权值。

其中,n为大于1的整数,所述n个隐层节点的模型最终权值为n个隐层节点的初始化权值通过反向传递backpropagation算法得到的系数值。

s203,根据n个隐层节点的模型最终权值以及s中的特征信息,确定目标神经网络模型。

目标神经网络模型为代入s中特征信息对应的特征数据时,得到的目标概率y与其对应的目标变量之间的均方误差或对数损失函数值小于预定值的神经网络模型。

目标概率y用于建立神经网络模型的训练概率,也是建立神经网络模型达到的最终效果,这里的最终效果是预测目标的概率。例如,如上述举例说明的广告系统确定用户对广告的点击概率。

本发明实施例提供的一种基于神经网络的数据处理方法,通过获取训练特征数据样本s;以及通过该s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的模型最终权值初始化权值;根据该n个隐层节点的模型最终权值初始化权值以及该s中的特征信息,确定目标概率y与其对应的目标变量之间的均方误差值小于预定值的目标神经网络模型。与现有技术中用多次不同随机取值初始化,需要训练许多个模型相比,本发明通过优先确定隐层节点的初始化权值,减少训练模型的时间,提高神经网络模型的稳定性和效率。

为了方便理解,本发明还提供一种基于神经网络的数据处理方法,如图3所示,该方法还包括:通过s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的初始化权值,其中实现方式包括:

s301,设定预定概率yp。

首先,需要说明的是,步骤中预定概率yp用于筛选出s中目标变量(预测概率)低于yp的子样本。

s302,通过(广义)线性回归方式和预定概率yp在s中选取子样本,在子样本上通过子样本的特征数据和目标变量得到线性回归系数,将线性回归系数作为n个隐层节点的初始化权值。

此步骤主要通过线性回归方式来确定n个隐层节点的初始化权值,具体包括:

第一步,根据s中的每组特征信息对应的特征数据和目标变量,确定第一logistic回归模型lm1,和第一logistic回归模型系数w1。

其中,logistics回归模型为;

z=a0+a1x1+a2x2+a3x3+…+anxn(公式2)

其中,公式2代入公式1中,针对s中包括的至少一组特征数据组来说,f(z)为每组特征数据组中的目标变量为1的概率,x1、x2、x3、……、xn为每组特征信息中的特征数据,每一个xn代表一项特征数据,a0、a1、a2、……、an为系数。本步骤中,通过将s中的每一组特征数据组中的数据(特征数据和目标变量)代入公式2中,确定a0、a1、a2、……、an,进而确定公式1。

具体的,第一logistic回归模型lm1为;

第一logistic回归模型系数w1为(a0、a1、a2、……、an)。

第二步,使用lm1计算s中的每组特征数据对应的目标概率,提取目标概率小于等于yp的特征数据组作为训练特征数据样本s1,s1∈s。

将s中的每组特征数据(至少两个特征信息对应的数据)代入公式3中,确定f(z1)的值,当代入数据得到的f(z1)的值小于等于yp时,保留该特征数据组,代入数据得到的f(z1)的值大于yp时,删除该特征数据组;保留下来的特征数据组作为训练特征数据样本s1。

需要说明的是,f(z1)的值为此步骤中描述的目标概率。

第三步,根据s1中的每组特征信息对应的特征数据和目标变量,确定第二logistic回归模型lm2,和第二logistic回归模型系数w2。

根据上述第一步中的描述,本步骤不再一一赘述。具体为:

第二logistic回归模型lm2为;

第二logistic回归模型系数w2为(b0、b1、b2、……、bn)。

第四步,使用w1和w2作为2个隐层节点的初始权值,初始化第一神经网络模型nnet(初)(h1,h2),

此时开始建立有2个隐层节点的神经网络,用w1和w2作为此神经网络(第一神经网络)h1,h2两个隐层节点输入初始权值,(-1,1,1)作为常数项,h1,h2到输出的初始权值,

kh=(-1,1,1)*(1,h1,h2)=-1+h1+h2(公式7)

其中,x为(1,x1,x2,x3,……,xn);w1为(a0、a1、a2、……、an);w2为(b0、b1、b2、……、bn)。用backpropagation算法计算得到第一神经网络模型nnet(h1,h2)。第一神经网络模型nnet(h1,h2)表示如下:

其中,k′是k通过backpropagation算法计算得到的向量。第一神经网络模型nnet(h1,h2)的模型最终权值是:w′1,w′2。

第五步,使用nnet(h1,h2)计算s的每组特征数据对应的目标概率,提取目标概率小于yp的特征数据组作为训练特征数据样本s2,s2∈s。

此步骤与第二步性质相同,均为了得到子样本。

具体为:

将s中的每组特征数据(至少两个特征信息对应的数据)代入公式8-2中,确定nnet(h1,h2)的值,当代入数据得到的nnet(h1,h2)的值小于等于yp时,保留该特征数据组,代入数据得到的nnet(h1,h2)的值大于yp时,删除该特征数据组;保留下来的特征数据组作为训练特征数据样本s2。

需要说明的是,nnet(h1,h2)的值为此步骤中描述的目标概率。

第六步,根据s2中的每组特征信息对应的特征数据和目标变量,确定第三logistic回归模型lm3,和第三logistic回归模型系数w3。

根据上述第一步中的描述,本步骤不再一一赘述。具体为:

第三logistic回归模型lm3为;

第三logistic回归模型系数w3为(c0、c1、c2、……、cn)。

第七步,使用w1、w2和w3作为3个隐层节点的初始权值,初始化第二神经网络模型nnet(初)(h1,h2,h3)。

此时开始初始化有3个隐层节点的神经网络,使用nnet(h1,h2)的2个隐层节点参数(w′1和w′2)和logistic回归模型系数w3作为此神经网络(第二神经网络)输入到三个隐层节点h1,h2,h3的初始权值,用nnet(h1,h2)的输出权值(常系数、h1,h2的输出)和1作为h1,h2,h3的输出初始权值,

kh=(k0,k1,k2,1,)*(1,h1,h2,h3)=k0+k1*h1+k2*h2+k3*h3

(公式11)

其中,k0,k1,k2为nnet(h1,h2)的常系数,k3=1。x为(1,x1,x2,x3,……,xn);w′1为nnet(h1,h2)的(a0、a1、a2、……、an);w′2为nnet(h1,h2)的(b0、b1、b2、……、bn);w3为(c0、c1、c2、……、cn)。

用backpropagation算法计算得到第二神经网络模型nnet(h1,h2,h3)。

第八步,使用nnet(h1,h2,h3)计算s的每组特征数据对应的目标概率,提取目标概率小于yp的特征数据组作为训练特征数据样本s3,s3∈s。

第九步,以此类推,当得到的第n-1神经网络模型nnet(h1,h2,h3,……,hn-1)时抽取训练特征数据样本s的目标概率与预测概率小于等于yp的样本sn,采用nnet(h1,h2,h3,……,hn-1)的w′1、w′2、w′3、……、w′n-1wn-1作和wn作为n个隐层节点的初始权值,wn为sn样本上建立第nlogistic回归模型lmn对应的第nlogistic回归模型系数wn,来训练得到nnet(h1,h2,h3,……,hn)。直到nnet(h1,h2,h3,……,hn)均方误差(或logloss)满足要求或无法进一步改善。、

可以理解的是,所述w′3是所述w3通过反向传递backpropagation算法得到的系数值,所述w′n-1是所述w2通过反向传递backpropagation算法得到的系数值

本发明不限制目标概率yp的具体值,不同的应用场景对应的误差值不同。

对应的,在得到第n神经网络模型nnet(h1,h2,h3,……,hn)之后,将第n神经网络模型nnet(h1,h2,h3,……,hn)确定为目标神经网络模型。

一般在训练神经网络模型时,都是需要获取特征信息,通过特征信息来训练符合预期的神经网络模型。

进一步可选的,如图4所示,在s201之前还可以包括:

s401,确定目标场景,目标场景为通过目标神经网络模型计算特征对象的匹配率的场景,特征对象为使用目标场景的对象。

举例来说,目标场景可以是广告系统中判断广告点击率的广告。特征对象对应为查看广告的用户。

s402,确定特征对象的标签属性,将特征对象的标签属性作为特征信息x。

在确定了特征对象之后,确定特征对象的标签属性。特征对象的标签属性用于标识特征对象的身份信息和/或兴趣爱好信息。

例如,特征信息x可以包括用户性别、用户年龄、用户地域、用户访问时间、用户购物偏好、用户兴趣领域信息等。

s403,确定目标场景的标签属性,将目标场景的标签属性作为特征信息y。

在确定目标场景之后,确定目标场景的标签属性。目标场景的标签属性用于标识目标场景的受关注的信息。

例如,当目标场景是某一只广告时,该目标场景对应的特征信息y可以包括广告分类、广告主行业、广告内容、媒体类型、广告位尺寸、上下文内容。

需要说明的是,在图4示出的步骤中,是在图3的基础上进行的扩展,本发明实施例不限于此,比如,还提供一种基于神经网络的数据处理方法,包括s401、s402、s403、s201、s202、s203。

通常,在确定上述特征信息(包括特征信息x和特征信息y)之后,在确定目标场景之后,该获取针对该目标场景的训练特征数据样本s。如图5所示,获取训练特征数据样本s的具体包括:

s2011,获取至少一个特征对象针对目标场景进行的目标操作,目标操作为特征对象使用目标场景的操作。

s2012,将目标操作量化为目标变量。

比如,当用户点击该广告时,目标变量为1,;当用户未点击该广告时,目标变量为0。

s2013,获取每个特征对象包含的标签属性信息,将每个特征对象包含的标签属性信息量化为x对应的特征数据。

针对上述举例来说,特征信息x可以包括用户性别、用户年龄、用户地域、用户访问时间、用户购物偏好、用户兴趣领域信息等。

首先,需要预先建立特征信息x以及上述提到的特征信息y包括的特征进行量化映射关系。

简单以用户性别和用户年龄举例来说,用户性别中,男性为1,女性为0。当用户性别为男性时,该用户性别=1。

在用户年龄中,可以直接将用户年龄作为量化数字,如年龄为25岁,用户年龄=25。或者可以将用户年龄段进行量化,如年龄在0-10岁时,用户年龄=1;年龄在11-15岁时,用户年龄=2;年龄在16-20岁时,用户年龄=3;年龄在21-25岁时,用户年龄=4;年龄在30-35岁时,用户年龄=5;年龄在36-40岁时,用户年龄=5;年龄在41-50岁时,用户年龄=6;年龄在51-60岁时,用户年龄=7;年龄在61-80岁时,用户年龄=8。

在针对特征信息建立特征信息量化映射关系后,将获取到的关于特征对象的特征信息x后,针对特征信息建立特征信息量化映射关系,对特征信息x进行量化,确定特征信息x对应的特征数据。

s2014,获取目标场景包含的标签属性信息,将目标场景包含的标签属性信息量化为y对应的特征数据,其中,一个特征对象对应一组特征数据组。

同理,目标场景包含的标签属性信息量化为y对应的特征数据与s2013中描述的确定特征信息x对应的特征数据相同,这里不再一一赘述。

另外,需要说明的是,通过上述的描述可以看出,训练特征数据样本s中的每组特征数据组包含的特征信息相同。

需要说明的是,在图5示出的步骤中,是在图2的基础上进行的扩展,本发明实施例不限于此,比如,还提供一种基于神经网络的数据处理方法,包括s401、s402、s403、s2011、s2012、s2013、s2014、s202、s203;以及,还可以包括s401、s402、s403、s2011、s2012、s2013、s2014、s2021、s2022、s203;以及,还可以包括s2011、s2012、s2013、s2014、s2021、s2022、s203。

值得需要说明的是,s2013和s2014之间没有先后顺序,可以先执行s2013,后执行s2014;可以先执行s2014,后执行s2013;也可以同时执行s2013和s2014。

综上所述,与现有技术中随机初始化权值,导致训练神经网络模型的效率低的问题相比,本发明通过优先确定隐层节点的初始化权值,从而减少反复随机赋值初始化权值的时间,从而提高神经网络模型的训练效率。

示例性介质

在介绍了本发明示例性实施方式的方法之后,接下来,参考图6对本发明示例性实施方式的、用于实现上述方法实施方式中所记载的各步骤的介质进行说明。

图6的介质为光盘600,其上存储有计算机程序(即程序产品),该程序被处理器执行时,会实现上述方法实施方式中所记载的各步骤,例如,获取训练特征数据样本s,s包括至少一组特征数据组,特征数据组包括至少两个特征信息对应的特征数据和目标变量;通过s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的模型最终权值,n为大于1的整数,n个隐层节点的模型最终权值为n个隐层节点的初始化权值通过反向传递backpropagation算法得到的系数值;根据n个隐层节点的模型最终权值以及s中的特征信息,确定目标神经网络模型,目标神经网络模型为代入s中的任意一组特征信息对应的特征数据时,得到的目标概率y与其对应的目标变量之间的均方误差值或对数损失函数值小于预定值的神经网络模型。各步骤的具体实现方式在此不再重复说明。

示例性装置

在介绍了本发明示例性实施方式的介质之后,接下来,参考图7对本发明示例性实施方式的计算机实现的基于神经网络的数据处理装置进行说明。

参见图7,示意性地示出了根据本发明一实施例的计算机实现的基于神经网络的数据处理装置的结构示意图,该装置通常设置于可以运行计算机程序的设备中,例如,本发明实施例中的该装置可以设置于台式计算机或者服务器等设备中,当然,该装置也可以设置于笔记型计算机甚至平板电脑等设备中。

本发明实施方式的装置主要包括:获取模块701、第一确定模块702、第二确定模块703。下面对该装置所包括的各个模块及单元分别进行说明。

获取模块701,主要用于获取训练特征数据样本s,所述s包括至少一组特征数据组,所述特征数据组包括至少两个特征信息对应的特征数据和目标变量。

第一确定模块702,主要用于通过所述s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的初始化权值,所述n为大于1的整数。

第二确定模块703,主要用于根据所述n个隐层节点的初始化权值以及所述s中的特征信息,生成目标神经网络模型,所述目标神经网络模型为代入所述s中的任意一组特征信息对应的特征数据时,得到的目标概率y与其对应的目标变量之间的差值小于预定值的神经网络模型。

各模块所执行的具体操作可以参见上述方法实施方式中针对s201至s203的描述,在此不再重复说明。

需要说明的是,每组特征数据组包含的特征信息相同。

作为示例,获取模块701可以包括:获取单元、量化单元(图7中未示出)。其中,获取单元,用于获取至少一个特征对象针对目标场景进行的目标操作,目标操作为特征对象使用目标场景的操作;以及还用于获取每个特征对象包含的标签属性信息,和获取目标场景包含的标签属性信息。

量化单元,用于将目标操作量化为目标变量;以及还用于将每个特征对象包含的标签属性信息量化为x对应的特征数据;以及,将目标场景包含的标签属性信息量化为y对应的特征数据,其中,一个特征对象对应一组特征数据组。

各单元所执行的具体操作可以参见上述方法实施方式中针对s2011至s2012的描述,在此不再重复说明。

作为示例,第一确定模块702可以包括:设定单元、选取单元、确定单元(图7中未示出)。其中,设定单元,用于设定预定概率yp。选取单元,用于通过线性回归方式和预定概率yp在s中选取子样本。确定单元,用于在子样本上通过子样本的特征数据和目标变量得到线性回归系数,将线性回归系数作为n个隐层节点的初始化权值。

各单元所执行的具体操作可以参见上述方法实施方式中针对s2021至s2022的描述,在此不再重复说明。

作为示例,第一确定模块702中的确定单元,还用于:根据所述s中的每组特征信息对应的特征数据和目标变量,确定第一logistic回归模型lm1,和所述第一logistic回归模型系数w1;使用所述lm1计算所述s中的每组特征数据对应的目标概率,提取目标概率小于等于所述yp的特征数据组作为训练特征数据样本s1,s1∈s;根据所述s1中的每组特征信息对应的特征数据和目标变量,确定第二logistic回归模型lm2,和所述第二logistic回归模型系数w2;使用所述w1和w2作为2个隐层节点的初始权值,确定第一神经网络模型nnet(h1,h2);使用所述nnet(h1,h2)计算所述s的每组特征数据对应的目标概率,提取目标概率小于所述yp的特征数据组作为训练特征数据样本s2,s2∈s;根据所述s2中的每组特征信息对应的特征数据和目标变量,确定第三logistic回归模型lm3,和所述第三logistic回归模型系数w3;使用所述nnet(h1,h2)的w′1、w′2和所述w3作为3个隐层节点的初始权值,确定第二神经网络模型nnet(h1,h2,h3),所述w′1是所述w1通过反向传递backpropagation算法得到的系数值,所述w′2是所述w2通过反向传递backpropagation算法得到的系数值;使用所述nnet(h1,h2,h3)计算所述s的每组特征数据对应的目标概率,提取目标概率小于所述yp的特征数据组作为训练特征数据样本s3,s3∈s;以此类推,直到得到的第n神经网络模型nnet(h1,h2,h3,……,hn)计算训练特征数据样本sn的目标概率与所述预定概率之间的差值小于等于预定值时,确定所述w′1、w′2、w′3、……、w′n-1、wn作为所述n个隐层节点的初始权值,所述wn为第nlogistic回归模型lmn对应的第nlogistic回归模型系数wn。

上述确定单元所执行的具体操作可以参见上述方法实施方式中针对s2022中的具体描述,在此不再重复说明。

对应的作为示例,本装置中的第二确定模块703,还用于确定上述的第n神经网络模型nnet(h1,h2,h3,……,hn)为目标神经网络模型。

作为示例,第一确定模块702中的确定单元,确定目标场景,目标场景为通过目标神经网络模型计算特征对象的匹配率的场景,特征对象为使用目标场景的对象;确定特征对象的标签属性,将特征对象的标签属性作为特征信息x;确定目标场景的标签属性,将目标场景的标签属性作为特征信息y。

各单元所执行的具体操作可以参见上述方法实施方式中针对s401至s403的描述,在此不再重复说明。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图8对本发明示例性实施方式的、用于实现上述方法实施方式中所记载的各步骤的计算设备进行说明。图8显示的计算机系统/服务器80仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示,计算机系统/服务器80以通用计算设备的形式表现。计算机系统/服务器80的组件可以包括但不限于:一个或者多个处理器或者处理单元801,系统存储器802,连接不同系统组件(包括系统存储器802和处理单元801)的总线803。

计算机系统/服务器80典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器80访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器802可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)8021和/或高速缓存存储器8022。计算机系统/服务器80可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,rom8023可以用于读写不可移动的、非易失性磁介质(图8中未显示,通常称为“硬盘驱动器”)。尽管未在图8中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线803相连。系统存储器802中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块8024的程序/实用工具8025,可以存储在例如系统存储器802中,且这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8024通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器80也可以与一个或多个外部设备804(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(i/o)接口805进行。并且,计算机系统/服务器80还可以通过网络适配器808与一个或者多个网络(例如局域网(lan),广域网(wan)和/或者公共网络,例如因特网)通信。如图8所示,网络适配器808通过总线803与计算机系统/服务器80的其它模块(如处理单元801等)通信。应当明白,尽管图8中未示出,可以结合计算机系统/服务器80使用其它硬件和/或软件模块。

处理单元801通过运行存储在系统存储器802中的计算机程序,从而执行各种功能应用以及数据处理,例如,执行用于实现上述方法实施例中的各步骤的指令;具体而言,处理单元801可以执行系统存储器802中存储的计算机程序,且该计算机程序被执行时,下述指令被运行:获取训练特征数据样本s,s包括至少一组特征数据组,特征数据组包括至少两个特征信息对应的特征数据和目标变量(可以简称为第一指令);通过s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的模型最终权值,n为大于1的整数,n个隐层节点的模型最终权值为n个隐层节点的初始化权值通过反向传递backpropagation算法得到的系数值(可以简称为第二指令);根据n个隐层节点的模型最终权值以及s中的特征信息,确定目标神经网络模型,目标神经网络模型为代入s中的任意一组特征信息对应的特征数据时,得到的目标概率y与其对应的目标变量之间的均方误差值或对数损失函数值小于预定值的神经网络模型(可以简称为第三指令)。

需要说明的是,每组特征数据组包含的特征信息相同。

通过s中的每组特征信息对应的特征数据和目标变量确定n个隐层节点的初始化权值的指令包括:设定预定概率yp的指令;通过线性回归方式和预定概率yp在s中选取子样本,在子样本上通过子样本的特征数据和目标变量得到线性回归系数,将线性回归系数作为n个隐层节点的初始化权值的指令。

其中,确定n个隐层节点的初始化权值的指令可以包括:根据所述s中的每组特征信息对应的特征数据和目标变量,确定第一logistic回归模型lm1,和所述第一logistic回归模型系数w1;使用所述lm1计算所述s中的每组特征数据对应的目标概率,提取目标概率小于等于所述yp的特征数据组作为训练特征数据样本s1,s1∈s;根据所述s1中的每组特征信息对应的特征数据和目标变量,确定第二logistic回归模型lm2,和所述第二logistic回归模型系数w2;使用所述w1和w2作为2个隐层节点的初始权值,确定第一神经网络模型nnet(h1,h2);使用所述nnet(h1,h2)计算所述s的每组特征数据对应的目标概率,提取目标概率小于所述yp的特征数据组作为训练特征数据样本s2,s2∈s;根据所述s2中的每组特征信息对应的特征数据和目标变量,确定第三logistic回归模型lm3,和所述第三logistic回归模型系数w3;使用所述nnet(h1,h2)的w′1、w′2和所述w3作为3个隐层节点的初始权值,确定第二神经网络模型nnet(h1,h2,h3),所述w′1是所述w1通过反向传递backpropagation算法得到的系数值,所述w′2是所述w2通过反向传递backpropagation算法得到的系数值;使用所述nnet(h1,h2,h3)计算所述s的每组特征数据对应的目标概率,提取目标概率小于所述yp的特征数据组作为训练特征数据样本s3,s3∈s;以此类推,直到得到的第n神经网络模型nnet(h1,h2,h3,……,hn)计算训练特征数据样本sn的目标概率与所述预定概率之间的差值小于等于预定值时,确定所述w′1、w′2、w′3、……、w′n-1、wn作为所述n个隐层节点的初始权值,所述wn为第nlogistic回归模型lmn对应的第nlogistic回归模型系数wn的指令。对应的,确定上述第n神经网络模型nnet(h1,h2,h3,……,hn)为目标神经网络模型。

另外,获取训练特征数据样本s的指令,可以包括:获取至少一个特征对象针对目标场景进行的目标操作的指令,目标操作为特征对象使用目标场景的操作;将目标操作量化为目标变量的指令;获取每个特征对象包含的标签属性信息的指令,将每个特征对象包含的标签属性信息量化为x对应的特征数据的指令;获取目标场景包含的标签属性信息的指令,将目标场景包含的标签属性信息量化为y对应的特征数据,其中,一个特征对象对应一组特征数据组。

第四指令可以包括:确定目标场景的指令,目标场景为通过目标神经网络模型计算特征对象的匹配率的场景,特征对象为使用目标场景的对象;确定特征对象的标签属性,将特征对象的标签属性作为特征信息x的指令;确定目标场景的标签属性,将目标场景的标签属性作为特征信息y的指令。

第一指令、第二指令、第三指令、第四指令所包含的各指令所执行的具体操作可以参见上述方法实施方式中图2至图5中的方法的描述,在此不再重复说明。

在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算设备上运行时,所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于显示提示信息的方法的步骤。例如,所述计算设备可以执行如图2中所示的步骤s210:呈现界面控件并在界面控件中显示提示信息;步骤s220,控制界面控件的呈现,具体包括:s2202,在界面控件持续呈现预定时长之后,使界面控件自动消失;及s2204,在界面控件持续呈现预定时长之前,如果发生与该界面控件相关的预定交互事件,则改变该界面控件的呈现时长。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是一一但不限于一一电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。另外,随着技术的发展,可读存储介质也应进行相应解读。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如java、c++等,还包括常规的过程式程序设计语言一诸如“c”语言或类似的程序设计语言。程序代码可以完全地在服务端计算设备上执行、部分地在服务端计算设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络一一包括局域网(lan)或广域网(wan)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1