一种针对于预估模型的数据处理方法及装置的制造方法_2

文档序号:9471984阅读:来源:国知局
待利用的多组特征描述信息,该待利用的多组特征描述信息中的特征名各不相同且特征值基于该历史特征信息确定;将该待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息。可见,本方案在针对于预估模型的数据处理过程中,通过累加方式使得待利用的多组特征描述信息中的特征名各不相同,以避免每次对同一特征的重复训练,实现了在降低训练数据的数据量大小的同时保证特征的完整,从而保证所训练预估模型的精准性。
【附图说明】
[0040]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1为本发明实施例所提供的一种针对于预估模型的数据处理方法的流程图;
[0042]图2为本发明实施例所提供的一种针对于预估模型的数据处理方法的另一流程图;
[0043]图3为本发明实施例所提供的一种针对于预估模型的数据处理装置的结构示意图;
[0044]图4为本发明实施例所提供的一种针对于预估模型的数据处理装置的另一结构示意图。
【具体实施方式】
[0045]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046]为了在降低训练数据的数据量大小的同时保证特征的完整,从而保证所训练预估模型的精准性,本发明实施例提供了一种针对于预估模型的数据处理方法及装置。其中,所述的预估模型可以包括:广告点击率预估模型,还可以包括其他的利用历史输出数据的预估模型。
[0047]下面首先对本发明实施例所提供的一种针对于预估模型的数据处理方法进行介绍。
[0048]需要说明的是,本发明实施例所提供的一种针对于预估模型的数据处理方法应用于电子设备中,并且,在实际应用中,该电子设备可以包括终端设备、服务器等等,其中,该电子设备可以为:台式电脑、笔记本电脑、平板电脑等等。
[0049]如图1所示,本发明实施例所提供的一种针对于预估模型的数据处理方法,可以包括:
[0050]S101,获得从用户日志数据中提取的多个目标特征的目标特征名;
[0051]在针对于预估模型的数据处理过程中,可以获得本次训练预估模型所需的、从用户日志数据中提取的多个目标特征的目标特征名;其中,该用户日志数据为基于本次训练所对应数据采集时间段内的用户操作所生成的日志数据。其中,在实际应用中,数据采集时间段可以根据实际情况进行设定,例如天、2天、I周等等,并且,预估模型的每次训练所对应的数据采集时间段可以相同或不同,这都是合理的。
[0052]其中,训练预估模型所需的用户日志数据基于预估模型的具体类型所确定,并且,训练预估模型所需的特征也基于预估模型的具体类型所确定。例如:对于预估模型为广告点击率预估模型而言,训练广告点击率预估模型所需的用户日志数据可以为用户访问网站内网页所生成的日志数据;训练广告点击率预估模型所需的特征可以包括用户的国籍、年龄、性别、语言等用户身份属性,而用户身份属性所对应的属性值可以作为特征名;或者,特征也可以包括:广告的时长、类型等等广告属性,而广告属性所对应的属性值可以作为特征名;或者,特征还可以包括:当前访问环境如网速等环境属性,而环境属性所对应的属性值可以作为特征名。
[0053]并且,需要强调的是,对于任意一个特征而言,其可以仅仅包括一个属性,例如,用户身份属性这类属性中的一个属性、广告属性这类属性中的一个属性、环境属性这类属性中的一个属性,等等;其也可以包括一类属性的多个属性,例如:用户身份属性这类属性中的多个属性、广告属性这类属性中的多个属性或环境属性这类属性中的多个属性;其还可以多类属性中的多个属性,例如:用户身份属性、广告属性和环境属性中至少两类属性中的多个属性。
[0054]需要强调的是,上述以广告点击率预估模型进行特征说明仅仅是为了方便理解,而本发明实施例所涉及的预估模型包括但不局限于广告点击率预估模型。
[0055]S102,获得历史特征信息;其中,该历史特征信息为预先保存的且基于上一次训练该预估模型所得的输出数据所生成;
[0056]其中,该历史特征信息包括多组特征描述信息,特征描述信息与特征一一对应,每一组特征描述信息均包括相应特征所对应的特征名和特征值。其中,历史特征信息所涵盖的特征各不相同,即特征描述信息中的特征名各不相同。
[0057]需要说明的是,本次训练该预估模型所需的历史特征信息为:上一次训练该预估模型所得输出数据和上一次训练该预估模型所需的历史特征信息进行数据更新处理所得,具体过程为:分别判断作为上一次训练所得的输出数据的每一组特征描述信息中的特征名是否与上一次训练所需历史特征信息所包括一组特征描述信息中的特征名相同,如果相同,将上一次训练所需的历史特征信息所包括该组特征描述信息中的特征值更新为作为上一次训练所得的输出数据的该组特征描述信息中的特征值,否则,在上一次训练所需的历史特征信息中增加作为上一次训练所得的输出数据的该组特征描述信息。所谓的特征的特征值举例而言:当预估模型为广告点击率预估模型时,该特征值可以为点击概率,即特征具有相应特征名时广告被用户点击的概率。
[0058]其中,本实施例中,SlOl先于S102执行,需要强调的是,SlOl和S102并不存在严格的执行顺序,例如:S101和S102可以同时执行,或者,S102先于SlOl执行,这都是合理的。
[0059]S103,对该目标特征名和该历史特征信息进行累加处理,得到待利用的多组特征描述信息,其中,该待利用的多组特征描述信息中的特征名各不相同且特征值基于该历史特征信息确定;
[0060]在获得本次训练所需的目标特征名和历史特征信息后,并不直接利用这些数据进行预估模型的训练,而是首先对该目标特征名和该历史特征信息进行累加处理,得到待利用的多组特征描述信息,通过累加处理所得到的多组特征描述信息中特征名各不相同且特征值基于该历史特征信息确定。由于对历史特征信息和目标特征名进行累加,这样使得待利用的多组特征描述信息中的特征名各不相同,以避免每次对同一特征的重复训练,实现了在降低训练数据的数据量大小的同时保证特征的完整。
[0061]S104,将该待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息。
[0062]其中,在对该目标特征名和该历史特征信息进行累加处理,得到待利用的多组特征描述信息后,可以将该待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息,完成该预估模型的本次训练。其中,作为输出数据的多组特征描述信息中的特征名等同于作为输入数据的该待利用的多组特征描述信息中的特征名,但是,作为输出数据的多组特征描述信息中的特征值为训练所得的值,即,由于经过模型训练,对于同一特征名的作为输出数据的特征描述信息和作为输入数据的特征描述信息而言,特征值可能相同或不同。
[0063]本发明实施例中,在针对于预估模型的数据处理过程中,获得从用户日志数据中提取的多个目标特征的目标特征名;获得历史特征信息,该历史特征信息为预先保存的且基于上一次训练该预估模型所得的输出数据所生成;对该目标特征名和所述历史特征信息进行累加处理,得到待利用的多组特征描述信息,该待利用的多组特征描述信息中的特征名各不相同且特征值基于该历史特征信息确定;将该待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息。可见,本方
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1