数据处理方法、装置、可读存储介质和电子设备与流程

文档序号:25657013发布日期:2021-06-29 22:15阅读:82来源:国知局
数据处理方法、装置、可读存储介质和电子设备与流程

1.本发明实施例涉及一种数据处理方法、装置、可读存储介质和电子设备。


背景技术:

2.目前机器学习被广泛应用于各个领域,而在训练机器学习模型的过程中,通常会由于样本特征的不足导致模型对于很多样本的预测准确度很差。现有技术对于模型预测过程中准确度很差的困难样本只会做一些简单的采样或过采样操作,导致损失一部分模型增益。


技术实现要素:

3.有鉴于此,本发明实施例提供了数据处理方法、装置、可读存储介质和电子设备,旨在提升了预测模型的泛化性能。
4.第一方面,本发明实施例提供了一种数据处理方法,所述方法包括:
5.确定包括多个特征信息和对应于各所述特征信息的第一属性信息的训练集,各所述特征信息用于表征对应目标区域的特征,所述第一属性信息用于表征特征信息对应目标区域的真实属性;
6.将各所述特征信息输入预测模型中确定第二属性信息,所述第二属性信息用于表征特征信息对应目标区域的预测属性;
7.根据各所述特征信息对应的第一属性信息和第二属性信息确定对应的预测差异值;
8.响应于对应的预测差异值满足预设条件,确定所述特征信息为目标特征信息;
9.对所述目标特征信息进行数据增广处理,以确定多个增广特征信息;
10.将各所述增广特征信息作为特征信息,和对应的第一属性信息更新至所述训练集;
11.根据更新后的训练集调节所述预测模型。
12.第二方面,本发明实施例提供了一种数据处理装置,所述装置包括:
13.信息确定模块,用于确定包括多个特征信息和对应于各所述特征信息的第一属性信息的训练集,各所述特征信息用于表征对应目标区域的特征,所述第一属性信息用于表征特征信息对应目标区域的真实属性;
14.属性预测模块,用于将各所述特征信息输入预测模型中确定第二属性信息,所述第二属性信息用于表征特征信息对应目标区域的预测属性;
15.差异确定模块,用于根据各所述特征信息对应的第一属性信息和第二属性信息确定对应的预测差异值;
16.目标信息确定模块,用于响应于对应的预测差异值满足预设条件,确定所述特征信息为目标特征信息;
17.数据增广模块,用于对所述目标特征信息进行数据增广处理,以确定多个增广特
征信息;
18.信息更新模块,用于将各所述增广特征信息作为特征信息,和对应的第一属性信息更新至所述训练集;
19.模型调节模块,用于根据更新后的训练集调节所述预测模型。
20.第三方面,本发明实施例提供了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
21.第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
22.第五方面,本发明实施例提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如第一方面所述方法的步骤。
23.本发明实施例通过确定包括多个特征信息和对应第一属性信息的训练集,将训练集中各特征信息输入预测模型中得到第二属性信息。根据第一属性信息和第二属性信息确定各特征信息对应的预测差异值,确定预测差异值满足预设条件的特征信息为目标特征信息,并进行数据增广处理得到多个增广特征信息。基于各增广特征信息更新训练集,根据更新后的再次调节预测模型。本发明实施例通过在预测模型训练过程中获取困难样本,并对困难样本进行数据增广后获得新的样本以扩充训练集再次训练预测模型,提升了总体训练样本的鲁棒性,从而提升了预测模型的泛化性能。
附图说明
24.通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
25.图1为本发明实施例的数据处理方法的流程图;
26.图2为本发明实施例的确定训练集过程的流程图;
27.图3为本发明实施例的调节预测模型的流程图;
28.图4为本发明实施例的数据处理装置的示意图;
29.图5为本发明实施例的电子设备的示意图。
具体实施方式
30.以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
31.此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
32.除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
33.在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义
是两个或两个以上。
34.图1为本发明实施例的数据处理方法的流程图,如图1所示,所述数据处理方法包括以下步骤:
35.步骤s100、确定包括多个特征信息和对应于各所述特征信息的第一属性信息的训练集。
36.具体地,本发明实施例的数据处理方法可以通过服务器或终端设备等电子设备执行,用于基于预先确定的训练集训练预测模型。所述训练集中可以包括具有对应关系的多个特征信息和多个第一属性信息,分别用于作为预测模型训练过程中的输入和输出。也就是说,在训练预测模型的过程中,将各特征信息作为预测模型的输入信息输入预测模型中,将对应的第一属性信息作为预测模型的标准输出信息以训练预测模型。
37.训练集可以根据预测模型的应用场景确定。在本发明实施例中,预测模型的应用场景可以用于预测目标区域的属性信息,例如在外卖软件中预测目标区域在目标时间段的配送压力,在网约车软件中预测目标区域在目标时间段的订单数量,在共享单车软件中预测目标区域在目标时间段内的共享单车停放数量或使用数量等。例如,当预测模型用于预测在目标时间段的目标区域配送压力时,通过确定历史目标时间段内的目标区域特征信息和对应的配送压力确定训练集。其中,特征信息可以用于表征历史目标时间段内目标区域的特征,例如可以包括配送人员数量、当前订单数量以及环境特征等。第一属性信息用于表征特征信息对应目标区域的真实属性,可以为目标区域在历史目标时间段内的配送压力,可以根据预设的计算规则计算得到。当预测模型用于预测在目标时间段的目标区域共享单车需求量时,通过确定历史目标时间段内的目标区域特征信息和对应的配送压力确定训练集。其中,特征信息可以用于表征历史目标时间段内目标区域的特征,例如可以包括历史目标区域的路况、天气、故障车辆数量、流入车辆数量以及流出车辆数量等。第一属性信息用于表征特征信息对应目标区域的真实属性,可以为目标区域在历史目标时间段内的共享单车流出数量。
38.图2为本发明实施例的确定训练集过程的流程图。如图2所示,当预测模型用于共享单车领域,且预测目标时间段内目标区域的车辆供给量或车辆需求量时,确定训练集的过程还可以包括以下步骤:
39.步骤s110、确定用户日志信息集合。
40.具体地,用户日志信息集合中包括多个用户日志信息,可以通过获取服务器对应的至少一个用户终端或服务终端在历史预设时间段内生成的用户日志信息确定。其中,服务器对应的服务终端为向用户提供服务的终端设备,例如可以为共享单车平台的单车终端、外卖平台的配送终端以及网约车平台的司机终端等终端设备。
41.可选地,用户日志信息中包括对应的区域标识和对应的时间戳。区域标识用于表征用户日志信息对应的目标区域,可以为至少一个。例如在共享单车平台中的用户开始使用的取用停车区域和结束使用的停用停车区域中至少一个。或者,在网约车平台中用户起始位置所在的区域和终点位置所在区域中的至少一个。时间戳用于表征生成所述用户日志信息时的时间,例如可以共享单车领域中用户停车时刻或网约车领域中司机确认完成订单时刻。
42.进一步地,用户日志信息中还可以包括其他信息,例如生成用户日志时的环境信
息,以及目标区域的属性信息等。其中,环境信息可以为天气、节假日、是否堵车等信息。目标区域的属性信息可以为目标区域的经纬度信息、历史单位时间车辆流入数量以及车辆流出数量等。
43.步骤s120、确定多个时间区间。
44.具体地,确定多个预先设定的时间区间。可选地,各时间区间的间隔时长相同,例如可以为一天或一个小时等。
45.步骤s130、根据对应时间戳在同一时间区间内,且区域标识相同的多个用户日志信息确定对应的特征信息。
46.具体地,根据对应的时间戳和区域标识确定多个区域分别在各时间区间内的至少一个特征,以进一步确定对应的特征信息。其中,确定至少一个特征的过程为根据对应时间戳在同一时间区间内,且区域标识相同的多个用户日志信息确定目标日志集合,再将各目标日志集合中区域标识对应的位置信息确定为一个特征,以及将各目标日志集合中各时间戳所在的时间区间对应的环境信息为确定一个特征,最后根据目标日志集合对应的位置信息和环境信息两个特征确定特征信息。进一步地,还可以根据目标日志集合中的用户信息数量确定对应的数量特征,以确定包括位置信息、环境信息和数量特征的特征信息。
47.以本发明实施例应用于共享单车软件为例进行说明。用户日志信息为共享单车用户终端或中控设备生成的骑行日志,其中包括停车区域和停车时间。共享单车平台服务器在接收到预设时间段内的多个用户日志信息后,将其中停车时间在一个预定时间区间内,且停车区域相同的用户日志信息确定为一个目标日志集合。根据目标日志集合中各停车区域所在的位置确定位置信息,再根据对应的时间区间确定天气、节假日等环境信息,以确定包括位置信息和环境信息的特征信息。进一步地,还可以根据目标日志集合中的用户日志信息数量确定数量特征,用于表征在预定时间区间内停车区域的车辆流入数量,再确定包括位置信息、环境信息和数量特征的特征信息。
48.步骤s140、根据确定特征信息的用户日志信息数量确定对应的第一属性信息。
49.具体地,还可以根据确定各特征信息的用户日志信息数量确定特征信息对应的第一属性信息,用于表征特征信息对应目标区域的真实属性。例如,当本发明实施例应用于共享单车软件时,特征信息用于表征对应停车区域在对应时间区间内的特征,对应的第一属性信息用于表征对应停车区域在对应时间区间内的车辆流入数量或车辆流出数量。因此,当各用户日志信息中包括的区域标识用于表征停车区域时,可以通过统计确定特征信息的用户日志信息数量确定对应时间区间内的车辆流入数量;当各用户日志信息中包括的区域标识用于表征取车区域时,可以通过统计确定特征信息的用户日志信息数量确定对应时间区间内的车辆流出数量。进一步地,确定特征信息的用户日志信息数量即为对应时间戳在同一时间区间内,且区域标识相同的用户日志信息数量。
50.步骤s150、根据各所述特征信息和对应的第一属性信息确定训练集。
51.具体地,确定各特征信息和第一属性信息的对应关系,并根据多个具有对应关系的特征信息和第一属性信息确定训练集。
52.步骤s200、将各所述特征信息输入预测模型中确定第二属性信息。
53.具体地,在确定训练集后,将训练集中的各特征信息分别输入预测模型中,以确定对应的第二属性信息,第二属性信息用于表征特征信息对应目标区域的预测属性。例如,在
共享单车平台软件中,预测模型用于确定目标时间段内目标区域的车辆需求数量或车辆供给数量,第二属性信息用于表征目标时间段内目标区域的预估车辆需求数量或预估车辆供给数量。进一步地,预测模型可以为基于多个有对应关系的特征信息和第一属性信息预先训练得到。
54.步骤s300、根据各所述特征信息对应的第一属性信息和第二属性信息确定对应的预测差异值。
55.具体地,在确定各特征信息对应的第二属性信息后,根据对应的第一属性信息和第二属性信息确定对应的预测差异值。在本发明实施例中,预测差异值的确定方法可以为计算各特征信息对应第一属性信息和第二属性信息差值的绝对值与第一属性信息的比值,以确定对应的预测差异值。例如,当特征信息对应的第一属性信息为y
i
,第二属性信息为时,确定的预测差异值为
56.步骤s400、响应于对应的预测差异值满足预设条件,确定所述特征信息为目标特征信息。
57.具体地,服务器可以预先设定预设条件,将对应的预测差异值满足预设条件的特征信息确定为目标特征信息。其中,目标特征信息为难以被预测模型预测的困难样本,也就是说目标特征信息对应的预测结果与实际结果差异较大。可选地,预设条件可以为差异值大于预设的差异阈值,也就是说将对应的预测差异值大于差异阈值时的特征信息确定为目标特征信息。
58.步骤s500、对所述目标特征信息进行数据增广处理,以确定多个增广特征信息。
59.具体地,由于目标特征信息为难以被预测模型预测的困难样本,本发明实施例确定目标特征信息后通过对目标特征信息进行数据增广处理得到多个增广后的增广特征信息,用于调整预测模型以提高模型的准确性。在本发明实施例中,目标特征信息可以通过多维向量的方式表示,其中各维度分别对应目标区域的一个特征。例如,当目标区域对应的特征信息中包括位置信息、天气信息和时间信息三个特征时,目标特征信息可以通过三维向量表示。
60.在本发明实施例中,对目标特征信息进行数据增广处理的过程通过群体智能优化算法实现。具体而言,先基于群体智能优化算法确定多个用于调整目标特征信息的调整向量,再分别根据各调整向量调整目标特征信息得到对应的增广特征信息。其中,调整向量中的各维度对应的调整参数用于调整目标特征信息中各维度对应的特征。可选地,调整向量中各维度均为0到1或0到

1范围内的100个分位点中的一个数值。例如,当目标特征信息为三维向量时,调整向量可以为(0.02,0.68,

0.03)
61.进一步地,各调整向量的确定过程可以为先确定包括多个调整参数的调整参数集合,调整参数为调整向量中各维度可能对应的数值,调整参数集合中包括全部调整向量中维度可能对应的数值。在确定调整参数集合后,根据调整参数集合和目标特征信息中的特征数量确定初始化种群,初始化种群中包括多个候选向量,候选向量的维度与目标特征信息中的特征数量相同,各维度的值分别为一个调整参数。也就是说,初始化种群中包括基于调整参数集合和目标特征信息中特征数量全部可能确定的调整向量。再进一步基于群体智能优化算法在所述初始化种群中确定多个候选向量作为调整向量,所述群体智能优化算法
可以为遗传算法、蚁群算法、粒子群优化算法等。
62.通过群体智能优化算法在初始化种群中确定调整向量的过程可以一个迭代筛选过程,在满足预先设定的终止条件时结束迭代过程,该终止条件可以为迭代次数或当前种群中的候选向量数量。其中,迭代筛选过程为先确定初始化种群中各候选向量的适应值,并挑选部分候选向量进行社会协作操作,再通过自我适应和竞争操作生成新的中秋进入下一次迭代过程。其中,适应值的确定方式为通过对应的候选向量调整目标特征信息,以根据得到的结果和训练集中的其他样本一同训练预测模型,并对结果进行mape评估得到适应值。mape评估为确定各特征信息对应的第一属性信息和模型输出结果,再计算各特征信息对应的模型输出结果和第一属性信息的预测差异值的平均值得到适应值。社会协作操作为将部分候选向量的每个维度的值进行两两之间的数值交错。比如在遗传算法其实就是交叉运算,候选向量数值转换为基因位之后,体现为不同个体的基因位进行交换操作;而在粒子群算法中,候选向量数据的调整会参考候选向量历史最优和种群历史最优的情况。自我适应为各候选向量的每个维度在小范围内随机调整数值。竞争操作为以预设比率抽取对应的适应值较好的候选向量,以确定下一次迭代过程的初始化种群。在满足预设的终止条件时,结束迭代过程并输出适应值最好的预设数量个候选向量作为调整向量,即各调整向量为最优的困难样本优化的方式。
63.进一步地,根据各调整向量调整目标特征信息以确定多个增广特征信息的过程为计算目标特征信息中各维度对应的特征与各调整向量中对应维度的调整参数乘积,以确定对应的增广向量,再计算目标特征信息与各增广向量的和得到对应的增广特征信息。例如,当调整向量为(0.1,

0.01,0.02),目标特征向量为(x1,x2,x3)时,增广向量为(0.1x1,

0.01x2,0.02x3),最后得到(1.1x1,9.99x2,1.02x3)。
64.步骤s600、将各所述增广特征信息作为特征信息,和对应的第一属性信息更新至所述训练集。
65.具体地,在确定目标特征信息对应的多个增广特征信息后,将增广特征信息作为特征信息,并将与目标特征信息对应的第一属性信息作为增广特征信息对应的第一属性信息更新至训练集中以扩充训练集。
66.步骤s700、根据更新后的训练集调节所述预测模型。
67.具体地,在将目标特征信息对应的多个增广特征信息和对应的第一属性信息更新至训练集后,根据更新后的训练集对预测模型进行调节,以提高预测模型的性能。在本发明实施例中,预测模型的调节过程为迭代过程,在满足预设条件时停止迭代过程。
68.图3为本发明实施例的调节预测模型的流程图。如图3所示,本发明实施例调节预测模型的过程包括以迭代方式执行的以下步骤:
69.步骤s710、将更新后训练集中的各特征信息作为所述预测模型的输入,以确定对应的第三属性信息。
70.具体地,在确定更新后的训练集后,将更新后训练集中各特征信息再次作为预测模型的输入,确定对应的输出为第三属性信息。第三属性信息也用于表征当前预测模型输出的预测结果,即当前训练集中各特征信息对应目标区域的预测属性。
71.步骤s720、根据更新后训练集中的各所述特征信息对应的第一属性信息和第三属性信息确定模型评估值。
72.具体地,在确定各特征信息对应的第一属性信息和第三属性信息后,根据各第一属性信息和第三属性信息计算用于评价模型性能的模型评估值。在本发明实施例中,模型评估值为基于mape评估确定的值,可以通过计算各第三属性信息和第一属性信息的预测差异值的平均值确定。在本发明实施例中,模型评估值与预测模型的性能成反比,即当模型评估值越大时表征预测模型性能越差,模型评估值约小时表征预测模型性能越好。例如,当更新后的训练集中包括n个特征信息,各特征信息对应的第一属性信息为y
i
,第三属性信息为时,确定的预测差异值为通过mape评估得到的预测差异值为:
[0073][0074]
步骤s730、判断预测模型对应的模型评估值是否满足评估条件。
[0075]
具体地,评估条件可以预先设定,例如可以为小于预设的评估阈值或在迭代过程中连续获取的模型评估值与前一次迭代过程相比减小的次数达到预设次数。以评估条件为小于预设的评估阈值为例进行说明,当在本次迭代过程中,根据步骤s720确定的模型评估值小于预设的评估阈值则判断当前预测模型性能满足要求,进入步骤s740以停止调节预测模型的迭代过程。当模型评估值不小于预设的评估阈值则判断当前预测模型性能不满足要求,需要通过步骤s750调节预测模型并进入下一次迭代过程。
[0076]
本发明实施例通过在预测模型训练过程中获取困难样本,并对困难样本进行数据增广后获得新的样本以扩充训练集再次训练预测模型,提升了总体训练样本的鲁棒性,从而提升了预测模型的泛化性能。
[0077]
图4为本发明实施例的数据处理装置的示意图。如图4所示,本发明实施例的数据处理装置包括信息确定模块40、属性预测模块41、差异确定模块42、目标信息确定模块43、数据增广模块44、信息更新模块45和模型调节模块46。
[0078]
具体地,信息确定模块40用于确定包括多个特征信息和对应于各所述特征信息的第一属性信息的训练集,各所述特征信息用于表征对应目标区域的特征,所述第一属性信息用于表征特征信息对应目标区域的真实属性。
[0079]
属性预测模块41用于将各所述特征信息输入预测模型中确定第二属性信息,所述第二属性信息用于表征特征信息对应目标区域的预测属性。
[0080]
差异确定模块42用于根据各所述特征信息对应的第一属性信息和第二属性信息确定对应的预测差异值。
[0081]
目标信息确定模块43用于响应于对应的预测差异值满足预设条件,确定所述特征信息为目标特征信息。
[0082]
数据增广模块44用于对所述目标特征信息进行数据增广处理,以确定多个增广特征信息。
[0083]
信息更新模块45用于将各所述增广特征信息作为特征信息,和对应的第一属性信息更新至所述训练集。
[0084]
模型调节模块46用于根据更新后的训练集调节所述预测模型。
[0085]
进一步地,所述信息确定模块包括:
[0086]
集合确定子模块,用于确定用户日志信息集合,所述用户日志信息集合中包括多个用户日志信息,各所述用户日志信息中包括对应的区域标识和对应的时间戳,所述区域标识用于表征对应的目标区域;
[0087]
时间确定子模块,用于确定多个时间区间;
[0088]
特征确定子模块,用于根据对应时间戳在同一时间区间内且区域标识相同的多个用户日志信息确定对应的特征信息;
[0089]
属性确定子模块,用于根据确定特征信息的用户日志信息数量确定对应的第一属性信息;
[0090]
训练集确定子模块,用于根据各所述特征信息和对应的第一属性信息确定训练集。
[0091]
进一步地,所述特征确定子模块包括:
[0092]
目标日志确定单元,用于根据对应时间戳在同一时间区间内,且区域标识相同的多个用户日志信息为目标日志集合;
[0093]
位置确定单元,用于确定所述目标日志集合中所述区域标识对应的位置信息,以及;
[0094]
环境信息确定单元,用于根据所述目标日志集合中各所述时间戳所在的时间区间确定对应的环境信息;
[0095]
特征确定单元,用于根据所述目标日志集合对应的位置信息和环境信息确定特征信息。
[0096]
进一步地,所述差异确定模块具体为:
[0097]
差异确定子模块,用于计算各所述特征信息对应第一属性信息和第二属性信息差值的绝对值与所述第一属性信息的比值,以确定对应的预测差异值。
[0098]
进一步地,所述预设条件为所述预测差异值大于预设的差异阈值。
[0099]
进一步地,所述目标特征信息通过多维向量的方式表示,各维度分别对应一个目标区域的特征;
[0100]
所述数据增广模块包括:
[0101]
调整向量确定子模块,用于确定多个对应的调整向量,所述调整向量中各维度对应的调整参数对应于所述目标特征信息中各维度对应的特征;
[0102]
数据增广子模块,用于根据各所述调整向量调整所述目标特征信息,以确定多个增广特征信息。
[0103]
进一步地,所述数据增广子模块包括:
[0104]
增广向量确定单元,用于计算所述目标特征信息中各维度对应的特征与各所述调整向量中对应维度的调整参数乘积,以确定对应的增广向量;
[0105]
增广特征确定单元,用于计算所述目标特征信息与各所述增广向量的和,以确定对应的增广特征信息。
[0106]
进一步地,所述调整向量确定子模块包括:
[0107]
参数确定单元,用于确定包括多个调整参数的调整参数集合;
[0108]
初始化中秋确定单元,用于根据所述调整参数集合和所述目标特征信息中的特征数量确定初始化种群,所述初始化种群中包括多个候选向量,所述候选向量的维度与所述
目标特征信息中的特征数量相同,各维度的值分别为一个调整参数;
[0109]
调整向量确定单元,用于基于群体智能优化算法在所述初始化种群中确定多个候选向量作为调整向量。
[0110]
进一步地,所述模型调节模块包括:
[0111]
以迭代方式执行以下步骤的:
[0112]
属性信息确定子模块,用于将更新后训练集中的各特征信息作为所述预测模型的输入,以确定对应的第三属性信息;
[0113]
评估值确定子模块,用于根据更新后训练集中的各所述特征信息对应的第一属性信息和第三属性信息确定模型评估值;
[0114]
第一判断子模块,用于响应于所述模型评估值满足评估条件,停止调节所述预测模型;
[0115]
第二判断子模块,用于响应于所述模型评估值不满足评估条件,调节所述预测模型。
[0116]
进一步地,所述评估值确定子模块包括:
[0117]
属性确定单元,用于确定更新后训练集中各所述特征信息对应的第一属性信息;
[0118]
评估值计算单元,用于计算各所述第三属性信息和所述第一属性信息的预测差异值的平均值,以确定对应的模型评估值。
[0119]
本发明实施例通过在预测模型训练过程中获取困难样本,并对困难样本进行数据增广后获得新的样本以扩充训练集再次训练预测模型,提升了总体训练样本的鲁棒性,从而提升了预测模型的泛化性能。
[0120]
图5为本发明实施例的电子设备的示意图。如图5所示,图5所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器50和存储器51。处理器50和存储器51通过总线52连接。存储器51适于存储处理器50可执行的指令或程序。处理器50可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器50通过执行存储器51所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线52将上述多个组件连接在一起,同时将上述组件连接到显示控制器53和显示装置以及输入/输出(i/o)装置54。输入/输出(i/o)装置54可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置54通过输入/输出(i/o)控制器55与系统相连。
[0121]
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品。
[0122]
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
[0123]
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
[0124]
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
[0125]
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
[0126]
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0127]
本发明实施例公开了ts1、一种数据处理方法,所述方法包括:
[0128]
确定包括多个特征信息和对应于各所述特征信息的第一属性信息的训练集,各所述特征信息用于表征对应目标区域的特征,所述第一属性信息用于表征特征信息对应目标区域的真实属性;
[0129]
将各所述特征信息输入预测模型中确定第二属性信息,所述第二属性信息用于表征特征信息对应目标区域的预测属性;
[0130]
根据各所述特征信息对应的第一属性信息和第二属性信息确定对应的预测差异值;
[0131]
响应于对应的预测差异值满足预设条件,确定所述特征信息为目标特征信息;
[0132]
对所述目标特征信息进行数据增广处理,以确定多个增广特征信息;
[0133]
将各所述增广特征信息作为特征信息,和对应的第一属性信息更新至所述训练集;
[0134]
根据更新后的训练集调节所述预测模型。
[0135]
ts2、根据ts1所述的方法,所述确定包括多个特征信息和对应于各所述特征信息的第一属性信息的训练集包括:
[0136]
确定用户日志信息集合,所述用户日志信息集合中包括多个用户日志信息,各所述用户日志信息中包括对应的区域标识和对应的时间戳,所述区域标识用于表征对应的目标区域;
[0137]
确定多个时间区间;
[0138]
根据对应时间戳在同一时间区间内且区域标识相同的多个用户日志信息确定对应的特征信息;
[0139]
根据确定特征信息的用户日志信息数量确定对应的第一属性信息;
[0140]
根据各所述特征信息和对应的第一属性信息确定训练集。
[0141]
ts3、根据ts2所述的方法,所述对应时间戳在同一时间区间内且区域标识相同的多个用户日志信息确定对应的特征信息包括:
[0142]
根据对应时间戳在同一时间区间内,且区域标识相同的多个用户日志信息为目标日志集合;
[0143]
确定所述目标日志集合中所述区域标识对应的位置信息,以及;
[0144]
根据所述目标日志集合中各所述时间戳所在的时间区间确定对应的环境信息;
[0145]
根据所述目标日志集合对应的位置信息和环境信息确定特征信息。
[0146]
ts4、根据ts1所述的方法,所述根据各所述特征信息对应的第一属性信息和第二属性信息确定对应的预测差异值具体为:
[0147]
计算各所述特征信息对应第一属性信息和第二属性信息差值的绝对值与所述第一属性信息的比值,以确定对应的预测差异值。
[0148]
ts5、根据ts1所述的方法,所述预设条件为所述预测差异值大于预设的差异阈值。
[0149]
ts6、根据ts1所述的方法,所述目标特征信息通过多维向量的方式表示,各维度分别对应一个目标区域的特征;
[0150]
所述对所述目标特征信息进行数据增广处理,以确定多个增广特征信息包括:
[0151]
确定多个对应的调整向量,所述调整向量中各维度对应的调整参数对应于所述目标特征信息中各维度对应的特征;
[0152]
根据各所述调整向量调整所述目标特征信息,以确定多个增广特征信息。
[0153]
ts7、根据ts6所述的方法,所述根据各所述调整向量调整所述目标特征信息,以确定多个增广特征信息包括:
[0154]
计算所述目标特征信息中各维度对应的特征与各所述调整向量中对应维度的调整参数乘积,以确定对应的增广向量;
[0155]
计算所述目标特征信息与各所述增广向量的和,以确定对应的增广特征信息。
[0156]
ts8、根据ts6所述的方法,所述确定多个对应的调整向量包括:
[0157]
确定包括多个调整参数的调整参数集合;
[0158]
根据所述调整参数集合和所述目标特征信息中的特征数量确定初始化种群,所述初始化种群中包括多个候选向量,所述候选向量的维度与所述目标特征信息中的特征数量相同,各维度的值分别为一个调整参数;
[0159]
基于群体智能优化算法在所述初始化种群中确定多个候选向量作为调整向量。
[0160]
ts9、根据ts1所述的方法,所述根据更新后的训练集调节所述预测模型包括:
[0161]
以迭代方式执行以下步骤:
[0162]
将更新后训练集中的各特征信息作为所述预测模型的输入,以确定对应的第三属性信息;
[0163]
根据更新后训练集中的各所述特征信息对应的第一属性信息和第三属性信息确定模型评估值;
[0164]
响应于所述模型评估值满足评估条件,停止调节所述预测模型;
[0165]
响应于所述模型评估值不满足评估条件,调节所述预测模型。
[0166]
ts10、根据ts9所述的方法,所述根据更新后训练集中的各所述特征信息对应的第一属性信息和第三属性信息确定模型评估值包括:
[0167]
确定更新后训练集中各所述特征信息对应的第一属性信息;
[0168]
计算各所述第三属性信息和所述第一属性信息的预测差异值的平均值,以确定对应的模型评估值。
[0169]
ts11、一种数据处理装置,所述装置包括:
[0170]
信息确定模块,用于确定包括多个特征信息和对应于各所述特征信息的第一属性
信息的训练集,各所述特征信息用于表征对应目标区域的特征,所述第一属性信息用于表征特征信息对应目标区域的真实属性;
[0171]
属性预测模块,用于将各所述特征信息输入预测模型中确定第二属性信息,所述第二属性信息用于表征特征信息对应目标区域的预测属性;
[0172]
差异确定模块,用于根据各所述特征信息对应的第一属性信息和第二属性信息确定对应的预测差异值;
[0173]
目标信息确定模块,用于响应于对应的预测差异值满足预设条件,确定所述特征信息为目标特征信息;
[0174]
数据增广模块,用于对所述目标特征信息进行数据增广处理,以确定多个增广特征信息;
[0175]
信息更新模块,用于将各所述增广特征信息作为特征信息,和对应的第一属性信息更新至所述训练集;
[0176]
模型调节模块,用于根据更新后的训练集调节所述预测模型。
[0177]
ts12、根据ts11所述的装置,所述信息确定模块包括:
[0178]
集合确定子模块,用于确定用户日志信息集合,所述用户日志信息集合中包括多个用户日志信息,各所述用户日志信息中包括对应的区域标识和对应的时间戳,所述区域标识用于表征对应的目标区域;
[0179]
时间确定子模块,用于确定多个时间区间;
[0180]
特征确定子模块,用于根据对应时间戳在同一时间区间内且区域标识相同的多个用户日志信息确定对应的特征信息;
[0181]
属性确定子模块,用于根据确定特征信息的用户日志信息数量确定对应的第一属性信息;
[0182]
训练集确定子模块,用于根据各所述特征信息和对应的第一属性信息确定训练集。
[0183]
ts13、根据ts12所述的装置,所述特征确定子模块包括:
[0184]
目标日志确定单元,用于根据对应时间戳在同一时间区间内,且区域标识相同的多个用户日志信息为目标日志集合;
[0185]
位置确定单元,用于确定所述目标日志集合中所述区域标识对应的位置信息,以及;
[0186]
环境信息确定单元,用于根据所述目标日志集合中各所述时间戳所在的时间区间确定对应的环境信息;
[0187]
特征确定单元,用于根据所述目标日志集合对应的位置信息和环境信息确定特征信息。
[0188]
ts14、根据ts11所述的装置,所述差异确定模块具体为:
[0189]
差异确定子模块,用于计算各所述特征信息对应第一属性信息和第二属性信息差值的绝对值与所述第一属性信息的比值,以确定对应的预测差异值。
[0190]
ts15、根据ts11所述的装置,所述预设条件为所述预测差异值大于预设的差异阈值。
[0191]
ts16、根据ts11所述的装置,所述目标特征信息通过多维向量的方式表示,各维度
分别对应一个目标区域的特征;
[0192]
所述数据增广模块包括:
[0193]
调整向量确定子模块,用于确定多个对应的调整向量,所述调整向量中各维度对应的调整参数对应于所述目标特征信息中各维度对应的特征;
[0194]
数据增广子模块,用于根据各所述调整向量调整所述目标特征信息,以确定多个增广特征信息。
[0195]
ts17、根据ts16所述的装置,所述数据增广子模块包括:
[0196]
增广向量确定单元,用于计算所述目标特征信息中各维度对应的特征与各所述调整向量中对应维度的调整参数乘积,以确定对应的增广向量;
[0197]
增广特征确定单元,用于计算所述目标特征信息与各所述增广向量的和,以确定对应的增广特征信息。
[0198]
ts18、根据ts16所述的装置,所述调整向量确定子模块包括:
[0199]
参数确定单元,用于确定包括多个调整参数的调整参数集合;
[0200]
初始化中秋确定单元,用于根据所述调整参数集合和所述目标特征信息中的特征数量确定初始化种群,所述初始化种群中包括多个候选向量,所述候选向量的维度与所述目标特征信息中的特征数量相同,各维度的值分别为一个调整参数;
[0201]
调整向量确定单元,用于基于群体智能优化算法在所述初始化种群中确定多个候选向量作为调整向量。
[0202]
ts19、根据ts11所述的装置,所述模型调节模块包括:
[0203]
以迭代方式执行以下步骤的:
[0204]
属性信息确定子模块,用于将更新后训练集中的各特征信息作为所述预测模型的输入,以确定对应的第三属性信息;
[0205]
评估值确定子模块,用于根据更新后训练集中的各所述特征信息对应的第一属性信息和第三属性信息确定模型评估值;
[0206]
第一判断子模块,用于响应于所述模型评估值满足评估条件,停止调节所述预测模型;
[0207]
第二判断子模块,用于响应于所述模型评估值不满足评估条件,调节所述预测模型。
[0208]
ts20、根据ts19所述的装置,所述评估值确定子模块包括:
[0209]
属性确定单元,用于确定更新后训练集中各所述特征信息对应的第一属性信息;
[0210]
评估值计算单元,用于计算各所述第三属性信息和所述第一属性信息的预测差异值的平均值,以确定对应的模型评估值。
[0211]
ts21、一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如ts1

ts10中任一项所述的方法。
[0212]
ts22、一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如ts1

ts10中任一项所述的方法。
[0213]
ts23、一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如ts1

ts10中任一项所述方法的步骤。
[0214]
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1