一种数据处理的方法、装置和电子设备与流程

文档序号:16434046发布日期:2018-12-28 20:21阅读:147来源:国知局
一种数据处理的方法、装置和电子设备与流程
本公开涉及数据处理领域,具体涉及一种数据处理的方法、装置和电子设备。
背景技术
随着社会的发展,人们的生活节奏也随之加快,外卖逐渐成为人们生活中的不可缺少的重要部分,外卖平台上的商户为了获得更好的收益,需要给一些潜在用户针对性的发送一些营销手段(例如,优惠券、金额满减等),已激励用户下单。在现有技术中,在对某一商户进行潜在用户挖掘时,首先统计已在该商户下过单的用户的平台属性(例如,客单价,访问频次,口味偏好,菜式偏好等),然后根据已在该商户下过单的用户的平台属性定义筛选潜在用户的规则,最后按照上述定义的筛选潜在用户的规则,在未下单的用户中挖掘出在该商户可能下单的潜在用户。举例说明,为星巴克进行潜在用户挖掘时,首先统计已在星巴克下单的用户的平台属性,然后根据已在星巴克下单的用户的平台属性定义筛选潜在用户的规则为客单价大于等于60、口味偏好为奶茶饮料,最后按照定义的客单价大于等于60、口味偏好为奶茶饮料的规则,从未下单用户中筛选出用户平台属性为客单价大于等于60、口味偏好为奶茶饮料的用户,作为星巴克的潜在用户。由于筛选潜在用户的规则是人工定义的,规则数量有限,无法对潜在用户进行精确筛选,并且通过现有技术,只能筛选出有可能在该商户下单的潜在用户,但无法区分潜在用户下单可能性的不同程度,无法做到差异化的精准营销。综上所述,如何在未下单的用户中精确筛选出潜在用户,并区分潜在用户下单可能性的不同程度,做到差异化的精准营销是目前需要解决的问题。技术实现要素:有鉴于此,本公开实施例提供了一种数据处理的方法、装置及电子设备,以提高筛选潜在用户的准确性,以及对潜在用户下单可能性的不同程度进行区分,实现差异化的精准营销。根据本公开实施例的第一方面,提供了一种数据处理的方法,包括:确定第一设定时间内任一商户的历史用户数据,其中,所述历史用户数据包括下单用户数据和未下单用户数据以及用户下单标记,所述用户下单标记用于表征用户在所述第一设定时间内是否下单;提取所述历史用户数据中各用户的用户特征,确定用户特征向量数据;根据所述用户特征向量数据确定模型训练集合;根据所述模型训练集合以及预设算法确定预测模型;根据所述预测模型确定未下单用户的下单概率;根据所述未下单用户的下单概率对所述未下单用户进行分类。在一个实施例中,所述提取所述历史用户数据中各用户的用户特征,确定用户特征向量数据,具体包括:提取所述历史用户数据中各用户的用户特征,确定用户特征数据;根据所述用户特征数据与所述历史用户数据中包括的所述用户下单标记,确定出标记后的用户特征数据,其中,所述标记后的用户数据特征中包括字符串;将所述标记后的用户特征数据中包括的所述字符串按照设定方式进行向量化,确定出所述用户特征向量数据。在一个实施例中,所述根据所述用户特征向量数据确定模型训练集合,具体包括:将所述用户特征向量数据按照所述用户下单标记划分为模型训练集合与模型预测集合;根据所述预测模型确定未下单用户的下单概率,具体包括:根据所述预测模型确定出所述模型预测集合中所述未下单用户的下单概率。在一个实施例中,所述根据所述未下单用户的下单概率设置对应的方案,具体包括:将所述未下单用户按照所述下单概率进行排序,将所述排序序列中的前n名划分为目标用户,其中,n为大于等于1的正整数。在一个实施例中,所述根据所述未下单用户的下单概率设置对应的方案,具体包括:确定所述下单概率的阈值,将所述下单概率大于或等于所述阈值的未下单用户划分为目标用户。根据本公开实施例的第二方面,提供了一种数据处理的装置,包括:历史用户数据确定单元,用于确定第一设定时间内任一商户的历史用户数据,其中,所述历史用户数据包括下单用户数据和未下单用户数据以及用户下单标记,所述用户下单标记用于表征用户在所述第一设定时间内是否下单;特征向量数据确定单元,用于提取所述历史用户数据中各用户的用户特征,确定用户特征向量数据;集合确定单元,用于根据所述用户特征向量数据确定模型训练集合;模型确定单元,用于根据所述模型训练集合以及预设算法确定预测模型;预测单元,用于根据所述预测模型确定未下单用户的下单概率;处理单元,用于根据所述未下单用户的下单概率对所述未下单用户进行分类。在一个实施例中,所述特征向量数据确定单元具体包括:提取单元,用于提取所述历史用户数据中各用户的用户特征,确定用户特征数据;第一确定单元,用于根据所述用户特征数据与所述历史用户数据中包括的所述用户下单标记,确定出标记后的用户特征数据,其中,所述标记后的用户数据特征中包括字符串;第二确定单元,用于将所述标记后的用户特征数据中包括的所述字符串按照设定方式进行向量化,确定出所述用户特征向量数据。在一个实施例中,所述集合确定单元具体用于:将所述用户特征向量数据按照所述用户下单标记划分为模型训练集合与模型预测集合;所述预测单元具体用于:根据所述预测模型确定出所述模型预测集合中所述未下单用户的下单概率。在一个实施例中,所述处理单元具体用于:将所述未下单用户按照所述下单概率进行排序,将所述排序序列中的前n名划分为目标用户,其中,n为大于等于1的正整数。在一个实施例中,所述处理单元具体用于:确定所述下单概率的阈值,将所述下单概率大于或等于所述阈值的未下单用户划分为目标用户。根据本公开实施例的第三方面,提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一实施例中所述的方法。根据本公开实施例的第四方面,提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一实施例中所述的方法。本公开实施例通过统计任一商户在设定时间内的历史用户数据,提取所述历史用户数据中各用户的用户特征,确定用户特征向量数据,根据所述用户特征向量数据确定模型训练集合,根据所述模型训练集合以及预设算法确定预测模型;根据所述预测模型确定未下单用户的下单概率;根据所述未下单用户的下单概率对所述未下单用户进行分类。由于提取的用户特征较多,覆盖范围广,在此基础上确定的用户特征向量数据精确度高,因此,根据用户特征向量数据生成的预测模型准确度高,可以实现对未下单用户中的潜在用户进行精确的筛选,并且可以根据预测模型确定的未下单用户中潜在用户的下单概率,实现差异化的精准营销。附图说明通过以下参照附图对本公开实施例的描述,本公开实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:图1是本公开实施例提供的一种数据处理的方法流程图;图2是本公开实施例提供的另一种数据处理的方法流程图;图3是本公开实施例提供的一种数据处理的装置示意图;图4是本公开实施例提供的一种电子设备示意图。具体实施方式以下基于实施例对本公开进行描述,但是本公开并不仅仅限于这些实施例。在下文对本公开的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本公开。为了避免混淆本公开的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。在本公开实施例的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本公开实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。图1是本公开实施例的数据处理的方法流程图。如图1所示,所述数据处理的方法包括:步骤s100、确定第一设定时间内任一商户的历史用户数据,其中,所述历史用户数据包括下单用户数据和未下单用户数据以及用户下单标记,所述用户下单标记用于表征用户在所述第一设定时间内是否下单。可选的,所述第一设定时间可以是几个小时,也可以是几天、十几天或者几十天,本申请对其不做限定。在本公开实施例中,在确定第一设定时间内任一商户的历史用户数据之前,先获取任一商户所在平台在第一设定时间内下单的所有用户的历史用户数据,然后确定针对任一商户确定该商户的历史用户数据,即在所有用户的历史用户数据中对在该商户的下单用户数据和未下单用户作出用户下单标记,用户的id与用户下单标记一一对应,所述用户下单标记可以用label表示,即[用户id,label],若在历史用户数据中用户在该商户下单,则label取值1,若在历史用户数据中用户为在该商户下单,则label取值0,其中,所述label的取值不做限定,也可以是若在历史用户数据中用户在该商户下单,则label取值0,若在历史用户数据中用户为在该商户下单,则label取值1,本公开实施例对其不做限定。步骤s101、提取所述历史用户数据中各用户的用户特征,确定用户特征向量数据。优选地,步骤s101具体包括如下步骤:步骤s1011、提取所述历史用户数据中各用户的用户特征,确定用户特征数据。具体的,不同的用户特征对应不同的数据处理方式,例如用户特征1的维度为固定值,则用户特征1的处理方式为独热编码,取值用value1表示,其中,value1的取值可以为1或0;用户特征2直接用数值表示,即value2的取值为一个具体的数值,用户特征3的维度不确定,则用户特征3的取值value3为具体字符串,最终用户特征数据的表示方式为[用户id,value1,value2,value3……]。步骤s1012、根据所述用户特征数据与所述历史用户数据中包括的所述用户下单标记,确定出标记后的用户特征数据,其中,所述标记后的用户数据特征中包括字符串。根据用户特征数据[用户id,value1,value2,value3……]与用户下单标记[用户id,label],以用户id为关键进行合并,确定出标记后的用户特征数据[用户id,value1,value2,value3……,label],其中,任一value1值可以是字符串,本公开实施例以用户特征3即value3为例。步骤s1013、将所述标记后的用户特征数据中包括的所述字符串按照设定方式进行向量化,确定出用户特征向量数据。具体的,所述设定方式可以为独热编码,根据上述标记后的用户特征数据确定用户特征向量数据,但用户特征3的维度由于不确定,取值value3为具体字符串,无法生成用户特征向量,因此,需要进一步处理,首先对字符串进行切词,然后确定切词后的用户特征3的维度,根据切词后的用户特征进行独热编码,确定value3对应的用户特征向量,举例说明:假设value3的字符串为[川菜|粤菜],用户特征3的维度为3,包括川菜、粤菜、北京菜,对其进行独热编码,川菜=[1,0,0],粤菜=[0,1,0],北京菜=[0,0,1],则可以得出value3的用户特征向量为[1,1,0]。步骤s102、根据所述用户特征向量数据确定模型训练集合。具体的,将所述用户特征向量数据按照所述用户下单标记划分为模型训练集合与模型预测集合。举例说明,用户下单标记label值为1的用户特征向量数据记为正样本,用户下单标记label值为0的用户特征向量数据记为负样本,模型训练集合由全部正样本与部分负样本组成,优选的,模型训练集合中的负样本为正样本的4倍,若模型训练集合中的正样本为60万,则模型训练集合中的负样本为240万;所述模型预测集由全部负样本组成。步骤s103、根据所述模型训练集合以及预设算法确定预测模型。具体的,所述预设算法为xgboost(extremegradientboosting,极端的梯度增加),所述xgboost算法是一种通过将多个弱分类器组合为强分类器,进而提高精度的算法,使用xgboost算法对模型训练集进行训练,得到二分类预测模型,所述二分类,是指样本属于且只属于两个类别中的一个,不同类别之间是互斥的。步骤s104、根据所述预测模型确定未下单用户的下单概率。具体的,根据所述预测模型确定出所述模型预测集合中所述未下单用户的下单概率,即根据预测模型对所述模型预测集合中的负样本进行预测,确定未下单用户的下单概率。步骤s105、根据所述未下单用户的下单概率对所述未下单用户进行分类。具体的,根据分类后的所述未下单用户,发送预先设置的不同分类对应的方案,其中,所述对应的方案可以为多个,不同分类对应不同的方案,即针对不同的下单概率向未下单用户发送不同的方案。优选的,步骤s105具体包括两种方式:方式一、将所述未下单用户按照所述下单概率进行排序,将所述排序序列中的前n名划分为目标用户,其中,n为大于等于1的正整数。进一步的,所述目标用户即下单概率较高的用户,对所述目标用户设置对应的第一方案,可选的,还可以对n+1到2n名的未下单用户设置对应的第二营销该方案,以此类推,本公开实施例不在赘述。方式二、确定所述下单概率的阈值,将所述下单概率大于或等于所述阈值的未下单用户划分为目标用户。进一步的,对所述目标用户设置对应的第一方案,可选的,对小于第一阈值,大于或等于第二阈值的未下单用户设置对应的第二方案,以此类推,本公开实施例不在赘述。本公开实施例中,通过统计任一商户在设定时间内的历史用户数据,提取所述历史用户数据中各用户的用户特征,确定用户特征向量数据,根据所述用户特征向量数据确定模型训练集合,根据所述模型训练集合以及预设算法确定预测模型;根据所述预测模型确定未下单用户的下单概率;根据所述未下单用户的下单概率对所述未下单用户进行分类。由于提取的用户特征较多,覆盖范围广,在此基础上确定的用户特征向量数据精确度高,因此,根据用户特征向量数据生成的预测模型准确度高,可以实现对未下单用户中的潜在用户进行精确的筛选,并且可以根据预测模型确定的未下单用户中潜在用户的下单概率,实现差异化的精准营销。下面通过一个具体实施例对一种数据处理方法进行详细说明,如图2所示,假设为一个外卖平台上的星巴克商户进行潜在用户挖掘,具体步骤如下:步骤s200、确定90天内星巴克的历史用户数据,其中,所述历史用户数据包括在星巴克下单用户数据和在星巴克未下单用户数据以及用户下单标记label。具体的,在星巴克下单的用户,用户下单标记取值为1,在星巴克未下单的用户,用户下单标记取值为0。举例说明,星巴克的历史用户数据可以如表1所示。表1用户id用户下单标记label11203041表1中用户id为1,4的用户在90天内在星巴克下单,用户id为2,3的用户在90天内在星巴克未下单,实际应用中历史用户数据的数量可以是几十万或者上百万,本公开实施例的具体实施例表1仅仅为示例性的举例说明。步骤s201、提取所述历史用户数据中各用户的用户特征,确定用户特征数据。具体的,以表1为例,提取用户id为1,2,3,4用户的用户特征,用户特征为八大人群、补贴、菜品评分、菜式、口味、年龄段、催单次数等,其中,八大人群、年龄段等的维度是固定的,处理方式为独热编码,所述独热编码,又称one-hot编码、一位有效编码,将离散型特征的每一种取值都看成一种状态,某一特征中有n个不相同的取值,那么可以将该特征抽象成n种不同的状态,one-hot编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这n种状态中只有一个状态位值为1,其他状态位都是0,以八大人群为例,各类人群的取值分别为,第一类人群=[1,0,0,0,0,0,0,0],第二类人群=[0,1,0,0,0,0,0,0],第三类人群=[0,0,1,0,0,0,0,0],第四类人群=[0,0,0,1,0,0,0,0],第五类人群=[0,0,0,0,1,0,0,0],第六类人群=[0,0,0,0,0,1,0,0],第七类人群=[0,0,0,0,0,0,1,0],第八类人群=[0,0,0,0,0,0,0,1]。补贴、补贴率、单均补贴、菜品评分、和催单次数等可以直接用数值表示。菜式、口味等维度不固定的特征,在确定用户特征数据时用字符串表示,例如用户id为1的用户,菜式对应的特征为[川菜|粤菜],用户id为2的用户,菜式对应的特征为[川菜|粤菜|北京菜],用户id为3的用户,菜式对应的特征为[粤菜|北京菜],用户id为4的用户,菜式对应的特征为[川菜|北京菜],以上述7个用户特征为例,任一用户特征具体表示形式为[用户id,value1,value2,value3,value4,value5,value6,value7],其中,value1表示八大人群的取值,value2表示补贴的取值,value3表示菜品评分的取值,value4表示菜式的字符串,value5表示口味的字符串,value6表示年龄段的字符串,value7催单次数的取值。具体表示如表2所示。表2表2中,具体表示用户id为1的用户是第一类人群,补贴为5,菜品评分为4,菜式为[川菜|粤菜],口味为[酸|甜],年龄段为第一年龄段,催单次数为10,具体的,年龄段根据独热处理确定的,一共分为四个年龄段,第一年龄段为20岁到30岁,表示为[1,0,0,0],第二年龄段为30岁到40岁,表示为[0,1,0,0],第三年龄段为40岁到50岁,表示为[0,0,1,0],第二年龄段为50岁到60岁,表示为[0,0,0,1],其它用户id表达的意义不再赘述,表2仅仅是一个示例性的表述,具体以实际应用为准。步骤s202、根据步骤s201确定的用户特征数据与步骤s200确定的历史用户数据中包括的所述用户下单标记,确定出标记后的用户特征数据,其中,所述标记后的用户数据特征中包括字符串。具体的,标记后的用户特征数据可以表示为[用户id,value1,value2,value3,value4,value5,value6,value7,label],在表1和表2的基础上,生成表3,具体如下所示。表3步骤s203、将所述标记后的用户特征数据中包括的所述字符串按照设定方式进行向量化,确定出用户特征向量数据。由于表3中用字符串表示的特征无法向量化,因此,需要首先对字符串表示的特征进行独热编码处理,以菜式为例,根据标记后的用户特征数据确定出菜式的维度,以表3为例,菜式的维度为3维,设置为川菜=[1,0,0],粤菜=[0,1,0],北京菜=[0,0,1],则用户id为1的用户的菜式向量为[1,1,0],用户id为2的用户的菜式向量为[1,1,1],用户id为3的用户的菜式向量为[0,1,1],用户id为4的用户的菜式向量为[1,0,1];口味的维度为5维,设置为酸=[1,0,0,0,0],甜=[0,1,0,0,0],麻=[0,0,1,0,0],辣=[0,0,0,1,0],咸=[0,0,0,0,1],则用户id为1的用户的口味向量为[1,1,0,0,0],用户id为2的用户的口味向量为[1,1,0,1,0],用户id为3的用户的口味向量为[1,1,1,0,0],用户id为4的用户的口味向量为[1,1,0,0,1];因此,通过表3以及对字符串表示的特征的处理,可以确定出用户特征向量数据,如表4所示,具体如下:表4本公开实施例中,所述用户特征还可以为、补贴率、单均补贴、单均平台收益、订餐助理标志、访问频次、服务偏好、服务评分、价格偏好、客单价优惠后、客单价优惠后(工作日)、客单价优惠后(晚餐)、客单价优惠后(午餐)、客单价优惠后(下午茶)、客单价优惠后(夜宵)、客单价优惠后(早餐)、客单价优惠后(周末)、客单价优惠前、拼单订单比例、拼单订单数量、拼单客单价优惠后平均值、品类单量(餐饮)、品类单量(其他品类)、品类单量(商超)、品类单量(水果生鲜)、品类单量(鲜花)、品类单量(药店)、品类单量(早餐)、品类优惠后客单价(餐饮)、品类优惠后客单价(其他品类)、品类优惠后客单价(水果生鲜)、品类优惠后客单价(鲜花)、平均物流单超时时间、平均物流单配送距离、平均物流单配送时长、平均下单间隔、平台价值、评论次数、潜在价值、商户集中度、首次下单日期、所在城市、剃噪单量、剃噪工作日单量、剃噪客单价优惠后工作日平均值、剃噪客单价优惠后工作日中位数、剃噪客单价优惠后平均值、剃噪客单价优惠后晚餐平均值、剃噪客单价优惠后晚餐中位数、剃噪客单价优惠后午餐平均值、剃噪客单价优惠后午餐中位数、剃噪客单价优惠后下午茶平均值、剃噪客单价优惠后下午茶中位数、剃噪客单价优惠后夜宵平均值、剃噪客单价优惠后夜宵中位数、剃噪客单价优惠后早餐平均值、剃噪客单价优惠后早餐中位数、剃噪客单价优惠后正餐平均值、剃噪客单价优惠后正餐中位数、剃噪客单价优惠后中位数、剃噪客单价优惠后周末平均值、剃噪客单价优惠后周末中位数、剃噪晚餐餐单量、剃噪午餐单量、剃噪下午茶单量、剃噪夜宵单量、剃噪早餐单量、剃噪正餐单量、剃噪周末单量、投诉次数、团餐订单数量、未完成订单占比、无优惠单量、无优惠单占比、物流超时单量、物流单超时率、物流单量、物流单占比、物流价值、下单频次、下单渠道订单量(iphone)、下单渠道订单量(安卓)、下单商户数、消费日期订单量(工作日)、消费日期订单量(周末)、消费时间订单量(晚餐)、消费时间订单量(午餐)、消费时间订单量(下午茶)、消费时间订单量(夜宵)、消费时间订单量(早餐)、消费水平、性别、用户价值、用户健康度、用户身份、优惠敏感度、职业、资源偏好、总流水、总配送费、总平台收益、总商户补贴、总商户补贴率、总完成单量、总支付金额、最大客单价优惠后、最大客单配送费、最后物流单超时日期、最后一单距现在时间、最近差评日期、最近访问日期、最小客单价优惠后、最小客单配送费等,在实际应用中还可以包括其他用户特征,不同的用户特征对应不同的处理方式,本公开实施例对其不做限定。步骤s204、根据表4所述的用户特征向量数据确定模型训练集合。具体的,将所述用户特征向量数据按照所述用户下单标记划分,将label值为1的作为正样本,lable值为0的作为负样本,将label值为1的正样本,例如用户id为1和4的用户作为正样本,用户id为2和3的用户作为负样本,将全部正样本和部分负样本作为模型训练集合,由于本公开表1至表4只是实例性的说明,无法体现实际用户的数量,在实际应用中假设模型训练集合中取60万正样本用户,240万负样本用户。步骤s205、根据所述模型训练集合以及预设算法确定预测模型。具体的,根据所述模型训练集合生成矩阵,具体如下:其中,所述x表示用户特征向量,y表示用户下单标记,也可以称为标签,将上述矩阵输入到xgboost分类算法中,运用5折交叉验证的方法,将所述xgboost分类算法的参数调整到最优,并保存调整好参数的预测模型。可选的,还可以运用3折交叉验证或10折交叉验证的方法,还可以采用其他验证方式,本申请对其不做限定。步骤s206、根据所述预测模型确定未下单用户的下单概率。具体的,假设未下单用户的id为11,12,13,14,15,16,17,18,19,20,用预测模型确定其对应的下单概率如表5所示。表5用户id下单概率110.51120.13130.76140.67150.23160.86170,32180.25190.17200.29步骤s207、根据未下单用户的下单概率对所述未下单用户进行分类。具体的,按表5中的下单概率对用户进行排序,排序后如表6所示。表6选择排序在前5名的用户归为第一类,设置对应的方案,例如发放无条件使用的10元优惠券,排在第6到10位的用户归为第二类,发送满80减20的满减劵;或者,选择下单概率大于等于0.5的用户归为第一类,设置对应的方案,例如,下单概率大于等于0.5的用户设置免除外送费的方案,下单概率小于0.5大于等于0.25的用户归为第二类,设置赠送赠品的方案。图3是本公开实施例提供的一种数据处理的装置示意图。如图3所示,本实施例的数据处理的装置包括历史用户数据确定单元31、特征向量数据确定单元32、集合确定单元33、模型确定单元34、预测单元35和处理单元36。其中,历史用户数据确定单元31,用于确定第一设定时间内任一商户的历史用户数据,其中,所述历史用户数据包括下单用户数据和未下单用户数据以及用户下单标记,所述用户下单标记用于表征用户在所述第一设定时间内是否下单;特征向量数据确定单元32,用于提取所述历史用户数据中各用户的用户特征,确定用户特征向量数据;集合确定单元33,用于根据所述用户特征向量数据确定模型训练集合;模型确定单元34,用于根据所述模型训练集合以及预设算法确定预测模型;预测单元35,用于根据所述预测模型确定未下单用户的下单概率;处理单元36,用于根据所述未下单用户的下单概率对所述未下单用户进行分类。进一步的,所述特征向量数据确定单元32具体包括:提取单元321,用于提取所述历史用户数据中各用户的用户特征,确定用户特征数据;第一确定单元322,用于根据所述用户特征数据与所述历史用户数据中包括的所述用户下单标记,确定出标记后的用户特征数据,其中,所述标记后的用户数据特征中包括字符串;第二确定单元323,用于将所述标记后的用户特征数据中包括的所述字符串按照设定方式进行向量化,确定出所述用户特征向量数据。优选的,所述设定方式包括:独热编码。优选的,所述集合确定单元33具体用于:将所述用户特征向量数据按照所述用户下单标记划分为模型训练集合与模型预测集合;所述预测单元35具体用于:根据所述预测模型确定出所述模型预测集合中所述未下单用户的下单概率。优选的,所述处理单元36具体用于:将所述未下单用户按照所述下单概率进行排序,将所述排序序列中的前n名划分为目标用户,其中,n为大于等于1的正整数。优选的,所述处理单元36具体还用于:确定所述下单概率的阈值,将所述下单概率大于或等于所述阈值的未下单用户划分为目标用户。图4是本公开实施例的电子设备的示意图。图4所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器41和存储器42。处理器41和存储器42通过总线43连接。存储器42适于存储处理器41可执行的指令或程序。处理器41可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器41通过执行存储器42所存储的指令,从而执行如上所述的本公开实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线43将上述多个组件连接在一起,同时将上述组件连接到显示控制器44和显示装置以及输入/输出(i/o)装置45。输入/输出(i/o)装置45可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置45通过输入/输出(i/o)控制器46与系统相连。如本领域技术人员将意识到的,本公开实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本公开实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本公开实施例的各个方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪速存储器)、光纤、便携式光盘只读存储器(cd-rom)、光存储装置、磁存储装置或前述的任意适当的组合。在本公开实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。可以使用包括但不限于无线、有线、光纤电缆、rf等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。用于执行针对本公开实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如java、smalltalk、c++等;以及常规过程编程语言如“c”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(lan)或广域网(wan)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。上述根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本公开实施例的各个方面。将要理解的是,流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上,以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。以上所述仅为本公开的优选实施例,并不用于限制本公开,对于本领域技术人员而言,本公开可以有各种改动和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。本公开实施例公开了a1、一种数据处理的方法,包括:确定第一设定时间内任一商户的历史用户数据,其中,所述历史用户数据包括下单用户数据和未下单用户数据以及用户下单标记,所述用户下单标记用于表征用户在所述第一设定时间内是否下单;提取所述历史用户数据中各用户的用户特征,确定用户特征向量数据;根据所述用户特征向量数据确定模型训练集合;根据所述模型训练集合以及预设算法确定预测模型;根据所述预测模型确定未下单用户的下单概率;根据所述未下单用户的下单概率对所述未下单用户进行分类。a2、根据a1所述的方法,所述提取所述历史用户数据中各用户的用户特征,确定用户特征向量数据,具体包括:提取所述历史用户数据中各用户的用户特征,确定用户特征数据;根据所述用户特征数据与所述历史用户数据中包括的所述用户下单标记,确定出标记后的用户特征数据,其中,所述标记后的用户数据特征中包括字符串;将所述标记后的用户特征数据中包括的所述字符串按照设定方式进行向量化,确定出所述用户特征向量数据。a3、根据a1所述的方法,所述根据所述用户特征向量数据确定模型训练集合,具体包括:将所述用户特征向量数据按照所述用户下单标记划分为模型训练集合与模型预测集合;根据所述预测模型确定未下单用户的下单概率,具体包括:根据所述预测模型确定出所述模型预测集合中所述未下单用户的下单概率。a4、根据a1所述的方法,所述根据所述未下单用户的下单概率对所述未下单用户进行分类,具体包括:将所述未下单用户按照所述下单概率进行排序,将所述排序序列中的前n名划分为目标用户,其中,n为大于等于1的正整数。a5、根据a1所述的方法,所述根据所述未下单用户的下单概率对所述未下单用户进行分类,具体包括:确定所述下单概率的阈值,将所述下单概率大于或等于所述阈值的未下单用户划分为目标用户。本公开实施例还公开了b1、一种数据处理的装置,包括:历史用户数据确定单元,用于确定第一设定时间内任一商户的历史用户数据,其中,所述历史用户数据包括下单用户数据和未下单用户数据以及用户下单标记,所述用户下单标记用于表征用户在所述第一设定时间内是否下单;特征向量数据确定单元,用于提取所述历史用户数据中各用户的用户特征,确定用户特征向量数据;集合确定单元,用于根据所述用户特征向量数据确定模型训练集合;模型确定单元,用于根据所述模型训练集合以及预设算法确定预测模型;预测单元,用于根据所述预测模型确定未下单用户的下单概率;处理单元,用于根据所述未下单用户的下单概率对所述未下单用户进行分类。b2、根据b1所述的装置,所述特征向量数据确定单元具体包括:提取单元,用于提取所述历史用户数据中各用户的用户特征,确定用户特征数据;第一确定单元,用于根据所述用户特征数据与所述历史用户数据中包括的所述用户下单标记,确定出标记后的用户特征数据,其中,所述标记后的用户数据特征中包括字符串;第二确定单元,用于将所述标记后的用户特征数据中包括的所述字符串按照设定方式进行向量化,确定出所述用户特征向量数据。b3、根据b1所述的装置,所述集合确定单元具体用于:将所述用户特征向量数据按照所述用户下单标记划分为模型训练集合与模型预测集合;所述预测单元具体用于:根据所述预测模型确定出所述模型预测集合中所述未下单用户的下单概率。b4、根据b1所述的装置,所述处理单元具体用于:将所述未下单用户按照所述下单概率进行排序,将所述排序序列中的前n名划分为目标用户,其中,n为大于等于1的正整数。b5、根据b1所述的装置,所述处理单元具体用于:确定所述下单概率的阈值,将所述下单概率大于或等于所述阈值的未下单用户划分为目标用户。本公开实施例还公开了c1、一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如a1-a5任一项所述的方法。本公开实施例还公开了d1、一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如a1-a5中任一项所述的方法。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1