一种回头客的预测方法及装置与流程

文档序号:17466783发布日期:2019-04-20 05:33阅读:261来源:国知局
一种回头客的预测方法及装置与流程

本申请涉及数据处理技术领域,特别涉及一种回头客的预测方法及装置、计算设备和计算机可读存储介质。



背景技术:

随着(移动)互联网的用户覆盖面不断增加,用户能够接触到较之前更多的餐饮品牌与商家,餐饮商家也能在更广的地理范围内覆盖到更多的客户,这都是以用户——平台——商家的联系为基础。

随着平台的用户量增加以及入住平台的商家增加,平台有能力也应该做个一个更好的“中介”和“资源发现者”帮助用户在海量商家中快速找到更符合自己喜好的商家。同时,在多个商家竞争平台展示机会的情况下,每户商家得到的展示机会有限,平台也能帮助商家充分利用这些机会,把自己品牌推介给最可能被认可的用户。

联系商家与用户中的一类重要问题是:来过某品牌一次的用户中,哪些用户可能再来的机会大?哪些用户不太可能再来?如何判断用户群体中的潜在回头客,是商家所关心的。



技术实现要素:

有鉴于此,本申请实施例提供了一种回头客的预测方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种回头客的预测方法,所述方法包括:

加载预测模型,其中,所述预测模型携带有训练得到的模型参数值;

获取待预测用户的第一用户标识以及所述待预测用户光顾过一次的品牌的第一品牌标识;

根据所述第一用户标识和所述第一品牌标识从数据库中查找所述第一用户标识对应的用户特征集、所述第一品牌标识对应的品牌特征集以及所述第一用户标识与所述第一品牌标识对应的关联特征集,并保存为第一特征集合;

将所述第一特征集合输入至所述预测模型,并获取所述预测模型根据所述模型参数值计算得到的所述待预测用户是否会成为所述品牌的回头客的预测结果。

在本申请的一个示意性的实施方案中,所述预测模型的所述模型参数值通过以下方法获得:

从数据库预存的历史数据中筛选目标品牌的回头客的第二用户标识以及目标品牌的非回头客的第三用户标识;

根据所述第二用户标识,从数据库中查找所述第二用户标识对应的用户特征集;

根据所述第三用户标识,从数据库中查找所述第三用户标识对应的用户特征集;

根据所述目标品牌的第二品牌标识,从数据库中查找所述第二品牌标识对应的品牌特征集;

根据所述第二用户标识和所述第二品牌标识,从数据库中查找所述第二用户标识与所述第二品牌标识对应的关联特征集;

根据所述第三用户标识和所述第二品牌标识,从数据库中查找所述第三用户标识与所述第二品牌标识对应的关联特征集;

将所述第二用户标识对应的用户特征集、所述第三用户标识对应的用户特征集、所述第二品牌标识对应的品牌特征集、所述第二用户标识与所述第二品牌标识对应的关联特征集以及所述第三用户标识与所述第二品牌标识对应的关联特征集保存为第二特征集合;

将所述第二特征集合输入至预测模型进行训练,得到并保存所述预测模型的模型参数值。

在本申请的一个示意性的实施方案中,所述模型参数值通过以下公式计算:

其中,为所述预测模型(w,b)中第l层的第i个节点到第l+1层的第j个节点的传输权重;

为所述预测模型(w,b)中第l层的第i个节点的输出偏置;

alpha为学习速率,控制每轮学习模型参数值的更新速度;

s为第二特征集合;

l(w,b;s)为所述预测模型(w,b)在所述第二特征集合s上的损失函数。

在本申请的一个示意性的实施方案中,在计算得到所述待预测用户是否会成为所述品牌的回头客的预测结果之后,还包括:

将所述预测结果和所述待预测用户是否会成为所述品牌的回头客的实际结果进行对比,得到预测准确率。

在本申请的一个示意性的实施方案中,所述用户特征集包括:用户属性信息、用户就餐记录、用户就餐地理信息、用户就餐品牌信息、用户就餐门店信息、用户就餐时间信息、用户口味信息中的一个或者多个;

所述品牌特征集包括:品牌评价信息、品牌排名信息、品牌口味和品牌时间信息中的一个或者多个;

所述关联特征集包括:用户在品牌的第一次就餐信息。

在本申请的一个示意性的实施方案中,所述预测模型包括:输入层、输出层以及位于所述输入层和所述输出层之间的至少一层隐藏层;

所述输入层包括至少一个节点;

所述隐藏层包括至少一个节点;

所述输出层包括一个节点;

每层的每个节点分别与相邻层的每个节点相连接。

本申请公开了一种回头客的预测装置,所述装置包括:

预测模型加载模块,用于加载预测模型,其中,所述预测模型携带有训练得到的模型参数值;

标识获取模块,用于获取待预测用户的第一用户标识以及所述待预测用户光顾过一次的品牌的第一品牌标识;

第一特征集合生成模块,用于根据所述第一用户标识和所述第一品牌标识从数据库中查找所述第一用户标识对应的用户特征集、所述第一品牌标识对应的品牌特征集以及所述第一用户标识与所述第一品牌标识对应的关联特征集,并保存为第一特征集合;

预测结果生成模块,用于将所述第一特征集合输入至所述预测模型,并获取所述预测模型根据所述模型参数值计算得到的所述待预测用户是否会成为所述品牌的回头客的预测结果。

在本申请的一个示意性的实施方案中,所述装置还包括:

预测准确率生成模块,用于将所述预测结果和所述待预测用户是否会成为所述品牌的回头客的实际结果进行对比,得到预测准确率。

本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:

加载预测模型,其中,所述预测模型携带有训练得到的模型参数值;

获取待预测用户的第一用户标识以及所述待预测用户光顾过一次的品牌的第一品牌标识;

根据所述第一用户标识和所述第一品牌标识从数据库中查找所述第一用户标识对应的用户特征集、所述第一品牌标识对应的品牌特征集以及所述第一用户标识与所述第一品牌标识对应的关联特征集,并保存为第一特征集合;

将所述第一特征集合输入至所述预测模型,并获取所述预测模型根据所述模型参数值计算得到的所述待预测用户是否会成为所述品牌的回头客的预测结果。

本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现如上所述方法的步骤。

本申请提供的回头客的预测方法及装置、计算设备和计算机可读存储介质,通过加载预测模型,根据待预测用户的第一用户标识以及待预测用户光顾过一次的品牌的第一品牌标识从数据库中查找得到第一特征集合,然后将第一特征集合输入至预测模型得到回头客的预测结果,从而帮助商家判断用户群体中的潜在回头客。

附图说明

图1是本申请实施例的回头客的预测方法的流程示意图;

图2是本申请实施例的回头客的预测方法中预测模型的示意图;

图3是本申请实施例的预测模型的模型参数值的获取方法流程图;

图4是本申请实施例的回头客的预测装置的结构示意图;

图5是本申请实施例的计算设备的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

在本申请中提供了一种回头客的预测方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。

本实施例公开的回头客的预测方法参见图1,该方法应用于一个平台中,该平台作为联系用户和商家的中介,可以记录并更新商家的品牌特征、记录用户特征、并记录用户与品牌的关联特征,并将获取的特征保存于数据库中。

本实施例公开的回头客的预测方法包括以下步骤101~104:

101、加载预测模型,其中,所述预测模型携带有训练得到的模型参数值。

需要说明的是,在加载预测模型之前,预测模型就已经被训练好并保存于数据库中。本实施例中,预测模型为一深度学习神经网络。下面对预测模型进行详细的说明。

具体地,本实施例中的预测模型的结构如图2所示,预测模型包括:输入层、输出层以及位于所述输入层和所述输出层之间的至少一层隐藏层;

所述输入层包括至少一个节点;

所述隐藏层包括至少一个节点;

所述输出层包括一个节点;

每层的每个节点分别与相邻层的每个节点相连接。

参见图2,本实施例中的预测模型,输入层为152个节点,每个节点对应第二特征集合的一个特征;隐藏层为三层,每层隐藏层的节点为64个,每个节点输入为上一层各节点的加权和,激活函数为非线性函数(relu函数);输出层为1个节点,输出激活函数为sigmoid函数。

预测模型在训练前,需要进行初步构建。初步构建的过程主要是选择如下超参数(hyperparameters):模型的结构,模型的层数,每层的节点数,每层的激活函数,每层的正则化参数,输出层的激活函数,训练过程中的优化算法,优化算法的目标损失函数形式,训练的轮数,采用随机梯度优化算法时一个批(batch)的大小。

预测模型初步构建后,就需要输入数据进行训练,以确定模型参数。

超参数和模型参数不同,模型参数是预测模型可以根据输入数据可以自动学习出的变量;超参数是根据经验确定的变量,用来确定模型的一些参数,超参数不同,模型是不同的。

参见图3,预测模型的模型参数值通过以下步骤301~308获取:

301、从数据库预存的历史数据中筛选目标品牌的回头客的第二用户标识以及目标品牌的非回头客的第三用户标识。

需要解释的是,本实施例中所述目标品牌的回头客指的是该目标品牌的到店次数大于等于2的用户,目标品牌的非回头客指的是该目标品牌的到店次数为1且上一次到店时间距今已超过一个统计周期的用户。其中,统计周期可以为365天,本实施例并不限定统计周期的具体时间。

通过本步骤301,可以得到该目标品牌的正样本和负样本,其中正样本包括:第二用户标识、目标品牌标识和正样本标签,负样本包括:第三用户标识、目标品牌标识和负样本标签。

302、根据所述第二用户标识,从数据库中查找所述第二用户标识对应的用户特征集。

303、根据所述第三用户标识,从数据库中查找所述第三用户标识对应的用户特征集。

304、根据所述目标品牌的第二品牌标识,从数据库中查找所述第二品牌标识对应的品牌特征集。

305、根据所述第二用户标识和所述第二品牌标识,从数据库中查找所述第二用户标识与所述第二品牌标识对应的关联特征集。

306、根据所述第三用户标识和所述第二品牌标识,从数据库中查找所述第三用户标识与所述第二品牌标识对应的关联特征集。

需要注意的是,上述步骤302~306的执行顺序可以任意,可以按照从步骤302至步骤306的顺序依次执行,也可以按照其他执行顺序,例如并列执行的顺序。

307、将所述第二用户标识对应的用户特征集、所述第三用户标识对应的用户特征集、所述第二品牌标识对应的品牌特征集、所述第二用户标识与所述第二品牌标识对应的关联特征集以及所述第三用户标识与所述第二品牌标识对应的关联特征集保存为第二特征集合。

具体地,本步骤307中包括以下步骤:

1)将正负样本合并,形成正负样本混合的表,含有“用户标识—第二品牌标识—正负标签”三个维度,记为data表;

2)根据用户标识作为连接键,将与data表中用户标识匹配的“用户特征集”内连接(innerjoin)到data表中;

3)根据第二品牌标识作为连接键,将与data表中第二品牌标识匹配的“品牌特征集”内连接(innerjoin)到data表中;

4)根据(用户标识,第二品牌标识)作为联合连接键,将与data表中(用户标识、第二品牌标识)匹配的“用户+品牌的关联特征集”内连接(innerjoin)到data表中;

5)将用户标识和第二品牌标识删除,形成“用户特征集—品牌特征集—用户+品牌的关联特征集—正负样本标签”的数据,保存在data表中。

其中,用户特征集包括:用户属性信息、用户就餐记录、用户就餐地理信息、用户就餐品牌信息、用户就餐门店信息、用户就餐时间信息、用户口味信息中的一个或者多个;

具体地:

用户属性信息包括:用户性别、用户年龄等;

用户就餐记录包括:第一次使用平台就餐时间、最后一次平台就餐时间等;

用户就餐地理信息包括:在多少个城市有就餐记录、在哪个城市就餐次数最多等;

用户就餐品牌信息包括:曾就餐过的品牌的最大/最小门店数等;

用户就餐门店信息包括:就餐的门店的最高/最低均价等;

用户就餐时间信息包括:四季就餐记录所占个人就餐记录的比例、在工作日/周末所占比例等;

用户口味信息包括:就餐的菜系次数分布等。

品牌特征集包括:品牌评价信息、品牌排名信息、品牌口味和品牌时间信息中的一个或者多个;

具体地:

品牌评价信息包括:各门店均价均值、口味打分均值等;

品牌排名信息包括:品牌规模在全国排名等;

品牌口味包括:品牌菜系等;

品牌时间信息包括:品牌排队量分别在四季所占比例、品牌排队量在工作日/周末所占比例等。

关联特征集包括:用户在品牌的第一次就餐信息;

具体地,用户在品牌的第一次就餐信息包括:业务类型(排队/预订/点餐/支付)、就餐的季节、工作日/周末就餐、就餐时间点、就餐均价等。

以上三个特征集在计算完成后,分别存入数据库中,并随着业务的发展,平台每隔一段时间更新一次。

308、将所述第二特征集合输入至预测模型进行训练,得到并保存所述预测模型的模型参数值。

具体地,在本步骤308中,将第二特征集合分割成训练数据集(traindata)、验证数据集(validationdata)、测试数据集(testdata),采用随机抽取等方式保证三个数据集中的正负样本分布均匀。

在训练预测模型的过程中,可以根据每次训练后在验证集上的准确率和损失函数表现优化超参数,最后将训练的模型结构与模型参数值保存于数据库中。

在本申请的一个具体的实施例中,对于已有的训练数据集s={(x1,y1),(x2,y2)…(xm,ym)},包含m个样本,构造在训练数据集上的损失函数l(w,b;s),用来衡量当前深度学习网络在训练数据集上的预测准确率。

通过对网络模型的训练,使预测模型在训练数据集上的预测准确率提高,同时保持一定的泛化能力使得在未来的数据集上也保持较高的准确率。

模型参数值通过以下公式计算:

其中,为所述预测模型(w,b)中第l层的第i个节点到第l+1层的第j个节点的传输权重;

为所述预测模型(w,b)中第l层的第i个节点的输出偏置;

alpha为学习速率,控制每轮学习模型参数值的更新速度;

s为第二特征集合;

l(w,b;s)为所述预测模型(w,b)在所述第二特征集合s上的损失函数。

102、获取待预测用户的第一用户标识以及所述待预测用户光顾过一次的品牌的第一品牌标识。

需要说明的是,待预测用户为对于某一目标品牌,既不是回头客也不是非回头客的用户,也就是说,待预测用户为最近一个统计周期内仅光顾过该品牌一次的用户。其中,所述统计周期可以为365天,本申请对所述统计周期的具体时间不做限定。

由于待预测用户在平台上有过消费记录,所以其第一用户标识以及待预测用户光顾过一次的品牌的第一品牌标识均存储于数据库中。

103、根据所述第一用户标识和所述第一品牌标识从数据库中查找所述第一用户标识对应的用户特征集、所述第一品牌标识对应的品牌特征集以及所述第一用户标识与所述第一品牌标识对应的关联特征集,并保存为第一特征集合。

其中,用户特征集、品牌特征集和关联特征集的具体内容在前述内容已经详细解释过,在此便不再赘述。以上三个特征集在计算完成后,分别存入数据库中不同的表中,并随着业务的发展,平台每隔一段时间更新一次。

104、将所述第一特征集合输入至所述预测模型,并获取所述预测模型根据所述模型参数值计算得到的所述待预测用户是否会成为所述品牌的回头客的预测结果。

可选地,在步骤104完成后,做10-fold交叉验证,计算10次预测的平均准确率,作为预测模型的准确率。

本申请提供的回头客的预测方法,通过加载预测模型,根据待预测用户的第一用户标识以及待预测用户光顾过一次的品牌的第一品牌标识从数据库中查找得到第一特征集合,然后将第一特征集合输入至预测模型得到回头客的预测结果,从而帮助商家判断用户群体中的潜在回头客。

可选地,在本申请的另一个实施例中,在步骤104后,本申请的回头客的预测方法还包括:

105、将所述预测结果和所述待预测用户是否会成为所述品牌的回头客的实际结果进行对比,得到预测准确率。

计算时,可以通过预测准确率=正确预测数/测试数据总数来计算,通过预测准确率,可以判断预测模型建立的优劣程度。

本申请实施例还公开了一种回头客的预测装置,参见图4,所述装置包括:

预测模型加载模块401,用于加载预测模型,其中,所述预测模型携带有训练得到的模型参数值;

标识获取模块402,用于获取待预测用户的第一用户标识以及所述待预测用户光顾过一次的品牌的第一品牌标识;

第一特征集合生成模块403,用于根据所述第一用户标识和所述第一品牌标识从数据库中查找所述第一用户标识对应的用户特征集、所述第一品牌标识对应的品牌特征集以及所述第一用户标识与所述第一品牌标识对应的关联特征集,并保存为第一特征集合;

预测结果生成模块404,用于将所述第一特征集合输入至所述预测模型,并获取所述预测模型根据所述模型参数值计算得到的所述待预测用户是否会成为所述品牌的回头客的预测结果。

其中,关于预测模型的架构、预测模型的模型参数值的获取方法、用户特征集、品牌特征集和关联特征集的含义,本实施例的前述方法部分已经详细解释,在此便不再赘述。

可选地,模型参数值通过以下公式计算:

其中,为所述预测模型(w,b)中第l层的第i个节点到第l+1层的第j个节点的传输权重;

为所述预测模型(w,b)中第l层的第i个节点的输出偏置;

alpha为学习速率,控制每轮学习模型参数值的更新速度;

s为第二特征集合;

l(w,b;s)为所述预测模型(w,b)在所述第二特征集合s上的损失函数。

可选地,本实施例的回头客的预测装置还包括:

预测准确率生成模块,用于将所述预测结果和所述待预测用户是否会成为所述品牌的回头客的实际结果进行对比,得到预测准确率。

本申请的回头客的预测装置通过加载预测模型,根据待预测用户的第一用户标识以及待预测用户光顾过一次的品牌的第一品牌标识从数据库中查找得到第一特征集合,然后将第一特征集合输入至预测模型得到回头客的预测结果,从而帮助商家判断用户群体中的潜在回头客。

上述为本实施例的一种回头客的预测装置的示意性方案。需要说明的是,该回头客的预测装置的技术方案与上述的回头客的预测方法的技术方案属于同一构思,回头客的预测装置的技术方案未详细描述的细节内容,均可以参见上述回头客的预测方法的技术方案的描述。

图5是示出了根据本申请一实施例的计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510相连接。

虽然图5中没有示出,但是应该知道,计算设备500还可以包括网络接口,网络接口使得计算设备500能够经由一个或多个网络通信。这些网络的示例包括局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。网络接口可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。

在本申请的一个实施例中,计算设备500的上述以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

本实施例的计算设备500的处理器520执行所述指令时实现以下步骤:

加载预测模型,其中,所述预测模型携带有训练得到的模型参数值;

获取待预测用户的第一用户标识以及所述待预测用户光顾过一次的品牌的第一品牌标识;

根据所述第一用户标识和所述第一品牌标识从数据库中查找所述第一用户标识对应的用户特征集、所述第一品牌标识对应的品牌特征集以及所述第一用户标识与所述第一品牌标识对应的关联特征集,并保存为第一特征集合;

将所述第一特征集合输入至所述预测模型,并获取所述预测模型根据所述模型参数值计算得到的所述待预测用户是否会成为所述品牌的回头客的预测结果。

本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述回头客的预测方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的回头客的预测方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述回头客的预测方法的技术方案的描述。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1