数据处理方法、装置、介质以及电子设备与流程

文档序号:19995708发布日期:2020-02-22 02:43阅读:105来源:国知局
数据处理方法、装置、介质以及电子设备与流程

本发明的实施方式涉及人工智能技术领域,更具体地,本发明的实施方式涉及一种数据处理方法、装置、介质以及电子设备。



背景技术:

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

众所周知,产品的价格与产品的销量密切相关,如何制定产品的价格策略是电商领域的一个重要问题。而面对海量的数据,人工制定价格策略效果极差,需要通过技术手段寻求解决方案。在相关技术中,产品定价通常采用基于经验规则或者基于销量预测的定价模型。基于经验规则的定价模型是以人的经验作为基础,通过设定规则的方式实现自动定价。基于销量预测的定价模型是通过预测在不同定价情况下的销量,实现自动定价的方案。



技术实现要素:

但是,本发明人发现,基于规则的定价方式在泛化、可扩展性方面较差,需要人定期对规则进行检查维护,同时不易探索到最优定价策略;基于销量预测的定价模型依赖销量预测模型的准确性,而销量预测的准确性又往往难以保证,另外,成交金额对于模型定价影响的反馈存在延迟,模型无法做出当前组合目标的最优统筹决策。

为此,非常需要一种改进的数据处理方法,以解决上述技术问题。

在本上下文中,本发明的实施方式期望提供一种数据处理方法,以获得更优的定价结果,同时保障自动定价的安全性,降低人力成本。

在本发明实施方式的第一方面中,提供了一种数据处理方法,包括构建基于强化学习的自动定价模型,获得离线数据和多个销量预测模型,其中,所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型,基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练,其中,所述第一销量预测模型基于调价后的价格进行销量预测,所述第二销量预测模型基于未调价的价格进行销量预测,基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练,并基于所述自动定价模型处理所述在线数据,产生第一价格作为定价结果,其中,所述第三销量预测模型基于未调价的价格进行销量预测,以及通过所述第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控所述第一价格是否发生异常。

在本发明的一个实施例中,所述自动定价模型包括基于深度确定性策略梯度算法的强化学习模型,所述销量预测模型为xgboost模型。

在本发明的另一个实施例中,所述自动定价模型至少基于t时刻的状态输出t时刻的动作,根据t+1时刻的状态确定奖励值,并基于所述奖励值训练模型参数,其中,所述状态包括页面价格、成本价格、销售量、库存、商品点击量、评论数、商品类目、即将过期的商品库存、竞品价格、商品等级中的一种或多种。

在本发明的又一个实施例中,在训练初期,所述动作表示为权重向量,由所述权重向量和基于所述状态确定的状态向量的内积确定价格调整参数,在训练后期,所述动作表示为价格调整参数,所述自动定价模型还用于根据预定的风险控制规则限制所述价格调整参数的取值范围。

在本发明的又一个实施例中,所述奖励值基于t时刻的销售额或者销售额的增长量,以及基于库存和/或单件利润的势函数的值确定。

在本发明的又一个实施例中,所述基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练包括,基于所述离线数据中的t时刻的数据,通过所述自动定价模型确定动作,基于所述离线数据中的t时刻的数据以及所述动作,通过所述第一销量预测模型预测调价后t+1时刻的第一预测数据,通过所述第二销量预测模型预测未调价情况下的t+1时刻的第二预测数据,基于所述第一预测数据和所述第二预测数据的差异,确定奖励值,以及基于所述奖励值,调整所述自动定价模型的参数,实现对所述自动定价模型的预训练。

在本发明的又一个实施例中,所述基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练包括通过所述第三销量预测模型预测未调价情况下的下一时刻的第三预测数据,基于所述第三预测数据与下一时刻实际销量的差异,确定奖励值,基于所述奖励值,调整所述自动定价模型的参数,实现对所述自动定价模型的在线训练。

在本发明的再一个实施例中,所述第二价格用于监控所述第一价格是否发生异常包括当所述第一价格与所述第二价格的比值连续超出预定范围达到预定次数时,确定所述第一价格发生异常。

在本发明实施方式的第二方面中,提供了一种数据处理装置,包括构建模块、获得模块、预训练模块、定价模块以及监控模块。构建模块,用于构建基于强化学习的自动定价模型。获得模块,用于获得离线数据和多个销量预测模型,其中,所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型。预训练模块,用于基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练,其中,所述第一销量预测模型基于调价后的价格进行销量预测,所述第二销量预测模型基于未调价的价格进行销量预测。定价模块,用于基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练,并基于所述自动定价模型处理所述在线数据,产生第一价格作为定价结果,其中,所述第三销量预测模型基于未调价的价格进行销量预测。监控模块,用于通过所述第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控所述第一价格是否发生异常。

在本发明实施方式的第三方面中,提供了一种介质,其上存储有可执行指令,所述指令被处理单元执行时使所述处理单元执行上述任一项所述的方法。

在本发明实施方式的第四方面中,提供了一种电子设备,包括处理单元,以及存储单元,其上存储有可执行指令,所述指令被所述处理单元执行时使所述处理单元执行如上所述的方法。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

图1示意性地示出了根据本发明实施方式的数据处理方法的应用场景的示意图;

图2示意性地示出了根据本发明示例性实施例的数据处理方法的流程图;

图3示意性地示出了根据本发明示例性实施例的对所述自动定价模型进行预训练的流程图;

图4示意性地示出了根据本发明示例性实施例的对所述自动定价模型进行在线训练的流程图;

图5示意性地示出了根据本发明示例性实施例的数据处理装置的框图;

图6示意性地示出了根据本发明示例性实施例的计算机可读存储介质的示意图;以及

图7示意性地示出了根据本发明示例性实施例的电子设备的方框图。

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。

根据本发明的实施方式,提出了一种数据处理方法、装置、介质和电子设备。

此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。

下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。

发明概述

随着电商领域的快速发展,如何在保障安全性的同时获得更优的自动定价结果是一个亟待解决的问题。为此,本发明示例性实施例提供了一种数据处理方法,通过将强化学习定价模型和销量预测模型结合的方式,提高了训练效果,能够获得更佳的定价结果,同时保障自动定价的安全性,降低人力成本。

在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1,图1示意性地示出了根据本发明实施方式的数据处理方法的应用场景的示意图。

如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据处理装置一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。

示例性方法

下面参考图2~图4描述根据本发明示例性实施方式的数据处理方法。

图2示意性地示出了根据本发明示例性实施例的数据处理方法的流程图。

如图2所示,该方法包括步骤s210~s250。

在步骤s210,构建基于强化学习的自动定价模型。根据本发明示例性实施例,所述自动定价模型可以选用基于深度确定性策略梯度算法(deepreinforcementpolicygradient,ddpg)的强化学习模型。

由于自动定价业务场景较复杂,需要考虑的商品状态特征较多,且动作值连续变化,传统强化学习如q-learning,sarsa等无法存储如此大量的行动价值信息,本发明人研究了不同深度强化学习算法方案的可行性,最终选定了基于ddpg的强化学习模型。

表1

在智能定价方案中,从更新机制角度,单步被定义为一次调价动作。而回合是我们在一段长的周期内,经过多次调价而最终获得稳定的好的奖励,或者不好的奖励的一系列动作的集合。显然,在这里我们希望智能定价模型具备单步更新的能力。从动作策略的角度讲,随机策略更注重使模型稳定收敛到全局最优策略,但是收敛速度偏慢,对数据量要求较大,确定性策略可以更快的往好的方向收敛,对数据量要求明显低于随机策略,但是稳定性略低于前者,在这里我们优先考虑使用确定性策略。对于价值策略而言,off-policy打破了连续动作之间的相关性,保证了模型更快的朝正确的方向收敛。本方案的动作值,即调价的比例,属于连续数值,但是如果简化规则,将调价比例人为设置成离散化的列表也可以。对于值函数而言,神经网络带来了更强大的拟合能力,更大的稳定性,优先选择神经网络。对于模型类型而言,value_based模型出现较早,主要缺点在于其动作值设定必须离散化,但模型稳定性较好,发展比较成熟。policy_based模型出现较晚,允许使用连续动作值,但是模型特性不适用于本方案。ac类型强化学习模型出现最晚,其中ddpg算法属于应用于当前大部分业务领域的最先进的算法之一,在工业界使用最为广泛,本方案优先考虑使用ddpg算法。

根据本发明示例性实施例,所述自动定价模型至少基于t时刻的状态输出t时刻的动作,根据t+1时刻的状态确定奖励值,并基于所述奖励值训练模型参数。其中,所述状态包括页面价格、成本价格、销售量、库存、商品点击量、评论数、商品类目、即将过期的商品库存、竞品价格、商品等级中的一种或多种。

在本发明示例性实施例中,用户被视为响应自动定价模型输出的动作的环境,因此,自动定价模型需要感知环境的状态进行决策。因此,如何定义环境状态使其能够准确反映出用户对商品价格的响应是首要问题。假设用户在购买过程中倾向于点击他感兴趣的商品,并且愿意购买页面价低于他心理预期的商品。基于这个假设,可以将用户的历史点击,购买类行为作为抽取状态特征的数据来源。具体来说,每一次价格调整后,我们把用户在一段实际内对商品的响应行为提炼为特征:

s=(pageprice,cost,sales1,sales3.sales7,store,pv,comments)

其中,pageprice为页面价,cost为成本价,sales1为一天内销售量,sales3为三天内销售量,sales7为七天内销售量,store为前台库存,pv为商品点击量,comments为商品一周内评论数。

另外,为了区别不同商品,以及相似或同类目商品之间相互的影响,在本发明示例性实施例中,还可以将商品的核心长期特征加入到状态定义中。另外考虑到商品状态的变化可能跟之前两次(或者更多次)相关,本发明示例性实施例引入两个调价周期的状态,并可选地引入更多特征:

其中,cat1id为商品的一级类目的id,cat2id为二级类目的id,recent_experied_count为最近一批即将过期数量,competitive_product_price为竞品价格,grade为商品等级。

在算法具体实现时,由于状态特征不同维度的幅值不一样,我们需要对所有维度特征的特征值归一化到[0,1]区间,再进行后续处理。

应当了解的是,上述列举的各个特征,本领域技术人员可以选择其中的一种或多种使用,也可以加入更多的特征,本发明示例性实施例对此不做限定。

根据本发明示例性实施例,在训练初期,所述动作可以表示为权重向量,由所述权重向量和基于所述状态确定的状态向量的内积确定价格调整参数,在训练后期,所述动作可以表示为价格调整参数,所述自动定价模型还用于根据预定的风险控制规则限制所述价格调整参数的取值范围。

本发明人关于动作定义提出两种方案:

方案一,把商品的价格调整比例作为动作,同时根据经验规则或者风控规则,对比例幅值或者调后价格范围加一层限制。

其中,a为动作,即调价比例,pageprice0为当前页面价,pageprice为调整以后页面价,minprice为价格下限,maxprice为价格上限。

方案二,对于自动定价模型输出的每一个动作,都使用一个权重向量来表示,通过将每一个权重向量与其对应的状态向量点乘,得到价格需要改变的幅度。这样在每一轮迭代中,通过改变该权重向量的梯度,更新权重向量从而控制价格策略优化。这种方案的好处是,通过观察权重向量的变化轨迹,我们可以对状态特征序列进行特征筛选。

a=(a0,a1,a2,……ak)

p=a*s

这里,p为调价比例,k的值与状态向量的长度一致,权重向量与状态向量点乘得到的调价比例代替了原来直接由动作输出的调价比例。

在本发明示例性实施例中,可以在训练初期采用方案二,评估多个状态特征的筛选,待稳定之后采用方案一,模型收敛速度会更快。

根据本发明示例性实施例,所述奖励值基于t时刻的销售额或者销售额的增长量,以及基于库存和/或单件利润的势函数的值确定。

奖励函数需要参考的一个重要指标是动作响应周期,本发明示例性实施例在开始阶段将调价周期设定得相对长一些,比如7天,后期模型性能稳定后可逐渐缩短。固定该周期后,在两次动作响应周期之间,商品销售额的总量或者商品销售额的增长(正为增,负为降)累加和可以定义为奖励。这种奖励指标优化了所有商品总的成交金额(gmv)。

本发明示例性实施例还可以对奖励进行塑形,在原有的奖励函数中加入先验的知识,使得自动定价模型可以在多个目标之间统筹规划,灵活应对各个业务场景的不同要求。例如,我们可以将“在状态s上选择动作a,并转移到状态s′”的奖励值定义为:

其中,r0(s,a,s′)(即)为原始定义的奖励函数,为包含先验知识的函数,也被称为势函数。我们可以把势函数理解为学习过程中的子目标。例如,

可以根据场景需要加入相应的奖励塑形的具体设计。

继续参考图2。在步骤s220,获得离线数据和多个销量预测模型,其中,所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型。

目前工业界销量预测算法主要有三类:统计规则类、时序模型类、回归模型类。基于统计规则的方法稳定,快速,但是准确率稍差。时序模型的方法需要训练数据时间跨度较长,且具有一定的趋势和周期性,对于短期的销量预测准确性较低。回归模型可解释性较差,但是对于短期的销量预测准确率较高。综合考虑,本发明示例性实施例可以选用回归模型作为销量预测算法模型,另外,对于新品,需要采用统计类的模型。在回归模型的选择中,lr模型只适合对于线性数据进行拟合,和销量变化显然是非线性的;xgboost和dnn都考虑了数据非线性和特征交叉,dnn的非线性拟合能力更强大,但是需要更大量的训练数据,考虑到训练数据量,本发明示例性实施例可以采用xgboost作为销量预测回归模型。

本发明示例性实施例的销量预测模块采用如下设置:训练数据采用近两年所有商品的销售数据,根据商品等级,促销方式,上下架时间等指标对数据进行清洗过滤。销量预测的时间粒度和商品粒度与强化学习定价周期保持一致,即,如果强化学习定价模型3天调价一次,则销量预测模型每次预测3天的总销量。如果每个强化学习模型对一个分组的商品定价,则销量预测模型也对相同分组的商品预测销量。这里,关于分组的划分,可以基于图嵌入的算法,对每个商品向量化,设定阈值,对向量相似度超过阈值的商品归纳为一个分组。在训练数据的时间窗口方面,可以设置对于页面浏览量或点击量(pv)、页面浏览人数或点击人数(uv)、销量等特征,分别选取过去3天,7天,一个月,三个月四个统计维度进行统计,同时加入环比分析类特征数据。

在步骤s230,基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练,其中,所述第一销量预测模型基于调价后的价格进行销量预测,所述第二销量预测模型基于未调价的价格进行销量预测。

根据本发明示例性实施例,在构建自动定价模型之后,需要通过第一销量预测模型和第二销量预测模型对自动定价模型进行预训练和离线测试。此时这两个模型用到的数据皆为离线数据。销量预测模型一方面为自动定价模型提供线上模拟环境,对自动定价模型输出的价格预判销量与gmv等奖励反馈值,修正自动定价模型的参数,同时另一个销量模型固定价格,不变,用其他数据预测出来当前参数下自然流量的波动,抵消这些波动对自动定价模型的影响。

图3示意性地示出了根据本发明示例性实施例的对所述自动定价模型进行预训练的流程图。

如图3所示,该方法包括步骤s310~s340。

在步骤s310,基于所述离线数据中的t时刻的数据,通过所述自动定价模型确定动作。

在步骤s320,基于所述离线数据中的t时刻的数据以及所述动作,通过所述第一销量预测模型预测调价后t+1时刻的第一预测数据,通过所述第二销量预测模型预测未调价情况下的t+1时刻的第二预测数据。

在步骤s330,基于所述第一预测数据和所述第二预测数据的差异,确定奖励值。

在步骤s340,基于所述奖励值,调整所述自动定价模型的参数,实现对所述自动定价模型的预训练。

基于强化学习的自动定价模型根据离线数据中t时刻的数据可以确定t时刻采取的动作,即调价的结果,例如调价比例或者调价后的价格等等。第一销量预测模型根据调价后的价格预测下一时刻(t+1时刻)的销量,同时,第二销量预测模型根据未调价的价格预测下一时刻的销量,从而确定调价动作对销量产生的影响。避免了在一些情况下,非价格因素导致的销量变化对模型产生不良影响,例如,受到季节交替导致一些季节关联性较强的商品的销量变化。

返回参考图2。在步骤s240,基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练,并基于所述自动定价模型处理所述在线数据,产生第一价格作为定价结果,其中,所述第三销量预测模型基于未调价的价格进行销量预测。

根据本发明示例性实施例,离线测试通过以后,我们将自动定价模型部署在线上,使用线上真实反馈数据更新模型参数。此时,本发明示例性实施例采用线上实时数据训练得到的第三销量预测模型。这里数据实时度与自动定价模型使用的数据保持一致。第三销量预测模型依然固定自动定价模型调价前的价格不变,只预测自然流量的变化。

图4示意性地示出了根据本发明示例性实施例的对所述自动定价模型进行在线训练的流程图。

如图4所示,该方法包括步骤s410~s430。

在步骤s410,通过所述第三销量预测模型预测未调价情况下的下一时刻的第三预测数据。

在步骤s420,基于所述第三预测数据与下一时刻实际销量的差异,确定奖励值。

在步骤s430,基于所述奖励值,调整所述自动定价模型的参数,实现对所述自动定价模型的在线训练。

例如,如果下一时刻的实际销量与第三销量预测模型预测的未调价情况下的下一时刻的销量相比有所提高,则得到一个正的奖励值,提升越大奖励值越大;如果下一时刻的实际销量反而低于第三销量预测模型预测的未调价情况下的下一时刻的销量,则可以产生一个负的奖励值。根据这样的奖励值,自动定价模型可以得知输出的定价是否有效,从而改善模型参数,不断提高模型预测结果的准确性。

与离线训练类似,第三销量预测模型同样用于抵消非价格因素导致的销量变化,但由于真实销量数据的实时产生,无需预测调价后的销量。基于本发明示例性实施例产生的奖励值可以抵消非价格因素产生的影响,有效地改善训练效果,提高定价的准确性。

返回参考图2。在步骤s250,通过所述第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控所述第一价格是否发生异常。根据本发明示例性实施例,第四销量预测模型根据销量预测找到最大成交金额对应的最优价格,并以此价格对强化学习模型实时监控。该第四销量预测模型确定最优价格的方式与相关技术中基于销量预测的自动定价方案类似,然而,由于该方法不够精确,但较为可靠,本方案可以利用该方法获得定价结果,对本方案中的自动定价模型输出的定价结果进行监控。例如,可以在所述第一价格与所述第二价格的比值连续超出预定范围达到预定次数时,确定所述第一价格发生异常。其中,考虑到销量预测模型同样存在准确率不稳定性,本发明示例性实施例需要连续多次超出预定范围时才启动报警机制。

本发明示例性实施例通过将强化学习定价模型和销量预测模型结合的方式,提高了训练效果,能够获得更佳的定价结果,同时保障自动定价的安全性,降低人力成本。

示例性装置

在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的数据处理装置进行说明。

图5示意性地示出了根据本发明示例性实施例的数据处理装置500的框图。

如图5所示,数据处理装置500包括构建模块510、获得模块520、预训练模块530、定价模块540以及监控模块550。

构建模块510,例如执行上文参考图2描述的步骤s210,用于构建基于强化学习的自动定价模型。

获得模块520,例如执行上文参考图2描述的步骤s220,用于获得离线数据和多个销量预测模型,其中,所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型。

预训练模块530,例如执行上文参考图2描述的步骤s230,用于基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练,其中,所述第一销量预测模型基于调价后的价格进行销量预测,所述第二销量预测模型基于未调价的价格进行销量预测。

定价模块540,例如执行上文参考图2描述的步骤s240,用于基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练,并基于所述自动定价模型处理所述在线数据,产生第一价格作为定价结果,其中,所述第三销量预测模型基于未调价的价格进行销量预测。

监控模块550,例如执行上文参考图2描述的步骤s250,用于通过所述第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控所述第一价格是否发生异常。

根据本发明示例性实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明示例性实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本发明示例性实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本发明示例性实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

例如,构建模块510、获得模块520、预训练模块530、定价模块540以及监控模块550中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,构建模块510、获得模块520、预训练模块530、定价模块540以及监控模块550中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,构建模块510、获得模块520、预训练模块530、定价模块540以及监控模块550中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

示例性介质

在介绍了本发明示例性实施方式的装置之后,接下来,参考图6对本发明示例性实施方式的一种计算机可读存储介质进行说明。本发明示例性实施方式提供了一种计算机可读存储介质,其上存储有可执行指令,所述指令被处理单元执行时使所述处理单元执行上文所述的方法。

在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的步骤,例如,所述电子设备可以执行如图2中所示的步骤s210,构建基于强化学习的自动定价模型;步骤s220,获得离线数据和多个销量预测模型,其中,所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型;步骤s230,基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练,其中,所述第一销量预测模型基于调价后的价格进行销量预测,所述第二销量预测模型基于未调价的价格进行销量预测;步骤s240,基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练,并基于所述自动定价模型处理所述在线数据,产生第一价格作为定价结果,其中,所述第三销量预测模型基于未调价的价格进行销量预测;步骤s250,通过所述第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控所述第一价格是否发生异常。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图6所示,描述了根据本发明的实施方式的数据处理程序产品600,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如java,c++等,还包括常规的过程式程序设计语言——诸如“c”,语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(lan)或广域网(wan)一连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

示例性电子设备

在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图7对本发明示例性实施方式的电子设备进行说明。

本发明实施例还提供了一种电子设备。所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中,根据本发明的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的步骤。例如,所述处理单元可以执行如图2中所示的步骤s210,构建基于强化学习的自动定价模型;步骤s220,获得离线数据和多个销量预测模型,其中,所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型;步骤s230,基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练,其中,所述第一销量预测模型基于调价后的价格进行销量预测,所述第二销量预测模型基于未调价的价格进行销量预测;步骤s240,基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练,并基于所述自动定价模型处理所述在线数据,产生第一价格作为定价结果,其中,所述第三销量预测模型基于未调价的价格进行销量预测;步骤s250,通过所述第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控所述第一价格是否发生异常。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。如图7所示的电子设备700仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示,电子设备700以通用电子设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

总线730包括数据总线、地址总线和控制总线。

存储单元720可以包括易失性存储器,例如随机存取存储器(ram)721和/或高速缓存存储器722,还可以进一步包括只读存储器(rom)723。

存储单元720还可以包括具有一组(至少一个)程序模块724的程序/实用工具725,这样的程序模块724包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备700也可以与一个或多个外部设备740(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(i/0)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了数据处理装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1