基于众筹平台的多产品供应数量优化方法与流程

文档序号:11476334阅读:204来源:国知局

本发明涉及机器学习和投资组合优化领域,尤其涉及一种基于众筹平台的多产品供应数量优化方法。



背景技术:

众筹网站为不同领域(如科技、电影、艺术)有想法、有创意的人提供了一个方便的平台,来帮助他们筹集到足够的资金。项目发起人通过在网站上发布相关的文字、图片、视频等展示自己的创意和梦想,在项目发起之前,发起人需要设计不同的回报,甚至在毫无经验的情况下设计每个回报(产品)的供应数量。而投资人通过投资相应的产品,获得相应的回报。

在目前的研究工作和专利中,还未发现有从数据驱动的角度对众筹平台进行产品供应数量优化问题的研究。



技术实现要素:

本发明的目的是提供一种基于众筹平台的多产品供应数量优化方法,可以准确的预估每一产品的供应数量。

本发明的目的是通过以下技术方案实现的:

一种基于众筹平台的多产品供应数量优化方法,包括:

通过对众筹网站已发布的项目与未发布的新项目进行数据爬取,对已发布的项目与未发布的新项目均进行特征提取,获得每一个项目下每一产品的特征;

构建数据集,将已发布的项目作为训练集,再按照价格区间将训练集划分成不同任务,利用任务划分后的训练集来预测模型;

建立每一项目的收益与风险函数,将所有项目收益与风险函数与预测模型相结合,将最大化整体的收益并最小化风险作为优化目标,并采用投资数量与供应数量交替优化算法,获得预测产品投资数量的参数w;

对于一个未发布的新项目k,利用提取的其下每一产品的特征以及获得的参数w构造新项目k的预期收益,通过在满足约束条件的情况下最大化收益,得到每一新项目优化后的每一产品的供应数量。

通过对众筹网站已发布的项目与未发布的新项目进行数据爬取,对已发布的项目与未发布的新项目均进行特征提取,获得每一个项目下每一产品的特征包括:

对于已发布的项目与未发布的新项目都需要进行特征提取,从爬取到的任一项目的数据中提取两类特征,一类为项目信息特征,另一类为项目下的每一产品信息特征;

其中,项目信息特征包括:文本特征与数值特征,其中,文本特征包括:项目的介绍与标题;数值特征包括:项目的属性、社交信息与交互记录;

产品信息特征:文本特征与数值特征,其中,文本特征为产品描述;数值特征包括:产品的属性与产品的归纳属性;

建立每一项目与其下产品之间的联系,将相应的项目信息特征与产品信息特征进行组合,得到每一产品的特征。

所述构建数据集,将已发布的项目作为训练集,再按照价格区间将训练集划分成不同任务,利用任务划分后的训练集来构建预测模型包括:

首先,构建数据集;将已发布的项目下的所有产品作为训练集,将训练集中每个产品的实际投资数量作为标签;

其次,进行任务划分;根据数据集中对所有产品的价格的统计分析,确定l组价格区间,根据产品价格所属的价格区间对训练集进行任务的划分;对于训练集而言第t个任务里所有产品的特征用矩阵表示xt,对应的实际投资数量为向量ct;

构建预测模型,利用任务划分后的训练集来构建预测模型,预测模型学习得到的参数为w=(w1,w2,...,wl),对于第t个任务,需要学习的参数为向量wt,其表示第t个任务对应的每个产品的特征的权重,则xtwtt为第t个任务预测的投资数量;采用多任务学习中的trace-norm的mtl方法,优化目标是最小化xtwtt与实际投资量ct之间的误差,即:

上式中的σt为w的第t个奇异值。

所述建立每一项目的收益与风险函数,将所有项目收益与风险函数与预测模型相结合,将最大化整体的收益并最小化风险作为优化目标,并采用交替优化算法,获得预测产品投资数量的参数w包括:

项目的收益与风险计算方式如下:

其中,returni、riski分别为第i个项目的收益与风险;ni为第i个项目的产品数量,c'ij表示第i个项目的第j个产品预测的投资数量,cij表示第i个项目的第j个产品的实际投资数量;pij表示第i个项目的第j个产品的价格;hij的两种不同取值表示两种不同的收益,当hij=pij时,此时的收益指募集金额,当hij=1时,收益指影响人群范围;

将最大化整体的收益并最小化风险作为优化目标,将第i个项目优化后的成本bi'不超过第i个项目的预期成本bi作为约束条件,则有:

其中,m为总项目数量,ρi是用来权衡第i个项目下的风险与收益的系数,si'=(s′i1,s′i2,...,s′ik)表示第i个项目优化后的所有产品的供应数量集合;

将xtwtt带入上式,则最终目标函数优化为:

上式中,ρij用于权衡第i个项目下第j个产品的风险与收益,λ用于控制参数w的正则项大小,ht表示第t个任务下的产品所对应的hij取值;s′ij表示优化后第i个项目的第j个产品的供应数量,它的初值为发起人一开始设定的供应数量,也即第i个项目的第j个产品的特征向量xij中的一维特征,特征向量xij分为两部分,前者是一个数值,其中的为s′ij的权重,后者表示xij中不包含s′ij的特征向量与不包含s′ij的权重矩阵的乘积;

将预测投资数量所涉及的参数w与优化的供应量s'作为优化变量,采用交替优化的方式,来获得最终的参数w。

所述对于一个未发布的新项目k,利用提取的其下每一产品的特征以及获得的参数w构造新项目k的预期收益,通过在满足约束条件的情况下最大化收益,得到每一新项目优化后的每一产品的供应数量包括:

对于一个新项目k,将最大化收益作为优化目标,即:

s.t.s'kj≥0,b'kj≤bkj;

其中,新项目k的供应数量向量其中的任一元素表示相关产品预测到的供应数量;nk为新项目k的产品数量,b'kj为新项目k的第j个产品优化后的成本,bkj为项目k的第j个产品的预期成本;ρkj用于权衡新项目k下第j个产品的收益,hkj表示收益,s'kj表示优化后新项目k下第j个产品的供应数量,它的初值为发起人一开始设定的供应数量,也即新项目k下第j个产品的特征向量xkj中的一维特征,特征向量xkj分为两部分,前者是一个数值,其中的为s'kj的权重,后者表示xkj中不包含s'kj的特征向量与不包含s'kj的权重矩阵的乘积;

通过求解上述优化目标,得到新项目k下第j个产品的供应数量s'kj。

由上述本发明提供的技术方案可以看出,基于已发布项目的相关信息进行多任务学习,考虑了不同产品甚至不同项目之间的关联,从而对于预测结果的精度上有一定的提高,可以准确的预估每一产品的供应数量。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于众筹平台的多产品供应数量优化方法的流程图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

本发明实施例提供一种基于众筹平台的多产品供应数量优化方法,首先,对项目进行特征的提取,通过爬取众筹平台的数据并存储在数据库中,将项目划分成已经发布的项目和未发布的项目;其次,将已发布项目的产品按照对应价格划分成多个任务,发明了基于项目下多产品组合风险的多任务学习方法,为一个项目的产品设计提供了可靠的依据;接着,计算每个项目的收益,将收益与风险结合,发明了每个产品投资数量和供应数量交替优化的算法,得到一个项目下每个产品的参数;最后,根据学习到的参数,在最大化未发布项目收益的目标下,得到相应的未发布项目下每个产品的供应数量提供给发起者。

如图1所示,其主要包括如下步骤:

步骤11、通过对众筹网站已发布的项目与未发布的新项目进行数据爬取,对已发布的项目与未发布的新项目均进行特征提取,获得每一个项目下每一产品的特征。

本发明实施例中,对于已发布的项目与未发布的新项目都需要进行特征提取,从爬取到的任一项目的数据中提取两类特征,一类为项目信息特征,另一类为项目下的每一产品信息特征;这两类信息都分别存储在相应的数据表中。

其中,项目信息特征包括:文本特征与数值特征,其中,文本特征包括:项目的介绍与标题;数值特征包括:项目的属性(如募集目标金额、创建时间、所属类别等)、社交信息(如社交曝光情况、是否认证、facebook朋友数量)与交互记录(如发起人历史创建项目数量、历史募集情况);

产品信息特征:文本特征与数值特征,其中,文本特征为产品描述;数值特征包括:产品的属性(如价格、预设供应数量)与产品的归纳属性(如产品数量、平均价格);

建立每一项目与其下产品之间的联系,将相应的项目信息特征与产品信息特征进行组合,得到每一产品的特征。

示例性的,相关数据表格式可以如表1所示。

表1

步骤12、构建数据集,将已发布的项目作为训练集,再按照价格区间将训练集划分成不同任务,利用任务划分后的训练集来构建预测模型。

所有项目按照价格区间划分成不同任务,根据任务之间的联系建立预测模型。

本发明实施例中,根据一个项目下不同产品之间存在一定的联系,这些联系通过步骤11提取的特征体现出来,将所有项目的产品根据价格划分成不同的任务,根据任务之间的联系,能更好地预测新项目未来在每个产品上能得到的投资数量;具体过程如下:

首先,构建数据集;将数据集按照项目层面来进行划分,将已发布的项目下的所有产品作为训练集。

本发明实施例中,可以将训练集中每个产品的实际投资数量作为标签;这里用cij表示第i个项目下第j个产品的投资数量。

其次,进行任务划分,任务划分的出发点是不同价格的产品之间有一定的联系,而且价格越相近的产品的联系更紧密,而价格差距越大的产品联系没那么紧密。对训练集进行任务的划分,根据数据集中对所有产品的价格的统计分析,确定l组价格区间,根据产品价格所属的价格区间对训练集进行任务的划分。对于训练集而言,第t个任务里所有产品的特征用矩阵表示xt(xt=(xt1,xt2,...,xtn)),对应的实际投资数量为向量ct(ct=(ct1,ct2,...,ctn))。

构建预测模型,利用任务划分后的训练集来构建预测模型,预测模型学习得到的参数为w=(w1,w2,...,wl),对于第t个任务,需要学习的参数为向量wt,其表示第t个任务对应的每个产品的特征的权重,则xtwtt为第t个任务预测的投资数量;采用多任务学习中的trace-norm的mtl方法,优化目标是最小化xtwtt与实际投资量ct之间的误差,即:

上式中的通过求解最优化问题,可以得到w,σt为w的第t个奇异值。

步骤13、建立每一项目的收益与风险函数,将所有项目收益与风险函数与预测模型相结合,将最大化整体的收益并最小化风险作为优化目标,并采用交替优化算法,获得预测产品投资数量的参数w。

在上述步骤12中已经介绍了如何进行各产品投资数量的预测,但是这个预测是基于当前发起人设置的供应数量(即产品特征向量中的一个特征,详见表1)下得到的,因为不同的供应数量设置会对投资数量产生一定的影响,而投资数量的预测值又会对供应数量有一定的影响,即这两者是互相影响的,所以合理的方式是这两者进行交替优化。本发明的出发点是要最大化一个项目的收益并且最小化风险;具体过程如下:

1)收益的定义:对于一个项目,它的收益可以主要考虑两种,一种是募集金额,另一种是影响人群范围(通过投资人的数量来定义),则对于第i个项目的收益定义为:

其中,returni为第i个项目的收益;ni为第i个项目的产品数量,c′ij表示第i个项目的第j个产品预测的投资数量,pij表示第i个项目的第j个产品的价格;hij的两种不同取值表示两种不同的收益,当hij=pij时,此时的收益指募集金额,当hij=1时,收益指影响人群范围。

2)风险的定义:本发明的主要目的是优化供应数量,所以这里的风险和一般的风险不同,这里的风险是通过投资量预测的准确程度来衡量风险,若预测的投资量越准确,则对于供应数量的优化也会更准确,在一定程度上降低了项目在设置供应数量上的风险。对于第i个项目的风险定义为:

其中,riski为第i个项目的风险,cij表示第i个项目的第j个产品的实际投资数量。

3)将最大化整体的收益并最小化风险作为优化目标,将第i个项目优化后的成本bi'不超过第i个项目的预期成本bi作为约束条件,则有:

其中,m为总项目数量;ρi是用来权衡第i个项目下的风险与收益的系数,si'=(s′i1,s′i2,...,s′ik)表示第i个项目优化后的所有产品的供应数量集合。

成本可以通过价格和供应数量来确定,参数θ表示成本与价格、供应数量的一个线性关系,即:

将xtwtt带入上述优化目标函数中,则最终目标函数优化为:

上式中,ρij用于权衡第i个项目下第j个产品的风险与收益,λ用于控制参数w的正则项大小,ht表示第t个任务下的产品所对应的hij取值。s′ij表示优化后第i个项目的第j个产品的供应数量,它的初值为发起人一开始设定的供应数量,也即第i个项目的第j个产品的特征向量xij中的一维特征,如前面提到的,这个供应数量和预测的投资量之间会互相影响,所以这里将其单独从特征向量中提取出来,分为两部分,前者是一个数值(其中的为s′ij的权重),后者表示xij中不包含s′ij的特征向量与不包含s′ij的权重矩阵的乘积;这样做的目的是为了方便更新s′ij的数值;同样的,公式的后半部分表示的riski中的s′ij也需要更新,但这里因为是以每个任务为单位表示的,没有单独将s′ij体现出来。

将预测投资数量所涉及的参数w与优化的供应数量s'作为优化变量,但因为这两者是互相影响的,于是采用交替优化的方式,固定某个参数优化另一个参数,直到达到优化停止条件。完成以上优化后,来获得最终的参数w,用于新项目的供应数量的优化。

步骤14、对于一个未发布的新项目k,利用提取的其下每一产品的特征以及获得的参数w构造新项目k的预期收益,通过在满足约束条件的情况下最大化收益,得到每一新项目优化后的每一产品的供应数量。

对于一个新项目无法估计在投资数量上的风险,于是对于一个新项目k的主要目标是最大化收益,即:

s.t.s'kj≥0,b'kj≤bkj;

其中,新项目k的供应数量向量其中的任一元素表示相关产品预测到的供应数量;nk为新项目k的产品数量,b'kj为新项目k的第j个产品优化后的成本,bkj为项目k的第j个产品的预期成本;ρkj用于权衡新项目k下第j个产品的收益,hkj表示收益,s'kj表示优化后新项目k下第j个产品的供应数量,它的初值为发起人一开始设定的供应数量,也即新项目k下第j个产品的特征向量xkj中的一维特征,如前面提到的,这个供应数量和预测的投资量之间会互相影响,所以这里将其单独从特征向量中提取出来,分为两部分,前者是一个数值(其中的为s'kj的权重),后者表示xkj中不包含s'kj的特征向量与不包含s'kj的权重矩阵的乘积。

通过求解上述优化目标,得到新项目k下第j个产品的供应数量s'kj。

本发明实施例上述方案,基于已发布项目的相关信息进行多任务学习,考虑了不同产品甚至不同项目之间的关联,从而对于预测结果的精度上有一定的提高,可以准确的预估每一产品的供应数量。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1