众筹项目初期筹资表现预测系统的制作方法

文档序号:21276091发布日期:2020-06-26 23:16阅读:275来源:国知局
众筹项目初期筹资表现预测系统的制作方法

本发明涉及图神经网络和网络众筹领域,尤其涉及一种众筹项目初期筹资表现预测系统。



背景技术:

近年来网络众筹的兴起产生了众多有价值的研究问题,例如对项目成功率的预测,基于众筹平台的推荐系统和对项众筹目动态的追踪等等。大部分已有的研究问题关注于项目启动后的筹资过程,在众筹市场中,项目的初期筹资表现是发起者和平台都十分关心的问题。

在项目启动之前就评估其初期筹资表现能够创造很大的价值,然而该预测有较大的难度且处于未被探索的阶段,因为项目发布时间的市场环境对其初始投资有很大的影响。

目前,众筹领域还没有能够实现信息准确预测,并且能够直观显示预测过程中各项信息与预测结果的专用设备,因此,有待改进。



技术实现要素:

本发明的目的是提供一种众筹项目初期筹资表现预测系统,能够直观的显示预测过程中各项信息与预测结果的。

本发明的目的是通过以下技术方案实现的:

一种众筹项目初期筹资表现预测系统,包括:

静态数据预处理单元,用于对目标项目以及目标项目预发布时间之前其他已发布项目的内容信息进行处理,获得对应的特征向量;

动态数据获取单元,用于获取目标项目预发布时间之前其他已发布项目的筹资时间序列,以及将筹资时间序列通过嵌入层处理得到对应的时间序列向量;

建模与预测单元,用于根据目标项目的特征向量、以及其他已发布项目的特征向量与时间序列向量,并结合长短期记忆网络与图注意力网络建模项目竞争关系,获得目标项目所受到的竞争压力状态向量;以及根据目标项目的特征向量、以及其他已发布项目的特征向量与筹资时间序列,并结合传播树结构建模历史市场环境,获得目标项目所处的环境状态向量;从而利用目标项目所受到的竞争压力状态向量与目标项目所处的环境状态向量,预测出目标项目的初期筹资结果;所述初期是指24小时以内;

显示单元,用于通过划分不同显示区域来独立显示目标项目与目标项目预发布时间之前其他已发布项目的内容信息、静态数据预处理单元的处理结果、动态数据获取单元获取到的筹资时间序列、以及建模与预测单元获得的目标项目的初期筹资结果。

由上述本发明提供的技术方案可以看出,使用图神经网络结构对项目间的竞争影响和市场环境的演变进行了建模,从而使得模型能够建模众筹市场的环境因素进而提升预测的准确性;同时,系统还能够直观的显示预测过程中各项信息及最终的预测结果,极大的提高用户体验,方便用户了解众筹项目的相关情况。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种众筹项目初期筹资表现预测系统的示意图;

图2为本发明实施例提供的一种众筹项目初期筹资表现预测系统的原理图;

图3为本发明实施例提供的传播树结构的示意图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

本发明实施例提供一种众筹项目初期筹资表现预测系统,如图1所示,其主要包括:

静态数据预处理单元,用于对目标项目以及目标项目预发布时间之前其他已发布项目的内容信息进行处理,获得对应的特征向量;

动态数据获取单元,用于获取目标项目预发布时间之前其他已发布项目的筹资时间序列,以及将筹资时间序列通过嵌入层处理得到对应的时间序列向量;

建模与预测单元,用于根据目标项目的特征向量、以及其他已发布项目的特征向量与时间序列向量,并结合长短期记忆网络与图注意力网络建模项目竞争关系,获得目标项目所受到的竞争压力状态向量;以及根据目标项目的特征向量、以及其他已发布项目的特征向量与筹资时间序列,并结合传播树结构建模历史市场环境,获得目标项目所处的环境状态向量;从而利用目标项目所受到的竞争压力状态向量与目标项目所处的环境状态向量,预测出目标项目的初期筹资结果;

显示单元,用于通过划分不同显示区域来独立显示目标项目与目标项目预发布时间之前其他已发布项目的内容信息、静态数据预处理单元的处理结果、动态数据获取单元获取到的筹资时间序列、以及建模与预测单元获得的目标项目的初期筹资结果。

上述系统可配合相关硬件实现,例如,显示单元可以配合显示屏实现。静态数据预处理单元、动态数据获取单元与建模与预测单元可配合处理器实现,同时,还包含一些必要的硬件设备,例如,存储设备(提供系统运行空间与数据空间)、通信设备(实现系统与外部交互,以获取相关信息)等。

为了便于理解,下面针对上述系统做详细的介绍。

本发明实施例中,系统所要预测的众筹项目初期筹资表现主要是指预测项目发布之后24小时之内的筹资表现,然而不能直接使用项目的筹资数额作为预测目标,因为相同的数额对于不同筹资目标的项目来说其表现的好坏不同。因此,可以使用筹资数额占目标的百分比作为预测目标,并且为了减小极小极大值之间的差异,本发明使用log2(·)函数对该百分比进行约束从而便于模型进行预测。

上式中αi表示刚开始24小时内项目i筹资的数目,gi表示该预发布项目i的筹资目标,所以表示项目初期筹资数目占其目标的百分比。

如图2所示,为本发明所提供的上述系统的原理图。

一、静态数据预处理单元。

本发明实施例中,众筹平台所使用的数据,其主要信息包括:项目描述、项目类别、发起者类型、当前汇率、目标筹资周期以及目标筹资数额。

由于需要将上述内容信息转化为向量的形式,因此,对内容信息中的数值类型进行离散化,得到独热编码向量(one-hotencoder);对文本类型使用自然语言处理技术中的文本转向量(doc2vec)方法进行处理,得到对应的向量;将各个类型对应的向量进行拼接,得到对应的特征向量(静态内容特征向量)。

优选的,在使用doc2vec方法之前,对于文本数据,首先使用分词技术对其进行分词,然后删除所有标点符号,将所有单词统一转换为小写,并且只保留出现频次大于5次的单词。

基于上述方式对于所有项目都可以获得对应的特征向量,本发明实施例中,将目标项目记为g,由于本发明将涉及模型训练,因此,还构建了一个目标项目集合训练过程中,目标项目的各种结果都是已知的,在测试过程中目标项目的内容信息是已知的,但是,由于目标项目还未发布,因此,所涉及的各项筹资情况都是未知的,需要后文提到的建模与预测单元进行预测。将目标项目预发布时间之前其他已发布项目的集合记为ψ,后文所涉及的项目项目i和项目j均为已发布的项目。这些项目的特征向量都对应的表示为xg、xi、xj。

二、动态数据获取单元

对于一个给定的目标项目g,其预发布时间为tg,其对应的环境因素,也就是上下文特征,即tg时刻前众筹市场中的其他已发布项目的筹资序列。

对于项目i,其筹资时间序列为:

上式中,v表示投资数额,t表示投资的时间戳,下标为投资次数的序号,|si|表示投资总数。

将筹资时间序列si通过嵌入层(embeddinglayer)处理得到对应的时间序列向量tsi,tsi=[ξ0,ξ1,...,ξ23]表示项目i在过去24小时的时间序列;

ξk=log2(∑vl)

上式中,vl∈si,tg-(k+1)*δ≤tl<tg-k*δ,k=0,1,...,23,δ表示1小时的时间间隔,通过该式可求得项目i在过去24小时里每个小时内筹资的数额

三、建模与预测单元。

1、项目竞争建模部分(pcm)。

一旦一个项目发布,它会受到来自市场的竞争影响。建立项目间竞争力时,对于一个即将发布的项目g,其预发布时间为tg,建立该项目g和时刻tg正在运行的其他项目的连边,考虑不同内容和不同竞争力大小对目标项目的影响,使用图注意力网络(gat)聚合其他项目的竞争力信息来表示目标项目所受到的竞争压力。其中,其他项目在未来一段时间内的竞争力大小通过使用长短期记忆网络(lstm)对其历史时间序列进行建模预测;具体实现过程如下:

首先,量化每个竞争对象在未来一段时间的竞争力,可使用长短期记忆网络(lstm)基于每个已发布项目的时间序列向量对初期的筹资状态(即24小时内)进行预测从而表示其竞争力:

上式中,tsi表示已发布的项目i的时间序列向量,ψ表示tg时刻在市场上运行的已发布项目集合。

考虑到平台的计算压力,模型中同时训练多个目标项目,为了达到这个目的,本发明按人类的一般作息时间将一天分割为6个阶段,即“8:00~12:00”,“12:00~14:00”,“14:~17:00”,“17:00~20:00”,“20:00~24:00”和“0:00~8:00”,然后定义目标集合包含同一天内处于同一个时期的未发布目标项目。同时,为了防止时序任务上常见的信息泄漏,获得结合ψ的时候,定义集合ψ中的各个项目的预发布时刻统一为其中,ti为项目i发布时刻。考虑到ψ很大的时候,使用lstm进行时序建模是很耗时的,为了解决这个问题,使用剪枝方法,从集合ψ中选出在项目初期时最有可能与目标项目竞争的已发布项目,即,选择tg时刻众筹平台中的just-funded板块(包含最近三天内新创建的项目)和与目标项目相同category板块(包含相同类别的项目)的项目,使用邻接矩阵表示:

上式中,表示项目i和项目j有连边,表示项目i和项目j没有连边,是将已发布项目集合ψ中的id映射到邻接矩阵的列中,ci和cj表示项目i和项目j的所属的类别,ti和tj表示项目i和项目j的预发布时刻。

上述剪枝方法不仅可以减小时序模拟的数目减少计算量,还可以减少信息聚合的噪声。由于有较强竞争力,或者内容与目标项目较为相似的项目对目标项目影响较大,因此,使用图注意力网络对目标项目g进行邻居信息聚合:

egi=vt[wxg||wxi]

上式中,xg、xi分别表示目标项目g、项目i的特征向量,v、w表示注意力机制中使用的映射参数矩阵,其具体参数在模型的训练过程中进行学习优化,αgi表示注意力权重,t为矩阵装置符号,表示由已发布的项目构成的目标项目的邻居节点集合;

最终,得到目标项目所受到的竞争压力状态向量:

上述过程中,αgi是根据静态内容特征向量计算的,wh表示训练中学习优化的映射参数矩阵,并且使用注意力权重αgi和预测筹资状态相乘,通过这种方式,本发明可以同时考虑项目的筹款能力和项目内容。

2、市场环境演变建模部分(met)。

实际上,市场环境是项目的上下文环境,因此需要参考目标项目的历史市场环境中其他项目的初期筹款状况,并发现这些项目筹资状态随着市场演变的变化。由于一个市场在短短几天内发布的项目能达到数百上千个,因此传统的用于时序建模的链式结构模型不适用于该场景,因为其会随着时间序列的增长,效果显著的下降。同时,如果直接将历史数据中的其他项目的筹资状态聚合到目标项目会产生一个问题,即将这些项目的时间层级放在一个层级上,这在时序建模中是不合理的。因此,本发明构造了一种基于传播树结构来进行信息传递的图神经网络用于对整个历史市场环境进行建模。

建模历史市场环境时,定义已发布的项目为传播树的节点,定义已发布的项目的状态:

hj=[xj||rj]

上式中,xj表示项目j的特征向量,rj表示项目j的初期(初始24小时之内)筹资数目:

上式中,tj表示项目j的预发布时刻;sj表示项目j的筹资时间序列,vl表示第l次投资的数额;tl表示第第l次投资的时间戳;nh代表一天中的24小时,并且其中存在一种约束:ti-ti>nh*δ,ti表示项目i的预发布时刻,δ表示1小时的时间间隔,以这种方式使得项目i能观察到项目j的初期筹资状态,即项目i发布的时刻项目j已发布超过1天,在该时刻可观察到项目j的初期筹资状态,定义j为i的可观测节点;若历史天数为th,则可观测节点的集合为:φi={j|,nh*δ<ti-tj<nh*thδ};建立传播树如图3的(a)部分所示,其中包括三个节点以及各自的可观测节点,存在三条连边<a,g>,<b,g〉,<b,a〉,每条连边的长度大于24小时。如果删除<b,g〉,则节点a,b在以g为根的树上的深度分别为1和2,该深度能够表示不同节点距离目标项目g的预发布时间点tg的不同时间跨度,并且信息从节点b传递到a再到g的过程类似于lstm网络中的信息按时间步传递的过程。

考虑更为复杂一些的情形,即图3的(b)部分所示,同样适用上述方法对其进行树状结构的建模。另外,由于市场环境为目标项目预测任务中的上下文环境,因此考虑到在时序信息长周期传递时使用等间隔采样方法能够有效防止模型效果衰减,因此本发明构造了一个传播树能够使建成的传播树的每棵子树的层与层之间尽可能保持相近的时间间隔,即每个叶子节点到根节点所形成的一条传播路径接近于等间隔采样的时间序列。建立传播数结构时,将th天内每天新发布的项目设置在树的同一层内,距离预计发布时间最近的一天内发布的所有项目的筹资状态作为树的节点,并置于传播树的根节点的第一层,和根节点连接;距离预计发布时间最近的第二天的所有项目的筹资状态作为根节点的第二层,其中的每个节点和第一层中距离该节点最近的节点连接即可,最终生成的传播树结构使用邻接矩阵γ表示。

为了防止信息传播在较长深度传播时出现衰减,本发明使用了循环神经单元(gru)的方法。

在信息传播之前,初始化传播树中所有节点的状态:

上式中,xg、xi分别表示目标项目g、项目i的特征向量,ri表示项目i的初期筹资数目,由于在信息传播的过程中不区别对待节点,使用v指代各个节点;

在之后的每次传播过程中,即每一次进行节点间的信息聚合,每个节点的信息聚合方式为:其中表示在邻接矩阵γ中表示节点v的邻居节点,|g∪φ|为传播树中所有节点的状态向量集合的大小,其中g表示待预测节点集合,φ为所有可观测节点的集合,h(t-1)t表示节点(t-1)时刻的隐状态,下标为节点序号,b为偏置向量,然后,使用循环神经单元gru更新各节点的状态:

上式中,wz和uz表示更新门控单元的训练参数矩阵,wr和ur表示重置门控单元的训练参数矩阵,w1和u1表示输出层的对应参数矩阵。

传播t=th之后,目标项目g的最终状态为:

上式中,为目标项目所处的环境状态向量。

3、预测部分。

将目标项目所受到的竞争压力状态向量与目标项目所处的环境状态向量组合,并通过一个全连接层,全连接层的激活函数为relu函数,从而预测出目标项目的初期筹资结果:

4、联合训练部分。

本实施例中,对建模与预测单元中的参数进行联合训练,考虑两部分损失:

第一部分损失记为lossp,计算平均绝对误差(mae),表示为:

上式中,yg为目标项目g真实的的初期筹资结果;

第二部分损失记为lossl,表示竞争压力状态向量计算过程中长短期记忆网络的损失即将竞争模块pcm中的模拟竞争对象竞争力的lstm输出同样计算其mae损失,公式和lossp一致,即将长短期记忆网络计算的的各个已发布的项目i的初期筹资状态映射到一维y′i,即有:

上式中,yi为已发布项目i真实的的初期筹资结果。

将lossp和lossl进行联合训练,并各自定义相应的权重系数,训练的损失函数为:

其中,θ表示模型的待训练参数集合,η表示权重系数,使用随机梯度下降(sgd)算法更新模型参数,并定义初始学习率为0.02。

本发明实施例上述方案,通过利用多种元数据的融合,专注于对市场环境进行建模从而对未启动众筹项目的初期筹资表现进行评估,从而判断该项目的预发布时间是否合适,保证项目有较好的开端表现;同时系统又搭建在相关硬件设备上,构成一套完整的产品,用户通过相关产品可以直观的显示预测过程中各项信息及最终的预测结果,极大的提高用户体验,方便用户了解众筹项目的相关情况。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1