一种基于分布式计算的互联网信息投放渠道优化系统的制作方法

文档序号：6550788阅读：256来源：国知局

一种基于分布式计算的互联网信息投放渠道优化系统的制作方法
【专利摘要】本发明提供了一种基于分布式计算的互联网信息投放渠道优化系统，其中数据收集模块收集用户行为；数据预处理模块进行数据清理、集成、归约，将收集到的用户行为信息简单化，规范化；训练模块针对训练集中的数据，用类E-M算法进行迭代运算，得到概率累加模型中的参数；再将测试集中的数据带入概率累加模型，从而完成对各个投放渠道的贡献预测以及对于用户是否转化的预测；对贡献度高的网站或推荐类型进行信息投放，并投放给那些最有可能发生转化的用户。同时，本发明使用Hadoop平台进行分布式计算，将消耗大量资源的复杂计算通过分布到多节点上进行计算，从而实现了多节点并行处理。
【专利说明】一种基于分布式计算的互联网信息投放渠道优化系统

【技术领域】
[0001]本发明涉及互联网【技术领域】，具体地是一种基于分布式计算的互联网信息投放渠道优化系统。

【背景技术】
[0002]在过去的十几年中，互联网得以爆炸式发展，越来越多的人选择上网社交、游戏、购物，互联网信息推荐也成为了推广产品的一个非常良好的途径。这也使得各企业可以从中获得大量的网络数据来跟踪推荐效果和投资回报率。
[0003]信息投放渠道贡献度研究的目的就是量化不同渠道对于用户转化行为影响的大小。通过量化各渠道的贡献度，可以比较不同市场渠道的价值，这些市场渠道包括电子邮件、联盟营销、显示广告、搜索广告、社会媒体等，公司也可依据这些数据来决定未来对于不同投放渠道的投资力度，以求用最小的成本获得大众对于信息最大的关注度。
[0004]在现有技术中，互联网信息投放渠道贡献度预测的系统通常有三种:1、基于单源归因模型的互联网信息投放渠道贡献度预测系统:此种系统中所用模型将所有贡献都给了众多事件中的一个事件，如基于最后点击法(last-click)的系统、基于第一次点击法(first-click)的系统等。这种系统被认为是非常不准确的，因为它忽略了那些事实上对于转化行为产生了影响的事件。2、基于分数归因模型的互联网信息投放渠道贡献度预测系统:此种系统中所用模型包括相同权重，客户信用，U型曲线三种方式。相同权重就是给予所有投放渠道相同的权重。客户信用就是根据以往投放的效果，人为地猜测并赋予不同的权重。U型曲线是将全部权重给第一次转化和最后一次转化，不考虑中间信息投放效果的影响。显然，此系统的说服力也是不足的，事实上它们对于贡献度的评估效果也并不良好。
3、基于概率分布模型的互联网信息投放渠道贡献度预测系统:根据用户所关注过的信息对用户转化行为的影响，给予这些渠道不同的贡献度，然后对这些渠道的贡献度进行整理、排序，以完成投放渠道贡献度评估。显然这种系统给予的预测才更精确，更合理。

【发明内容】

[0005]针对现有技术的不足，本发明的目的在于提供一种基于分布式计算的互联网信息投放渠道优化系统，通过用户的浏览行为优化信息投放渠道的选择，更加准确地实现互联网信息推荐，满足用户需求。
[0006]为实现上述目的，本发明采用了以下技术方案:
[0007]本发明提供一种基于分布式计算的互联网信息投放渠道优化系统，该系统包括:数据收集模块、数据预处理模块、训练模块、信息投放渠道贡献度预测模块及转化率预测模块，其中:
[0008]数据收集模块，该模块通过web服务器收集用户行为数据:将收集到的用户行为分为两部分，一部分记录了某些用户的全部浏览行为，另一部分记录了同一信息不同渠道的访问特征；
[0009]数据预处理模块，该模块是对服务器收集的用户行为数据进行清理、集成、归约，将收集到的用户行为信息简单化，规范化；
[0010]训练模块，该模块的输入为训练集，并用类E-M算法进行迭代运算，迭代至概率累加模型中的用户影响强度因子和影响随时间衰减的因子这两参数收敛，完成对这两个参数的参数估计。
[0011]信息投放渠道贡献度预测模块，该模块的输入为测试集，构建信息投放渠道m贡献度，再根据每个信息投放渠道m的所属网站或类型进行加和，得出各网站和各类型的贡献度；最后根据各网站和各类型的贡献度，由高到低进行排序，选用排名靠前的网站或类型来进行信息推送，以此来获取更好的投放效果；
[0012]转化率预测模块，该模块的输入为测试集，利用生存函数给每一个用户进行评分，预测出最有可能发生转化行为的用户，并向这部分用户推送互联网信息。
[0013]基于Hadoop平台的分布式计算，以上所有模块中涉及到计算部分，均在Hadoop平台进行，我们将复杂的计算分布到多个节点上进行，实现了多任务的并行处理，减少了任务间的等待，使得资源分配更加合理，运算速度得到极大地提升。
[0014]与现有技术相比，本发明具有以下有益效果:
[0015]本发明所提出的基于分布式计算的互联网信息投放渠道优化系统，可以大大提高对于信息投放渠道贡献度预测的准确性，从而方便选取最有效的网站或类型来投放信息；并且选出了最可能发生转化的用户人群，使信息推荐更有针对性。因此，能够以最小的成本换取最好的推荐效果。另外，本发明的数据处理都是基于Hadoop平台的，实现了多台电脑的并行处理，大大降低了处理大数据时对于电脑运算能力及内存的要求，同时，极大提高了运算速度。

【专利附图】

【附图说明】
[0016]通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显:
[0017]图1是本发明一实施例中基于服务器的信息投放模型图；
[0018]图2是本发明一实施例中基于分布式计算的互联网信息投放渠道优化系统；
[0019]图3是本发明一实施例中分布式计算框架图；
[0020]图4是本发明一实施例中本系统与现有系统的性能比较图。

【具体实施方式】
[0021]下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0022]如图1所示，本发明中基于服务器的信息投放模型图，图中明确显示了用户信息收集，用户描述文件的形成，以及本发明构建的推荐模块都是存储于服务器，并由服务器进行处理的。而用户所用的客户机是不负责存储、处理用户信息的。
[0023]如图2所示，本发明中基于分布式计算的互联网信息投放渠道优化系统包括:
[0024]数据收集模块，使用web服务器收集用户行为，将收集到的用户行为分为两部分:网页浏览报文、信息点击报文。其中，网页浏览报文记录了某些用户的全部浏览行为，它可以反映此用户浏览网页的相关特征；信息点击报文记录了同一信息不同渠道的访问特征，它反映对于信息投放渠道的点击历史及特征。
[0025]数据预处理模块，对服务器收集的用户行为数据进行数据清理、集成、归约。
[0026]训练模块，输入训练集中数据，基于最大似然估计法，用类E-M算法进行迭代运算，从而完成对概率累加模型的参数估计；
[0027]信息投放渠道贡献度预测模块及转化率预测模块，调用从训练集中得到的参数，将测试数据带入，从而完成对信息投放渠道贡献度的预测以及对用户是否转化的预测。
[0028]如图3所示，本发明中分布式计算框架图显示了基于Hadoop平台的分布式计算。基于分布式计算的互联网信息投放渠道优化系统中所有模块中涉及到计算部分，均在Hadoop平台进行，我们将复杂的计算分布到多节点上进行，实现了并行处理，从而节省了大量的系统资源，且极大地加快了运算速度。
[0029]如图4所示，本实施例提供一种基于分布式计算的互联网信息投放渠道优化系统，并使用真实数据集进行训练及测试。本实施例选取当前互联网信息投放贡献度预测领域运用最广泛的基于最后点击法的系统以及基于逻辑回归的系统进行比较。实验结果表明，本发明无论是在预测不同渠道的贡献度的准确度上，还是在预测用户可能发生转化行为的准确度上，都优于前面两种系统。最终本发明还能给出最可能发生转化行为的前N用户以及最有效的信息投放渠道。
[0030]本实施例是将所述方法应用于互联网中信息投放渠道的优化，该系统包括:
[0031]1、数据收集模块
[0032]该模块基于web服务器，采用行为跟踪的方法记录下某些用户的全部浏览行为；采用日志挖掘的方法，记录下同一信息不同渠道的访问特征；完成对于用户信息的收集，并将用户信息存储于web服务器。
[0033]2、数据预处理模块
[0034]该模块进行数据清理、集成、归约。其中，数据清理主要采取忽略元祖及去除冗余的方法，这是因为在收集到的数据中，没有值的数据所占比例非常小；数据集成主要是统一所收集到的数据的单位；数据规约主要进行数量规约，将点击时间转化为模型参数，并最终形成包含用户ID、信息投放渠道、时间和点击这四个域的数据集；再将此数据集中的一部分提取出来，作为训练集；其余数据集中的数据作为测试集。至此，可以形成规范的用户信息，也方便接下来对于数据的应用。
[0035]3、训练模块
[0036]该模块负责用训练集中的数据进行训练，完成对概率累加模型的参数估计。
[0037]训练模块首先根据实际信息投放的情形作出如下假设:
[0038](I)每次信息展示会对用户的转化产生一个影响力；
[0039](2)每次信息展示对用户的转化的影响力随时间衰减；
[0040](3)同一个信息对所有用户的影响力和衰减速度一致；
[0041](4)不同渠道投放的信息的影响力可线性叠加；
[0042](5)用户的瞬时转化概率与影响力成正比。
[0043]基于以上假设，训练模块可以建立概率累加模型，即用户行为条件强度函数
Mt):

【权利要求】
1.一种基于分布式计算的互联网信息投放渠道优化系统，该系统包括: 数据收集模块，该模块通过Web服务器收集用户行为数据:将收集到的用户行为分为两部分，一部分记录了某些用户的全部浏览行为，另一部分记录了同一信息不同渠道的访问特征；数据预处理模块，该模块是对web服务器收集的用户行为数据进行处理，首先进行数据清理，采取忽略元祖及去除冗余的方法；随后进行数据集成，对所收集到的数据的单位进行统一化处理；最后进行数据规约，将点击时间转化为模型参数，并最终形成包含用户ID、信息投放渠道、时间和点击这四个域的数据集；再将此数据集中的一部分提取出来，作为训练集；其余数据集中的数据作为测试集；训练模块，该模块用类E-M算法对训练集进行迭代运算，迭代至概率累加模型中的用户影响强度因子α和影响随时间衰减的因子ω收敛，从而得到参数α，ω ; 信息投放渠道贡献度预测模块，该模块的输入为测试集，采用训练模块训练出来的不同渠道对用户影响强度因子α和影响随时间衰减的因子ω作为模型参数，构建投放渠道m贡献度，再根据每个投放渠道m的所属网站或类型进行加和，得出各网站和各类型的贡献度；最后根据各网站和各类型的贡献度，由高到低进行排序，选用排名靠前的网站或类型来进行信息投放，以此来优化互联网信息投放效果；转化率预测模块，该模块的输入为测试集，首先，建立生存函数Su(t)，然后，利用1-Su(t)给每一个用户进行评分，预测出最有可能转化的用户，并向这部分用户推送信息。
2.根据权利要求1所述的基于分布式计算的互联网信息投放渠道优化系统，其特征在于，所述数据收集模块采用行为跟踪的方法记录下某些用户的全部浏览行为；采用日志挖掘的方法，记录下同一信息不同渠道的访问特征，完成对于用户信息的收集，并将用户信息存储于web服务器。
3.根据权利要求1所述的基于分布式计算的互联网信息投放渠道优化系统，其特征在于，所述训练模块建立概率累加模型，即用户行为条件强度函数xu(t):
其中:记用户为集合U，…，U}，信息渠道为集合{1，…，n}，观察到的用户行为为集合Ic1,......，cu}，用户U的行为记录的结构为}，? }i=i，..，i—U，其中^<是用户U第i次行为的信息投放渠道id，g是用户U第i次行为的时间，Xu是用户转化结果，Xu = I表示用户转化，Xu = O则反；l_u是用户u行为的总次数，如果用户u转化了，则tu代表转化时间，否则代表观察时间窗口节点；α为不同渠道投放的信息对用户影响强度因子，ω为影响随时间衰减的因子，k是信息投放渠道id，a_k，w_k分别代表信息投放渠道k的影响强度因子和影响随时间衰减的因子，Tu代表转化时间或观察时间窗口节点；为表示用户转化率，建立生存函数Su(t)，其中:
接着通过类EM算法:
这时，只需求L(0)最大；
即完成训练过程。
4.根据权利要求2所述的基于分布式计算的互联网信息投放渠道优化系统，其特征在于，所述信息投放渠道贡献度预测模块负责将测试集带入已完成训练过程的概率累加模型，得到各个不同投放渠道的贡献度，投放渠道m的贡献度写为:
再根据每个投放渠道m的所属网站或类型进行加和，得出各网站和各类型的贡献度，最后，选取贡献度高的网站或类型来进行信息投放，完成对互联网信息投放渠道的优化。
5.根据权利要求1所述的基于分布式计算的互联网信息投放渠道优化系统，其特征在于，所述转化率预测模块，用户u的转化率可为:1-S(Tu),然后对用户分数进行由低到高的排序，选出分数最高的前N个用户，认为他们是最有可能发生转化行为的用户。
6.根据权利要求1-5任一项所述的基于分布式计算的互联网信息投放渠道优化系统，其特征在于，所述基于Hadoop平台的分布式计算将一个复杂的任务分成很多更细粒度的子任务，这些子任务能够在空闲的处理节点之间调度，使处理速度越快的节点处理越多的任务。
【文档编号】G06F17/30GK104133837SQ201410289052
【公开日】2014年11月5日申请日期:2014年6月24日优先权日:2014年6月24日
【发明者】张娅, 魏逸, 王宇晨申请人:上海交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张娅;魏逸;王宇晨
技术所有人：上海交通大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。