一种基于大数据生成器的非时间属性关联模型的建模方法与流程

文档序号：11677698阅读：161来源：国知局

本发明涉及大数据生成技术领域，特别涉及一种基于大数据生成器的非时间属性关联模型的建模方法。

背景技术：

互联网特别是移动互联网的发展，加快了信息化向大众日常生活、社会各个方面的渗透，大数据时代正在到来。为了挖掘大数据中隐藏的价值，一系列关于大数据的系统相继出现，同时伴随着大数据评测系统应运而生。在大数据评测中，考虑到大数据集不易获取，对大数据生成工具的研究引起了广泛关注。大数据生成器最重要的要求是能保持真实数据集中数据的特征。如何逼真的生成表格数据，关键在于如何刻画属性具有什么特征的问题，如何处理表内部关键属性间的关联性问题，如何处理表与表之间的关联性问题。

表内部属性间的关联，分为与时间相关和非时间属性相关的关联。在表格形式的大规模数据生成研究工作中，已有许多学者做了大量的工作，特别是对表与表之间的关联、某个属性具有的特征、与时间属性相关的特征关注比较多，而对非时间属性间的关联比较少。对非时间属性间的关联的研究，停留在相对粗糙的层面上。比如，采用正/负相关来表达关联，通过计算相关系数来表达关联，等等。对非时间字段相关性质研究中仍存在许多需要急于解决的困难问题。

技术实现要素：

本发明的目的在于提供一种基于大数据生成器的非时间属性关联模型的建模方法，该方法建立的模型可以有效地刻画真实数据集中的数据特征。

为实现上述目的，本发明的技术方案是：一种基于大数据生成器的非时间属性关联模型的建模方法，首先从数据集中提取评价主体和被评价主体的关键属性，进行两重频数统计，得到基于关键属性的4个关系对：评价主体的活跃度与活跃度排名的关系、评价主体的活跃度与其出现频数的关系、被评价主体的流行度与流行度排名的关系和被评价主体的流行度与其出现频数的关系；然后计算各关系对的mic值来评估各关系对的相关性，并采用se分布对各关系对进行关系拟合；通过拟合的关系得到评价主体的属性特征与其数据规模的关系，即评价主体的活跃度与其出现频数关系和评价主体的数据规模的关系，以及被评价主体的属性特征与其数据规模的关系，即流行度与其出现频数关系和被评价主体的数据规模的关系，并将这两个属性特征通过活跃度总和等于流行度总和建立关联，得到非时间属性关联的h模型。

进一步的，该方法包括以下步骤：

步骤s1：从数据集中提取关键属性，包括评价主体id和被评价主体id；

步骤s2：对评价主体id出现的频次做频数统计得到评价主体的活跃度，对被评价对象id出现的频次做频数统计得到被评价对象的流行度，对活跃度降序排列得到相应的活跃度排名，对流行度降序排列得到相应的流行度排名，对活跃度出现的频次做频数统计得到活跃度与其出现的频数，对流行度出现的频次做频数统计得到流行度与其出现的频数，从而得到以下4个关系：活跃度与活跃度排名的关系、活跃度与其出现频数的关系、流行度与流行度排名的关系和流行度与其出现频数的关系；

步骤s3：分别对得到的4个关系计算mic值，得到4个关系的mic值，以度量各个关系中两个字段间的相关性；

步骤s4：对应于4个关系分别预设4个阈值，比较4个mic值是否都不小于预设的阈值，是则进行下一步骤，否则此模型不适用，建模结束；

步骤s5：采用se分布对得到的4个关系进行拟合，得到4个关系的se分布参数；

步骤s6：设置评价主体的数据规模和被评价主体的数据规模；

步骤s7：在活跃度排名的取值范围内随机取一个数作为活跃度排名，通过活跃度与活跃度排名关系的se分布，得到活跃度，进一步通过活跃度与其出现频数关系的se分布，得到活跃度对应的出现频数；

步骤s8：对步骤s7得到的出现频数求和，判断求和总数是否等于评价主体的数据规模，是则转下一步骤，否则重复步骤s7；

步骤s9：将活跃度乘以其对应的出现频数得到活跃度总和；

步骤s10：采用与步骤s7、s8同样的方法，得到流行度对应的出现频数，然后将流行度乘以其对应的出现频数得到流行度总和；

步骤s11：判断步骤s10得到的活跃度总和是否等于步骤s9得到的流行度总和，是则建模完成，否则重复步骤s10。

本发明的有益效果是针对表内非时间属性间的关联问题，提出了一种基于大数据生成器的非时间属性关联模型的建模方法，该方法从数据集中提取关键属性，通过mic值来评估字段间的相关性，并采用se分布进行关系拟合，建立了非时间属性关联的h模型，从统计特性上刻画非时间属性间关联性，建立的模型能够保持真实数据集的数据特征。

附图说明

图1是本发明实施例中建立的h模型的结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

表内部属性间的关联，分为与时间相关和非时间属性相关的关联。本发明基于大数据生成器的非时间属性关联模型的建模方法，针对表内部与非时间属性相关的关联性问题，首先从数据集中提取评价主体和被评价主体的关键属性，进行两重频数统计，得到基于关键属性的4个关系对：评价主体的活跃度与活跃度排名的关系、评价主体的活跃度与其出现频数的关系、被评价主体的流行度与流行度排名的关系和被评价主体的流行度与其出现频数的关系；然后，计算各关系对的最大信息系数（themaximalinformationcoefficient，mic）值，即mic值来评估各关系对的相关性，并采用拉伸指数分布（thestretchedexponentialdistribution，se），即se分布对各关系对进行关系拟合；通过拟合的关系得到评价主体的属性特征与其数据规模的关系，即评价主体的活跃度与其出现频数关系和评价主体的数据规模的关系，以及被评价主体的属性特征与其数据规模的关系，即流行度与其出现频数关系和被评价主体的数据规模的关系，并将这两个属性特征通过活跃度总和等于流行度总和建立关联，得到如图1所示的非时间属性关联的h模型。在图1中，freq表示活跃度，usercount表示评价主体的数据规模，popu表示流行度，itemcount表示被评价主体的数据规模，∑freq=∑popu表示活跃度总和等于流行度总和。实验结果表明，h模型能有效地刻画真实数据集中的数据特征。

具体的，本发明方法包括以下步骤：