一种基于非时间属性关联的数据逼真生成方法与流程

文档序号:12819066阅读:180来源:国知局

本发明涉及大数据生成技术领域,特别涉及一种基于非时间属性关联的数据逼真生成方法。



背景技术:

在大数据评测中,考虑到大数据集不易获取,对大数据生成工具的研究引起了广泛关注。大数据生成工具最重要的需求是能刻画真实数据集中的数据特征。表格数据特征对单表而言可以分为2个特征,属性特征、属性关联特征。而如何逼真的生成表格数据,关键之一就在于如何处理表内部关键属性间的关联性问题,如何处理表与表之间的关联性问题。

在表格形式的大规模数据生成研究工作中,已有许多学者做了大量的工作,特别是对表与表之间的关联、某个属性具有的特征、与时间属性相关的特征关注比较多,而对非时间属性间的关联比较少。对非时间属性间的关联的研究,停留在相对粗糙的层面上。对非时间字段相关性质研究中仍存在许多需要急于解决的困难问题。



技术实现要素:

本发明的目的在于提供一种基于非时间属性关联的数据逼真生成方法,该方法生成的数据能够有效地模拟真实数据集的数据特征。

为实现上述目的,本发明的技术方案是:一种基于非时间属性关联的数据逼真生成方法,首先从数据集中提取评价主体和被评价主体的关键属性,进行两重频数统计,得到基于关键属性的4个关系对:评价主体的活跃度与活跃度排名的关系、评价主体的活跃度与其出现频数的关系、被评价主体的流行度与流行度排名的关系和被评价主体的流行度与其出现频数的关系;然后计算各关系对的mic值来评估各关系对的相关性,并采用se分布对各关系对进行关系拟合;接着通过拟合的关系得到评价主体的属性特征与其规模的关系,即评价主体的活跃度与其出现频数关系和评价主体的规模的关系,以及被评价主体的属性特征与其规模的关系,即流行度与其出现频数关系和被评价主体的规模的关系,并将这两个属性特征通过活跃度总和等于流行度总和建立关联,得到非时间属性关联模型;最后,基于得到的非时间属性关联模型,通过模型参数构建约束,生成带约束的二维矩阵以及二维矩阵填充方式,逼真生成数据集。

进一步的,该方法包括以下步骤:

步骤s1:从数据集中提取关键属性,包括评价主体id和被评价主体id,然后对评价主体id出现的频次做频数统计得到评价主体的活跃度,对被评价对象id出现的频次做频数统计得到被评价对象的流行度,对活跃度降序排列得到相应的活跃度排名,对流行度降序排列得到相应的流行度排名,对活跃度出现的频次做频数统计得到活跃度与其出现的频数,对流行度出现的频次做频数统计得到流行度与其出现的频数,从而得到以下4个关系:活跃度与活跃度排名的关系、活跃度与其出现频数的关系、流行度与流行度排名的关系和流行度与其出现频数的关系;

步骤s2:分别对得到的4个关系计算mic值,得到4个关系的mic值,以度量各个关系中两个字段间的相关性;

步骤s3:对应于4个关系分别预设4个阈值,比较4个mic值是否都不小于预设的阈值,是则进行下一步骤,否则结束数据生成;

步骤s4:采用se分布对得到的4个关系进行拟合,得到4个关系的se分布参数;

步骤s5:设置评价主体的规模和被评价主体的规模;

步骤s6:检验设置的合法性,即判断在设置的规模下评价主体和被评价主体之间能否构成活跃度总和与流行度总和相同,是则进入下一步骤,否则返回步骤s5,重新设置评价主体的规模和被评价主体的规模;

步骤s7:根据设置的评价主体的规模、活跃度与活跃度排名的关系、活跃度与其出现频数的关系生成评价主体模型,所述评价主体模型包含评价主体的id和活跃度;根据设置的被评价主体的规模、流行度与流行度排名的关系、流行度与其出现频数的关系和活跃度总和与流行度总和相等的条件生成被评价主体模型,所述被评价主体模型包含被评价主体的id和流行度;

步骤s8:根据评价主体模型和被评价主体模型生成带约束的二维矩阵;以横轴表示评价主体,一行表示一个评价主体,则评价主体的活跃度代表在此行选取被评价主体的数目;以纵轴表示被评价主体,一列代表一个被评价主体,则被评价主体的流行度代表在此列选取评价主体的数目;

步骤s9:根据评价主体和被评价主体的规模生成二维矩阵填充方式;所述填充方式为,横轴与纵轴交叉填充,即填充一定数量的评价主体之后填充一定数量被评价主体;上述的两个数量根据横轴与纵轴长度的比值得到;

步骤s10:根据步骤s9得到的填充方式填充二维矩阵,被填充的地方作为一条记录。

本发明的有益效果是提出了一种基于非时间属性关联的数据逼真生成方法,该方法从数据集中提取关键的两个非时间属性,然后通过mic值来评估字段间的相关性,并采用se分布进行关系拟合,构建出非时间属性关联模型;最后,通过模型参数构建约束,在此约束的二维矩阵中生成数据。该算法可以解决数据生成器研发中的属性关联构建方法的困难问题,有效的模拟真实数据集数据特征,对大数据测评领域的仿真数据生成有重要作用。

附图说明

图1是本发明实施例中数据逼真生成方法的流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明基于非时间属性关联的数据逼真生成方法,首先从数据集中提取评价主体和被评价主体的关键属性,进行两重频数统计,得到基于关键属性的4个关系对:评价主体的活跃度与活跃度排名的关系、评价主体的活跃度与其出现频数的关系、被评价主体的流行度与流行度排名的关系和被评价主体的流行度与其出现频数的关系;然后计算各关系对的最大信息系数(themaximalinformationcoefficient,mic)值,即mic值来评估各关系对的相关性,并采用拉伸指数分布(thestretchedexponentialdistribution,se),即se分布对各关系对进行关系拟合;接着通过拟合的关系得到评价主体的属性特征与其规模的关系,即评价主体的活跃度与其出现频数关系和评价主体的规模的关系,以及被评价主体的属性特征与其规模的关系,即流行度与其出现频数关系和被评价主体的规模的关系,并将这两个属性特征通过活跃度总和等于流行度总和建立关联,得到非时间属性关联模型;最后,基于得到的非时间属性关联模型,通过模型参数构建约束,生成带约束的二维矩阵以及二维矩阵填充方式,逼真生成数据集。如图1所示,该方法具体包括以下步骤:

步骤s1:从数据集中提取关键属性,包括评价主体id和被评价主体id,然后对评价主体id出现的频次做频数统计得到评价主体的活跃度,对被评价对象id出现的频次做频数统计得到被评价对象的流行度,对活跃度降序排列得到相应的活跃度排名,对流行度降序排列得到相应的流行度排名,对活跃度出现的频次做频数统计得到活跃度与其出现的频数,对流行度出现的频次做频数统计得到流行度与其出现的频数,从而得到以下4个关系:活跃度与活跃度排名的关系、活跃度与其出现频数的关系、流行度与流行度排名的关系和流行度与其出现频数的关系。

步骤s2:分别对得到的4个关系计算mic值,得到4个关系的mic值,以度量各个关系中两个字段间的相关性。

步骤s3:对应于4个关系分别预设4个阈值,比较4个mic值是否都不小于预设的阈值,是则进行下一步骤,否则结束数据生成。

步骤s4:采用se分布对得到的4个关系进行拟合,得到4个关系的se分布参数。

步骤s5:设置评价主体的规模和被评价主体的规模。

步骤s6:检验设置的合法性,即判断在设置的规模下评价主体和被评价主体之间能否构成活跃度总和与流行度总和相同,是则进入下一步骤,否则返回步骤s5,重新设置评价主体的规模和被评价主体的规模。其中,活跃度总和与流行度总和的计算方法为:

步骤1)在活跃度排名的取值范围内随机取一个数作为活跃度排名,通过活跃度与活跃度排名关系的se分布,得到活跃度,进一步通过活跃度与其出现频数关系的se分布,得到活跃度对应的出现频数;

步骤2)对步骤1)得到的出现频数求和,判断求和总数是否等于评价主体的数据规模,是则转下一步骤,否则重复步骤1);

步骤3)将活跃度乘以其对应的出现频数得到活跃度总和;

步骤4):采用与步骤1)、2)同样的方法,得到流行度对应的出现频数,然后将流行度乘以其对应的出现频数得到流行度总和。

步骤s7:根据设置的评价主体的规模、活跃度与活跃度排名的关系、活跃度与其出现频数的关系生成评价主体模型,所述评价主体模型包含评价主体的id和活跃度;根据设置的被评价主体的规模、流行度与流行度排名的关系、流行度与其出现频数的关系和活跃度总和与流行度总和相等的条件生成被评价主体模型,所述被评价主体模型包含被评价主体的id和流行度。

步骤s8:根据评价主体模型和被评价主体模型生成带约束的二维矩阵;以横轴表示评价主体,一行表示一个评价主体,则评价主体的活跃度代表在此行选取被评价主体的数目;以纵轴表示被评价主体,一列代表一个被评价主体,则被评价主体的流行度代表在此列选取评价主体的数目。

步骤s9:根据评价主体和被评价主体的规模生成二维矩阵填充方式;所述填充方式为,横轴与纵轴交叉填充,即填充一定数量的评价主体之后填充一定数量被评价主体;上述的两个数量根据横轴与纵轴长度的比值得到。

步骤s10:根据步骤s9得到的填充方式填充二维矩阵,被填充的地方作为一条记录。从而生成逼真数据集。

以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1