一种基于大数据的用户数据分析方法及分析系统与流程

文档序号:34623860发布日期:2023-06-29 13:11阅读:57来源:国知局
一种基于大数据的用户数据分析方法及分析系统与流程

本发明属于数据分析,具体涉及一种基于大数据的用户数据分析方法及分析系统。


背景技术:

1、随着大数据时代的到来,越来越多的数据被收集和存储,人们对数据的分析需求也越来越迫切。然而,大量的数据集中在一起并不一定能够直观地揭示数据的内在规律,需要进行数据挖掘和分析才能提取有用的信息。传统的数据分析方法主要依赖于数据分析师的经验和知识,但这种方法在面对大规模、高维度的数据时效率低下,且容易受到主观因素的影响。因此,自动化、智能化的数据分析方法越来越受到人们的重视。

2、在现有的技术中,主流的数据分析方法包括聚类、分类、回归等方法。这些方法主要通过对数据进行模式识别和模型拟合,来实现对数据的分析和预测。例如,k-means算法、支持向量机、决策树等方法在数据分析领域有广泛的应用。这些方法在分析小规模、低维度的数据时表现良好,但在面对高维度、大规模的数据时,由于存在“维数灾难”问题,这些方法的性能表现往往不尽如人意。

3、为了克服高维数据分析中的维数灾难问题,一些学者提出了基于降维技术的数据分析方法。这类方法主要通过将高维数据映射到低维空间中,来实现对数据的分析和预测。其中,主成分分析(pca)是一种比较经典的降维方法,它通过线性变换将高维数据映射到低维空间中,以尽量保留数据的信息。此外,还有一些基于流形学习的降维方法,如等距映射(isomap)、局部线性嵌入(lle)等。

4、然而,这些传统的降维方法在实际应用中仍然存在一些问题。首先,它们往往只能对线性关系进行降维,对于非线性关系的数据无法有效处理。其次,这些方法的降维结果往往是静态的,无法反映数据的动态变化。此外,这些方法对于噪声和异常点的敏感度较高,容易受到数据噪声和异常点的干扰,从而影响数据分析的准确性和可靠性。


技术实现思路

1、本发明的主要目的在于提供一种基于大数据的用户数据分析方法及分析系统,其通过对训练数据进行训练来建立数据光谱,然后对每个目标用户数据绑定一个数据自分析器,这个数据自分析器不仅可以分析出目标用户数据点的特征,还可以在数据光谱中直接找到目标用户数据的位置,直观体现出目标用户数据的特征。

2、为解决上述技术问题,一方面,本发明提供一种基于大数据的用户数据分析方法,所述方法包括:

3、步骤s1:获取训练数据;所述训练数据为已经进行标注的用户数据;

4、步骤s2:对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据光谱为一个表征数据特征值的二维圆形平面,其圆心定义为数据特征值为空集的点,半径为设定值,圆周上分布多个固定位置的边界点,所述边界点的数量与数据分析时的方向的数量相等,每个边界点的值为对应的方向的数据特征的最大值,圆心与边界点的连接线,朝向边界点的方向为进行数据分析时的方向;

5、步骤s3:获取待分析的目标用户数据,同时为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值;

6、步骤s4:在数据光谱中,表征目标用户数据的点从圆心开始,按照自身在各个方向的数据特征的值,按照该数据特征对应的方向,在数据光谱中移动,此时,数据光谱中每个方向视为一个坐标轴,对应方向的数据特征的值视为该方向下的坐标值;

7、步骤s5:将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。

8、进一步的,所述步骤s1在获取训练数据后,对训练数据进行标注的内容的类别数量与对训练数据进行多个方向的数据分析时方向的数量相等。

9、进一步的,所述步骤s1在获取训练数据后,还对获取到的训练数据进行基于弹性网络的数据降维,具体包括以下过程:对训练数据进行特征提取,得到原始特征矩阵,其中的每一行代表一个样本,每一列代表一个特征;使用弹性网络算法对原始特征矩阵进行降维,得到降维后的特征矩阵;在降维后的特征矩阵中,每一行表示一个单独的训练样本,每一列表示一个具体的数据特征;矩阵中的值表示每个训练样本在降维后的每个数据特征上的值。

10、进一步的,所述使用弹性网络算法对原始特征矩阵进行降维的方法包括:构建弹性网络的目标函数,所述目标函数使用如下公式进行表示:

11、;

12、其中,是目标值向量,是原始特征矩阵,是待求的系数向量,n是样本数,表示范数,表示范数,是正则化参数,是范数与范数的权重比;通过最小化所述目标函数来得到系数向量,然后将原始特征矩阵与系数向量相乘,得到降维后的特征矩阵;表示需要对进行求解的最小化问题。

13、进一步的,所述步骤s2中对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征的方法包括:对训练数据的降维后的特征矩阵,进行协方差矩阵计算,得到协方差矩阵;对协方差矩阵进行特征值分解,得到特征值和特征向量;对特征值进行排序,选取前个最大的特征值和对应的特征向量,表示训练数据在前个方向上的数据特征;将所选的前个特征向量组成新的特征矩阵,表示训练数据在前个方向上的数据特征,新的特征矩阵中的各个元素值表示对应方向的数据特征值。

14、进一步的,所述步骤s3中的数据自分析器为一个数据分析插件,所述目标用户数据为一个数据集合,通过集合和矩阵的转换方式,转换为目标用户数据的矩阵;将目标用户数据的矩阵与数据分析插件绑定到一起组成一个数据包。

15、进一步的,所述数据自分析器通过多方向映射的方式,以新的特征矩阵为目标,实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值。

16、进一步的,所述数据自分析器进行多方向映射的过程包括:设目标用户数据的矩阵为;对目标用户数据矩阵进行特征提取,得到原始特征矩阵;对原始特征矩阵进行弹性网络降维,得到降维后的特征矩阵;将降维后的特征矩阵和新的特征矩阵进行多方向映射,得到映射后的特征矩阵;对映射后的特征矩阵进行解码,得到目标用户数据在各个方向的数据特征的值。

17、进一步的,所述将降维后的特征矩阵和新的特征矩阵进行多方向映射,得到映射后的特征矩阵的方法包括:对于目标用户数据中的每一个样本,使用最小化重构误差的方法将其映射到训练数据降维后的特征空间中,得到其对应的映射向量;所述最小化重构误差的方法使用如下公式进行表示:

18、;

19、其中,为训练数据降维后的特征矩阵,为映射系数向量,和为控制稀疏性和平滑性的参数。

20、另一方面,本发明还提供了一种基于大数据的用户数据分析系统,所述系统包括:数据获取单元,包括:训练数据获取子单元和目标数据获取子单元;所述训练数据获取子单元配置用于获取训练数据;所述目标数据获取子单元,配置用于获取待分析的目标用户数据;数据分析单元,包括:训练数据分析子单元和数据自分析器分配子单元;所述训练数据分析子单元,配置用于对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据自分析器分配子单元,包括:数据自分析器生成部分和数据自分析器分配部分;所述数据自分析器生成单元,配置用于生成数据自分析器;所述数据自分析器分配部分,配置用于为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值,并驱动目标用户数据在数据光谱中移动;结果呈现单元,配置用于将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。

21、本发明的一种基于大数据的用户数据分析方法及分析系统,具有以下有益效果:

22、1.多方向数据分析能力更强:

23、传统的数据分析方法往往只能对数据进行单一维度的分析,难以捕捉到数据中多个方向的信息。而本发明提供的方法可以在多个方向上对数据进行特征提取和分析,能够更全面地获取数据的特征,提高数据的分析能力。

24、2.降维处理提高了数据处理效率:

25、本发明中的弹性网络降维方法能够将高维度的数据降至较低的维度,减少了数据处理的时间和计算资源。同时,在降维的过程中,保留了数据中的主要特征,避免了信息的丢失。

26、3.数据光谱提高了数据可视化和可解释性:

27、本发明中的数据光谱能够将数据在多个方向上进行可视化,并且可以直观地展示数据在不同方向上的特征值,提高了数据的可视化和可解释性。通过对数据光谱的分析,用户可以更好地理解数据特征和数据之间的关系,从而做出更加准确的分析和决策。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1