多维大数据特征属性的处理方法、装置、终端及存储介质与流程

文档序号:20756410发布日期:2020-05-15 17:27阅读:179来源:国知局
多维大数据特征属性的处理方法、装置、终端及存储介质与流程

本申请涉及数据处理技术领域,特别是涉及多维大数据特征属性的处理方法、装置、终端及存储介质。



背景技术:

当今社会是一个高速发展的社会,信息流通且科技发达,大数据已然是这个高科技时代的产物。随着数据量的迅速增长,数据挖掘已成为数据处理领域极为重要的一项技术。

大数据普遍存在于各行各业,但是现有的可应用于大数据的分析及挖掘技术的专业化程度非常高,数据挖掘的非专业人士无法从当前的业务中快速读取多维大数据的特征属性,导致很多数据未能被及时有效地挖掘,大大阻碍了大数据分析挖掘技术的发展进程,对各行各业来说都是巨大损失。

因此,本发明亟需一种能够更全面严密地求解大数据的特征属性,并能帮助数据挖掘的非专业人士快速读取大数据特征属性的技术解决方案。

申请内容

鉴于以上所述现有技术的缺点,本申请的目的在于提供多维大数据特征属性的处理方法、装置、终端及存储介质,用于解决现有技术中的问题。

为实现上述目的及其他相关目的,本申请的第一方面提供一种多维大数据特征属性的处理方法,其包括:获取待处理的多维大数据及其对应的特征属性所需解释数据变动的比例数据;利用至少两种降维算法提取所述多维大数据的特征属性,并分析各所述降维算法之间的关联程度;根据所述特征属性所需解释数据变动的比例选取对应的特征属性,并设定每个特征属性的标签释义;将所述至少两种降维算法的特征属性构成、标签释义以及各所述降维算法之间的关联程度向外展示。

于本申请的第一方面的一些实施例中,所述利用至少两种降维算法提取所述多维大数据的特征属性,并分析各所述降维算法之间的关联程度,其包括:利用主成分分析法和因子分析法提取所述多维大数据的特征属性,并分析所述主成分分析法和因子分析法之间的关联程度。

于本申请的第一方面的一些实施例中,所述方法包括:利用所述主成分分析法获取对应的主成分系数,并利用所述因子分析法获取对应的正交因子权重;获取所述主成分系数与正交因子权重之间的相关系数矩阵,并计算所述相关系数矩阵的所有项之和,以根据所述所有项之和的计算结果来分析所述主成分分析法和因子分析法之间的关联程度。

于本申请的第一方面的一些实施例中,所述根据所述特征属性所需解释数据变动的比例选取对应的特征属性,其包括:根据所述特征属性所需解释数据变动的比例来确定主成分分析法中所采用的主成分数量;以及/或者,根据所述特征属性所需解释数据变动的比例来确定正交因子法中所采用的正交因子数量。

于本申请的第一方面的一些实施例中,所述设定每个特征属性的标签释义,其包括:根据不同维度变量在主成分上的权重得分数据来设定特征属性的标签释义;和/或,根据不同维度变量在不同因子上的得分数据来设定特征属性的标签释义。

于本申请的第一方面的一些实施例中,所述方法包括:在利用至少两种降维算法提取所述多维大数据的特征属性之前,先对所述多维大数据进行用于消除不同维度数据量级影响的标准化处理。

于本申请的第一方面的一些实施例中,所述获取待处理的多维大数据,其包括:获取经过预处理的多维大数据;其中,所述预处理包括数据整理、提取、清洗或者自动爬取相关数据的操作。

为实现上述目的及其他相关目的,本申请的第二方面提供一种多维大数据特征属性的处理装置,其包括:数据获取模块,用于获取待处理的多维大数据及其对应的特征属性所需解释数据变动的比例数据;算法处理模块,用于利用至少两种降维算法提取所述多维大数据的特征属性,并分析各所述降维算法之间的关联程度;标签释义模块,用于根据所述特征属性所需解释数据变动的比例选取对应的特征属性,并设定每个特征属性的标签释义;展示模块,用于将所述至少两种降维算法的特征属性构成、标签释义以及各所述降维算法之间的关联程度向外展示。

为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述多维大数据特征属性的处理方法。

为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述多维大数据特征属性的处理方法。

如上所述,本申请的多维大数据特征属性的处理方法、装置、终端及存储介质,具有以下有益效果:本发明旨在提供一种同时利用多种数据挖掘技术以及文本关联方法自动求解多维大数据特征属性的web端程序。本发明的优点与功能在于,能够更全面严密地求解大数据的特征属性,并且帮助数据挖掘的非专业人士快速读取大数据特征属性;此外该web端程序自动进行了权重文本关联来给出属性的解释,使各行业的科研、产品及市场等方面的相关人士只需将数据导入web程序或者提供爬取的数据,便可透析数据特征属性及逻辑,从而有效地解决了现有技术中的难题。

附图说明

图1显示为本申请一实施例中的多维大数据特征属性的处理方法的流程示意图。

图2显示为本申请一实施例中的多维大数据特征属性的处理系统的结构示意图。

图3显示为本申请一实施例中的多维大数据特征属性的处理装置的结构示意图。

图4显示为本申请一实施例中电子终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“a、b或c”或者“a、b和/或c”意味着“以下任一个:a;b;c;a和b;a和c;b和c;a、b和c”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。

现有的可应用于大数据的分析及挖掘技术的专业化程度非常高,数据挖掘的非专业人士无法从当前的业务中快速读取多维大数据的特征属性,导致很多数据未能被及时有效地挖掘,大大阻碍了大数据分析挖掘技术的发展进程,对各行各业来说都是巨大损失。

有鉴于此,本发明提供多维大数据特征属性的处理方法、装置、终端及存储介质,旨在提供一种同时利用多种数据挖掘技术以及文本关联方法自动求解多维大数据特征属性的web端程序。本发明的优点与功能在于,能够更全面严密地求解大数据的特征属性,并且帮助数据挖掘的非专业人士快速读取大数据特征属性;此外该web端程序自动进行了权重文本关联来给出属性的解释,使各行业的科研、产品及市场等方面的相关人士只需将数据导入web程序或者提供爬取的数据,便可透析数据特征属性及逻辑,从而有效地解决了现有技术中的难题。

为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。

实施例一

如图1所示,展示了本发明一实施例中的多维大数据特征属性的处理方法的流程示意图。本实施例的多维大数据特征属性的处理方法主要包括步骤s101~s105。

步骤s101:获取待处理的多维大数据及其对应的特征属性所需解释数据变动的比例数据。

在本实施例较佳的实现方式中,所述获取待处理的多维大数据,其包括获取经过预处理的多维大数据;其中,本实施例中的预处理包括对多维大数据进行整理、提取、清洗或者自动爬取相关数据等操作,本实施例不作限定。

具体如图2中所示的多维大数据特征属性的处理系统,用户端21对多维大数据进行整理、提取、清洗或者自动爬取相关数据等操作,然后通过web程序入口将这些预处理后的数据自动传输导入至服务器22中,并传输导入对应的特征属性所需解释数据变动的比例,所述特征属性所需解释数据变动的比例记为r%(r∈[0,100])。

应理解的是,用户端21例如可以是包括存储器、存储控制器、一个或多个处理单元(cpu)、外设接口、rf电路、音频电路、扬声器、麦克风、输入/输出(i/o)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(personaldigitalassistant,简称pda)等个人电脑。服务器22例如可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成,本实施例不作限定。

本实施例中的多维大数据利用数据矩阵d表示。

其中,p为数据维度,n为数据量。

步骤s102:利用至少两种降维算法提取所述多维大数据的特征属性,并分析各所述降维算法之间的关联程度。

在本实施例较佳的实现方式中,在利用至少两种降维算法提取所述多维大数据的特征属性之前,先对所述多维大数据进行用于消除不同维度数据量级影响的标准化处理,从而有效避免不同维度的数据量级不同而使结果产生较大的偏差。

可选的,对不同维度的数据进行标准化的方式如下式所示:

其中,p表示数据维度,n表示数据量,xki(i=1,2,...,p)为第k组数据的第i维度值,为第i维数据的均值,第i维数据的标准差。

在本实施例较佳的实现方式中,利用主成分分析法(pca法)和正交因子分析法来提取所述多维大数据的特征属性,并分析主成分分析法(pca法)和正交因子分析法之间的关联程度。

所述主成分分析法(pca法)又称为主分量分析技术,是一种简化数据集的技术,主要利用降维的思想,把多指标转化为少数几个综合指标,是一种线性变换,这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(第一主成分)上,第二大方差在第二个坐标(第二主成分)上,以此类推。

具体而言,对于多维数据x′=[x1x2…xp]′,∑表示多维大数据的方差矩阵,∑的特征值特征向量组合为(λ1,e1),(λ2,e2),...,(λp,ep),则第i个主成分为yi,该主成分解释的变动var(yi)=λi;yi利用下式表示:

yi=e′ix=ei1x1+ei2x2+…+eipxp;公式1)

具体而言,可通过对方差矩阵进行特征值特征向量分解来求解多维大数据的特征属性:

其中,∑为多维大数据的方差矩阵,λi(i=1,2,...,p)为第i个特征值,ei为对应的第i个特征向量,p为数据维度,则提取出的多维大数据的特征属性为:

所述因子分析法是指研究从变量群中提取共性因子的统计技术,原始数据可由公共因子(公共维度)与误差因子(非公共维度)构成,因子分析法的目的在于用少数几个因子去描述许多指标或因素之间的联系,将相关比较密切的几个变量归在同一类中,每一类变量就称为一个因子,以较少的几个因子反映原始数据的大部分信息。

具体而言,正交因子法基于如下模型实现:

xi=[xi1xi2…xip]′(i=1,2,...,n);公式5)

其中:

μ=[μ1μ2…μp]′;其代表每个维度数据的均值;

其代表数据在正交因子上的权重;

f=[f1f2…fm]′;其代表m个正交因子;

ε=[ε1ε2…εp]′;其代表残差;

其中,为了使模型可求解,假设f与ε满足互相独立;e(f)=0,表示f的均值为0;cov(f)=i,表示f的协方差矩阵为单位矩阵;e(ε)=0,表示ε的均值为0,cov(ε)=ψ表示用ψ来表示ε的协方差矩阵。

具体可利用极大似然法进行求解,极大似然法基于如下约束条件求解多维大数据的特征属性:

分别比较主成分分析法(pca法)和因子分析法的残差,并取残差更小者计算得到的特征属性作为多维数据的特征属性,并对得到的特征属性利用最大方差法旋转,以使计算结果更易解读。

在本实施例可选的实现方式中,在分别通过主成分分析法和因子分析法来提取多维大数据的特征属性后,对主成分分析法及正交因子法提取出的特征属性进行比较分析,并对主成分分析法得出的主成分系数(即ei1,ei2,...,eip)与因子分析法得出的权重(即li1,li2,...,lim)之间计算相关系数矩阵如下:

该相关系数矩阵c所有项之和∑c=∑ijρij(i,j=1,...,m);其中,∑c值越大说明两种方法越接近,计算结果的可解释性越高;∑c=0表示两种方法得出的结果没有任何关联;∑c=m2表示两种方法得出的结果完全一样;则可代表两种方法的关联程度。

步骤s103:根据所述特征属性所需解释数据变动的比例选取对应的特征属性。也即,根据用户设定特征属性需要解释数据变动的比例r%来确定主成分数量或正交因子数量。

可选的,根据用户设定特征属性需要解释数据变动的比例r%来确定主成分数量。例如:若用户设定比例r%(如未设定则按70%、90%两档进行输出),主成分数m需满足最小的m符合下式要求:

可选的,根据用户设定特征属性需要解释数据变动的比例r%来确定正交因子数量。例如:若用户设定比例r%(如未设定则按70%、90%两档进行输出),潜在因子数m需满足为最小的m符合下式要求:

步骤s104:设定每个特征属性的标签释义。

对于主成分分析法(pca法),可根据不同维度变量在主成分上的权重得分数据来设定特征属性的标签释义。例如:主成分yi=e′ix=ei1x1+ei2x2+…+eipxp,其中的ei1,ei2,...,eip为主成分yi的权重,令权重均值为μe,方差为se,则每个权重的得分为取该值大于1的维度变量作为该特征属性的标签。

对于正交因子法,可根据不同维度变量在不同因子上的得分数据来设定特征属性的标签释义。例如:xi-μi=li1f1+li2f2+…+limfm(i=1,2,...,p)中的li1,li2,...,lim,令其均值为μl,方差为sl,则每个权重的得分为取该值大于1的维度变量作为该特征属性的标签。

步骤s105:将所述至少两种降维算法的特征属性构成、标签释义以及各所述降维算法之间的关联程度向外展示。

具体而言,将pca法和正交因子法这两种方法得到的特征属性构成、标签释义以及各所述降维算法之间的关联程度一并返回至web端客户,呈现给用户。

因此,本实施例提供的多维大数据特征属性的处理方法,其旨在提供一种同时利用多种数据挖掘技术以及文本关联方法自动求解多维大数据特征属性的web端程序。本发明的优点与功能在于,能够更全面严密地求解大数据的特征属性,并且帮助数据挖掘的非专业人士快速读取大数据特征属性;此外该web端程序自动进行了权重文本关联来给出属性的解释,使各行业的科研、产品及市场等方面的相关人士只需将数据导入web程序或者提供爬取的数据,便可透析数据特征属性及逻辑,从而有效地解决了现有技术中的难题。

实施例二

如图3所示,展示了本发明一实施例中的多维大数据特征属性的处理装置的结构示意图。本实施例的多维大数据特征属性的处理装置包括数据获取模块31、算法处理模块32、标签释义模块33以及展示模块34。

数据获取模块31用于获取待处理的多维大数据及其对应的特征属性所需解释数据变动的比例数据。算法处理模块32用于利用至少两种降维算法提取所述多维大数据的特征属性,并分析各所述降维算法之间的关联程度。标签释义模块33用于根据所述特征属性所需解释数据变动的比例选取对应的特征属性,并设定每个特征属性的标签释义。展示模块34用于将所述至少两种降维算法的特征属性构成、标签释义以及各所述降维算法之间的关联程度向外展示。

因本实施例中多维大数据特征属性的处理装置的实施方式,与上文实施例一中多维大数据特征属性的处理方法的实施方式类似,故不再赘述。

应理解的是,以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,算法处理模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上算法处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(applicationspecificintegratedcircuit,简称asic),或,一个或多个微处理器(digitalsignalprocessor,简称dsp),或,一个或者多个现场可编程门阵列(fieldprogrammablegatearray,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessingunit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。

实施例三

如图4所示,展示本发明一实施例中的电子终端的结构示意图。本实施例提供的电子终端包括:处理器41、存储器42、通信器43;存储器42通过系统总线与处理器41和通信器43连接并完成相互间的通信,存储器42用于存储计算机程序,通信器43用于和其他设备进行通信,处理器41用于运行计算机程序,使电子终端执行如上多维大数据特征属性的处理方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccessmemory,简称ram),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例四

本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上文实施例一种所述的多维大数据特征属性的处理方法。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述,本申请提供多维大数据特征属性的处理方法、装置、终端及存储介质,其旨在提供一种同时利用多种数据挖掘技术以及文本关联方法自动求解多维大数据特征属性的web端程序。本发明的优点与功能在于,能够更全面严密地求解大数据的特征属性,并且帮助数据挖掘的非专业人士快速读取大数据特征属性;此外该web端程序自动进行了权重文本关联来给出属性的解释,使各行业的科研、产品及市场等方面的相关人士只需将数据导入web程序或者提供爬取的数据,便可透析数据特征属性及逻辑,从而有效地解决了现有技术中的难题。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1