数据处理方法、装置及电子设备与流程

文档序号:27822915发布日期:2021-12-04 14:00阅读:72来源:国知局
数据处理方法、装置及电子设备与流程

1.本技术涉及数据处理技术领域,更具体地说,涉及一种数据处理方法、装置及电子设备。


背景技术:

2.在大数据时代,数据挖掘与分析的应用场景日益增多。
3.在数据应用场景中,数据使用者经常需要了解不同数据之间的差异性。然而,在数据量较大的情况下,数据使用者很难较为直观快速的了解到不同数据之间的差异性。


技术实现要素:

4.本技术提供了一种数据处理方法、装置及电子设备。
5.其中,一种数据处理方法,包括:
6.获得待分析的多份数据;
7.确定每份所述数据具有的多种数据特征的特征值;
8.按照所述数据具有的多种数据特征的特征值,构建所述数据的特征展示图,所述特征展示图中包括多个特征展示分支,每个特征展示分支用于表征一种所述数据特征,且所述特征展示分支的分支长度能够表征所述特征展示分支对应的数据特征的特征值;
9.展现每份所述数据的特征展示图。
10.在一种可能的实现方式中,所述获得待分析的多份数据,包括:
11.获得待分析的数据集聚类出的多个数据聚类集,每个数据聚类集中包括聚类为同类别的至少一份数据;
12.所述确定每份所述数据具有的多种数据特征的特征值,包括:
13.确定每个数据聚类集具有的每种数据特征的特征值,所述数据聚类集的每种数据特征的特征值为所述数据聚类集中所述至少一份数据在该种数据特征上的特征值的平均值。
14.在又一种可能的实现方式中,还包括:
15.获得所述数据特征的重要程度;
16.所述按照所述数据具有的多种数据特征的特征值,构建所述数据的特征展示图,包括:
17.按照所述数据具有的多种数据特征的特征值以及所述数据特征的重要程度,构建所述数据的特征展示图。
18.在又一种可能的实现方式中,所述按照所述数据具有的多种数据特征的特征值以及所述数据特征的重要程度,构建所述数据的特征展示图,包括:
19.按照所述数据具有的多种数据特征的特征值,确定所述数据的特征展示图中具有的特征展示分支的数量以及每个所述特征展示分支的长度;
20.按照特征展示分支表征的数据特征的重要程度,所述数据的特征展示图中具有的
特征展示分支的数量以及每个所述特征展示分支的长度,构建所述特征展示图,所述特征展示图中具有依次排序的多个特征展示分支,且所述特征展示分支表征的数据特征的重要程度越高,所述特征展示分支的排序顺序越靠前。
21.在又一种可能的实现方式中,所述获得所述数据特征的重要程度,包括:
22.获得用户设定的所述数据特征的重要程度;
23.或者,
24.结合每份所述数据具有的多种数据特征的特征值,并基于主成分分析算法确定各数据特征的重要程度。
25.在又一种可能的实现方式中,所述确定每份所述数据具有的多种数据特征的特征值,包括:
26.获取每份所述数据具有的多种原始数据特征的特征值;
27.结合每份所述数据具有的多种原始数据特征的特征值,对所述多种原始数据特征进行降维处理,得到每份所述数据具有的多种数据特征的特征值。
28.在又一种可能的实现方式中,在所述结合每份所述数据具有的多种原始数据特征的特征值,对多种原始数据特征进行降维处理之前,还包括:
29.确定所述多种原始数据特征中由用户选择合并的至少一个原始数据特征组,每个原始数据特征组包括至少两种原始数据特征;
30.所述结合每份所述数据具有的多种原始数据特征的特征值,对所述多种原始数据特征进行降维处理,得到每份所述数据具有的多种数据特征的特征值,包括:
31.基于所述至少一个原始数据特征组以及每份所述数据具有的多种原始数据特征的特征值,对多种原始数据特征进行降维处理。
32.在又一种可能的实现方式中,在所述按照所述数据具有的多种数据特征的特征值,构建所述数据的特征展示图之前,还包括:
33.对所述多份数据在每种数据特征上的特征值进行归一化。
34.其中,一种数据处理装置,包括:
35.数据获得单元,用于获得待分析的多份数据;
36.特征确定单元,用于确定每份所述数据具有的多种数据特征的特征值;
37.图构建单元,用于按照所述数据具有的多种数据特征的特征值,构建所述数据的特征展示图,所述特征展示图中包括多个特征展示分支,每个特征展示分支用于表征一种所述数据特征,且所述特征展示分支的分支长度能够表征所述特征展示分支对应的数据特征的特征值;
38.图展示单元,用于展现每份所述数据的特征展示图。
39.其中,一种电子设备,包括:
40.存储器和处理器;
41.所述处理器,用于执行如上任意一项所述的数据处理方法;
42.所述存储器,用于存储所述处理器执行操作所需的程序。
43.通过以上方案可知,本技术在获得待分析的多份数据之后,会确定出每份数据具有的多种数据特征的特征值。在此基础上,按照数据具有的多种数据特征的特征值可以构建出该数据的特征展示图,由于数据的特征展示图中展现出这多种数据特征各自对应的特
征展示分支,且特征展示分支的分支长度能够表征该特征展示分支对应的数据特征的特征值,因此,通过该每份数据的特征展示图可以直观反映出不同数据在不同种数据特征上的差异性,有利于用户快速了解不同数据之间的差异性。
附图说明
44.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1为本技术实施例提供的数据处理方法的一种流程示意图;
46.图2为本技术实施例提供的数据处理方法的又一种流程示意图;
47.图3为本技术实施例提供的特征展示图的一种示意图;
48.图4为本技术实施例提供的特征展示图的又一种示意图;
49.图5为本技术实施例中展示出的多份数据的特征展示图的一种示意图;
50.图6为本技术实施例提供的数据处理方法的又一种流程示意图;
51.图7为本技术实施例提供的数据处理装置的一种组成结构示意图;
52.图8为本技术实施例提供的一种电子设备的一种组成架构示意图。
53.说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示的以外的顺序实施。
具体实施方式
54.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
55.如图1所示,其示出了本技术实施例提供的数据处理方法的一种流程示意图,本实施例的方法可以包括:
56.s101,获得待分析的多份数据。
57.可以理解的是,根据数据分析的场景不同,待分析的每份数据的具体数据形式可以有多种可能。
58.如,每份数据可以是结构化数据,例如,每份数据为数据表中的一条数据记录。
59.又如,每份数据可以为一幅图像,即,图像数据。
60.可以理解的是,待分析的多份数据为同一类型的数据,如多份数据均为不同用户针对某个网站的访问数据等。相应的,每份数据都是同一种数据形式的数据,如,可以获得待分析的多条数据记录,或者是,获得待分析的多幅图像。当然,如果多份数据为不同数据形式的数据也同样适用于本技术,对此不加限制。
61.s102,确定每份数据具有的多种数据特征的特征值。
62.其中,每份数据具有的多种数据特征为该份数据在多个不同维度上的特征。
63.为了便于比较,本技术中不同份数据中任意一份数据所需确定的多种数据特征的种类均相同。对于任意一份数据而言,数据的数据特征可以通过多份数据进行特征提取,最终确定出每份数据均具有的多种数据特征。当然,还可以是由人工指定每份数据具有的多种数据特征。
64.其中,数据具有的数据特征可以有多种可能。如,在每份数据为一份结构化数据的情况下,结构化数据中每种属性可以作为该结构化数据的一种数据特征,而每种属性的属性值就是数据特征的属性值。例如,一份结构化数据为笔记本的基础信息,该基础信息中可以包括笔记本的内存、cpu以及显卡等不同维度上的数据,因此可以提取得到笔记本的内存、cpu以及显卡这三个维度上的具体数值。
65.又如,在每份数据为一幅图像的情况下,该图像的数据特征可以是图像的颜色、梯度以及色差等特征。
66.可以理解的是,由于每份数据均具有多种数据特征,因此,针对每份数据,均需要确定出该份数据在该多种数据特征上的特征值。
67.例如,对于一份数据a需要确定出其在数据特征1上的特征值以及在数据特征2上的特征值,相应的,对于一份数据b同样需要确定其数据特征1的特征值以及数据特征2的特征值。
68.s103,按照一份数据具有的多种数据特征的特征值,构建该份数据的特征展示图。
69.其中,该特征展示图中包括多个特征展示分支,每个特征展示分支用于表征一种数据特征,且特征展示分支的分支长度能够表征特征展示分支对应的数据特征的特征值。
70.如,假设每份数据均具有5种数据特征,构建出的特征展示图中需要包含5个特征展示分支,每个特征展示分支表征这5种数据特征中的一种。
71.其中,特征展示分支的分支长度对应的是该特征展示分支标识的数据特征的特征值大小,因此,数据特征的特征值不同时,表示该数据特征的特征展示分支的分支长度也就不同。
72.如,在一种可能的情况中,特征展示分支的分支长度与该特征展示分支表示的数据特征的特征值大小之间具有正比关系。相应的,对于一份数据的数据特征而言,该数据特征的特征值越大,为该数据特征的特征展示分支的分支长度也就越长。
73.当然,此处是以一种情况为例说明,如果特征展示分支的分支长度越短,表示该特征展示分支对应的数据特征的特征值越大也同样适用于本技术。
74.可以理解的是,通过特征展示图展示出数据的多种数据特征对应的特征展示分支,且通过特征展示分支的分支长度能够表示出相应数据特征的特征值,因此,通过每份数据的特征展示图便可以直观了解到该份数据在多个数据特征上的特征值的情况。
75.可以理解的是,在本技术中特征展示图的具体形式可以有多种可能。如,特征展示图可以为包含一组柱状图,每组柱状图中包括多根条柱,每根条柱就是一个特征展示分支,而每根条柱的长度(也可以称为高度)用于表征该条柱对应的数据特征的特征值。
76.又如,每个特征展示图可以为一个呈现出雪花形态的雪花形特征展示图,如图3其示出了本技术提供的雪花形特征展示图的一种示意图。由图3可以看出,在雪花形状特征展示图的外形就像一朵雪花。在该雪花形状特征展示中包括围绕中心且向四周发散的多个分
支,包括分支301、分支302、分支303、分支304、分支305和分支306,每个分支就像雪花的一个棱柱,且每个分支就是一个表征一种数据特征的特征展示分支,而每个分支的长度反映的是该分支对应的数据特征的特征值的大小。
77.s104,展现每份数据的特征展示图。
78.在步骤s104中可以同时展示出多份数据中每份数据的特征展示图,使得用户既可以根据每份数据的特征展示图直观了解到该份数据在不同数据特征上的特征值的具体情况,还能够直观了解到不同份数据在不同数据特征上的特征值差异情况。
79.由以上内容可知,本技术在获得待分析的多份数据之后,会确定出每份数据具有的多种数据特征的特征值。在此基础上,按照数据具有的多种数据特征的特征值可以构建出该数据的特征展示图,由于数据的特征展示图中展现出这多种数据特征各自对应的特征展示分支,且特征展示分支的分支长度能够表征该特征展示分支对应的数据特征的特征值,因此,通过该每份数据的特征展示图可以直观反映出不同数据在不同种数据特征上的差异性,有利于用户快速了解不同数据之间的差异性。
80.可以理解的是,为了能够使得用户能够直观了解到不同数据特征的重要程度,本技术还可以获得每种数据特征的重要程度。在此基础上,在构建数据的特征展示图时,可以按照数据具有的多种数据特征的特征值以及每种数据特征的重要程度,构建该数据的特征展示图。
81.其中,构建的该特征展示图能够表征出多种数据特征的重要程度。
82.在一种可能的情况中,特征展示图中特征展示分支的外观形态能够表征该特征展示分支对应的数据特征的重要程度。如,通过特征展示分支的颜色深度来表征特征展示分支对应的数据特征的重要程度的高低,其中,特征展示分支的颜色越深,则说明特征展示分支对应的数据特征的重要程度越高。又如,通过特征展示分支的粗细程度来表示该特征展示分支对应的数据特征的重要程度,其中,特征展示分支越粗,则该特征展示分支对应的数据特征的重要程度越高。
83.在又一种可能的情况中,特征展示图中表示多种数据特征的多个特征展示分支的排布方式可以表征该特征展示分支对应的数据特征的重要程度。
84.如,将较为重要的数据特征对应的特征分支展示在特征展示图的中央区域等。
85.又如,构建出的特征展示图中具有依次排序的多个特征展示分支,且每个特征展示分支表征的数据特征的重要程度越高,该特征展示分支的排序顺序越靠前。为了便于理解,下面以该种实现方式为例对本技术的数据处理方法进行说明。
86.如图2所示,其示出了本技术一种数据处理方法的又一种流程示意图,本实施例的方法可以包括:
87.s201,获得待分析的多份数据。
88.s202,确定每份数据具有的多种数据特征的特征值。
89.以上步骤s201到s202可以参见前面实施例的相关介绍,在此不再赘述。
90.s203,获得每种数据特征的重要程度。
91.其中,数据特征的重要程度可以表征出数据特征对于数据存在影响的重要度,如,重要程度越高的数据特征,越能够反映数据的本质特征。
92.其中,确定数据特征的重要程度的具体方式可以有多种。在一种可能的情况下,可
以由用户设定该多种数据特征中每种数据特征的重要程度,相应的,可以获得用户设定的每种数据特征的重要程度。该种情况适用于用户能够明确所需重点关注的数据特征的场景。
93.在又一种可能的情况中,可以结合每份数据具有的多种数据特征的特征值,并基于主成分分析算法确定各原始数据特征的重要程度。
94.其中,主成分分析(principal components analysis,pca)算法是一种数据降维方法,其基本原理是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据,因此,基于主成分分析算法可以分析出各数据特征的重要程度的高低顺序。
95.s204,针对每份数据,按照该份数据具有的多种数据特征的特征值,确定该份数据的特征展示图中具有的特征展示分支的数量以及每个特征展示分支的长度。
96.如,基于每份数据具有的多种数据特征的数量,确定特征展示图中需要具备相同数据的特征展示分支,例如,每份数据具有8种特征数据,则特征展示图中需要具备8个特征展示分支。
97.在本技术中,特征展示分支的长度与该特征展示分支的数据特征的特征值有关。该特征展示分支的长度与特征展示分支表示的数据特征具有的特征值之间的关联关系可以有多种可能。
98.如,在一种可能实现方式中,数据特征具有的特征值越大,表示该数据特征的特征展示分支的长度越长。例如,可以按照不同特征值区间与长度的对应关系,以及特征展示分支对应的数据特征的特征值,确定该特征展示分支所需对应的长度,其中,特征值区间对应的特征值越大,则特征值区间对应的长度也越长。
99.s205,按照特征展示分支表征的数据特征的重要程度,数据的特征展示图中具有的特征展示分支的数量以及每个特征展示分支的长度,构建特征展示图。
100.其中,特征展示图中具有依次排序的多个特征展示分支,且该特征展示分支表征的数据特征的重要程度越高,该特征展示分支的排序顺序越靠前。
101.如,在确定出特征展示图中所需具有的多个特征展示分支的数量以及每个特征展示分支的长度之后,可以构建出该特征展示图中的多个特征展示分支。然后,按照特征展示分支表征的数据特征的重要程度从高到低的顺序,依次对多个特征展示分支进行排序,从而得到该特征展示图。
102.其中,特征展示图中特征展示分支的排序方式也可以有多种可能。
103.如,在一种可能的实现方式中,特征展示图中多个特征展示分支可以相互平行的排布到同一行,且多个特征展示分支的先后顺序与多个特征展示分支对应的多种数据特征的重要程度从高到低的顺序保持一致。
104.如图4所示,其示出了本技术中数据的特征展示图的又一种示意图。在图4中以一份数据具有3种数据特征,依次为特征a、特征b和特征c,这三种数据特征的重要程度从高到低的排序依次为特征a、特征b和特征c,那么在特征展示图中3中数据特征对应的特征展示分支在同一行依次排布,且顺序依次为:特征c对应的特征展示分支401、特征b对应的特征展示分支402和特征a对应的特征展示分支403。
105.又如,在又一种可能的实现方式中,特征展示分支可以为如图3所示的雪花形特征展示图。在该种情况中,特征展示图中多个特征展示分支可以水平坐标轴的正方向为起始
方向,并按照顺时针依次排序,且,特征展示分支对应的数据特征的重要程度越靠前,则特征展示分支的排序越靠前。其中,水平坐标轴的正方向为图3中水平向右的方向。
106.在该种实现方式中,多个特征展示分支环绕雪花中心在0度到360度之间环绕,因此,特征展示分支对应的数据特征越重要,该特征展示分支与该水平坐标轴的正方向的夹角越小,也即排序越靠前。
107.如图3所示,在图3的场景中假设一个数据具有6种数据特征,分别称为特征1、特征2、特征3、特征4、特征5和特征6,相应的,需要分别构建出表示这6种数据特征各自对应的特征展示分支依次为:特征1对应的分支301、特征2对应的分支301、特征3对应的分支303、特征4对应的分支304、特征5对应的分支305以及特征6对应的分支306。
108.假设这6种数据特征的重要程度从高到低的排序依次为特征6、特征4、特征3、特征1、特征2、特征5。那么在图3显示的特征展示图,特征6对应的特征展示分支,即分支306处于水平坐标轴的正方向上,即与水平坐标轴的夹角为0度。在此基础上,按照剩余5种特征的重要程度的高低顺序可以按照顺时针方向排次排布出剩余5个特征展示分支,如图3所示,在分支306之后,沿着顺时针方向,依次排布有分支304、分支303、分支301、分支302和分支305。
109.可以理解的是,以上是以特征展示图中特征展示分支的几种排序方式为例说明,在实际应用中,特征展示图中多个特征展示分支的排序以及排布方式还可以有其他可能,对此不加限制。
110.s206,展现每份数据的特征展示图。
111.如图5所示,其示出了展现出不同份数据的特征展示图的一种示意图。在图5中以每份数据的特征展示图为雪花形特征展示图为例说明,在图5中示出了5份数据的特征展示图,因此图5中由五个雪花形特征展示图。由于每个雪花形特征展示图中各个特征展示分支所表征的数据特征是固定且已知的。在此基础上,根据不同数据的特征展示图中同一位置上的特征展示分支的长度能够了解到不同数据在该特征展示分支对应的数据特征上的特征值大小。同时,根据数据的特征展示图中各个特征展示分支的排布顺序,可以了解到数据中各个数据特征的重要程度,有利于用户结合重要性较高的数据特征进行综合比对等。
112.可以理解的是,本实施例中依据数据特征的重要程度,确定特征展示图多个特征展示分支的排序,因此,根据特征展示分支在特征展示图中的排序,便可以确定特征展示分支所表征的数据特征的重要程度的情况,使得用户基于特征展示图能够直观了解到数据的各数据特征的特征值情况的基础上,还能够直观了解到数据的各数据特征的重要程度。
113.可以理解的是,在本技术中,针对某一种数据特征而言,不同数据之间的特征值可能并不适合直接比较,为了便于比较,本技术可以针对每种数据特征,对多份数据在该种数据特征上的特征值进行归一化。
114.在实际应用中,如果数据的某一数据特征上的取值不是数值型的,本技术在进行归一化之前,还会先将该每份数据在该数据特征上的取值转换为特征值。
115.可以理解的是,本技术中数据具有的多种数据特征可以是人工或者计算机直接从数据中确定出的数据特征。
116.为了能够有效的呈现出数据的数据特征,本技术还可以是在从数据中确定出多种数据特征之后,对多种数据特征进行筛选,然后确定出需要分析或者处理的数据特征。
117.如,在一种可能的情况中,可以先获取每份数据具有的多种原始数据特征的特征值。其中,原始数据特征可以理解为从数据中直接提取出或者确定出的数据特征。在此基础上,可以结合每份数据具有的多种原始特征的特征值,对该多种原始数据特征进行降维处理,得到每份数据具有的多种数据特征的特征值。
118.其中,对原始数据特征的降维处理方式可以有多种可能,如,可以利用奇异值分解算法(singular value decomposition,svd)或者主成分分析算法对多种原始数据特征进行降维,得到降维后的多种数据特征。
119.为了便于理解,下面结合一种确定数据的多种数据特征的一种实现方式进行说明。如图6所示,其示出了本技术提供的数据处理方法又一个实施例的流程示意图,本实施例的方法可以包括:
120.s601,获得待分析的多份数据。
121.其中,该多份数据为同一类型的多份数据。
122.s602,获取每份数据具有的多种原始数据特征的特征值。
123.如,针对每份数据,可以通过对数据进行特征提取,提取出数据在多种原始数据特征上的特征值。可以理解的是,由于数据为相同类型的数据,因此,不同份数据所提取出的原始数据特征的种类均相同。
124.可以理解的是,如果数据在某一种数据特征上的特征值不是数值,则还需要将数据特征的特征值转换为数值,得到数据值的特征值。
125.s603,针对每种原始数据特征,对该多份数据在该原始数据特征上的特征值进行归一化。
126.s604,结合每份数据具有的多种原始数据特征的特征值,对该多种原始数据特征进行降维处理,得到每份数据具有的多种数据特征的特征值。
127.其中,多种数据特征的维度要少于该多种原始数据特征的维度。
128.如,可以结合每份数据具有的多种原始数据特征的特征值,并利用主成分分析算法对每份数据具有的多种原始数据特征进行降维,得到每份数据经过降维处理后得到的多种数据特征的特征。其中,在利用主成分分析算法对多种原始数据特征进行降维的过程中,可能会将两种或者几种原始数据特征合并,最终经过降维可以得到最能够反映数据的本质的多种数据特征。
129.可以理解的是,为了能够更为针对性的进行降维,在该步骤s604之前,本技术还可以确定多种数据特征中由用户选择合并的至少一个原始数据特征组,每个原始数据特征组包括至少两种数据特征。如,假设用户需要将原始数据特征1与原始数据特征2合并为一个维度的数据特征,则可以选择原始数据特征1与原始数据特征2为一个原始数据特征组。
130.相应的,基于该至少一个原始数据特征组以及每份数据具有的多种原始数据特征的特征值,对多种原始数据特征进行降维处理。如,利用主成分分析算法结合用户设定原始数据特征组中需要合并的原始数据特征的特征值以及原始数据特征组之外的其他原始数据特征的特征值,对数据的多种原始数据特征进行降维,最终得到每份数据在降维后的多种数据特征上的特征值。
131.s605,获得该多种数据特征各自的重要程度。
132.确定数据特征的重要程度的实现方式可以参见前面实施例的相关介绍。
133.特别的,如果多种数据特征为基于主成分分析算法得到的,那么在基于主成分分析算法对多种原始数据特征进行降维的过程中,不仅可以确定出降维得到的多种数据特征,还可以得到该多种数据特征的重要程度,从而可以获得多种数据特征各自的重要程度。
134.s606,按照数据具有的多种数据特征的特征值以及数据特征的重要程度,构建该数据的特征展示图。
135.其中,该特征展示图中包括多个特征展示分支,每个特征展示分支用于表征一种数据特征,特征展示分支的分支长度能够表征特征展示分支对应的数据特征的特征值的大小。同时,特征展示分支表征的数据特征的重要程度越高,特征展示分支在特征展示图中的排序顺序越靠前。
136.s607,展现该多种数据特征各自的特征展示图。
137.以上步骤s606和s607可以参见前面实施例的相关介绍,在此不再赘述。
138.可以理解的是,本技术的方案不仅可以用于分析多份独立的数据在不同数据特征上的差异性,还可以应用于分析数据集聚类出的多个聚类是否合理。
139.在需要分析数据集聚类出的多个聚类是否合理的情况下,本技术中待分析的多份数据可以为一个数据集聚类出的多个数据聚类集。其中,该数据集可以包括多份数据,每份数据可以为结构化数据或者图像数据等,具体可以参见前面的相关介绍。而每个数据聚类集中包括聚类为同类别的至少一份数据。
140.相应的,针对每个数据聚类集可以确定该数据聚类集分别在多种数据特征上特征值。其中,数据聚类集在一种数据特征上的特征值为该数据聚类集中至少一份数据在该种数据特征上的特征值的平均值。
141.与前面构建特征展示图类似,针对每个数据聚类集,可以按照该数据聚类集具有的多种数据特征的特征值,构建该数据聚类集的特征展示图。如,数据聚类集的特征展示图中可以包括多个特征展示分支,每个特征展示分支同样标识一种数据特征,且每个特征展示分支的长度能够表示该数据聚类集在该数据特征上的特征值。
142.其中,构建数据聚类集的特征展示图的过程与前面构建数据的特征展示图的过程相似,在此不再赘述。
143.可以理解的是,在对数据聚类集进行分析的情况下,同样可以结合该数据聚类集具有的多种数据特征以及每种数据特征的重要程度,来构建该数据聚类集的特征展示图。如,数据特征的重要程度越高,表示该数据特征的特征展示分支在特征展示图中的排序顺序越靠前。
144.对于结合数据特征的重要程度构建数据聚类集的特征展示图的具体实现,与前面结合数据特征的重要程度构建数据的特征展示图的过程相同,具体可以参见前面的相关介绍,在此不再赘述。
145.可以理解的是,在展示出各个数据聚类集的特征展示图之后,基于不同数据聚类集的特征展示图可以直观了解到不同数据聚类集在某些数据特征(如较为重要的数据特征)上的特征值的大小关系,可以辅助分析数据聚类集是否存在聚类错误的数据。
146.对应本技术的一种数据处理方法,本技术还提供了一种数据处理装置。如图7所示,其示出了本技术一种数据处理装置的一种组成结构示意图,本实施例的装置可以包括:
147.数据获得单元701,用于获得待分析的多份数据;
148.特征确定单元702,用于确定每份所述数据具有的多种数据特征的特征值;
149.图构建单元703,用于按照所述数据具有的多种数据特征的特征值,构建所述数据的特征展示图,所述特征展示图中包括多个特征展示分支,每个特征展示分支用于表征一种所述数据特征,且所述特征展示分支的分支长度能够表征所述特征展示分支对应的数据特征的特征值;
150.图展示单元704,用于展现每份所述数据的特征展示图。
151.在一种可能的实现方式中,该数据获得单元可以包括:
152.类获得单元,用于获得待分析的数据集聚类出的多个数据聚类集,每个数据聚类集中包括聚类为同类别的至少一份数据;
153.该特征确定单元,包括:
154.类特征确定单元,用于确定每个数据聚类集具有的每种数据特征的特征值,所述数据聚类集的每种数据特征的特征值为所述数据聚类集中所述至少一份数据在该种数据特征上的特征值的平均值。
155.在又一种可能的实现方式中,该装置还包括:
156.重要性获得单元,用于获得所述数据特征的重要程度;
157.图构建单元,具体为,用于按照所述数据具有的多种数据特征的特征值以及所述数据特征的重要程度,构建所述数据的特征展示图。
158.在一种可选方式中,图构建单元,包括:
159.分支确定子单元,用于按照所述数据具有的多种数据特征的特征值,确定所述数据的特征展示图中具有的特征展示分支的数量以及每个所述特征展示分支的长度;
160.图构建子单元,用于按照特征展示分支表征的数据特征的重要程度,所述数据的特征展示图中具有的特征展示分支的数量以及每个所述特征展示分支的长度,构建所述特征展示图,所述特征展示图中具有依次排序的多个特征展示分支,且所述特征展示分支表征的数据特征的重要程度越高,所述特征展示分支的排序顺序越靠前。
161.在一种可选方式,所述获得所述数据特征的重要程度,包括:
162.获得用户设定的所述数据特征的重要程度;
163.或者,
164.结合每份所述数据具有的多种数据特征的特征值,并基于主成分分析算法确定各数据特征的重要程度。
165.在又一种可能的实现方式中,特征确定单元,包括:
166.原始特征获取单元,用于获取每份所述数据具有的多种原始数据特征的特征值;
167.降维处理单元,用于结合每份所述数据具有的多种原始数据特征的特征值,对所述多种原始数据特征进行降维处理,得到每份所述数据具有的多种数据特征的特征值。
168.在又一种可能的实现方式中,该装置还包括:
169.组合确定单元,用于在降维处理单元对多种原始数据特征进行降维处理之前,确定所述多种原始数据特征中由用户选择合并的至少一个原始数据特征组,每个原始数据特征组包括至少两种原始数据特征;
170.该降维处理单元,具体为,用于基于所述至少一个原始数据特征组以及每份所述数据具有的多种原始数据特征的特征值,对多种原始数据特征进行降维处理。
171.在又一种可能的实现方式中,该装置还包括:
172.归一化单元,用于在图构建单元构建所述数据的特征展示图之前,对所述多份数据在每种数据特征上的特征值进行归一化。
173.又一方面,本技术还提供了一种电子设备,如图8所示,其示出了该电子设备的一种组成结构示意图,该电子设备可以为任意类型的电子设备,该电子设备至少包括存储器801和处理器802;
174.其中,处理器801用于执行如上任意一个实施例中的数据处理方法。
175.该存储器802用于存储处理器执行操作所需的程序。
176.可以理解的是,该电子设备还可以包括显示单元803以及输入单元804。
177.当然,该电子设备还可以具有比图8更多或者更少的部件,对此不加限制。
178.另一方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上任意一个实施例所述的数据处理方法。
179.本技术还提出了一种计算机程序,该计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机程序在电子设备上运行时,用于执行如上任意一个实施例中的数据处理方法。
180.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本技术。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
181.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
182.对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1