一种基于神经元网络的数据降维系统及其降维方法
【专利摘要】一种基于神经元网络的数据降维系统及其降维方法,包括数据采集系统,所述的数据采集系统同控制系统相连接,所述的控制系统中带有基于神经元网络的数据降维模块。并结合其降维方法可有效避免现有技术中的运算量还是很大、邻域确定的不确定性以及无实用性的缺陷。
【专利说明】一种基于神经元网络的数据降维系统及其降维方法
【技术领域】
[0001] 本发明属于数据降维【技术领域】,具体涉及一种基于神经元网络的数据降维系统及 其降维方法。
【背景技术】
[0002] 目前的图像、视频还有一些复杂的通信信号在数据采集系统传输到控制系统中, 通常是以高维的数据形式进行存储的,这样就带来了在使用过程中占用控制系统的资源过 多并且运算量大非常耗时的问题,严重的甚至可以导致控制系统崩溃的问题。
[0003] 因此现有的控制系统普遍采用了把从数据采集系统得来的诸如图像、视频还有一 些复杂的通信信号所构成的高维数据在使用之前进行降维处理,但是现有的降维方式普遍 存在以下问题:
[0004] (1)运算量还是很大:比如在现有的降维算法下的基于k近邻图的测地线距离步 骤的时间复杂度为0(kN2logN),而保距映射步骤的时间复杂度为0(N3),这样的运算下时间 复杂度是非常大的;
[0005] (2)邻域确定的不确定性:现有的降维算法使用k近邻图进行测地线距离的计算, 但是早在2002年science杂志中就有文章发表质疑,k过大导致短路误差,k过小导致碎片 的问题,并且解决的方法只能是选择合适的k来进行不确定的降维,这样同样会导致运算 量的复杂度的增加,往往会出现降维结果同原高维数据的误差相比误差过大,甚至于完全 失真;
[0006] (3)无实用性:新来高维数据点会改变整个k近邻图,需要全部重新计算,难以在 线处理从而无实用性。
【发明内容】
[0007] 本发明的目的提供一种基于神经元网络的数据降维系统及其降维方法,包括数据 采集系统,所述的数据采集系统同控制系统相连接,所述的控制系统中带有基于神经元网 络的数据降维模块。并结合其降维方法可有效避免现有技术中的运算量还是很大、邻域确 定的不确定性以及无实用性的缺陷。
[0008] 为了克服现有技术中的不足,本发明提供了一种基于神经元网络的数据降维系统 及其降维方法方法的解决方案,具体如下:
[0009] -种基于神经元网络的数据降维系统,包括数据采集系统1,所述的数据采集系统 1同控制系统2相连接,所述的控制系统2中带有基于神经元网络的数据降维模块3。
[0010] 所述的一种基于神经元网络的数据降维系统的测量降维方法,步骤如下:
[0011] 步骤1 :首先数据采集系统把采集来的图像或者视频这样的信号数据发送到控制 系统2中,然后控制系统2启动基于神经元网络的数据降维模块3先把发送来的图像或者 视频这样的信号数据构造成高维数据集进行存储;
[0012] 步骤2:接着基于神经元网络的数据降维模块3对高维数据进行确定流形拓扑结 构基准点的处理,所述的对高维数据进行确定流形拓扑结构基准点的处理,具体说来所述 的对高维数据进行确定流形拓扑结构基准点的处理的具体过程为先进行初始化,所述的 初始化包括首先设定基准点集合A= ,其中A为基准点集合,1^为第一基准点,L2S 第二基准点,第一基准点和第二基准点是随机的从高维数据集中选取的两个高维数据;然 后基于神经元网络的数据降维模块3设定边集合C、初值均为0的两个激活数变量、初值为 |LfL2| |的两个范围阈值变量和初值为0的第一连接年龄变量,所述的Cgjxi 并且其初值为空集,AXA表示基准点集合的基准点之间的连接关系,初值为空集表示第一 基准点和第二基准点之间没有初始连接,所述的两个激活数变量分别为针对第一基准点的 激活数变量和针对第二基准点的激活数变量,针对第一基准点的激活数变量和针对第二 基准点的激活数变量分别为,所述两个范围阈值变量分别为第一范围阈值变量 7^和第二范围阈值变量&,所述的第一连接年龄变量^表示的是第一基准点和 第二基准点的连接时长;
[0013]步骤3 :接着进入输入与竞争阶段,所述的输入与竞争阶段包括数据采集系统继 续一个采集图像或者视频这样的信号数据,并把采集来的一个图像或者视频这样的信号数 据发送到控制系统中,控制系统中的基于神经元网络的数据降维模块3先把接收到的一个 图像或者视频这样的信号数据存储为一个高维数据,所述的高维数据作为一个新的数据样 板€GRD,其中所述的新的数据样板为L所述的RD表示高维实数空间,所述的R表示实 数,D表示高维数据的维度,然后计算出A中的每个基准点和新的数据样板I的欧氏距离, 所得到的最小的欧式距离所对应的基准点和倒数第二小的欧式距离所对应的基准点分别 为胜者基准点Sl和亚军基准点s2,也就是如公式(1)和公式(2)所表示的胜者基准点Sl和 亚军基准点s2 :
【权利要求】
1. 一种基于神经元网络的数据降维系统,包括数据采集系统,所述的数据采集系统同 控制系统相连接,所述的控制系统中带有基于神经元网络的数据降维模块。
2. 根据权利要求1所述的一种基于神经元网络的数据降维系统的测量降维方法,其特 征在于,步骤如下: 步骤1 :首先数据采集系统把采集来的图像或者视频这样的信号数据发送到控制系统 中,然后控制系统启动基于神经元网络的数据降维模块先把发送来的图像或者视频这样的 信号数据构造成高维数据集进行存储; 步骤2:接着基于神经元网络的数据降维模块对高维数据进行确定流形拓扑结构基准 点的处理,所述的对高维数据进行确定流形拓扑结构基准点的处理,具体说来所述的对高 维数据进行确定流形拓扑结构基准点的处理的具体过程为先进行初始化,所述的初始化包 括首先设定基准点集合A = {Lp L2},其中A为基准点集合,U为第一基准点,L2为第二基 准点,第一基准点和第二基准点是随机的从高维数据集中选取的两个高维数据;然后基于 神经元网络的数据降维模块设定边集合C、初值均为0的两个激活数变量、初值为| IU-L」 的两个范围阈值变量和初值为0的第一连接年龄变量,所述的CgixJ并且其初 值为空集,AXA表示基准点集合的基准点之间的连接关系,初值为空集表示第一基准点和 第二基准点之间没有初始连接,所述的两个激活数变量分别为针对第一基准点的激活数变 量和针对第二基准点的激活数变量,针对第一基准点的激活数变量和针对第二基准点的 激活数变量分别为,所述两个范围阈值变量分别为第一范围阈值变量2^和第 二范围阈值变量&,所述的第一连接年龄变量表示的是第一基准点和第二基准点 的连接时长; 步骤3 :接着进入输入与竞争阶段,所述的输入与竞争阶段包括数据采集系统继续一 个采集图像或者视频这样的信号数据,并把采集来的一个图像或者视频这样的信号数据发 送到控制系统中,控制系统中的基于神经元网络的数据降维模块3先把接收到的一个图像 或者视频这样的信号数据存储为一个高维数据,所述的高维数据作为一个新的数据样板 € GRd,其中所述的新的数据样板为L所述的RD表示高维实数空间,所述的R表示实数, D表示高维数据的维度,然后计算出A中的每个基准点和新的数据样板I的欧氏距离,所得 到的最小的欧式距离所对应的基准点和倒数第二小的欧式距离所对应的基准点分别为胜 者基准点Sl和亚军基准点s2,也就是如公式(1)和公式(2)所表示的胜者基准点Sl和亚军 基准点s2 :
胜者基准点Sl和亚军基准点s2就成为了最相似的两个基准点;随后进入基准点更新 阶段,所述的基准点更新阶段包括基于神经元网络的数据降维模块3判断如果 或者||< -&||>Z;2成立,就为新的数据样板〖放到基准点集合A中来生成一个新的值为€ 基准点,也就是A = A U { € },然后返回步骤3中执行; 步骤4 :如果Sl与s2间不存在连接,执行C = C U {(Sl,s2)}的操作,即为两个最相 似基准点之间建立连接,再设定初值为0的第二年龄变量%^+,2丨,所述的第二年龄变量 ?尽气、表示的是胜者基准点Si和亚军基准点s2的连接时长;接着判断如果(Sl,LJ e C, 贝U执行響(il#=呢e(m+1的操作,喂 + 1的操作表示与Si相连的所有的基准 点的连接时长加1,所述的咕> 为第三年龄变量,第三年龄变量表示的是胜者基准点Sl同 与之连接的所有基准点Q的连接时长,i为自然数变量,设定针对胜者基准点Sl的激活数 变量M5i,并对针对胜者基准点Sl的激活数变量Msi执行MSi =¥^+1的操作,MS1的值是从 〇开始递增,再执行Si = Si+ e (t) I I l-Si I I和s2 = s2+ e ' (t) I I € -S21 I的操作,也就是 执行Si与s2向新的数据样板移动的操作,其中
t为基于神经元网络 的数据降维系统的运行时间; 步骤5 :基于神经元网络的数据降维模块检查所有的基准点之间的连接(LpLj) e C和 每一组基准点之间的连接Lp所对应的当前的年龄参数,如果就 从C移除该连接,其中age_是预先定义的连接时长最大值,其中所述的所有的基准点之 间的连接为Lp e C,其中i和j为不相等的自然数,所述为化名)之间的连 接时长; 步骤6 :基于神经元网络的数据降维模块接着执行基准点的范围阈值的更新阶段,所 述的基准点的范围阈值的更新阶段包括将Sl和s2的范围阈值7;和?:.2通过公式(3)和公式 (4)分别更新为与Sl和s2相邻基准点的最大距离
所述的7;和分别为针对胜者基准点Sl的范围阈值和亚军基准点s2的范围阈值,然 后进入去噪阶段,所述的去噪阶段包括通过基于神经元网络的数据降维模块判断如果当前 输入的数据样本总数是设定的界定值A的整数倍,检查所有的基准点集合A中的基准点, 如果存在某一个基准点Q只有一个相连接的基准点,并且小于设定的激活数最小值 Mmin,就在基准点集合A中删去该基准点Q,所述的为针对某一个基准点Q的激活数变 量,返回步骤中执行; 步骤7 :接着基于神经元网络的数据降维模块进入计算基准点相似度阶段; 步骤8 :将自然数变量i值加1,将提取一个基准点Q (i = 1,…,n),其中n为在基准 点集合A中的基准点数目,针对该基准点Q进入计算基准点相似度阶段的初始化阶段,首 先执行S= {L^UzA-lLi}的操作,S为第一中间量集合,U为第二中间量集合,然后把 n*n的相似度矩阵DG(n*n)中的DG(i,i)元素的值设置为0,所述的DG(i,i)元素表示该基 准点Q和自身的相似度值,对于U中的每一个基准点h (h G U),如果Q与h相连接,即 (LpLj) G C,贝ljDG(i,j)元素值设置为| iLi-Ljl | ;否贝ljDG(i,j)元素值设置为所述的 De(i,j)元素标示所述的该基准点Q和U中的元素的Lj之间的相似度值 步骤9 :进入中间点选取阶段,所述的中间点选取阶段包括从U中选取与同该基准点Q 相似度值最小的基准点Lmin,即Lmin = argminDe(i,j)并且Lmin G U,将Lmin加入S,即S = S U {Lfflin},U = U-{Lfflin}; 步骤10 :然后进入边拓展阶段,所述的边拓展阶段包括对于U中每一个基准点 Lk(LkGU),k 为自然数,如果 Lmin与 Lk相连接,即(Lmin,Lk) GC,并且DG(i,min) + ||Lmin-Lk| 〈Wakhmin为1^"的序列号,则执行更新操作如公式(5)所示: DG(i,k) =DG(i,min) + | |Lmin-Lk| (5) 然后重复执行步骤9和步骤10直到S = A,= 0为止; 步骤11 :返回步骤8执行,等到i值达到n时,表示基准点集合A中的基准点全部执行 完毕后,得到n*n的相似度矩阵De(n*n); 步骤12 :接着基于神经元网络的数据降维模块进入基准点降维映射阶段,所述的基准 点降维映射阶段包括通过公式(6)计算距离平方矩阵An(i,j): A,0'v/) = Dc(Uj) ^ Dc{iJl(iJ = 1,. ? ?) r6) 然后通过公式(7)计算均值向量g : 之=(W."+4,) /n (7) 所述的I.代表An(i,j)的第i列,i取值为1到n; 步骤13 :通过公式⑶计算均值中心化矩阵Hn :
其中s (i,j)为中间参数,一般取l,Hn(i,j)表示均值中心化矩阵扎第1行第j列的 元素值; 步骤14 :通过公式(9)内积矩阵Bn :
步骤15 :计算特征值特征向量,所述的计算特征值特征向量包括计算Bn最大的d个正 特征值^,…与其对应的特征向量,其中d为降维的目标维数; 步骤16 :进入基准点的降维映射阶段,所述的降维映射阶段包括通过公式(10)来得到 用于基准点的降维映射的矩阵L : 用于基准点的降维映射的矩阵L的n个d维的
, 列向量分别为n个基准点在d维空间的坐标; 步骤17 :进入在线数据降维映射阶段,所述的在线数据降维映射阶段包括确定新数 据点所属基准点,通过公式(11)确定距离新的数据样板I最近的基准点La :
步骤18:根据公式(12)得到新的数据样板€与所有基准点的相似度%(1,1^): DsU.Li) = | | l-La | |+DG(a,i) (12) 步骤19 :根据公式(13)得到距离平方向量:
步骤20 :根据公式(14)得到伪逆转置矩阵,记L#为基准点的降维映射的矩阵L的伪逆 转置矩阵:
步骤21 :根据公式(15)对新的数据样板I进行低维映射得到低维映射向量:
【文档编号】G06F19/00GK104346520SQ201410362559
【公开日】2015年2月11日 申请日期:2014年7月28日 优先权日:2014年7月28日
【发明者】申富饶, 干强, 赵金熙 申请人:南京大学