数据遗漏值的填补系统及方法

文档序号:6338061阅读:284来源:国知局
专利名称:数据遗漏值的填补系统及方法
技术领域
本发明涉及一种数据填补系统与方法,特别是涉及一种用以补齐数据遗漏值的填补系统及方法。
背景技术
现今许多在生物学、医疗用途数据的收集和处理,往往在远端、或不同地方收集许多数据,再进行汇整或数据处理分析。例如,基因数据的收集技术,不外乎是利用芯片或是检测装置以检验生物组织或收集生物的生理信号,如动物或植物的细胞、体液、生物动作的生理信号..·等多种不同的基因表现数据,此等基因表现数据会被记录于芯片或检测装置储存单元中的数据阵列。然而,如上所举例的基因数据收集,当收集基因表现数据作为医学分析时,常会遇到基因表现值遗漏的情形。目前医学上若基因表现数据有遗漏时,于许多分析上即无法使用,故会被视为无效数据以将此缺值的数据列删除。然而,数据列删除过多时,将会造成分析不准确,或是无法进行分析的情形,最常见的作法是,再利用相同或相异的芯片或检测装置再次收集基因表现数据。不论是重新收集数据作业,或是使用其他芯片或检测装置,很明显的会造成珍贵医疗数据的浪费。另一方面,现今的数据补漏技术中,多提出线性回归方程式(Linear regression)、类神经网络(Neuralnetwork)与 KNN(K_nearest neighborhood)。但线性回归方程式与类神经网络难以应用于类别型数据,而且,于相关的数据阵列若使用不同的补值技术,所分析出来的结果将被受质疑。另一方面,KNN则不适用于较大数据量的数据阵列,而且搜寻数据的时间会过长,所能使用的范畴太小。因此,如何提供一适用于各种数据阵列,不会花费过长数据处理时间,且具低误差率的补值方法,为厂商应思虑的问题。由此可见,上述现有的数据的收集和处理在方法、产品结构及使用上,显然仍存在有不便与缺陷,而亟待加以进一步改进。为了解决上述存在的问题,相关厂商莫不费尽心思来谋求解决之道,但长久以来一直未见适用的设计被发展完成,而一般方法及产品又没有适切的方法及结构能够解决上述问题,此显然是相关业者急欲解决的问题。因此如何能创设一种新的数据遗漏值的填补系统及方法,亦成为当前业界极需改进的目标。

发明内容
本发明的目的在于,克服现有的数据的收集和处理存在的缺陷,而提供一种新的数据遗漏值的填补系统及方法,所要解决的技术问题是使其提供一种利用高相似度的数据列辅助配对,以取得相关预估数据,借此以填补未知数据栏的数据遗漏值的填补系统及方法,非常适于实用。本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据本发明提出的一种数据遗漏值的填补系统,其中包括一储存单元,其储存有一数据阵列,该数据阵列包括多个数据列以及多个数据栏,该等数据列包括多个完整数据列与多个缺值数据列,每一缺值数据列包括至少一未知数据;以及一计算设备,其包括一分析程序;及一处理器,用以读取并利用该分析程序分析该数据阵列,其中,该处理器从该等完整数据列找出各缺值数据列近似的至少一目标数据列,从其取出至少一已知数据以推算出一预估数据,以取代其个别对应的该等未知数据并作为多个待修正数据,再从该等待修正数据找出一特定待修正数据,以该特定待修正数据所在栏的数据变化趋势,从该等数据栏中选择数据变化趋势近似顺序的一第一指定数据栏与一第二指定数据栏,并依据该特定待修正数据所在列的数据,以相同数据为同群方式找出一数据列群组,再依据该数据列群组与该第二指定数据栏的栏组合,以相同数据为同群方式划分该等数据列为多个子群组,并其中找出数据匹配该数据列群组的至少一目标群组,以利用其对应该特定待修正数据栏的数据推算出一填补数据以填入该特定待修正数据栏,再判断该特定待修正数据所在列是否有其他待修正数据,以决定是否指定另一特定待修正数据。本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。前述的数据遗漏值的填补系统,其中所述的该处理器是建立每一完整数据列的一完整数据曲线,建立每一缺值数据列的一缺值数据曲线,并比对每一缺值数据曲线与该等完整数据曲线的相似度,以从该等完整数据曲线找出每一缺值数据曲线对应的至少一近似目标数据曲线;以及依据该等缺值数据曲线与各该目标数据曲线的匹对,找出每一缺值数据列近似的至少一最近似目标数据列。前述的数据遗漏值的填补系统,其中所述的该处理器是判断该子群组中一特定群组的数据列,与该数据列群组中的数据列任一相符时,判断该特定群组为该目标群组,再指定待修正数据栏为指定数据栏。前述的数据遗漏值的填补系统,其中所述的该等数据列的数据为数值型数据,该填补数据为该至少一目标群组的该指定数据栏中的数值的平均数。前述的数据遗漏值的填补系统,其中所述的该等数据列的数据为类别型数据,该预估数据为其预填入的未知数据栏所属该缺值数据栏,其对应的该至少一目标数据列的该至少一已知数据中的数据。本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。前述的数据遗漏值的填补方法,其中所述的从该等完整数据列中分别为取出每一缺值数据列取出近似的至少一目标数据列的该步骤包括建立每一完整数据列一完整数据曲线;建立每一缺值数据列一缺值数据曲线比对每一缺值数据曲线与该等完整数据曲线的相似度,以从该等完整数据曲线找出每一缺值数据曲线对应的至少一近似目标数据曲线;以及依据该等缺值数据曲线与各该目标数据曲线的匹对,找出每一缺值数据列近似的至少一最近似目标数据列。前述的数据遗漏值的填补方法,其中所述的从该等子群组找出数据匹配该数据列群组至少一目标群组的该步骤包括当该子群组中一特定群组的数据列,与该数据列群组中的数据列任一相符者,判断该特定群组为该目标群组;以及指定待修正数据栏为指定数据栏。前述的数据遗漏值的填补方法,其中所述的该等数据列的数据为数值型数据,该填补数据为该至少一目标群组的该指定数据栏中的数值的平均数。前述的数据遗漏值的填补方法,其中所述的该等数据列的数据为类别型数据,该预估数据为其预填入的未知数据栏所属该缺值数据栏,其对应的该至少一目标数据列的该至少一已知数据中的数据。本发明与现有技术相比具有明显的优点和有益效果。由以上技术方案可知,本发明的主要技术内容如下一种数据遗漏值的填补系统,其包括一储存单元与一计算设备。储存单元储存有一数据阵列,数据阵列包括多个数据列以及多个数据栏,该等数据列包括多个完整数据列与多个缺值数据列,每一缺值数据列包括至少一未知数据。计算设备包括有一分析程序与一处理器,处理器用以读取并利用分析程序分析该数据阵列。其中,处理器从所有完整数据列找出各缺值数据列近似的至少一目标数据列,从其取出至少一已知数据以推算出一预估数据,以取代其个别对应的各未知数据并作为多个待修正数据,再从所有待修正数据找出一特定待修正数据,以特定待修正数据所在栏的数据变化趋势,从所有数据栏中选择数据变化趋势近似顺序的一第一指定数据栏与一第二指定数据栏,并依据特定待修正数据所在列的数据,以相同数据为同群方式找出一数据列群组,再依据数据列群组与第二指定数据栏的栏组合,以相同数据为同群方式划分该等数据列为多个子群组,并其中找出数据匹配数据列群组至少一目标群组,以利用其对应特定待修正数据栏的数据推算出一填补数据以填入特定待修正数据栏,再判断特定待修正数据所在列是否有其他待修正数据,以决定是否指定另一特定待修正数据。为解决上述方法问题,本发明揭露一种数据遗漏值的填补方法,适用于一数据阵列,此数据阵列包括多个数据列以及多个数据栏。此方法包括从数据阵列中找出多个完整数据列与多个缺值数据列,每一缺值数据列包括至少一未知数据;从各完整数据列中分别为每一缺值数据列取出近似的至少一目标数据列;依据每一未知数据于所属缺值数据列的栏位置,从缺值数据列对应的目标数据列取得至少一已知数据,并利用已知数据推算出一预估数据;将各预估数据取代其个别对应的未知数据,以作为多个待修正数据;从各待修正数据中指定一特定待修正数据,该特定待修正数据所在列为一修正数据列;依据该特定待修正数据所在栏的数据变化趋势,从各数据栏中选择数据变化趋势近似的一第一指定数据栏,依据特定待修正数据所在列的数据,以相同数据为同群方式找出包括修正数据列的一数据列群组;从各数据栏中选择与特定待修正数据所在栏数据变化趋势第二近似的一第二指定数据栏,依据特定待修正数据所在栏与第二指定数据栏的栏组合,依上述的栏组合以相同数据为同群方式划分各数据列为多个子群组;从各子群组找出数据匹配数据列群组至少一目标群组,以利用上述的目标群组对应特定待修正数据栏的数据推算出一填补数据以填入特定待修正数据栏;判断特定待修正数据所在列是否有其他待修正数据,以决定是否另一特定待修正数据。借由上述技术方案,本发明数据遗漏值的填补系统及方法至少具有下列优点及有益效果结合皮尔森数据相关系数与约略集合,采用两段式数据补漏技术,建立高精准度的预估数据进行填补后再修正所填补的数据,此有益于提升分析的精确度与有效性。其次, 此技术可将具有遗漏值的数据做填补,许多数据将可被保留,故被填补后的数据可被应用于更多的数据分析,而非轻易舍弃,故得以避免重复进行基因表现数据收集的作业,有益于节省医疗资源,以及节省人力及技术成本。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。


图IA是本发明实施例的系统方框图IB是本发明实施例的数据遗漏值的填补方法流程示意图IC与图ID是的图IB方法中的细部流程示意图2是本发明实施例的第一种数据阵列范例图3是本发明--实施例的数据阵列的预估值填入示意图4是本发明--实施例的数据阵列的特定待修正数据指定示意图5A是本发明一实施例的i发据阵列的第一指定数据栏选择示意图5B是本发明一实施例的i发据阵列的数据列群组划分示意图6A是本发明一实施例的i发据阵列的另一数据列群组划分示意图6B是本发明一实施例的i发据阵列的子群组划分示意图7是本发明--实施例的数据阵列的群组对应示意图8是本发明--实施例的第二种数据阵列范例图9是本发明--实施例的第二种数据阵列的预估值填入示意图;以及
图10是本发明一实施例的第二种数据阵列的填补数据填入示意图。
10储存单元11 数据阵列
Ila:数值型的I文据阵列lib 类别型的数据阵列
20计算设备21 处理器
22分析程序23 数据撷取器
24数据储存单元
71数值型的数据阵列的未知数据
71类别型的I文据阵列的未知数据
72、72’ 预估数据
81未修正过的修正数据列
82特定待修正数据
83第一指定数据栏 83’ 第二指定数据栏
84数据列群组85 填补数据
94第4子群组97 第7子群组
具体实施例方式为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的数据遗漏值的填补系统及方法其产品其具体实施方式
、方法、步骤、结构、特征及其功效,详细说明如后。请参阅图IA是本发明实施例的系统方框图,此系统包括一计算设备20与一储存单元10,此储存单元10内储一数据阵列11,计算设备20内建有一处理器21、一数据撷取器 23与一分析程序22。数据撷取器23用以从储存单元10上取得数据阵列11,处理器21将利用分析程序22以分析上述的数据阵列11。然而,数据阵列11亦得以预先被撷取而储存于计算设备20的数据储存单元24中,以供处理器21直接读取数据储存单元24的数据阵列11以执行下列所述的遗漏值的填补作业。计算设备20可以是一般具有数据处理能力的电子设备,例如各种类型的电脑、个人电脑、笔记型电脑、服务器、工作站或PDA等。储存单元10可以是具有储存能力的元件或装置例如芯片、存储器、硬盘、随身碟等,也可设置于其他装置中或与其他装置整合,例如各类型检测装置(检测生物检体后产生各类检测数据)、健康照护盒(收集人体各类生理信号)、信号收集装置(收集各类信号)等。请配合图IA而同时参阅图IB是本发明实施例的数据遗漏值的填补方法流程示意图,其适用于数据阵列的漏值补缺,请同时参阅图IC与图ID是的图IB方法中的细部流程示意图,以及图2是本发明一实施例的第一种数据阵列示意图、图3是本发明一实施例的数据阵列的预估值填入示意图、图4是本发明一实施例的数据阵列的特定待修正数据指定示意图、图5A是本发明一实施例的数据阵列的第一指定数据栏选择示意图、图5B是本发明一实施例的数据阵列的数据列群组划分示意图、图6A是本发明一实施例的数据阵列的另一数据列群组划分示意图、图6B是本发明一实施例的数据阵列的子群组划分示意图与图7是本发明一实施例的数据阵列的群组对应示意图以利于了解。如图1A,此方法包括两个阶段,一为利用皮尔森数据相关系数 (PearsonCorrelation Coeff icient,PCC)将预估数据初步填入未知数据栏,一为利用约略集合以将找出缺值的近似值,以修正原预估数据,此方法流程如下从数据阵列中找出多个完整数据列与多个缺值数据列,每一缺值数据列包括至少一未知数据(步骤S110)。如图2,以数值型的数据阵列Ila为例,数据阵列Ila包括多个数据列以及多个数据栏。假设数据阵列Ila包括10个数据列,其中第4、5、9个数据列为完整数据列,第1、 2、3、6、7、8、10个数据列为缺值数据列,每一个缺值数据列包括至少一个未知数据71(图中以O代表),如第1数据列的未知数据栏为第3栏、第2数据列的未知数据栏为第1栏、第3 数据列的未知数据栏为第4栏、第6数据列的未知数据栏为第2栏与第3栏...以此类推。从各完整数据列中分别为每一缺值数据列取出近似的至少一目标数据列(步骤 S120)。此步骤请同时参阅图IC是本发明实施例的数据列曲线比对流程示意图,其步骤如下建立每一完整数据列的一完整数据曲线(步骤S121),建立每一缺值数据列的一缺值数据曲线(步骤S122)。在此说明,先分析每一个完整数据列,将完整数据列的数据映射于二维的数据轴, 以取得每一完整数据列对应的完整数据曲线。相同的,分析每一个缺值数据列,在忽略其具有未知数据的条件下,将缺值数据列的数据映射于二维的数据轴,以取得每一缺值数据列对应的缺值数据曲线。比对每一缺值数据曲线与完整数据曲线的相似度,以从所有完整数据曲线找出每一缺值数据曲线对应的至少一最近似目标数据曲线(步骤S123)。于此,将每一个缺值数据曲线比对所有的完整数据曲线,各缺值数据曲线与完整数据曲线逐一比对后,会产生完整数据曲线对应缺值数据曲线的近似率。之后,依据此等近似率,每一缺值数据曲线得以被匹对出至少一个近似目标数据曲线。之后,依据此等缺值数据曲线与目标数据曲线的匹对,得以找出每一缺值数据列近似的至少一最近似目标数据列(步骤S124),前述的目标数据曲线即为此处所述的目标数据列所映射于二维座标轴产生,故缺值数据曲线与目标数据曲线的配对即能反向取得缺值数据列与目标数据列的配对。然而,步骤S120亦能以相同次序栏数值相互比对差值的方式,以比较出缺值数据列与各完整数据列的数据差异度,进而比较出缺值数据列与各完整数据列的数据相似度, 取得具高相似度的缺值数据列与完整数据列的匹对,而此方法为数据比对技术领域之具通常知识者所熟知,在此不叙述。依据每一未知数据于所属缺值数据列的栏位置,从缺值数据列对应的目标数据列取得至少一已知数据,并利用此已知数据推算出一预估数据(步骤S130),以将预估数据取代其个别对应的未知数据,以作为多个待修正数据(步骤S140)。此步骤中,预估数据为其预填入的未知数据栏所属缺值数据列,其对应的目标数据列的已知数据的平均数值。例如,图2与图3是数据列的数据为数值型数据,第1数据列具有未知数据71于第3栏,而最近似第1数据列的完整数据列为第5数据列,故第1数据列的第3栏即以3(3/1 = 3)作为预估数据72。又如,第2数据列具有未知数据71于第1 栏,而最接近第2数据列的完整数据列为第4数据列,故第2数据列的第1栏即以4 (4/1 = 4)作为预估数据72。又如,第3数据列具有未知数据71于第4栏,而最接近第3数据列的完整数据列为第4数据列与第9数据列,故第3数据列的第4栏即以2 ((2+2) /2 = 2)作为预估数据72。以此类推,将各未知数据71以相关预估数据72取代,以完成未知数据的初阶段填补作业,而此等被填入的数据即视为后续将被使用的待修正数据,即如图3所是。接着,进行预估数据的修正作业,如图1B,于步骤S140之后,从所有待修正数据中指定一特定待修正数据(步骤S150),此特定待修正数据所在之列为一修正数据列。请同时参阅图4,将先前进行预估数据填补的所有待修正数据,从中选择一者作为目前将进行数据修正的特定待修正数据,而其所在之列即视为一修正数据列。以下,将第1数据列作为未修正过的修正数据列81,第1数据列的第3栏记录有特定待修正数据82,于此,重新以0替代。接着,依据特定待修正数据所在栏的数据变化趋势,从所有数据栏中选择数据变化趋势近似的一第一指定数据栏,依据特定待修正数据所在列的数据,以相同数据为同群方式找出包括修正数据列的一数据列群组(步骤S160)。特定待修正数据所在栏的数据变化趋势近似度,是以各栏位的数据效益值的高低作为基准,关于数据效益值的计算,请同时参阅图ID是本发明实施例的寻求数据列群组流程示意图,其步骤如下需先计算各数据列的每一数据栏的数据效益值(步骤S161),以选择数据效益值最高的数据栏作为前述的第一指定数据栏(步骤S162)。各行数据效益值的计算方式如下
权利要求
1.一种数据遗漏值的填补系统,其特征在于包括一储存单元,其储存有一数据阵列,该数据阵列包括多个数据列以及多个数据栏,该等数据列包括多个完整数据列与多个缺值数据列,每一缺值数据列包括至少一未知数据;以及一计算设备,其包括一分析程序;及一处理器,用以读取并利用该分析程序分析该数据阵列,其中,该处理器从该等完整数据列找出各缺值数据列近似的至少一目标数据列,从其取出至少一已知数据以推算出一预估数据,以取代其个别对应的该等未知数据并作为多个待修正数据,再从该等待修正数据找出一特定待修正数据,以该特定待修正数据所在栏的数据变化趋势,从该等数据栏中选择数据变化趋势近似顺序的一第一指定数据栏与一第二指定数据栏,并依据该特定待修正数据所在列的数据,以相同数据为同群方式找出一数据列群组,再依据该数据列群组与该第二指定数据栏的栏组合,以相同数据为同群方式划分该等数据列为多个子群组,并其中找出数据匹配该数据列群组的至少一目标群组,以利用其对应该特定待修正数据栏的数据推算出一填补数据以填入该特定待修正数据栏,再判断该特定待修正数据所在列是否有其他待修正数据,以决定是否指定另一特定待修正数据。
2.如权利要求1所述的数据遗漏值的填补系统,其特征在于该处理器是建立每一完整数据列的一完整数据曲线,建立每一缺值数据列的一缺值数据曲线,并比对每一缺值数据曲线与该等完整数据曲线的相似度,以从该等完整数据曲线找出每一缺值数据曲线对应的至少一近似目标数据曲线;以及依据该等缺值数据曲线与各该目标数据曲线的匹对,找出每一缺值数据列近似的至少一最近似目标数据列。
3.如权利要求1所述的数据遗漏值的填补系统,其特征在于该处理器是判断该子群组中一特定群组的数据列,与该数据列群组中的数据列任一相符时,判断该特定群组为该目标群组,再指定待修正数据栏为指定数据栏。
4.如权利要求1所述的数据遗漏值的填补系统,其特征在于该等数据列的数据为数值型数据,该填补数据为该至少一目标群组的该指定数据栏中的数值的平均数。
5.如权利要求1所述的数据遗漏值的填补系统,其特征在于该等数据列的数据为类别型数据,该预估数据为其预填入的未知数据栏所属该缺值数据栏,其对应的该至少一目标数据列的该至少一已知数据中的数据。
6.一种数据遗漏值的填补方法,适用于一数据阵列,该数据阵列包括多个数据列以及多个数据栏,其特征在于该方法包括从该数据阵列中找出多个完整数据列与多个缺值数据列,每一缺值数据列包括至少一未知数据;从该等完整数据列中分别为每一缺值数据列取出近似的至少一目标数据列;依据每一未知数据于所属该缺值数据列的栏位置,从该缺值数据列对应的该至少一目标数据列取得至少一已知数据,并利用该至少一已知数据推算出一预估数据;将该等预估数据取代其个别对应的该等未知数据,以作为多个待修正数据;从该等待修正数据中指定一特定待修正数据,该特定待修正数据所在列为一修正数据列;依据该特定待修正数据所在栏的数据变化趋势,从该等数据栏中选择数据变化趋势近似的一第一指定数据栏,并依据该特定待修正数据所在列的数据,以相同数据为同群方式找出一数据列群组;从该等数据栏中选择与该特定待修正数据所在栏数据变化趋势第二近似的一第二指定数据栏,依据该特定待修正数据所在栏与第二指定数据栏的栏组合,依该组合以相同数据为同群方式划分该等数据列为多个子群组;从该等子群组找出数据匹配该数据列群组的少一目标群组,以利用该至少一目标群组对应该特定待修正数据栏的数据推算出一填补数据以填入该特定待修正数据之栏;以及判断该特定待修正数据所在列是否有其他待修正数据,以决定是否指定另一特定待修正数据。
7.如权利要求6所述的数据遗漏值的填补方法,其特征在于从该等完整数据列中分别为取出每一缺值数据列取出近似的至少一目标数据列的该步骤包括建立每一完整数据列一完整数据曲线;建立每一缺值数据列一缺值数据曲线比对每一缺值数据曲线与该等完整数据曲线的相似度,以从该等完整数据曲线找出每一缺值数据曲线对应的至少一近似目标数据曲线;以及依据该等缺值数据曲线与各该目标数据曲线的匹对,找出每一缺值数据列近似的至少一最近似目标数据列。
8.如权利要求6所述的数据遗漏值的填补方法,其特征在于从该等子群组找出数据匹配该数据列群组至少一目标群组的该步骤包括当该子群组中一特定群组的数据列,与该数据列群组中的数据列任一相符者,判断该特定群组为该目标群组;以及指定待修正数据栏为指定数据栏。
9.如权利要求6所述的数据遗漏值的填补方法,其特征在于该等数据列的数据为数值型数据,该填补数据为该至少一目标群组的该指定数据栏中的数值的平均数。
10.如权利要求6所述的数据遗漏值的填补方法,其特征在于该等数据列的数据为类别型数据,该预估数据为其预填入的未知数据栏所属该缺值数据栏,其对应的该至少一目标数据列的该至少一已知数据中的数据。
全文摘要
本发明是有关于一种数据遗漏值的填补系统及方法,适用于一数据阵列。系统包括一具有数据阵列的储存单元与一计算设备。计算设备从数据阵列中找出完整数据列与缺值数据列,再从各完整数据列找出近似缺值数据列的至少一目标数据列,从目标数据列取出对应位置的已知数据计算出一预估数据来取代缺值数据列的未知数据。之后,从各缺值数据列中选择一包括预估数据的修正数据列,再以相同数据为同群方式找出被选取的预估数据的约略集合,并找出与预估数据相关的数值来计算出一填补数据,以填补于原预估数据的栏。
文档编号G06F17/30GK102486790SQ20101057993
公开日2012年6月6日 申请日期2010年12月2日 优先权日2010年12月2日
发明者曾新穆, 苏家辉, 许芝华, 谢百恩 申请人:财团法人资讯工业策进会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1