一种异构大数据信息的过滤方法及装置与流程

文档序号:15932234发布日期:2018-11-14 01:49阅读:213来源:国知局

本公开涉及数据信息融合处理领域,具体涉及一种异构大数据信息的过滤方法及装置。

背景技术

随着互联网技术的发展,使得大数据信息的应用越来越广泛,经常会面临异构数据的互相之间不兼容的操作问题。异构数据具有互不相同的数据结构类型。对于异构数据往往是针对同一种数据结构编写相应的相同处理代码,使得逻辑边界越来越不清晰,数据结构之间的相互调用也显得混乱,容易导致大量的逻辑错误问题。



技术实现要素:

本公开的目的是针对现有技术的不足,提供一种异构大数据信息的过滤方法及装置,具体包括以下步骤:

步骤1,读取异构大数据并按照数据结构拆分得到标准数据;

步骤2,计算标准数据的误差率;

步骤3,删除标准数据中误差率大于误差阈值的异常数据后得到过滤后的数据;

步骤4,将过滤后的数据按照误差率的大小排序;

步骤5,删除排序后的队列中首尾10%的数据得到过滤结果;

步骤6,输出过滤结果。

进一步地,在步骤1中,所述异构大数据的数据结构至少包括数组、队列、哈希表、树。

进一步地,在步骤1中,所述按照数据结构拆分得到标准数据的步骤包括如下子步骤:

步骤1.1,按照异构大数据的数据结构类型输入;

步骤1.2,根据数据结构类型读取并拆分为带有关键字的元数据;

步骤1.3,按照相同的关键字组合元数据获得标准数据;

所述标准数据至少包括数据量值。

进一步地,在步骤2中,所述计算标准数据的误差率的子步骤为:

步骤2.1,设x1,x2,x3,…,xn为n个标准数据的数据量值,则算术平均值x'为

步骤2.2,通过算术平均值x'标准数据的误差率s的公式为:

其中,n为大于或等于0的正整数,取值范围不做限制,i取值范围为1~n,xi为标准数据的数据量值。

进一步地,在步骤3中,所述误差阈值为:设s1,s2,s3,…,sn为n个标准数据的误差率,则误差阈值s'为

进一步地,在步骤4中,所述按照误差率的大小排序方法至少包括冒泡法排序、插入法排序、简单选择排序。

本发明还提供了一种异构大数据信息的过滤装置,所述装置包括:

拆分单元,用于读取异构大数据并按照数据结构拆分得到标准数据;

误差率计算单元,用于计算标准数据的误差率;

异常处理单元,用于删除标准数据中误差率大于误差阈值的异常数据后得到过滤后的数据;

排序单元,用于将过滤后的数据按照误差率的大小排序;

去首尾单元,用于删除排序后的队列中首尾10%的数据得到过滤结果;

输出单元,用于输出过滤结果。

本公开的有益效果为:本发明公开了一种异构大数据信息的过滤方法及装置,可以针对不同的数据结构,采用统一的异构数据处理方法,归一化了数据,降低了异构数据的误差率,提高了异构数据的逻辑兼容度。

附图说明

通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:

图1所示为本公开的一种异构大数据信息的过滤方法的流程图;

图2所示为本公开实施方式的一种异构大数据信息的过滤装置。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本公开的一种异构大数据信息的过滤方法的流程图,下面结合图1来阐述根据本公开的实施方式的异构大数据信息的过滤方法。

本公开提出一种异构大数据信息的过滤方法,具体包括以下步骤:

步骤1,读取异构大数据并按照数据结构拆分得到标准数据;

步骤2,计算标准数据的误差率;

步骤3,删除标准数据中误差率大于误差阈值的异常数据后得到过滤后的数据;

步骤4,将过滤后的数据按照误差率的大小排序;

步骤5,删除排序后的队列中首尾10%的数据得到过滤结果;

步骤6,输出过滤结果。

进一步地,在步骤1中,所述异构大数据的数据结构至少包括数组、队列、哈希表、树。

进一步地,在步骤1中,所述按照数据结构拆分得到标准数据的步骤包括如下子步骤:

步骤1.1,按照异构大数据的数据结构类型输入;

步骤1.2,根据数据结构类型读取并拆分为带有关键字的元数据;

步骤1.3,按照相同的关键字组合元数据获得标准数据;

所述标准数据至少包括数据量值。

进一步地,在步骤2中,所述计算标准数据的误差率的子步骤为:

步骤2.1,设x1,x2,x3,…,xn为n个标准数据的数据量值,则算术平均值x'为

步骤2.2,通过算术平均值x'标准数据的误差率s的公式为:

其中,n为大于或等于0的正整数,取值范围不做限制,i取值范围为1~n,xi为标准数据的数据量值。

进一步地,在步骤3中,所述误差阈值为:设s1,s2,s3,…,sn为n个标准数据的误差率,则误差阈值s'为

进一步地,在步骤4中,所述按照误差率的大小排序方法至少包括冒泡法排序、插入法排序、简单选择排序。

本发明还提供了一种异构大数据信息的过滤装置,如图2所示,所述装置包括:

拆分单元,用于读取异构大数据并按照数据结构拆分得到标准数据;

误差率计算单元,用于计算标准数据的误差率;

异常处理单元,用于删除标准数据中误差率大于误差阈值的异常数据后得到过滤后的数据;

排序单元,用于将过滤后的数据按照误差率的大小排序;

去首尾单元,用于删除排序后的队列中首尾10%的数据得到过滤结果;

输出单元,用于输出过滤结果。

所述一种异构大数据信息的过滤装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种异构大数据信息的过滤装置可运行的装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种异构大数据信息的过滤装置的示例,并不构成对一种异构大数据信息的过滤装置的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种异构大数据信息的过滤装置还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种异构大数据信息的过滤装置运行装置的控制中心,利用各种接口和线路连接整个一种异构大数据信息的过滤装置可运行装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种异构大数据信息的过滤装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1