数据采集中的存储方法及装置制造方法

文档序号:6508990阅读:121来源:国知局
数据采集中的存储方法及装置制造方法
【专利摘要】一种数据采集中的存储方法,包括:获取采集数据,获取所述采集数据的产生时间和采集时间;通过计算所述产生时间和采集时间的差得到偏移值;获取预设的偏移阈值,判断所述偏移值是否小于所述偏移阈值,若是,则获取所述采集数据对应的集中存储目录,获取在所述集中存储目录下的与所述产生时间对应的产生时间子目录,获取所述产生时间子目录下的与所述偏移值对应的偏移子目录中,并将所述采集数据存储在所述偏移子目录中。此外,还提供了一种数据采集中的存储装置。上述数据采集中的存储方法及装置能够数据读取时的读取效率。
【专利说明】数据采集中的存储方法及装置

【技术领域】
[0001] 本发明涉及数据挖掘【技术领域】,特别是涉及一种数据采集中的存储方法及装置。

【背景技术】
[0002] 在数据挖掘【技术领域】中,需要采样得到大量数据才能根据采集的数据进行数据分 析,在传统技术中,如图1和图2所示,通常由多个采样服务器各自按照预设的周期T (例如 周期T可以是1天,采样服务器每天采集一次数据)进行采集,采样服务器采集数据的时间 即为采集数据的产生时间(如图1中的TO、T0+T等),采样服务器再不定期将采集数据发送 给统计服务器汇总存储,统计服务器接收到该采集数据的时间即为该采集数据的采集时间 (如图1中的T0+4T和T0+2T)。
[0003] 统计服务器在将采集数据进行存储时,通常对同一类型的采集数据根据采集时间 建立目录,然后在该目录中根据采集数据的产生时间建立子目录。
[0004] 发明人经研究发现上述存储方式至少存在以下问题:当需要根据产生时间进行检 索时,则需要遍历所有存储采集数据的目录并根据产生时间进行查找,使得遍历的目录数 量较多,使得读取效率不高。


【发明内容】

[0005] 基于此,有必要提供一种能够提高读取效率的数据采集中的存储方法。
[0006] -种数据采集中的存储方法,包括:
[0007] 获取采集数据,获取所述采集数据的产生时间和采集时间;
[0008] 通过计算所述产生时间和采集时间的差得到偏移值;
[0009] 获取预设的偏移阈值,判断所述偏移值是否小于所述偏移阈值,若是,则获取所述 采集数据对应的集中存储目录,获取在所述集中存储目录下的与所述产生时间对应的产生 时间子目录,获取所述产生时间子目录下的与所述偏移值对应的偏移子目录中,并将所述 采集数据存储在所述偏移子目录中。
[0010] 此外,还有必要提供一种能够提高读取效率的数据采集中的存储装置。
[0011] -种数据采集中的存储装置,包括:
[0012] 数据接收模块,用于获取采集数据,获取所述采集数据的产生时间和采集时间;
[0013] 偏移值计算模块,用于通过计算所述产生时间和采集时间的差得到偏移值;
[0014] 数据存储模块,用于获取预设的偏移阈值,判断所述偏移值是否小于所述偏移阈 值,若是,则获取所述采集数据对应的集中存储目录,获取在所述集中存储目录下的与所述 产生时间对应的产生时间子目录,获取所述产生时间子目录下的与所述偏移值对应的偏移 子目录中,并将所述采集数据存储在所述偏移子目录中。
[0015] 上述数据采集中的存储方法及装置,设置了偏移阈值,并根据偏移阈值将获取到 的采集数据定位到集中存储目录中,并将其存储在该目录下的与采集数据的产生时间对应 的产生时间子目录下的与所述偏移值对应的偏移子目录中。使得在读取采集数据时,可根 据偏移值快速定位到相应的目录进行读取,与传统技术中遍历所有采集数据的读取方式相 t匕,提高了读取效率。

【专利附图】

【附图说明】
[0016] 图1为传统技术中数据采集系统中的数据流向图;
[0017] 图2为一个实施例中数据采集中的存储方法的流程图;
[0018] 图3为一个实施例中数据存储时的文件存储结构示意图;
[0019] 图4为一个实施例中数据读取时定位集中存储目录中的偏移子目录的过程示意 图;
[0020] 图5为一个实施例中数据采集中的存储装置的结构示意图;
[0021] 图6为另一个实施例中数据采集中的存储装置的结构示意图。

【具体实施方式】
[0022] 在一个实施例中,如图1所示,一种数据采集系统,包括统计服务器和与统计服务 器连接的多个采样服务器,采样服务器根据预设的采样周期(例如,小时、天等)采集数据, 采集到数据的时间即为该采集数据的产生时间(采集数据此时在采样服务器通过数据采集 生成,因此,相对于统计服务器该时间被称为产生时间),如图1所示,采样服务器可不定期 将采集数据上传给统计服务器,统计服务器接收到该采集数据的时间即为该采集数据的采 集时间(采集数据此时由采样服务器上传统计服务器,由统计服务器采集成功,因此,相对 于统计服务器该时间被称为采集时间)。
[0023] 在本实施例中,如图2所示,一种数据采集中的存储方法,该方法完全依赖于计算 机程序,该计算机程序可运行于上述基于冯洛伊曼体系的统计服务器上,该方法包括:
[0024] 步骤S102,获取采集数据,获取采集数据的产生时间和采集时间。
[0025] 在本实例中,统计服务器可通过接收采样服务器上传的采集数据进行获取,采样 服务器在每个预设的时间间隔即周期中采集到采集数据后,可将其存储为独立的文件,该 文件的创建时间即为采集数据的产生时间;统计服务器接收到该采集数据时,可记录该时 间,该接收时记录的时间即为该采集数据的采集时间。
[0026] 步骤S104,通过计算产生时间和采集时间的差得到偏移值。
[0027] 偏移值即为采集时间和产生时间之间相差的采样周期的个数。例如,若采样周期 为天,则若产生时间为2013年8月1日,采集时间为2013年8月4日,则偏移值即为3。
[0028] 步骤S106,获取预设的偏移阈值,判断偏移值是否小于偏移阈值,若是,则执行步 骤 S108 :
[0029] 获取采集数据对应的集中存储目录,获取在集中存储目录下的与产生时间对应的 产生时间子目录,获取产生时间子目录下的与偏移值对应的偏移子目录中,并将采集数据 存储在偏移子目录中。
[0030] 在本实施例中,若偏移值大于或等于偏移阈值,则执行步骤S110 :
[0031] 获取采集数据对应的非集中存储目录,获取在非集中存储目录下的与采集时间对 应的采集时间子目录,将采集数据存储到采集时间子目录中。
[0032] 集中存储目录与非集中存储目录为统计服务器中文件系统中的两个目录。优选 的,集中存储目录与非集中存储目录处于同一类型目录下,可预先对采集数据进行分类,将 数据类型相同的采集数据存储在同一类型目录下的集中存储目录或非集中存储目录中,即 可获取采集数据的数据类型;获取数据类型对应的类型目录;获取类型目录下的集中存储 目录/非集中存储目录。
[0033] 例如,可根据采集数据的格式确定采集数据的数据类型。可将图片类型的采集数 据存储在图片目录下,可将视频类型的采集数据存储在视频目录下。相应的图片目录和视 频目录下可各自建立集中存储目录和非集中存储目录。
[0034] 在本实施例对应的应用场景中,如图3所示,picture目录(类型目录)用于存储数 据类型为图片的采集数据,picture目录下的picturel目录为集中存储目录,picture目录 下picture2目录为非集中存储目录。预设的偏移阈值为6,可记录在配置文件中,可通过 读取配置文件获取该偏移阈值。若采集数据的偏移值小于6,则将其存储在picturel目录 中,也就是说picturel目录及其包含的子目录存储的采集数据的偏移值均在0至5之间。
[0035] 如图3所示,若图片类型的采集数据的产生时间为2013年8月1日,则其在对应 的在picturel目录下的产品时间子目录即为20130801目录,若该采集数据的采集时间 为2013年8月4日,则其偏移值为3 (采集周期为每天),其对应的在产品时间子目录即 20130801目录下的偏移子目录即为p3目录,可将该采集数据存储在该p3目录下。也就是 说,图3中20130801目录下的p0至p5目录(偏移子目录)分别存储了产生时间为2013年 8月1日,而采集时间在2013年8月1日至2013年8月6日之间采集数据,即p0至p5目 录中存储的采集数据可以是由多个采样服务器在2013年8月1日至2013年8月6日之间 分辨上传统计服务器的。
[0036] 如图3所示,对于采集时间为2013年8月9日的采集数据,其偏移值为8,大于偏 移阈值6,因此,该采集数据将存储在非集中存储目录picture〗目录的子目录中,可根据其 采集时间2013年8月9日确定该采集数据对应的picture2目录下的采集时间子目录为 20130809目录,并将该采集数据存储到该20130809目录下。也就是说,对于偏移值大于偏 移阈值的采集数据,可在非集中存储目录中根据其采集时间找到相应的采集时间子目录进 行存储。
[0037] 在一个实施例中,用户还可通过输入关键字对统计服务器中存储的采集数据进行 读取。关键字可包括数据类型、采集时间关键字或产生时间关键字等信息。可根据数据类型 定位到相应的类型目录。例如,若关键字中的数据类型为图片,则可定位到picture目录。
[0038] 而对于采集时间关键字,读取相应的采集数据的方法包括:
[0039] 获取输入的采集时间关键字,提取第一输入时间;
[0040] 在集中存储目录中,获取其包含的产生时间子目录对应的产生时间与第一输入时 间的差小于偏移阈值,且产生时间子目录对应的产生时间与其包含的偏移子目录对应的偏 移值之和等于第一输入时间的偏移子目录,读取偏移子目录中存储的采集数据;
[0041] 在非集中存储目录中,获取其包含的采集时间子目录对应的采集时间与第一输入 时间相同的采集时间子目录,读取采集时间子目录中存储的采集数据。
[0042] 例如,如图4所示,若用户输入的采集时间关键字对应的第一输入时间为2013年 8月6日,则可定位到存储相应的采集数据的偏移子目录为图5中斜线划过的20130801目 录下的P5目录、20130802目录下的p4目录、20130803目录下的p3目录、20130804目录下 的p2目录、20130805目录下的pi目录和20130806目录下的pO目录(产生时间子目录对应 的产生时间与偏移子目录对应的偏移值之和均为6)。可通过读取上述偏移子目录得到偏移 值小于偏移阈值的采集数据。
[0043] 而对于偏移值大于或等于偏移阈值的采集数据,则可在非集中存储目录中进行读 取。可通过直接读取非集中存储目录下的20130806目录得到偏移值大于或等于偏移阈值 的采集数据。
[0044] 由上可知,通过对集中存储目录下的子目录和非集中存储目录下的子目录分别进 行上述读取操作即可得到所有采集时间为2013年8月6日的采集数据。由于读取过程不 需要遍历所有采集数据,仅通过简单的加减运算即可确定存储采集数据的目录的位置,从 而进行直接读取,使得与传统技术相比,提高了读取效率。
[0045] 而对于产生时间关键字,读取相应的采集数据的方法包括:
[0046] 获取输入的产生时间关键字,提取第二输入时间;
[0047] 在集中存储目录中,获取其包含的产生时间子目录对应的产生时间与第二输入时 间相同的产生时间子目录,读取产生时间子目录及其包含的偏移子目录中存储的采集数 据;
[0048] 在非集中存储目录中,遍历采集时间子目录,读取采集时间子目录下的产生时间 与第二输入时间对应的采集数据。
[0049] 例如,若用户输入的产生时间关键字对应的第二输入时间为2013年8月1日,则 可在集中存储目录下直接读取20130801目录,而在非集中存储目录中对所有采集时间子 目录进行遍历,读取产生时间为2013年8月1日的采集数据。
[0050] 由于在设置偏移阈值时,可将其设置的较大,使得非集中存储目录下的采集时间 子目录中存储的采集数据的数据量较小,与传统技术中遍历所有采集数据相比,仅遍历数 据量较小的非集中存储目录可以提高读取效率。
[0051] 在一个实施例中,统计服务器还可根据已接收到采样服务器上传的采集数据对上 述偏移阈值进行调整,具体包括:
[0052] 遍历集中存储目录及其子目录、非集中存储目录及其子目录下存储的采集数据, 获取所述采集数据对应的产生时间和采集时间,并计算相应的偏移值;
[0053] 根据公式:

【权利要求】
1. 一种数据采集中的存储方法,包括: 获取采集数据,获取所述采集数据的产生时间和采集时间; 通过计算所述产生时间和采集时间的差得到偏移值; 获取预设的偏移阔值,判断所述偏移值是否小于所述偏移阔值,若是,则获取所述采集 数据对应的集中存储目录,获取在所述集中存储目录下的与所述产生时间对应的产生时间 子目录,获取所述产生时间子目录下的与所述偏移值对应的偏移子目录中,并将所述采集 数据存储在所述偏移子目录中。
2. 根据权利要求1所述的数据采集中的存储方法,其特征在于,所述判断所述偏移值 是否小于偏移阔值的步骤之后还包括: 若所述偏移值大于或等于所述偏移阔值,则获取所述采集数据对应的非集中存储目 录,获取在所述非集中存储目录下的与所述采集时间对应的采集时间子目录,将所述采集 数据存储到所述采集时间子目录中。
3. 根据权利要求2所述的数据采集中的存储方法,其特征在于,所述获取所述采集数 据对应的集中存储目录/非集中存储目录步骤包括: 获取所述采集数据的数据类型; 获取所述数据类型对应的类型目录; 获取所述类型目录下的集中存储目录/非集中存储目录。
4. 根据权利要求2所述的数据采集中的存储方法,其特征在于,所述方法还包括: 获取输入的采集时间关键字,提取第一输入时间; 在所述集中存储目录中,获取其包含的产生时间子目录对应的产生时间与所述第一输 入时间的差小于所述偏移阔值,且所述产生时间子目录对应的产生时间与其包含的偏移子 目录对应的偏移值之和等于所述第一输入时间的偏移子目录,读取所述偏移子目录中存储 的采集数据; 在所述非集中存储目录中,获取其包含的采集时间子目录对应的采集时间与所述第一 输入时间相同的采集时间子目录,读取所述采集时间子目录中存储的采集数据。
5. 根据权利要求2所述的数据采集中的存储方法,其特征在于,所述方法还包括: 获取输入的产生时间关键字,提取第二输入时间; 在所述集中存储目录中,获取其包含的产生时间子目录对应的产生时间与所述第二输 入时间相同的产生时间子目录,读取所述产生时间子目录及其包含的偏移子目录中存储的 采集数据; 在所述非集中存储目录中,遍历所述采集时间子目录,读取采集时间子目录下的产生 时间与所述第二输入时间对应的采集数据。
6. 根据权利要求2所述的数据采集中的存储方法,其特征在于,所述方法还包括: 遍历所述集中存储目录及其子目录、非集中存储目录及其子目录下存储的采集数据; 获取所述采集数据对应的产生时间和采集时间,并计算相应的偏移值; 根据公式: /',(71)=迅。xlOO% N 生成偏移值概率分布;其中,S(T)为偏移值小于T的采集数据的数量么和,N为采集数 据的总数量,P(T)为偏移值概率分布; 获取预设的概率阔值,根据所述概率阔值更新所述偏移阔值。
7. -种数据采集中的存储装置,其特征在于,包括: 数据接收模块,用于获取采集数据,获取所述采集数据的产生时间和采集时间; 偏移值计算模块,用于通过计算所述产生时间和采集时间的差得到偏移值; 数据存储模块,用于获取预设的偏移阔值,判断所述偏移值是否小于所述偏移阔值,若 是,则获取所述采集数据对应的集中存储目录,获取在所述集中存储目录下的与所述产生 时间对应的产生时间子目录,获取所述产生时间子目录下的与所述偏移值对应的偏移子目 录中,并将所述采集数据存储在所述偏移子目录中。
8. 根据权利要求7所述的数据采集中的存储装置,其特征在于,所述数据存储模块, 还用于在所述偏移值大于或等于所述偏移阔值时,获取所述采集数据对应的非集中存储目 录,获取在所述非集中存储目录下的与所述采集时间对应的采集时间子目录,将所述采集 数据存储到所述采集时间子目录中。
9. 根据权利要求8所述的数据采集中的存储方法,其特征在于,所述数据存储模块还 用于获取所述采集数据的数据类型;获取所述数据类型对应的类型目录;获取所述类型目 录下的集中存储目录/非集中存储目录。
10. 根据权利要求8所述的数据采集中的存储装置,其特征在于,所述装置还包括第一 读取模块,用于获取输入的采集时间关键字,提取第一输入时间;在所述集中存储目录中, 获取其包含的产生时间子目录对应的产生时间与所述第一输入时间的差小于所述偏移阔 值,且所述产生时间子目录对应的产生时间与其包含的偏移子目录对应的偏移值之和等于 所述第一输入时间的偏移子目录,读取所述偏移子目录中存储的采集数据;在所述非集中 存储目录中,获取其包含的采集时间子目录对应的采集时间与所述第一输入时间相同的采 集时间子目录,读取所述采集时间子目录中存储的采集数据。
11. 根据权利要求8所述的数据采集中的存储装置,其特征在于,所述装置还包括第二 读取模块,用于获取输入的产生时间关键字,提取第二输入时间;在所述集中存储目录中, 获取其包含的产生时间子目录对应的产生时间与所述第二输入时间相同的产生时间子目 录,读取所述产生时间子目录及其包含的偏移子目录中存储的采集数据;在所述非集中存 储目录中,遍历所述采集时间子目录,读取采集时间子目录下的产生时间与所述第二输入 时间对应的采集数据。
12. 根据权利要求8所述的数据采集中的存储方法,其特征在于,所述装置还包括偏移 阔值调整模块,用于遍历所述集中存储目录及其子目录、非集中存储目录及其子目录下存 储的采集数据;获取所述采集数据对应的产生时间和采集时间,并计算相应的偏移值;根 据公式: 尸(r) =当。xloo% N 生成偏移值概率分布;其中,S(T)为偏移值小于T的采集数据的数量之和,N为采集数 据的总数量,P(T)为偏移值概率分布;获取预设的概率阔值,根据所述概率阔值更新所述 偏移阔值。
【文档编号】G06F17/30GK104424236SQ201310377205
【公开日】2015年3月18日 申请日期:2013年8月26日 优先权日:2013年8月26日
【发明者】邱跃鹏, 廖建魁, 章猛, 范成涛, 李恭伟 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1