一种数据采集调查及统计模型实现方法

文档序号:9750852阅读:192来源:国知局
一种数据采集调查及统计模型实现方法
【技术领域】
[0001]本发明涉及计算机数据采集与统计技术领域,尤其是一种面向大量数据调查采集及统计模型实现方法。
【背景技术】
[0002]随着信息技术的快速发展,当前社会各种数据资源迅速增长,数据格式多样化和非格式化数据的增加,造成原有的数据采集模型不能灵活的适应各种变化,使得在大数据中存在的不少数据噪音。在给数据采集带来干扰的同时,也不利于数据的后期统计处理。

【发明内容】

[0003]本发明解决的技术问题在于提供一种面向大量数据调查采集及统计模型实现方法;解决大量数据采集中定向数据调查及统计分析的灵活性等问题。
[0004]本发明解决上述技术问题的技术方案是:
[0005]所述的方法是将多个数据采集因子构成数据采集模式,根据数据采集特征的不同,将采集分为不同的模式,进而支持合理复用;每个单独的采集都通过套用一个采集模式,决定采集的细节;在采集数据通过调查获取后,统计模块支持根据多维采集因子来过滤、计算、反映统计结果,从而从多个角度展现采集数据,支持上层决策。
[0006]所述的采集因子描述了采集过程中关注点的最小单位,可抽象化成一个问题或者一条属性等;每个采集因子都可以包括关注点描述(P),期待的结果集值域范围(R),采集类型呈现方式等其他属性集合(O);由此可以唯一确定一个采集因子的三元组特性结构<P,R,0>;其中O属性中可包含若干细节属性,如采集数据时的内容类型限制条件、长度限制条件等。
[0007]根据采集需求灵活组织若干采集因子<P,R,0>,形成具有独特的采集特征的采集模式,采集模式可以在每次采集开始时由用户选择性的套用到当前的采集中;所谓采集模式的特征,在于描述该采集模式主要针对的采集条件、关注重点等采集细节,从而可根据其特征,形成可区分的模式集合。
[0008]建立在已经采集到的针对某个采集模式的所有数据,根据需求组合多个采集因子,从而得到一系列属性或者条件,然后再筛选出符合条件的结果集,进一步通过统计代数集中的统计代数进行结果计算与统计;所述的统计代数集是一组可扩展的聚集函数,通过筛选满足自定义条件的结果,并根据聚集函数的处理函数体,将结果集中的数据通过计算,处理成需要的最终数据。
[0009]具体实现步骤是:
[0010]S1.通过定义三元组〈P,R,0>来创建采集因子,作为数据采集任务过程中最小的采集任务单元;
[0011]S2.将若干所需的采集因子结合,形成一个拥有一定特征的集合,即采集模式;
[0012]S3.通过套用采集模式,使得数据调查采集任务拥有明确的采集目标和结果集值域;
[0013]S4.数据采集过程,其中每个采集因子都可以对应多个采集结果,每个结果只对应一个采集因子;
[0014]S5.完成采集后,可以通过选择若干采集因子及其满足的条件,对结果集中的数据进行筛选;
[0015]S6.对筛选后的结果集,采用统计代数集中的聚集函数,计算所需相关结果。
[0016]本发明使得数据采集的关注点集中表现成一个三元组,从而简化复杂的采集条件表示,清晰地呈现出每次数据采集的重点。另一方面,本发明支持灵活的变化能力,通过增加、组合采集因子来组成不同的采集模式,使得采集因子最大限度复用,且通过采集因子的组合完成过滤筛选,支持多维度的数据统计。本发明应用在数据调查采集和统计的技术当中,为其提供了一种思路及实现方法。
【附图说明】
[0017]下面附图对本发明进一步说明:
[0018]图1是本发明系统架构示意图;
[0019]图2是系统流程不意图。
【具体实施方式】
[0020]如图1、2所示,本发明所述的方法包括定向数据采集因子的设计方法,复合采集因子为采集模式的方法,采集数据多维统计呈现等技术。多个数据采集因子构成数据采集模式,根据数据采集特征的不同,将采集分为不同的模式,进而支持合理复用。每个单独的采集都通过套用一个采集模式,决定采集的细节;在采集数据通过调查获取后,统计模块支持根据多维采集因子来过滤、计算、反映统计结果,从而从多个角度展现采集数据,支持上层决策。
[0021]采集因子描述了采集过程中关注点的最小单位,可具象化成一个问题或者一条属性等。每个采集因子都可以包括关注点描述(P),期待的结果集值域范围(R),采集类型呈现方式等其他属性集合(O)。由此可以唯一确定一个采集因子的三元组特性结构<P,R,0>;每个采集因子结构都是如此,其中O属性中可包含若干细节属性,如采集数据时的内容类型限制条件、长度限制条件等。
[0022]根据采集需求灵活组织若干采集因子<P,R,0>,形成具有独特的采集特征的采集模式,采集模式可以在每次采集开始时由用户选择性的套用到当前的采集中。所谓采集模式的特征,在于描述该采集模式主要针对的采集条件、关注重点等采集细节,从而可根据其特征,形成可区分的模式集合。
[0023]建立在已经采集到的针对某个采集模式的所有数据,根据需求组合多个采集因子,从而得到一系列属性或者条件,然后再筛选出符合条件的结果集,进一步通过统计代数集中的统计代数进行结果计算与统计。统计代数集是一组可扩展的聚集函数,通过筛选满足自定义条件的结果,并根据聚集函数的处理函数体,将结果集中的数据通过计算,处理成需要的最终数据。
[0024]本发明的方法实现主要步骤分为六步,具体包括:
[0025]S1.通过定义三元组<P,R,0>来创建采集因子,作为数据采集任务过程中最小的采集任务单元。
[0026]S2.将若干所需的采集因子结合,形成一个拥有一定特征的集合,即采集模式。
[0027]S3.通过套用采集模式,使得数据调查采集任务拥有明确的采集目标和结果集值域。
[0028]S4.数据采集过程,其中每个采集因子都可以对应多个采集结果,每个结果只对应一个采集因子。
[0029]S5.完成采集后,可以通过选择若干采集因子及其满足的条件,对结果集中的数据进行筛选。
[0030]S6.对筛选后的结果集,采用统计代数集中的聚集函数,计算所需相关结果。具体流程如图2所示:创建数据调查任务,输入基本信息。从模式库中载入采集模式,如模式库已存在,则从模式库载入并保存。如不存在,则新建采集模式,载入采集因子。如采集因子已存在,则选择库中的因子载入,完毕后保存在模式至模式库中。如采集因子不存在,则创建、编辑新采集因子,并保存至因子库中后进行因子载入。
【主权项】
1.一种数据调查采集及统计模型实现方法,其特征在于:所述的方法是将多个数据采集因子构成数据采集模式,根据数据采集特征的不同,将采集分为不同的模式,进而支持合理复用;每个单独的采集都通过套用一个采集模式,决定采集的细节;在采集数据通过调查获取后,统计模块支持根据多维采集因子来过滤、计算、反映统计结果,从而从多个角度展现采集数据,支持上层决策。2.根据权利要求1所述的数据调查采集及统计模型实现方法,其特征在于:所述的采集因子描述了采集过程中关注点的最小单位,可抽象化成一个问题或者一条属性等;每个采集因子都可以包括关注点描述(P),期待的结果集值域范围(R),采集类型呈现方式等其他属性集合(O);由此可以唯一确定一个采集因子的三元组特性结构<P,R,0>;其中O属性中可包含若干细节属性,如采集数据时的内容类型限制条件、长度限制条件等。3.根据权利要求2所述的数据调查采集及统计模型实现方法,其特征在于:根据采集需求灵活组织若干采集因子<P,R,0>,形成其有独特的采集特征的采集模式,采集模式可以在每次采集开始时由用户选择性的套用到当前的采集中;所谓采集模式的特征,在于描述该采集模式主要针对的采集条件、关注重点等采集细节,从而可根据其特征,形成可区分的模式集合。4.根据权利要求1、2或3所述的数据调查采集及统计模型实现方法,其特征在于:建立在已经采集到的针对某个采集模式的所有数据,根据需求组合多个采集因子,从而得到一系列属性或者条件,然后再筛选出符合条件的结果集,进一步通过统计代数集中的统计代数进行结果计算与统计;所述的统计代数集是一组可扩展的聚集函数,通过筛选满足自定义条件的结果,并根据聚集函数的处理函数体,将结果集中的数据通过计算,处理成需要的最终数据。5.根据权利要求1至3任一项所述的数据调查采集及统计模型实现方法,其特征在于:具体实现步骤是: S1.通过定义三元组〈P,R,O〉来创建采集因子,作为数据采集任务过程中最小的采集任务单元; S2.将若干所需的采集因子结合,形成一个拥有一定特征的集合,即采集模式; S3.通过套用采集模式,使得数据调查采集任务拥有明确的采集目标和结果集值域; S4.数据采集过程,其中每个采集因子都可以对应多个采集结果,每个结果只对应一个采集因子; S5.完成采集后,可以通过选择若干采集因子及其满足的条件,对结果集中的数据进行筛选; S6.对筛选后的结果集,采用统计代数集中的聚集函数,计算所需相关结果。6.根据权利要求4所述的数据调查采集及统计模型实现方法,其特征在于:具体实现步骤是: S1.通过定义三元组〈P,R,O〉来创建采集因子,作为数据采集任务过程中最小的采集任务单元; S2.将若干所需的采集因子结合,形成一个拥有一定特征的集合,即采集模式; S3.通过套用采集模式,使得数据调查采集任务拥有明确的采集目标和结果集值域; S4.数据采集过程,其中每个采集因子都可以对应多个采集结果,每个结果只对应一个采集因子;S5.完成采集后,可以通过选择若干采集因子及其满足的条件,对结果集中的数据进行筛选;S6.对筛选后的结果集,采用统计代数集中的聚集函数,计算所需相关结果。
【专利摘要】本发明涉及计算机数据采集与统计技术领域,尤其是一种面向大量数据调查采集及统计模型实现方法。本发明将多个数据采集因子构成数据采集模式,根据数据采集特征的不同,将采集分为不同的模式,进而支持合理复用;每个单独的采集都通过套用一个采集模式,决定采集的细节;在采集数据通过调查获取后,统计模块支持根据多维采集因子来过滤、计算、反映统计结果,从而从多个角度展现采集数据,支持上层决策。本发明解决了大量数据采集中定向数据调查及统计分析的灵活性等问题;为其提供一种思路及实现方法。
【IPC分类】G06F17/30
【公开号】CN105512173
【申请号】CN201510821173
【发明人】郭宇, 李勇波, 季统凯
【申请人】国云科技股份有限公司
【公开日】2016年4月20日
【申请日】2015年11月23日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1