大数据的筛选分析方法及系统的制作方法

文档序号：10534865阅读：619来源：国知局

大数据的筛选分析方法及系统的制作方法
【专利摘要】本发明提供一种大数据的筛选分析方法，包括多轮筛选分析，每一轮筛选分析包括：按照一个未选择的筛选维度对待筛选数据组中的数据进行筛选分析；将满足目标要求的、对应于筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组；其中，多轮筛选分析的轮数根据筛选维度的数量和目标要求来确定。本发明还提供了相应的筛选分析系统。本发明通过多轮筛选分析对数据进行逐步筛选，每轮筛选分析都将上轮的筛选结果作为本轮的待筛选数据组，使得每轮筛选分析都比上轮筛选分析的数据量小，与组合筛选相比，不会因数据量过大造成系统负担过大从而崩溃的问题，且目标要求根据待筛选数据组在该轮筛选分析的参考值设置，提高了筛选分析的准确度。
【专利说明】
大数据的筛选分析方法及系统
技术领域
[0001]本发明涉及数据分析领域，具体涉及一种大数据的筛选分析方法及系统。
【背景技术】
[0002]随着信息化的高速发展，大数据应运而生，为了弥补传统方法无法处理如此量大且非结构的大数据的缺陷，人们研究出了云计算，以云计算为基础的信息存储、分享和挖掘手段，可以便宜、有效地将这些大量、高速、多变化的终端大数据存储下来，然而如何对这些数据进行筛选分析，并且使用筛选结果从不同维度对企业决策进行指导已经成为热门话题。
[0003]现有技术中，对数据的筛选分析方法仅是对数据在某单一维度下进行展开分析，或者在多个维度下进行组合筛选。单一维度下的筛选缺陷在于如果数据信息点隐藏在多个筛选维度下，则很难被找到;组合筛选的缺陷在于确定某一维度子项以进行数据分析时，子项的选择很大程度取决于做出判断的人的经验，导致容易出现错误的判断情况。无论是单一维度的筛选方式或是组合维度的筛选方式，针对筛选过程中因选择了错误的筛选维度而无法得到最终的筛选结果时，均需要重新进行筛选，严重影响筛选效率。
[0004]例如，在视频领域，通常在操作平台上通过不同筛选维度的组合实现对目标信息的流量或者卡顿情况的监测分析，筛选维度包括:地域、城市、操作系统、浏览器、性别、年龄段等，现有技术的监测方法是根据先前经验在所有筛选维度中分别选取其子项对目标信息进行组合筛选分析，如果该目标信息恰好为问题信息点，则完成监测，否则重新选取筛选维度子项的其它排列组合进行筛选分析完成监测。该方法虽然能实现对视频流量、视频卡顿等信息的监测，但整个处理过程信息处理量大，导致处理器负担较大，处理效率低，不利于推广应用。并且，即使利用该方法找到了疑似问题的信息点，由于存在大量其他排列组合的可能，因此也很难确认该信息点就是最优的。

【发明内容】

[0005]本发明实施例提供一种大数据的筛选分析方法及系统，用以解决现有技术中对数据在多维度下只能进行组合筛选的缺陷，实现对数据的多轮筛选分析以得到更准确的筛选结果。
[0006]本发明实施例一方面提供一种大数据的筛选分析方法，包括多轮筛选分析，每一轮筛选分析包括:
[0007]按照一个未选择的筛选维度对待筛选数据组中的数据进行筛选分析；
[0008]将满足目标要求的、对应于所述筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组；
[0009]其中，所述多轮筛选分析的轮数根据筛选维度的数量和目标要求来确定。
[0010]另一方面本发明实施例提供一种大数据的筛选分析系统，配置以执行多轮筛选分析，所述系统包括:
[0011]筛选分析单元，配置以按照一个未选择的筛选维度对待筛选数据组中的数据进行筛选分析；
[0012]目标要求确定单元，配置以提供目标要求；
[0013]待筛选数据组生成单元，配置以将满足目标要求的、对应于所述筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组；
[0014]其中，所述多轮筛选分析的轮数根据筛选维度的数量和目标要求来确定。
[0015]本发明提供的筛选分析方法及系统，通过多个筛选维度对待处理数据进行逐步筛选，形成多轮筛选分析，每一轮筛选分析都是将上一轮的筛选结果作为本轮筛选分析待筛选数据组，使得每轮筛选分析都比上一轮筛选分析的数据量小，因此与现有技术一次性在多个筛选条件下进行组合筛选相比，不容易因数据量过大造成系统负担过大从而崩溃的问题，且每一轮筛选分析中要满足的目标要求均根据其待筛选数据组在该轮的筛选子项下的参考值设置，提高了筛选分析的准确度。
【附图说明】
[0016]为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0017]图1是本发明一实施方式的筛选分析方法的流程图；
[0018]图2是本发明另一实施方式的筛选分析方法的流程图；
[0019]图3是本发明一实施方式的筛选分析系统的结构示意图。
【具体实施方式】
[0020]为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0021]图1是本发明一实施方式的筛选分析方法的流程图。如图1所示，该筛选分析方法包括多轮筛选分析过程。其中，每一轮筛选分析包括:
[0022]SlOl:按照一个未选择的筛选维度对待筛选数据组中的数据进行筛选分析；
[0023]S102:将满足目标要求的、对应于该轮筛选分析中筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组。
[0024]该筛选分析方法中多轮筛选分析的轮数由筛选维度的数量和目标要求确定。
[0025]本发明实施例中通过对数据具有的属性进行设定，并把适配的属性设定为可筛选的属性，即得到筛选维度。图1所示实施例的筛选分析方法通过多个筛选维度对数据进行多轮筛选分析得到筛选结果，每一轮筛选分析都是将上一轮的筛选结果作为本轮筛选分析待筛选数据组，使得每轮筛选分析都比上一轮筛选分析的数据量小，因此与现有技术一次性在多个筛选条件下进行组合筛选相比，不容易因数据量过大造成系统负担过大从而崩溃的问题，且每一轮筛选分析中要满足的目标要求均根据其待筛选数据组在该轮的筛选子项下的参考值设置，提高了筛选分析的准确度。
[0026]图2是本发明另一实施方式的筛选分析方法的流程图。如图2所示，该筛选分析方法包括多轮筛选分析过程。其中，每一轮筛选分析包括:
[0027]S201:按照一个未选择的筛选维度对待筛选数据组中的数据进行筛选分析；
[0028]S202:将满足目标要求的、对应于所述筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组；
[0029]S203:生成和保存相应的筛选路径。
[0030]该筛选分析方法中多轮筛选分析的轮数由筛选维度的数量和目标要求确定。
[0031]图2所示实施例的筛选分析方法，在步骤S202将满足目标要求的、对应于所述筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组之后，还包括步骤S203:生成和保存相应的筛选路径。通过步骤S203，在每一轮筛选分析过后保存其筛选路径，可以在以后查询该待处理数据本次的筛选结果时，将保存好的筛选路径作为组合查询的入口，通过一次筛选就得到同样的筛选结果，减少系统重复进行多轮筛选分析的负担。
[0032]图2所示实施例的筛选分析方法，当某一轮的筛选分析未得到满足目标要求的数据时，若不再重新选择筛选维度进行筛选分析，则表明之前的筛选路径有误，此时，还包括步骤S204:撤回有误的筛选分析，删除撤回的筛选分析下已生成和保存的筛选路径。在筛选分析过程中，如果发现某一轮的选择的维度子项有错误，筛选路径不正确，通过撤回该轮筛选分析并删除该筛选路径，使得多轮筛选分析中除去该轮筛选分析得到的数据成为下一轮的待筛选数据组，可以避免从最初始的数据重新选择删除了该轮维度子项的筛选维度或其子项进行筛选分析的麻烦。
[0033]作为图1或图2所示方法实施例的进一步优化，本发明实施例中的目标要求包括:待筛选数据组中的数据对应的数值最大、待筛选数据组中的数据对应的数值最小以及最大数值和最小数值之差的绝对值大于预定阈值;或各维度子项下数据对应的数值相对于参考值的波动范围大于预定范围。预定阈值、参考值和预定范围根据历史数据库中的历史数据来确定。本发明实施例可以将系统存有的大量的历史结果数据作为参考，并以此设定阈值和范围，利用待筛选数据组中在维度子项下的最大值、最小值和预定阈值或参考值和预定范围进行筛选分析，且每次筛选分析得到的筛选结果均保存在历史数据库中，为以后的筛选分析作指导，历史数据库不断被越来越准确的数据扩充和更新，相对现有技术中根据个人经验做出的选择进行筛选分析来说准确度更高。
[0034]图3是本发明一实施方式的筛选分析系统的结构示意图。本发明所述的筛选分析方法可以基于本实施例中的筛选分析系统实施。如图3所示，该筛选分析系统包括筛选分析单元、目标要求确定单元和待筛选数据组生成单元。
[0035]筛选分析单元用于根据一个未选择的筛选维度对待筛选数据组中的数据进行筛选分析。
[0036]目标要求确定单元与筛选分析单元连接，用于提供目标要求，提供的目标要求包括:待筛选数据组中的数据对应的数值最大的要求，待筛选数据组中的数据对应的数值最小的要求，和最大数值和最小数值之差的绝对值大于预定阈值的要求;或各维度子项下数据对应的数值相对于参考值的波动范围大于预定范围。
[0037]待筛选数据组生成单元与筛选分析单元连接，用于将满足目标要求的、对应于该轮筛选分析中的筛选维度下的至少一个维度子项的数据保存为下一轮筛选分析的待筛选数据组。
[0038]作为图3所示实施例系统的进一步优化，图3所示实施例中的筛选分析系统还可以包括与待筛选数据组连接的筛选路径处理单元，用于在将满足目标要求的、对应于筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组后，生成和保存相应的筛选路径。
[0039]筛选路径处理单元还可以用于在每一轮筛选分析撤回后，删除所述撤回的筛选分析下已生成和保存的筛选路径。
[0040]作为图3所示实施例系统的进一步优化，本发明实施例的筛选分析系统还可以包括与目标确定单元连接的预定阈值确定单元和历史数据库。预定阈值确定单元用于根据历史数据库中的历史数据来确定预定阈值、参考值和预定范围，历史数据库能够根据所述多轮筛选分析后的筛选结果更新。
[0041]本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
[0042]下面将以视频领域中查看用户的视频流量的使用情况为例对本发明做进一步的说明。
[0043]企业想要在服务平台上查看某特定时段内用户观看视频使用的流量以发现隐藏的信息时，先设置多个筛选维度，如地域、操作系统、浏览器等，其中每个筛选条件下都有各自的维度子项，例如，地域包括北京、上海、天津、广东等中国的部分省份，操作系统包括Windows、Android、1S系统，浏览器包括360浏览器、百度浏览器、谷歌浏览器。
[0044]执行第一轮筛选分析，过程如下。
[0045]将初始数据库中的数据即用户观看视频使用的流量作为待筛选数据组，随机选择一个筛选维度，例如地域，在该筛选维度下进行筛选。目标要求确定单元确定该轮筛选分析中目标要求是寻找到地域维度的子项下用户使用流量的最大值和最小值，且最大值和最小值之差大于预定阈值，预定阈值由预定阈值确定单元和历史数据库确定为1000T。
[0046]通过筛选分析单元得到北京、上海、天津、广东等地的用户观看视频使用的流量:北京的用户使用了 568T，上海的用户使用了 642T，天津的用户使用了 295T，广东的用户使用了 1546T。由此得到最大值为广东1546T，最小值为天津295T，同时最大最小值之差为1251T，大于预定阈值1000T。维度子项广东和天津下的使用流量满足数据要求，因此待筛选数据组生成单元将广东和天津的使用流量保存为下一轮的待筛选数据组。并且，如步骤203所示，下一轮的待筛选数据组被保存后，筛选路径处理单元生成和保存相应的筛选路径。
[0047]执行第二轮筛选分析。
[0048]待筛选数据组已经变为天津、广东地区用户观看视频的流量。选择操作系统作为本轮的筛选维度，目标要求确定单元确定该轮筛选分析中目标要求是寻找到操作系统维度的子项下用户使用流量的最大值，同时计算最小值，且最大值和最小值之差大于预定阈值，本轮筛选分析中预定阈值由预定阈值确定单元和历史数据库确定为50T。
[0049]重复步骤202和步骤203:通过筛选分析单元得到广东地区的用户使用Windows、Android和1S操作系统观看视频使用的流量分别为658T、423T和460T，天津地区的用户使用WindoWS、Android和1S操作系统观看视频使用的流量分别是132Τ、95Τ和60Τ，由此得到广东地区的用户使用流量的最大值为658T，最小值为423T，最大最小值之差为235T;天津地区的户使用流量的最大值为132T，最小值为60T，最大最小值之差为72T。两个地区的最大最小值均大于预定阈值，故广东地区下使用Windows系统的用户的流量和天津地区下使用Windows系统的用户的流量满足目标要求。因此待筛选数据组生成单元将广东和天津的用户在使用Windows系统下观看视频使用的流量保存为下一轮的待筛选数据组。并且，如步骤203所示，下一轮的待筛选数据组被保存后，筛选路径处理单元生成和保存相应的筛选路径。
[0050]执行第三轮筛选分析。
[0051]筛选维度为浏览器，子项为360浏览器、百度浏览器和谷歌浏览器。目标要求确定单元确定本轮筛选分析中的目标要求是寻找到浏览器维度的子项下用户使用流量的最大值，同时计算最小值，且最大值和最小值之差大于预定阈值，本轮筛选分析中预定阈值由预定阈值确定单元和历史数据库确定为各子项下最小数值的3倍数值。
[0052]通过筛选分析单元得到广东地区Windows用户使用360浏览器、百度浏览器和谷歌浏览器观看视频使用的流量分别为75T、31T和158T，天津地区Windows用户使用360浏览器、百度浏览器和谷歌浏览器观看视频使用的流量分别是12T、5T和23T，由此得到广东地区Windows用户使用流量的最大值为158Τ，最小值为31Τ，最大最小值之差为127Τ，大于预定阈值92T ；天津地区Windows用户使用流量的最大值为23T，最小值为5T，最大最小值之差为18T，大于预定阈值15T。两地区的Windows用户在该轮筛选分析中各自的子项下使用流量的最大最小值均大于预定阈值，故广东地区Windows用户使用谷歌浏览器观看视频的流量和天津地区Windows用户使用谷歌浏览器观看视频的流量满足目标要求。此时待筛选数据组生成单元将广东和天津的Windows用户在谷歌浏览器下观看视频使用的流量保存为下一轮的待筛选数据组。并且，如步骤203所示，下一轮的待筛选数据组被保存后，筛选路径处理单元生成和保存相应的筛选路径。
[0053]通过判断得到所有筛选维度下的筛选分析均执行完毕，故筛选结果为第三轮筛选分析中得到待筛选数据组，即广东和天津的Windows用户在谷歌浏览器下观看视频使用的流量。将该筛选结果保存在历史数据库中以更新历史数据库。第三轮筛选分析中筛选路径处理单元生成和保存的筛选路径可以作为下次查询该特定时间内用户观看视频的流量使用情况的组合查询的入口。
[0054]通过硬件处理器和服务平台实现相关功能并将筛选结果显示出来后，企业可以得出广东地区和天津地区的用户使用Windows系统观看视频产生的流量最多，且在Windows系统下使用谷歌浏览器观看视频产生的流量最多，并由此得出其他相应的结论，以帮助企业的相关决策，例如为了避免广东地区和天津地区使用Windows系统的用户在高峰时期观看视频产生拥堵，为其调度更多的带宽。
[0055]本实施例中的目标要求也可以是其他参考条件下的要求，例如:各地区数据的排名与历史数据库中的参考值相比变化两位以上等。例如，查找某视频网站的视频可用率为何偏低时，设定筛选维度有:地域、运营商、播放器、视频ID、观看占比。先选择地域维度展开，根据目标要求得到北京的视频可用率与过去相比变化了两位以上，选择北京对应的数据作为下一轮待筛选数据组。再选择观看占比维度进行筛选，发现没有满足目标要求的数据，故重新选择运营商维度进行筛选。根据筛选分析系统选择中国移动这一维度子项下的数据进行视频ID维度下的筛选，得到经过地域(北京)一一运营商(中国移动)一一视频ID(视频I和视频2)筛选的数据。此时选择播放器维度进行筛选，未发现满足目标要求的数据，经分析知选择北京的筛选路径有误，删除北京这一路径，得到经过运营商(中国移动)一一视频ID(视频I和视频2)筛选的数据。再次选择播放器维度，得到经过运营商(中国移动)一一视频ID(视频I和视频2)—一播放器(flash)筛选的数据，筛选分析完成。得到结论:在中国移动网络下，用flash打开的视频I和视频2的视频可用率太低，进而拉低了整个网站的视频可用率。找到拉低整个网站视频可用率的原因后，可以对其进行相应的修复，例如删除flash格式的视频I和视频2，或重新上传，以提升该网站的用户体验。
[0056]以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0057]通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如R0M/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0058]最后应说明的是:以上实施例仅用以说明本发明的技术方案，而非对其限制;尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1.一种大数据的筛选分析方法，包括多轮筛选分析，每一轮筛选分析包括: 按照一个未选择的筛选维度对待筛选数据组中的数据进行筛选分析；将满足目标要求的、对应于所述筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组；其中，所述多轮筛选分析的轮数根据筛选维度的数量和目标要求来确定。2.根据权利要求1所述的筛选分析方法，其中，在所述将满足目标要求的、对应于所述筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组后，生成和保存相应的筛选路径。3.根据权利要求2所述的筛选分析方法，其中，每一轮筛选分析能够撤回，在撤回后，所述撤回的筛选分析下已生成和保存的筛选路径被删除。4.根据权利要求1-3中任一项所述的筛选分析方法，其中，所述目标要求是所述待筛选数据组中的数据在各维度子项下对应的数值最大或最小，并且最大数值和最小数值之差的绝对值大于预定阈值;或各维度子项下数据对应的数值相对于参考值的波动范围大于预定范围。5.根据权利要求4所述的筛选分析方法，其中，所述预定阈值、参考值和预定范围根据历史数据库中的历史数据来确定，并且所述历史数据库能够根据所述多轮筛选分析后的筛选结果更新。6.—种大数据的筛选分析系统，配置以执行多轮筛选分析，所述系统包括: 筛选分析单元，配置以按照一个未选择的筛选维度对待筛选数据组中的数据进行筛选分析；目标要求确定单元，配置以提供目标要求；待筛选数据组生成单元，配置以将满足目标要求的、对应于所述筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组；其中，所述多轮筛选分析的轮数根据筛选维度的数量和目标要求来确定。7.根据权利要求6所述的筛选分析系统，其中，还包括筛选路径处理单元，配置以在所述将满足目标要求的、对应于所述筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组后，生成和保存相应的筛选路径。8.根据权利要求7所述的筛选分析系统，其中，所述筛选路径处理单元还配置以: 在每一轮筛选分析撤回后，删除所述撤回的筛选分析下已生成和保存的筛选路径。9.根据权利要求6-8中任一项所述的筛选分析系统，其中，所述目标要求确定单元提供有: 所述待筛选数据组中的数据对应的数值最大的要求；所述待筛选数据组中的数据对应的数值最小的要求;和最大数值和最小数值之差的绝对值大于预定阈值的要求;或各维度子项下数据对应的数值相对于参考值的波动范围大于预定范围的要求。10.根据权利要求9所述的筛选分析系统，其中，还包括: 预定阈值确定单元和历史数据库，所述预定阈值确定单元配置以根据所述历史数据库中的历史数据来确定预定阈值、参考值和预定范围，所述历史数据库配置以根据所述多轮筛选分析后的筛选结果更新。
【文档编号】G06F17/30GK105893408SQ201510779664
【公开日】2016年8月24日
【申请日】2015年11月13日
【发明人】张幼明, 周猛
【申请人】乐视云计算有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张幼明;周猛;
技术所有人：乐视云计算有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。