大数据信息分析方法

文档序号:9506257阅读:1050来源:国知局
大数据信息分析方法
【技术领域】
[0001]本发明涉及电数据信息处理领域,更具体而言,涉及一种大数据信息分析方法方法和装置。
【背景技术】
[0002]随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的中心,云计算、大数据正在成为一种趋势和潮流。包括存储容量、可用性、I/O性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V:Volume (大量),数据量持续快速增加;Velocity(高速),数据I/O速度更快;Variety(多样),数据类型和来源多样化;Value (价值),其存在各方面的可用价值。由于大数据中包含海量的信息,在对海量信息中的可用数据资源进行分布式的大数据分析和挖掘是最优选方式。然而,现有技术中的分布式数据系统和相关联的数据库不能满足于日益增长的数据量和分析挖掘需求,而且数据处理效率不够高,响应不够及时,因为其不能够有效地获得、存储、管理、挖掘和分析这种特征的数据,难以体现数据处理的准确性、及时性和灵活性。
[0003]因此,为了能够迎接大数据时代的挑战,提高大数据分析的准确性、及时性和灵活性,特别是提高分析结果的准确性、及时性和灵活性并改善其质量,本领域中需要一种能够有效解决上述技术问题的大数据信息分析方法。

【发明内容】

[0004]本发明的目的之一是提供一种大数据信息分析方法及其装置,通过该方法和执行该方法的装置,能够迎接大数据时代的挑战,提高大数据分析的准确性、及时性和灵活性。
[0005]本发明为解决上述技术问题而采取的技术方案为:一种大数据信息分析方法,其特征在于包括以下步骤:在步骤S1中,确定数据分析目标和计划;在步骤S2中,根据确定的数据分析目标和计划,创建基于大数据的分析架构;在步骤S3中,数据准备和处理;在步骤S4中,对数据进行聚类,并对数据分析;以及在步骤S5中,对结果进行测试、验证、评估和部署。
[0006]根据本发明的另一个方面,其中针对不同数据具有的不同特征、特性和/或属性来挖掘分析要求和属性对象。分析架构可以是基于大数据的特性的任意形式的架构。数据准备和处理包括步骤:为了处理数据,先传载数据;存储数据;将数据转换为一种形式,该形式是一对二进制格式的值;获取数据的标识符及对应的描述;每隔预定的时间段更新数据,但需确保不能传载所有的数据。对数据进行聚类以及分析包括步骤:识别相关联的数据;确定每个待处理的数据点;使用聚类机器学习算法来减少数据量;使用该聚类机器学习算法来分析数据集;对数据进行聚类以及分析进一步包括以下步骤:针对每个待处理的数据点,生成一对二进制格式的值;一对二进制格式的值进一步包括聚类标识符并且对应于该数据点的坐标值;为每个聚类生成输入的和;发送与相同的聚类有关的值;将聚类的结果存储为不相关的数据。
[0007]根据本发明的再一个方面,提供了一种执行上述方法中步骤的装置。
【附图说明】
[0008]在附图中通过实例的方式而不是通过限制的方式来示出本发明的实施例,其中:
[0009]根据本发明的实施例,图1图示了一种大数据信息分析方法的流程图。
[0010]根据本发明的实施例,图2图示了数据准备和处理的流程图。
[0011]根据本发明的实施例,图3图示了对数据进行聚类以及分析的流程图。
【具体实施方式】
[0012]在下面的描述中,参考附图并以例示的方式示出几个具体的实施例。将理解的是:可设想并且可做出其他实施例而不脱离本公开的范围或精神。因此,以下详细描述不应被认为具有限制意义。
[0013]根据本发明的实施例,图1例示了一种大数据信息分析方法的流程图。
[0014]首先,在步骤S1中,确定数据分析目标和计划。因为不同的数据具有不同的特征、特性和/或属性,例如社交媒体的大数据基于人与人之间的交互;军事新闻的大数据隐含或集中了军用武器或军事动向的数据;社会新闻的大数据反映了舆论导向和包括自媒体发布人员的意识倾向;针对某一个国家、地区或研究机构的技术新闻的大数据包含了其研究重点、人员和资金投入情况、产出效率、可能应用范围以及对研究和应用领域的引领作用/影响,等等。针对这些上下文背景,需要有针对不同数据的挖掘分析要求和属性对象,从而可以增强大数据分析的针对性,为之后的聚类分析的准确性奠定坚实的基础。
[0015]其次,在步骤S2中,根据确定的数据分析目标和计划,创建基于大数据的分析架构。因为不同的数据具有不同的特征、特性和/或属性,所以基于此,可针对性的结合其来搭建架构。该架构可基于任意的架构,例如但不限于:可采用中央数据处理架构,或者分布式数据处理架构,当然也可以采用其它形式的架构,但前提是基于大数据的特性。
[0016]再次,在步骤S3中,数据准备和处理。根据本发明的实施例,图2图示了数据准备和处理的流程图。数据的准备工作能够为后续分析提供保障,具体而言,在上述步骤S3中,数据准备和处理具体而言包括以下步骤:S31,为了处理数据,先传载数据;S32,存储数据;S33,将数据转换为一种形式,该形式是一对二进制格式的值;S34,获取数据的标识符及对应的描述;S35,每隔预定的时间段更新数据,但需确保不能传载所有的数据,该时间段可根据需要或者数据特点来人工或机器自动设置。通过上述步骤,数据得以进行初步处理,为准确分析作准备。
[0017]再次,在步骤S4中,对数据进行聚类,并对数据分析。根据本发明的实施例,图3图示了对数据进行聚类以及分析的流程图。具体而言,在步骤S4中,对数据进行聚类以及分析包括以下步骤:S41,识别相关联的数据;S42,确定每个待处理的数据点;S43,使用聚类机器学习算法来减少数据量;S44,使用该聚类机器学习算法来分析数据集;S45,针对每个待处理的数据点,生成一对二进制格式的值;S46,一对二进制格式的值进一步包括聚类标识符并且对应于该数据点的坐标值;S47,为每个聚类生成输入的和;S48,发送与相同的聚类有关的值;S49,将聚类的结果存储为不相关的数据。通过上述步骤,基于大数据所获得的数据被详细分析,从而极大地提高了大数据分析的准确性。优选地,在步骤S42中,机器学习算法例如可以是均值算法。
[0018]再次,在步骤S5中,对结果进行测试、验证、评估和部署。具体地,在步骤S5中,对结果进行测试、验证、评估和部署的方式是任意的,可采用现有的和以后开发的各种方式。
[0019]通过以上处理,大数据的信息分析方法能够完全迎接大数据时代的挑战,提高大数据分析的准确性、及时性和灵活性。
[0020]将理解的是:可以硬件、软件或硬件和软件的组合的形式实现本发明的示例和实施例。如上所述,可存储任何执行这种方法的主体,以易失性或非易失性存储的形式,例如存储设备,像R0M,无论可擦除或可重写与否,或者以存储器的形式,诸如例如RAM、存储器芯片、设备或集成电路或在光或磁可读的介质上,诸如例如CD、DVD、磁盘或磁带。将理解的是:存储设备和存储介质是适合于存储一个或多个程序的机器可读存储的示例,当被执行时,所述一个或多个程序实现本发明的示例。经由任何介质,诸如通过有线或无线连接载有的通信信号,可以电子地传递本发明的示例,并且示例适当地包含相同内容。
[0021]应当注意的是:因为本发明解决了以上所述的技术问题,采用了计算机和通信领域中技术人员在阅读本说明书之后可根据其教导所能理解的技术手段,并获得了所述的技术效果,所以在所附权利要求中所请求保护的方案属于专利法意义上的技术方案。另外,因为所附权利要求要求保护的技术方案可以在工业中制造或使用,因此该技术方案具备实用性。
[0022]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应包涵在本发明的保护范围之内。除非以其他方式明确陈述,否则公开的每个特征仅是一般系列的等效或类似特征的一个示例。因此,本发明的保护范围应该以权利要求书的保护范围为准。
【主权项】
1.一种大数据信息分析方法,其特征在于包括以下步骤: 在步骤S1中,确定数据分析目标和计划; 在步骤S2中,根据确定的数据分析目标和计划,创建基于大数据的分析架构; 在步骤S3中,数据准备和处理; 在步骤S4中,对数据进行聚类,并对数据分析;以及 在步骤S5中,对结果进行测试、验证、评估和部署。2.如权利要求1所述的方法,其中针对不同数据具有的不同特征、特性和/或属性来挖掘分析要求和属性对象。3.如权利要求2所述的方法,其中步骤S2中的分析架构可采用中央数据处理架构,或者分布式数据处理架构。4.如权利要求2所述的方法,其中步骤S2中的分析架构可以是基于大数据的特性的任意形式的架构。5.如之前任一项权利要求所述的方法,其中数据准备和处理包括以下步骤: S31,为了处理数据,先传载数据; S32,存储数据; S33,将数据转换为一种形式,该形式是一对二进制格式的值; S34,获取数据的标识符及对应的描述;以及 S35,每隔预定的时间段更新数据,但需确保不能传载所有的数据。6.如权利要求5所述的方法,其中对所述时间段可根据需要或者数据特点来人工或机器自动设置。7.如权利要求1-4中任一项所述的方法,其中在步骤S4中,对数据进行聚类以及分析包括以下步骤: S41,识别相关联的数据; S42,确定每个待处理的数据点; S43,使用聚类机器学习算法来减少数据量;以及 S44,使用该聚类机器学习算法来分析数据集。8.如权利要求7所述的方法,其中在步骤S4中,对数据进行聚类以及分析进一步包括以下步骤: S45,针对每个待处理的数据点,生成一对二进制格式的值; S46,一对二进制格式的值进一步包括聚类标识符并且对应于该数据点的坐标值; S47,为每个聚类生成输入的和; S48,发送与相同的聚类有关的值;以及 S49,将聚类的结果存储为不相关的数据。9.如权利要求7或8中任一项所述的方法,其中在步骤S42中,机器学习算法是均值算法。10.一种用于实现权利要求1-9中任一项所述的大数据信息分析方法的系统,包括用于实现每个步骤的各个装置。
【专利摘要】本发明提供了一种大数据信息分析方法以及装置,该方法包括以下步骤:在步骤S1中,确定数据分析目标和计划;在步骤S2中,根据确定的数据分析目标和计划,创建基于大数据的分析架构;在步骤S3中,数据准备和处理;在步骤S4中,对数据进行聚类,并对数据分析;以及在步骤S5中,对结果进行测试、验证、评估和部署。通过本发明的分析方法和装置,能够迎接大数据时代的挑战,提高大数据分析的准确性、及时性和灵活性。
【IPC分类】G06F17/30
【公开号】CN105260448
【申请号】CN201510650437
【发明人】杨立波
【申请人】成都博元时代软件有限公司
【公开日】2016年1月20日
【申请日】2015年10月10日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1