一种互联网环境下大数据分类预处理方法及系统的制作方法

文档序号:10687057阅读:431来源:国知局
一种互联网环境下大数据分类预处理方法及系统的制作方法
【专利摘要】本发明涉及一种大数据分类预处理方法及系统,特别涉及一种互联网环境下大数据分类预处理方法,属于数据挖掘领域。本发明采用互联网中多类别的网络数据组成较完备的预处理的基础数据集,先通过降维等操作,实现数据的精简;然后通过对该数据集中不同类型数据分别进行分析和预处理,得到用于分类的数据集,为实现进一步的分类做好数据准备。
【专利说明】
一种互联网环境下大数据分类预处理方法及系统
技术领域
[0001]本发明涉及一种大数据分类预处理方法及系统,特别涉及一种互联网环境下大数据分类预处理方法,属于数据挖掘领域。
【背景技术】
[0002]随着现代社会的不断进步,尤其是互联网的快速发展,各类网络资源数量呈现出数量巨大、种类繁多、变化迅速等特点。互联网已进入大数据时代。目前互联网应用环境中大数据除了数量庞大外,非结构化数据占的比重越来越大,资源数量线性增量增长。如此繁杂的网络资源中只有10%的数据是真正可以被利用的。因此,快速定位有效数据,实现对资源的自动分类,是解决该问题的关键方法之一。然而,传统的存储及分类算法无法满足互联网应用环境中大数据的分类要求。如何快速、准确地实现互联网应用环境中大数据的自动分类,已经成为当前数据技术研究的热点。而预处理技术是解决大数据分类问题的基础。
[0003]本专利针对互联网应用环境中大数据自动分类的预处理问题进行研究。重点研究基于Hadoop平台的互联网应用环境中大数据的预处理技术。通过本专利的研究,不仅能实现互联网应用环境中大数据分类,还可以为互联网应用环境中大数据的信息检索和挖掘提供有效的基础技术。

【发明内容】

[0004]本发明的目的是提出了一种互联网环境下大数据分类预处理方法及系统。
[0005]本发明的目的是通过下述技术方案实现的。
[0006]本发明提出的一种互联网环境下大数据分类预处理方法,其特征在于:其包括以下操作步骤:
[0007]步骤一、互联网环境下大数据分类预处理方法的数据获取。
[0008]对互联网中不同类型的网络数据进行采集,并进行降维处理。
[0009]步骤二、互联网环境下大数据分类预处理方法的预处理,形成系统可以直接处理的数据。
[0010]所述预处理包括除噪。
[0011]—种互联网环境下大数据分类预处理系统,包括:数据获取模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块。
[0012]所述数据获取模块的主要功能是:对互联网中不同类型的网络数据进行采集,并进行降维处理;
[0013]所述信息抽取模块的主要功能是:从输入的互联网中抽取出文本信息、图像信息、视频?目息、首频?目息;
[0014]所述文本预处理模块的主要功能是:对文本信息进行分词、特征提取、权重计算等预处理:
[0015]所述图像预处理模块的主要功能是:对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理;
[0016]所述视频预处理模块的主要功能是:对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理;
[0017]所述音频预处理模块的主要功能是:对音频信息进行前端预处理、特征提取、识别等预处理。
[0018]其连接关系为:
[0019]数据获取模块的输出端分别与信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块的输入端连接;信息抽取模块的输出端分别与文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块的输入端连接;文本预处理模块的输出端与外部设备中的文本分析模块的输入端连接;图像预处理模块的输出端与外部设备中的图像分析模块的输入端连接;视频预处理模块的输出端与外部设备中的视频分析模块的输入端连接;音频预处理模块的输出端与外部设备中的音频分析模块的输入端连接。
[0020]有益效果
[0021]本发明提出的一种互联网环境下的大数据分类预处理方法及系统,与已有方法和系统比较,有以下创新:采用互联网中多类别的网络数据组成较完备的预处理的基础数据集,先通过降维等操作,实现数据的精简;然后通过对该数据集中不同类型数据分别进行分析和预处理,得到用于分类的数据集。为实现进一步的分类做好数据准备。
【附图说明】
[0022]图1为本发明【具体实施方式】中待检测设备舵机(6)的主视图;
【具体实施方式】
[0023]为了进一步说明本发明的目的和优点,下面结合附图和具体实施例对本发明。
[0024]本实施例中的互联网环境下大数据分类预处理方法,其包括以下操作步骤:
[0025]步骤一、互联网环境下大数据分类预处理方法的数据获取。
[0026]对互联网中不同类型的网络数据进行采集,并进行降维处理。
[0027]步骤二、互联网环境下大数据分类预处理方法的预处理,形成系统可以直接处理的数据
[0028]所述预处理包括除噪。
[0029]基于上述互联网环境下大数据分类预处理方法的预处理系统,其结构框架如图1所示,包括:数据获取模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块。
[0030]所述数据获取模块的主要功能是:对互联网中不同类型的网络数据进行采集,并进行降维处理;
[0031]所述信息抽取模块的主要功能是:从输入的互联网中抽取出文本信息、图像信息、视频?目息、首频?目息;
[0032]所述文本预处理模块的主要功能是:对文本信息进行分词、特征提取、权重计算等预处理;
[0033]所述图像预处理模块的主要功能是:对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理;
[0034]所述视频预处理模块的主要功能是:对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理;
[0035]所述音频预处理模块的主要功能是:对音频信息进行前端预处理、特征提取、识别等预处理。
[0036]以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种互联网环境下大数据分类预处理方法,其特征在于:其包括以下操作步骤: 步骤一、互联网环境下大数据分类预处理方法的数据获取; 对互联网中不同类型的网络数据进行采集,并进行降维处理; 步骤二、互联网环境下大数据分类预处理方法的预处理,形成系统可以直接处理的数据;所述预处理包括除噪。2.一种互联网环境下大数据分类预处理系统,其特征在于:其包括:数据获取模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块; 所述数据获取模块的主要功能是:对互联网中不同类型的网络数据进行采集,并进行降维处理; 所述信息抽取模块的主要功能是:从输入的互联网中抽取出文本信息、图像信息、视频?目息、首频?目息; 所述文本预处理模块的主要功能是:对文本信息进行分词、特征提取、权重计算等预处理; 所述图像预处理模块的主要功能是:对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理; 所述视频预处理模块的主要功能是:对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理; 所述音频预处理模块的主要功能是:对音频信息进行前端预处理、特征提取、识别等预处理; 其连接关系为: 数据获取模块的输出端分别与信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块的输入端连接;信息抽取模块的输出端分别与文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块的输入端连接;文本预处理模块的输出端与外部设备中的文本分析模块的输入端连接;图像预处理模块的输出端与外部设备中的图像分析模块的输入端连接;视频预处理模块的输出端与外部设备中的视频分析模块的输入端连接;音频预处理模块的输出端与外部设备中的音频分析模块的输入端连接。
【文档编号】G06F17/30GK106055557SQ201610308773
【公开日】2016年10月26日
【申请日】2016年5月12日
【发明人】张晓丹, 梁冰, 王莉, 白海燕
【申请人】中国科学技术信息研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1