1.一种配置数据信息自动识别与归类方法,其特征在于,包括:
(1)采用配置数据信息集合建立基础语料库,并进行预处理;
(2)对的预处理后的基础语料库进行特征提取,并建立特征语料库;
(3)将配置数据信息进行分词,并将分词后的结果与所述特征语料库中的特征词进行匹配;
(4)对匹配成功的数据信息进行质量评估。
2.根据权利要求1所述的配置数据信息自动识别与归类方法,其特征在于,步骤(1)中,所述预处理操作包括:去除配置数据信息集中的无任何配置意义的数据和计算每个配置数据信息的加权值。
3.根据权利要求2所述的配置数据信息自动识别与归类方法,其特征在于,所述计算每个配置数据信息的加权值具体通过tf-idf算法对每个配置数据信息进行计算,一个配置数据信息的tf-idf值越大,则表明这个配置信息所述数据信息集中越重要。
4.根据权利要求1所述的配置数据信息自动识别与归类方法,其特征在于,所述配置数据信息包括服务器设备、网络设备、存储设备、操作系统的配置属性、台账属性、物理信息和运行数据,所述台账属性包括投运日期、维保信息、资产信息、厂家、型号、序列号、负责人,所述物理信息包括机房位置、机柜位置、u位,所述运行数据包括硬件运行状态和性能数据。
5.根据权利要求1所述的配置数据信息自动识别与归类方法,其特征在于,所述配置数据信息集合建立基础语料库采用hdfs的分布式存储。
6.根据权利要求1所述的配置数据信息自动识别与归类方法,其特征在于,步骤(4)中,所述质量评估包括将匹配错误的分类进行改正,包括重新划分特征词分类和多个特征词之间建立的匹配关系以及将未匹配到的特征词进行补充,扩展特征语料库。
7.根据权利要求1所述的置数据信息自动识别与归类方法,其特征在于,步骤(3)中,所述将分词后的结果与所述特征语料库中的特征词进行匹配包括将分词后的结果与特征词的配置信息进行匹配,所述配置信息包括特征词的加权值、特征词分类和特征词匹配模式。
匹配的方法采用将目标数据采用分词技术进行分词处理,然后将提取的特征与语料库进行匹配;当匹配命中时记录该词分类和词加权值,当某一类词加权值累加值越高时,该目标数据越倾向这个类别,并按照词加权值累加值由高到低,对分类进行排序。
8.一种配置数据信息自动识别与归类系统,其特征在于,包括:
数据日志采集模块,用于采用配置数据信息集合建立基础语料库,并进行预处理;
机器学习与数据挖掘模块,用于对的预处理后的基础语料库进行特征提取,并建立特征语料库;
匹配模块,用于将配置数据信息进行分词,并将分词后的结果与所述特征语料库中的特征词进行匹配;
业务分析模块,用于对匹配成功的数据信息进行质量评估。
9.根据权利要求8所述的配置数据信息自动识别与归类系统,其特征在于,数据日志采集模块中,所述预处理操作包括:去除配置数据信息集中的无任何配置意义的数据和计算每个配置数据信息的加权值。
10.根据权利要求9所述的配置数据信息自动识别与归类系统,其特征在于,所述计算每个配置数据信息的加权值具体通过tf-idf算法对每个配置数据信息进行计算,一个配置数据信息的tf-idf值越大,则表明这个配置信息所述数据信息集中越重要。