数据分类装置及方法和利用该装置及方法的数据收集系统的制作方法

文档序号:8282321阅读:188来源:国知局
数据分类装置及方法和利用该装置及方法的数据收集系统的制作方法
【技术领域】
[0001] 本发明涉及一种数据分类技术,尤其涉及一种数据分类装置以及方法和利用该装 置及方法的数据收集系统。
【背景技术】
[0002] 为了对某些数据进行分类,需要明确该数据的标签。因此,当数据的标签(label) 不太明确且仅由类(class)所属度来表示时,难以对数据进行分类。例如,如下面的表1所 示,当针对服务器的性能数据,用类所属度表示与服务器的故障的关联性程度时,难以确定 将该性能数据分类为异常(Abno rmal :A)还是正常(Normal :N)。
[0003] 表 I
[0004]
【主权项】
1. 一种数据分类装置,其中,包括: 群集化单元,针对包括类所属度W及由至少一个属性值构成的向量的多个分类对象数 据,反映所述类所属度而对所述向量进行群集化;W及 分类模型生成单元,根据被群集化的结果对所述多个分类对象数据进行标记,利用被 标记的所述分类对象数据生成分类模型。
2. 根据权利要求1所述的数据分类装置,其中,所述数据分类装置还包括群集参数确 定单元,该群集参数确定单元对在对所述分类对象数据的各向量进行一次群集化时的群集 参数值进行最优化, 所述群集化单元利用所述群集参数值W及所述类所属度,对所述分类对象数据的向量 进行再群集化。
3. 根据权利要求2所述的数据分类装置,其中,所述群集参数确定单元根据群集内所 述向量的相似度是否超过已设定的值且群集之间的距离是否超过已设定的值来最优化所 述群集参数值。
4. 根据权利要求2所述的数据分类装置,其中,所述群集化单元通过下面的数学式对 所述多个分类对象数据的向量进行再群集化, 数学式 PDF' =PDFX等级所属度n 其中,PDF为该群集方法的概率密度函数,n为类所属度的影响度,PDF'为反映了该分 类对象数据的类所属度的新的概率密度函数。
5. 根据权利要求1所述的数据分类装置,其中,所述分类模型生成单元W各分类对象 数据是否包含在群集来进行二元分类而对各分类对象数据进行标记。
6. 根据权利要求1所述的数据分类装置,其中,所述数据分类装置还包括验证所生成 的所述分类模型的准确度的验证单元。
7. 根据权利要求6所述的数据分类装置,其中,所述验证单元利用测试数据的类所属 度值来对多个测试数据进行标记,并且将被标记的所述测试数据代入到所述分类模型,从 而计算所述分类模型的准确度。
8. 根据权利要求7所述的数据分类装置,其中,当所述分类模型的准确度未到达目标 性能时,所述群集化单元调整所述类所属度的反映程度,对多个分类对象数据的向量进行 再群集化。
9. 根据权利要求7所述的数据分类装置,其中,所述验证单元根据所述测试数据的基 于标记的分类结果和所述测试数据的基于所述分类模型的分类结果的一致程度,计算所述 分类模型的准确度。
10. 根据权利要求1所述的数据分类装置,其中,所述数据分类装置还包括通信单元, 所述通信单元从数据收集单元接收输入数据,根据将所接收的输入数据代入到所述分类模 型而进行分类的结果,将数据收集周期变更信号传输至所述数据收集单元。
11. 根据权利要求1所述的数据分类装置,其中,基于所述分类对象数据的发生时刻和 特定事件之间的时间差的关联度来计算所述类所属度。
12. 根据权利要求1所述的数据分类装置,其中,所述类所属度通过下面的数学式计 算, 数学式
其中,X为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a w及b为 补偿系数。
13. -种数据分类方法,其中,包括如下的步骤: 针对包括类所属度W及由至少一个属性值构成的向量的多个分类对象数据,反映所述 类所属度而对所述向量进行群集化; 根据被群集化的结果对所述多个分类对象数据进行标记;W及 利用被标记的所述分类对象数据生成分类模型。
14. 根据权利要求13所述的数据分类方法,其中,进行所述群集化的步骤包括: 对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化;W及 利用所述群集参数值W及所述类所属度,对所述分类对象数据的向量进行再群集化。
15. 根据权利要求14所述的数据分类方法,其中,在最优化所述群集参数值的步骤中, 根据群集内所述向量的相似度是否超过已设定的值且群集之间的距离是否超过已设定的 值来最优化所述群集参数值。
16. 根据权利要求14所述的数据分类方法,其中,在进行所述再群集化的步骤中,通过 下面的数学式对所述多个分类对象数据的向量进行再群集化, 数学式 PDF' =PDFX等级所属度n 其中,PDF为该群集方法的概率密度函数,n为类所属度的影响度,PDF'为反映了该分 类对象数据的类所属度的新的概率密度函数。
17. 根据权利要求13所述的数据分类方法,其中,在对所述多个分类对象数据进行标 记的步骤中,W各分类对象数据是否包含在群集来进行二元分类而对各分类对象数据进行 标记。
18. 根据权利要求13所述的数据分类方法,其中,在生成所述分类模型的步骤之后,还 包括验证所生成的所述分类模型的准确度的步骤。
19. 根据权利要求18所述的数据分类方法,其中,验证所述分类模型的准确度的步骤 包括: 利用测试数据的类所属度值来对多个测试数据进行标记;W及 将被标记的所述测试数据代入到所述分类模型,从而计算所述分类模型的准确度。
20. 根据权利要求19所述的数据分类方法,其中,在计算所述分类模型的准确度的步 骤之后,还包括如下的步骤:当所述分类模型的准确度未到达目标性能时,调整所述类所属 度的反映程度,对多个分类对象数据的向量进行再群集化。
21. 根据权利要求19所述的数据分类方法,其中,在计算所述分类模型的准确度的步 骤中,根据所述测试数据的基于标记的分类结果和所述测试数据的基于所述分类模型的分 类结果的一致程度,计算所述分类模型的准确度。
22. 根据权利要求13所述的数据分类方法,其中,在生成所述分类模型的步骤之后,还 包括如下的步骤:
从数据收集单元接收输入数据;w及 根据将所接收的输入数据代入到所述分类模型而进行分类的结果,将数据收集周期变 更信号传输至所述数据收集单元。
23. 根据权利要求13所述的数据分类方法,其中,基于所述分类对象数据的发生时刻 和特定事件之间的时间差的关联度来计算所述类所属度。
24. 根据权利要求13所述的数据分类方法,其中,所述类所属度通过下面的数学式计 算, 数学式
其中,X为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a W及b为 补偿系数。
25. -种数据收集系统,其中,包括: 数据分类装置,针对包括类所属度W及由至少一个属性值构成的向量的多个分类对象 数据,反映所述类所属度而对所述向量进行群集化,根据被群集化的结果对所述多个分类 对象数据进行标记,利用被标记的分类对象数据生成分类模型;W及 数据收集装置,W预定周期收集数据进而传输至所述数据分类装置, 其中,所述数据收集装置根据被收集的数据基于所述分类模型被分类的结果,来变更 数据的收集周期。
26. 根据权利要求25所述的数据收集系统,其中,当被收集的数据被分类为故障时,所 述数据收集装置缩短所述数据的收集周期。
27. 根据权利要求25所述的数据收集系统,其中,基于所述分类对象数据的发生时刻 和特定事件之间的时间差的关联度来计算所述类所属度。
28. 根据权利要求25所述的数据收集系统,其中,所述类所属度通过下面的数学式计 算, 数学式
其中,X为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a W及b为 补偿系数。

【专利摘要】本发明公开数据分类装置及方法和利用该装置及方法的数据收集系统。根据本发明的一实施例的数据分类方法包括如下的步骤:针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映类所属度而对向量进行群集化;根据被群集化的结果对多个分类对象数据进行标记;以及利用被标记的分类对象数据生成分类模型。
【IPC分类】G06F17-30
【公开号】CN104598500
【申请号】CN201310693281
【发明人】申东民, 李在英
【申请人】三星Sds株式会社
【公开日】2015年5月6日
【申请日】2013年12月17日
【公告号】US20150120639, WO2015064829A1
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1