本发明属于数据处理方法,涉及一种在高斯混合模型数据学习中避免浮点溢出的方法。
背景技术:
高斯混合模型(gaussianmixturemodel)是一个重要而常用的聚类、概率密度拟合方法。在使用高斯混合模型对数据进行建模训练学习的过程中,如果数据数值分布差异的绝对范围极小(这并不意味着数据靠近某常数值发生微小扰动,而有可能是数据本身绝对值都很小,这时候它们的扰动幅度绝对值也较小,而相对数据本体来说扰动较大)、数据又是高维度矢量,很容易造成正态分布概率密度值的溢出。这里的溢出是指在计算机程序中使用常规的双精度double格式数据的溢出,这是浮点数溢出。
高斯混合模型的训练学习依赖于期望最大算法(em),具体做法如下:
对d维矢量数据
此处n表示参与学习的数据数目总数。
每支高斯分布的表示式
技术实现要素:
为了克服已有高斯混合模型对数据进行建模训练学习中无法避免浮点数溢出的不足,本发明提供了一种有效避免浮点溢出的在高斯混合模型数据学习中避免浮点溢出的方法,采用一个自适应的方法对数据
本发明解决其技术问题所采用的技术方案是:
一种在高斯混合模型数据学习中避免浮点溢出的方法,对
所述方法包括以下步骤:
1)计算对数形式的概率密度值
2)对n支算出的
3)计算缩放的概率密度值:
其中,σkimax表示n支高斯分布里取到概率密度值最大的那一支高斯分布的第k维分量的方差,
4)转成指数形式
5)计算这一组概率密度值决定的后验概率值
以上诸pi'值是有界的,不再溢出;但又不影响到
本发明的有益效果主要表现在:在使用期望最大算法进行高斯混合模型的数据学习和训练时,能够避免任意一个数据
附图说明
图1是一种在高斯混合模型数据学习中避免浮点溢出的方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种在高斯混合模型数据学习中避免浮点溢出的方法,对
所述方法包括以下步骤:
1)计算对数形式的概率密度值
2)对n支算出的
3)计算缩放的概率密度值:
其中,σkimax表示n支高斯分布里取到概率密度值最大的那一支高斯分布的第k维分量的方差,
4)转成指数形式
5)计算这一组概率密度值决定的后验概率值
以上诸pi'值是有界的,不再溢出;但又不影响到