一种基于万有引力定律的分类方法与流程

文档序号：11865378阅读：273来源：国知局

本发明涉及模式识别领域，特别是涉及一种基于万有引力定律的分类方法。

背景技术：

模式识别是对表征事物或现象的各种形式的信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程。模式识别所研究的理论和方法在很多科学和技术领域中得到了广泛的重视，目前已成功应用于指纹识别、印刷体字符识别、语音识别、车牌识别、人脸识别、手写体字符识别、自动文本分类、多媒体数据挖掘等领域。

模式识别的研究领域主要包括模式的特征提取方法及模式的分类方法。目前，经典的模式分类方法如最近邻分类器、最小距离分类器等，都是基于距离测度的分类方法。采用这类分类器在识别多类问题时，其模式识别的正确率较低，制约了相关领域的发展。

技术实现要素：

发明目的：本发明的目的是提供一种能够提高模式识别正确率的基于万有引力定律的分类方法。

技术方案：为达到此目的，本发明采用以下技术方案：

本发明所述的基于万有引力定律的分类方法，包括以下步骤：

S1：读入训练样本；

S2：计算各类别均值向量：

$<mrow> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>n</mi> <mi>i</mi> </msub> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </munderover> <msub> <mi>X</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

式(1)中，u_i为第i类的均值向量，n_i为第i类训练样本的个数，X_ij为第i类

第j个训练样本，i≥1；

S3：计算各类别的方差：

$<mrow> <msub> <mi>r</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>n</mi> <mi>i</mi> </msub> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

式(2)中，r_i为第i类的方差；

S4：计算各类别的质量：

M_i＝r_i (3)

式(3)中，M_i为第i类的质量；

S5：计算待识别样本与各类别的万有引力：

$<mrow> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>M</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

式(4)中，F_i为待识别样本与第i类的万有引力，R_i为待识别样本与第i类的均值向量u_i的距离；

S6：找出各类万有引力中最大的万有引力所对应的类别，将待识别样本判别为与最大万有引力所对应的类别同类。

有益效果：本发明采用万有引力模型，通过模拟物体间万有引力的大小进行分类，克服了传统分类方法仅依赖距离测度来进行分类所带来的问题，能够显著提高模式识别的正确率。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步的介绍。

万有引力定律揭示了天体运动的规律，在天文学上和宇宙航行计算方面有着广泛的应用。万有引力定律的表示如下：任意两个质点有通过连心线方向上的力相互吸引。该引力大小与它们质量的乘积成正比与它们距离的平方成反比，与两物体的化学组成和其间介质种类无关。

在模式分类时，如果我们将不同的类别聚集的区域看作是自然界的天体时，就可以模拟计算出他们之间的万有引力。将待识别样本加入到该天体系统时，该待识别样本也将受到各个天体的引力作用。显然，该待识别样本将被引力最大的天体俘获，因此，该待识别样本与对其引力最大的天体为同一种类别，这样就完成了对待识别样本的分类识别任务。

在传统的模式分类识别方法中，各个类别与待识别样本之间的距离比较容易得到，因此，本发明的核心是如何模拟计算各类别及待识别样本的质量。本发明采用各类别训练样本的方差来推测各类的质量，其原理是：当某类别的训练样本方差较大时，说明该类别的引力影响范围较大，则可以推测出该类的质量较大。对于待识别样本的质量，则都取为简单的单位质量，这样计算最方便。

本发明的基于万有引力定律的分类方法，如图1所示，包括以下步骤：