一种基于主动学习结合PNN的异常识别方法与流程

文档序号:23818645发布日期:2021-02-03 14:32阅读:86来源:国知局
一种基于主动学习结合PNN的异常识别方法与流程
一种基于主动学习结合pnn的异常识别方法
技术领域
[0001]
本发明涉及异常体征识别技术领域,特别涉及一种基于主动学习结合pnn的异常识别方法。


背景技术:

[0002]
煤矿是世界上最主要的传统能源之一,从事煤矿工作的矿工数量十分庞大,矿工不仅工作强度大,作业时间长。井下的粉尘、有毒气体、潮湿、设备噪声等恶劣作业环境都会对矿工身体健康造成严重的不良影响,使其易患多种职业病,如尘肺病,职业中毒,风湿病,噪声性耳聋等。对矿工的体征进行检测,选择出体征异常的矿工,可实现矿工职业病的早期判断,减少疾病给矿工带来的痛苦与危害。
[0003]
现阶段人工智能算法开始用于矿工职业病的辅助诊断,为矿山职工提供了多模式的职业病的防控与诊疗手段。然而,这些人工智能算法大都是监督学习算法,需要先对大量的矿工体征数据进行人工标注,不仅费时费力,还易出现标注错误的情况。有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵。因此,本申请提供了一种基于主动学习结合概率神经网络(probabilistic neural network,pnn)的异常矿工体征识别方法,针对矿工这一特殊群体进行体征的异常检测,实现矿工身体健康状态的准确、实时测量分析,完成部分职业病的前期预警及保障矿工的生命健康。


技术实现要素:

[0004]
本发明的目的在于提供一种基于主动学习结合pnn的异常识别方法,针对矿工这一特殊群体进行体征的异常检测,实现矿工身体健康状态的准确、实时测量分析,完成部分职业病的前期预警及保障矿工的生命健康。
[0005]
本发明提供了一种基于主动学习结合pnn的异常识别方法,包括以下步骤:
[0006]
s1:搭建体征分析系统;
[0007]
s2:采集体征数据导入体征分析系统;
[0008]
s3:对采集到的体征数据进行数据清洗;
[0009]
s4:将清洗后的体征数据按一定的比例随机划分成训练集和测试集;
[0010]
s5:根据主动学习算法策略标注体征数据,并建立pnn异常体征识别模型,对异常体征进行识别。
[0011]
进一步地,所述步骤s1中的体征分析系统包括中控模块、体温检测模块、脉搏检测模块、呼吸检测模块、血压检测模块、血液检测模块和心率检测模块,所述体温检测模块、脉搏检测模块、呼吸检测模块、血压检测模块、血液检测模块和心率检测模块均电连接在所述中控模块的输入端。
[0012]
进一步地,所述步骤s2中的体征数据包括体温、脉搏、呼吸率、血压、血氧饱和度和心率。
[0013]
进一步地,所述步骤s3中数据清洗的具体步骤如下:
[0014]
s31:将小于q
l-1.5iqr或大于q
u
+1.5iqr的值,划分为异常值,其中,q
l
为下四分位数,表示全部观察值中有四分之一的数据取值比它小,q
u
为上四分位数,表示全部观察值中有四分之一的数据取值比它大,iqr=q
u-q
l
为四分位数间距,是上四分位数q
u
与下四分位数q
l
的差值,包含了全部观察值的一半;
[0015]
s32:对异常数据采用箱型图进行分析;
[0016]
s33:处理清除体征分析系统采集的对识别结果造成影响的异常值,保留可靠数据。
[0017]
进一步地,所述步骤s4中,按照7:3的比例将体征数据随机划分成训练集和测试集,对测试集数据进行人工标注,训练集为未标注数据。
[0018]
进一步地,所述步骤s5中的主动学习算法主要由五部分组成:
[0019]
m=(c,q,s,l,u)
[0020]
其中,c为分类器;q为查询函数,可查询未标注矿工体征样本中信息量大的样本;u为未标注的样本集合;s为专家,拥有对未标注的样本进行标注的权利;l为初始标记样本;
[0021]
标注体征数据的方法为:学习者利用少量初始标记样本l开始学习,通过查询函数q选择出一个或一批最有用的样本,并向专家s询问标签,从未标注的样本集合u中选择为一定数量的样本进行标注,加入到训练样本集中,然后利用获得的新知识来训练分类器和进行下一轮查询。
[0022]
进一步地,所述步骤s5中主动学习结合pnn模型识别的步骤如下所示:
[0023]
s51:从训练集中随机选取k个样本,由专家s进行标注,标注的样本集合为l={χ1,χ2,

,χ
k
},剩余的样本为未标注的样本,未标注的样本集合为u={χ1,χ2,

,χ
n-k
};
[0024]
s52:将标注好的样本作输入至pnn分类器中进行训练,建立初始的异常体征识别模型;
[0025]
s53:专家s从未标注的样本集u中,以主动学习策略的查询准则q标注h个未标注的样本;
[0026]
s54:将标注好的h个样本加入训练样本集l中,返回步骤s51重新建立异常体征识别模型,不断迭代,直到满足迭代的终止条件为止;
[0027]
s55:以测试集异常特征的识别准确率取到的最大值作为训练停止的标准,并综合识别准确率和训练时间这两项评价指标,对体征数据进行分析。
[0028]
进一步地,所述步骤s52中pnn的识别步骤如下:
[0029]
s521:体征数据矩阵表示如下:
[0030][0031]
其中,工体征数据的样本个数为m个,特征属性个数n为6;
[0032]
s522:对输入的体征数据进行归一化处理,避免差异过大的数据对最终识别结果造成的影响,归一化后的样本矩阵如下:
[0033][0034]
式中,r
m
×1为归一化系数矩阵;
[0035]
s523:将归一化后的数据输入到pnn网络的输入层中,并计算需要识别的归一化样本向量与每一个归一化后训练样本的欧氏距离,欧氏距离表达式如下:
[0036][0037]
其中,c
i
为归一化的训练样本,d
j
为归一化的待识别样本;
[0038]
s524:激活模式层高斯函数的神经元,选取标准差为σ=0.1,得到概率矩阵如下:
[0039][0040]
s525:计算第i个样本属于第j类的概率,概率表达式如下:
[0041][0042]
其中,a
ij
代表被识别样本中的第i个样本属于第j类的初始概率和。
[0043]
进一步地,所述步骤s53中主动学习策略采用的熵值装袋查询法步骤如下:
[0044]
将原始训练集划分成p个训练集,将训练集用于训练模型,对未标记的样本进行预测,每个样本都对应p个标签,预测标签的信息量采用熵值度量方法,预测标签的信息量如下所示:
[0045][0046]
其中,e(x
i
)代表熵值,n
i
代表预测样本x
i
的类别数量,1≤n
i
≤n;
[0047]
如果分类器对样本的预测值最不相同时,则熵值取到最大值,将该样本加入训练集中。
[0048]
进一步地,主动学习算法主要由五部分组成:
[0049]
m=(c,q,s,l,u)
[0050]
其中,c为分类器;q为查询函数,可查询未标注矿工体征样本中信息量大的样本;u为未标注的样本集合;s为专家,可以对未标注的样本进行标注;学习者利用少量初始标记样本l开始学习,通过查询函数q选择出一个或一批最有用的样本,并向专家s询问标签,从
未标注的样本集合u中选择为一定数量的样本进行标注,加入到训练样本集中,然后利用获得的新知识来训练分类器和进行下一轮查询,主动学习是一个循环的过程,直至达到某一停止准则为止。
[0051]
与现有技术相比,本发明具有如下显著优点:
[0052]
本发明提供了一种基于主动学习结合pnn的异常识别方法,通过筛选最有价值的样本进行标记,既可降低人工标注成本,又可提高已标注样本的泛化能力。分类器能够主动选择包含信息量大的未标注的矿工体征数据并将其交由专家进行标注,然后置入训练集进行训练,从而在训练集较小的情况下获得较高的分类正确率,这样可以有效的降低构建高性能分类器的代价,提升训练效率,能取得传统监督学习算法所获得的近似分类准确率。pnn算法建模过程简单、训练速度快、分类更准确、容错性好。将主动学习与pnn算法相结合,用于体征异常矿工的识别,实现了矿工身体健康状态的高效且快速识别,完成了部分职业病的前期预警。
附图说明
[0053]
图1为本发明实施例提供的一种基于主动学习结合pnn的异常识别方法的矿工异常体征识别流程图;
[0054]
图2为本发明实施例提供的一种基于主动学习结合pnn的异常识别方法的矿工体征分析系统结构框图;
[0055]
图3为本发明实施例提供的主动学习算法流程图。
具体实施方式
[0056]
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0057]
参照图1-3,本发明提供了一种基于主动学习结合pnn的异常识别方法,包括以下步骤:
[0058]
s1:搭建能够对矿工的体征进行全面识别的矿工体征分析系统;
[0059]
s2:矿工体征分析系统采集矿工的体征数据;
[0060]
s3:对采集到的体征数据进行数据清洗;
[0061]
s4:将清洗后的矿工体征数据按一定的比例随机划分成训练集和测试集;
[0062]
s5:根据主动学习算法策略标注矿工体征数据,并建立pnn矿工异常体征识别模型,对矿工异常体征进行识别。
[0063]
其中,所述步骤s1中的矿工体征分析系统包括中控模块、体温检测模块、脉搏检测模块、呼吸检测模块、血压检测模块、血液检测模块和心率检测模块,所述体温检测模块、脉搏检测模块、呼吸检测模块、血压检测模块、血液检测模块和心率检测模块均电连接在所述中控模块的输入端。
[0064]
所述步骤s2中的矿工体征数据包括体温、脉搏、呼吸率、血压、血氧饱和度和心率。
[0065]
所述步骤s4中,按照7:3的比例将矿工体征数据随机划分成训练集和测试集,对测
试集数据进行人工标注,训练集为未标注数据。
[0066]
实施例1
[0067]
所述步骤s3中数据清洗的具体步骤如下:
[0068]
s31:将小于q
l-1.5iqr或大于q
u
+1.5iqr的值,划分为异常值,其中,q
l
为下四分位数,表示全部观察值中有四分之一的数据取值比它小,q
u
为上四分位数,表示全部观察值中有四分之一的数据取值比它大,iqr=q
u-q
l
为四分位数间距,是上四分位数q
u
与下四分位数q
l
的差值,包含了全部观察值的一半;
[0069]
s32:对异常数据采用箱型图进行分析;
[0070]
s33:处理清除矿工体征分析系统采集的对识别结果造成影响的异常值,保留可靠数据。
[0071]
实施例2
[0072]
所述步骤s5中的主动学习算法主要由五部分组成:
[0073]
m=(c,q,s,l,u)
[0074]
其中,c为分类器;q为查询函数,可查询未标注矿工体征样本中信息量大的样本;u为未标注的样本集合;s为专家,拥有对未标注的样本进行标注的权利;l为初始标记样本;
[0075]
标注矿工体征数据的方法为:学习者利用少量初始标记样本l开始学习,通过查询函数q选择出一个或一批最有用的样本,并向专家s询问标签,从未标注的样本集合u中选择为一定数量的样本进行标注,加入到训练样本集中然后利用获得的新知识来训练分类器和进行下一轮查询。主动学习是一个循环的过程,直至达到某一停止准则为止。
[0076]
所述步骤s5中主动学习结合pnn模型识别的步骤如下所示:
[0077]
s51:从训练集中随机选取k个样本,由专家s进行标注,标注的样本集合为l={x1,x2,

,x
k
},剩余的样本为未标注的样本,未标注的样本集合为u={χ1,χ2,

,χ
n-k
};
[0078]
s52:将标注好的样本作输入至pnn分类器中进行训练,建立初始的矿工异常体征识别模型;
[0079]
s53:专家s从未标注的样本集u中,以主动学习策略的查询准则q标注h个未标注的样本;
[0080]
s54:将标注好的h个样本加入训练样本集l中,返回步骤s51重新建立矿工异常体征识别模型,不断迭代,直到满足迭代的终止条件为止;
[0081]
s55:以测试集异常特征的识别准确率取到的最大值作为训练停止的标准,并综合识别准确率和训练时间这两项评价指标,对矿工体征数据进行分析。
[0082]
概率神经网络由输入层、模式层、求和层和输出层共四层组成。所述步骤s52中pnn的识别步骤如下:
[0083]
s521:矿工体征数据矩阵表示如下:
[0084][0085]
其中,工体征数据的样本个数为m个,特征属性个数n为6;
[0086]
s522:对输入的矿工体征数据进行归一化处理,避免差异过大的数据对最终识别
结果造成的影响,归一化后的样本矩阵如下:
[0087][0088]
式中,r
m
×1为归一化系数矩阵;
[0089]
s523:将归一化后的数据输入到pnn网络的输入层中,并计算需要识别的归一化样本向量与每一个归一化后训练样本的欧氏距离,欧氏距离表达式如下:
[0090][0091]
其中,c
i
为归一化的训练样本,d
j
为归一化的待识别样本;
[0092]
s524:激活模式层高斯函数的神经元,选取标准差为σ=0.1,得到概率矩阵如下:
[0093][0094]
s525:计算第i个样本属于第j类的概率,概率表达式如下:
[0095][0096]
其中,a
ij
代表被识别样本中的第i个样本属于第j类的初始概率和。
[0097]
所述步骤s53中主动学习策略采用的熵值装袋查询法步骤如下:
[0098]
将原始训练集划分成p个训练集,将训练集用于训练模型,对未标记的样本进行预测,每个样本都对应p个标签,预测标签的信息量采用熵值度量方法,预测标签的信息量如下所示:
[0099][0100]
其中,e(x
i
)代表熵值,n
i
代表预测样本x
i
的类别数量,1≤n
i
≤n;
[0101]
如果分类器对样本的预测值最不相同时,则熵值取到最大值,将该样本加入训练集中。
[0102]
实施例3
[0103]
参照图3,主动学习算法主要由五部分组成:
[0104]
m=(c,q,s,l,u)
[0105]
其中,c为分类器;q为查询函数,可查询未标注矿工体征样本中信息量大的样本;u
为未标注的样本集合;s为专家,可以对未标注的样本进行标注;学习者利用少量初始标记样本l开始学习,通过查询函数q选择出一个或一批最有用的样本,并向专家s询问标签,从未标注的样本集合u中选择为一定数量的样本进行标注,加入到训练样本集中,然后利用获得的新知识来训练分类器和进行下一轮查询,主动学习是一个循环的过程,直至达到某一停止准则为止。
[0106]
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1