技术简介:
本专利针对传统脱发诊断依赖医生经验、效率低且易误诊的问题,提出基于跨域半监督学习的智能诊断系统。通过融合图像分类模型、患者历史就诊数据及疾病知识图谱,利用少量标注数据与多源无标签数据协同训练,实现脱发类型与阶段的精准识别,提升诊断准确性与全面性。
关键词:脱发诊断,半监督学习,知识图谱
1.本发明涉及一种基于跨域半监督学习的人体脱发类型与阶段识别系统。
背景技术:2.脱发问题是现当下城市人口面临一项广泛健康问题。现有的诊断方法主要为基于问诊的人工脱发诊断。传统的脱发问题的病理性诊断强烈依赖于专业医师的判断,病人必须前往专门的医疗机构,并通过一系列繁琐的诊疗流程才能获得诊断和治疗建议。并且,基于传统的问诊脱发诊断方式使一般病人难以支付专业的医疗护理的费用,并享受服务。同时,繁琐的诊疗流程使得一系列初期的脱发疾病无法在初期被发现,这也使得病情因为诊疗不及时而恶化。
技术实现要素:3.本发明提供了一种基于跨域半监督学习的人体脱发类型与阶段识别系统解决上述提到的技术问题,具体采用如下的技术方案:
4.一种基于跨域半监督学习的人体脱发类型与阶段识别系统,包含:
5.分类模块,用于接收待分析的图片并通过训练好的分类模型对输入的图像进行分类;
6.分析模块,用于接收分类模块的分类结果、就诊历史序列和疾病知识图谱,并通过训练好的分析模型综合分析输出分析结果;
7.其中,对分类模型进行训练的方法为:
8.收集训练图像数据,训练图像数据为若干不同脱发程度的图像;
9.采用半监督学习的方法对分类模型进行训练;
10.采用多源领域泛化的方法对分类模型进行训练;
11.采用课程学习的方法对分类模型进行训练。
12.进一步地,训练图像数据包含p个数据集每个数据集包含具有n
p
个样本的有标记数据集和具有m
p
个样本的无标记数据集其中xi代表第i张图像,yi代表第i张图像对应的标签,xj代表第j张图像。
13.进一步地,标签是图像对应的脱发情况和严重程度。
14.进一步地,采用半监督学习的方法对分类模型进行训练的具体方法为:
15.对有标签的样本进行有监督训练,对xi进行前向预测得到每个类别概率p=f(xi;θ),并将其预测值pi与真实标签yi进行对比,通过反向传播修正预测误差;
16.对没有标签的样本,在训练阶段,对样本进行一次强随机增强变换和一次弱随机变换,
17.[0018][0019]
对两次变换后的数据分别进行前向预测得到每个类别概率和和若弱变换的预测置信度高于阈值τ,则将其预测结果作为伪标签,并使用该伪标签对强变换预测结果进行修正。
[0020]
进一步地,在采用半监督学习的方法对分类模型进行训练的过程中,使用交叉熵作为训练的损失函数。
[0021]
进一步地,采用多源领域泛化的方法对分类模型进行训练的具体方法为:
[0022]
将分类模型在不同数据源上联合训练;
[0023]
对分类模型进行正则化操作。
[0024]
进一步地,采用课程学习的方法对分类模型进行训练的具体方法为:
[0025]
将样本的置信度作为样本的难易的判断依据,置信度越高,样本越容易,置信度越低,样本越难,置信度越高,样本的权重越大。
[0026]
进一步地,对分析模型进行训练的具体方法为:
[0027]
收集患者的历史诊断的文本记录,筛选出患者的就诊历史中的诊断结果、诊疗意见和就诊时间;
[0028]
将就诊历史转化为一个长度为l的三元组序列其中每一个元素为一个三元组s=(就诊时间,就诊结果,诊疗意见);
[0029]
构建脱发疾病相关的疾病知识图谱g,图上的每一个节点代表一种脱发疾病类型,每一条边代表着两个疾病之间的相互转移概率;
[0030]
搭建分析模型,分析模型包含两个图卷积神经网络gnn
hist
和gnng,其中gnn
hist
负责处理就诊历史三元组数据s,并输出一个历史信息特征h
hist
,gnng负责处理疾病知识图谱g,并输出疾病知识特征hg;
[0031]
将历史信息特征h
hist
,疾病知识特征hg和分类模型的分类结果pi进行向量的合并操作输出统一向量hi=concat([h
hist
,hg,pi]),通过一个线性层对最终的分析诊断结果进行预测;
[0032]
使用真实诊断标签对分析模型进行训练,参数通过梯度下降的方法进行更新得到训练好的分析模型。
[0033]
进一步地,筛选出患者的就诊历史中的诊断结果、诊疗意见和就诊时间的具体方法为:
[0034]
构建医疗关键词词典;
[0035]
通过正则表达式技术,在历史诊断的文本记录中匹配到符合关键字要求的关键词。
[0036]
本发明的有益之处在于所提供的基于跨域半监督学习的人体脱发类型与阶段识别系统,能通过利用少量有标记数据和大量多源无标签数据进行脱发阶段识别,结合医疗皮肤诊断的专业知识,对患者进行准确全面的分析。
附图说明
[0037]
图1是本发明的一种基于跨域半监督学习的人体脱发类型与阶段识别系统的示意
图。
具体实施方式
[0038]
以下结合附图和具体实施例对本发明作具体的介绍。
[0039]
如图1所示为本技术的一种基于跨域半监督学习的人体脱发类型与阶段识别系统。主要包含:分类模块和分析模块。
[0040]
其中,分类模块用于接收待分析的图片并通过训练好的分类模型对输入的图像进行分类。分析模块用于接收分类模块的分类结果、就诊历史序列和疾病知识图谱,并通过训练好的分析模型综合分析输出分析结果。
[0041]
在本技术中,为了提高分类模型的分类效率,采用了综合的方法对分类模型进行训练。
[0042]
具体而言,对分类模型进行训练的方法为:
[0043]
收集训练图像数据,训练图像数据为若干不同脱发程度的图像。
[0044]
采用半监督学习的方法对分类模型进行训练。
[0045]
采用多源领域泛化的方法对分类模型进行训练。
[0046]
采用课程学习的方法对分类模型进行训练。
[0047]
作为一种优选的实施方式,训练图像数据包含p个数据集每个数据集包含具有n
p
个样本的有标记数据集和具有m
p
个样本的无标记数据集其中xi代表第i张图像,yi代表第i张图像对应的标签,xj代表第j张图像。其中,标签是图像对应的脱发情况和严重程度。可以理解的是,在本技术中,标注数据来源于多个社会植发机构的过往脱敏患者诊断照片和多家医院的有诊断信息的患者诊疗照片,真实准确。于此同时,无标注数据来源于互联网爬虫收集的头发及人脸数据和来源于公开数据集的头发及人脸数据。
[0048]
本技术的一个目的是利用多个数据集中的有标签和无标签样本训练得到一个具有较好分类效果的模型其中θ是模型参数,g是模型的特征提取器,t是分类器。
[0049]
作为一种优选的实施方式,采用半监督学习的方法对分类模型进行训练的具体方法为:
[0050]
对有标签的样本进行有监督训练,模型首先对xi进行前向预测得到每个类别概率pi=f(xi;θ),并将其预测值pi与真实标签yi进行对比,通过反向传播修正预测误差。
[0051]
在训练过程中,使用交叉熵(crossentropy)作为训练的损失函数,
[0052]
l
sup
(pi,yi)=-ey[logpi]
[0053]
通过梯度下降算法,可以求得该损失对每一个参数的梯度值。然后通过梯度对参数进行更改,使得损失函数最小化,
[0054][0055]
式中的η代表着参数更新的学习率。
[0056]
对没有标签的样本,在训练阶段,需要对样本进行两次数据变换,包含一次强随机增强变换和一次弱随机变换,分别如下式,
[0057][0058][0059]
对两次变换后的数据分别进行前向预测得到每个类别概率和和若弱变换的预测置信度高于阈值τ,则将其预测结果作为伪标签,并使用该伪标签对强变换预测结果进行修正,如下,
[0060][0061]
其中,是阈值函数,即当时输出1否则输出0。这一过程主要使用置信度较高的预测值当作伪标签对分类模型进行训练,同时保证不同变换之后的预测一致性。此时,我们再次使用前述的损失函数进行梯度下降,然后通过梯度对参数进行更改,使得损失函数最小化,
[0062][0063]
每一次迭代结束后,使用加权平均的方式更新分类模型。给定一个加权平均参数γ,使用梯度下降之后的参数和前一步的参数进行加权求和,如下所示,
[0064]
θ
new
=γ
θ
+(1-γ)θ
new
[0065]
通过上述处理,提升分类模型的泛化能力。
[0066]
作为一种优选的实施方式,采用多源领域泛化的方法对分类模型进行训练的具体方法为:
[0067]
将分类模型在不同数据源上联合训练。此过程等价于上述中有监督训练过程,只不过需要在多个不同数据上进行联合训练。
[0068]
具体地,给定k个不同的数据源得到的有标签数据使用联合数据集对模型进行有监督训练。在每个训练轮次中,从联合数据集采样出k个样本输入模型得到预测概率其中每个数据集中采样出一个样本在训练过程中,再次使用多个样本的交叉熵(crossentropy)的和作为训练的损失函数对模型进行更新,
[0069][0070]
通过梯度下降算法,可以求得该损失对每一个参数的梯度值。然后通过梯度对参数进行更改,使得损失函数最小化,
[0071][0072]
式中的η代表着参数更新的学习率。
[0073]
对分类模型进行正则化操作。对分类模型进行正则化操作的具体方法为:
[0074]
对不同源的同类类别数据,保证其特征空间属于同一分布。对于有样本数据,不同数据源的来的数据之间有一定的差别。我们希望能学习得到一个统一的特征空间来减小数
据源不同所引起的数据差距。
[0075][0076][0077]
对于不同源的两个同类数据xi和xj,减小其特征空间的l2距离。
[0078]
作为一种优选的实施方式,采用课程学习的方法对分类模型进行训练的具体方法为:
[0079]
将样本的置信度作为样本的难易的判断依据,置信度越高,样本越容易,置信度越低,样本越难,置信度越高,样本的训练权重越大。该过程采用同样的有监督学习方式。使用预测概率pi的β幂次对每一个样本进行加权,损失函数如下,
[0080][0081]
这样的损失函数设计能保证较为简单的样本能被首先学习到。这样,从易到难对样本进行打分与学习,筛选出低质量的数据,使得模型不会过于关注有噪声样本或者低质量样本。
[0082]
在给定的图像预测结果的基础上,希望结合病人的历史就诊数据和专业的皮肤科医疗知识对病人进行综合诊断。在该过程中我们需要训练得到一个分析模型f
′
(pi,s,g;π),它将图像预测概率pi,诊断历史序列s和脱发医疗知识图谱g作为输入,输出一个当前的综合的分析诊断结果。π是该模型的参数。将脱发诊断问题转化成为一个条件概率推断问题。
[0083]
该分析模型获得过程如下:
[0084]
首先,收集患者的历史诊断的文本记录,通过关键词检测技术首先筛选出患者的就诊历史中的诊断结果、诊疗意见和就诊时间。可以理解的是,不同的脱发疾病之间有较强的相关性。脱发存在一定的阶段性,程度由轻变重。不同类型的脱发也可能相互转化,例如可能从m型脱发转向综合型脱发。
[0085]
在该过程中,我们首先和医生沟通构建医疗关键词词典,然后通过正则表达式技术,在医疗文本中找到符合关键字要求的关键词。诊断结果指对当前病情的定型判断的字符串,如严重/一般/轻微/无脱发等。诊疗意见指对当前病情所提出的治疗手段字符串,例如服用某某药物/进行某某手术治疗/加强运动等。就诊时间指做出诊疗判断的当天日期,例如某年某月某日。
[0086]
然后,将就诊历史转化为一个长度为l的三元组序列即就诊历史序列,其中每一个元素为一个三元组s=(就诊时间,就诊结果,诊疗意见)。该序列概括了该病人的历史情况。
[0087]
接着,通过专家医生的协助,构建脱发疾病相关的疾病知识图谱g,图上的每一个节点代表一种脱发疾病类型,每一条边代表着两个疾病之间的相互转移概率。该图谱由专业医师进行构造。
[0088]
分析模型包含两个图卷积神经网络gnn
hist
和gnng。其中gnn
hist
负责处理就诊历史三元组数据s,并输出一个历史信息特征h
hist
。gnng负责处理疾病知识图谱g,并输出疾病知识特征hg[0089]hhist
=gnn
hist
(s),hg=gnng(g)
[0090]
我们将历史信息特征h
hist
,疾病知识特征hg和分类模型的分类结果,即输出概率pi进行向量的合并操作输出统一向量hi=concat([h
hist
,hg,pi])。通过一个线性层对最终的分析诊断结果进行预测,
[0091][0092]
最后,使用真实诊断标签对该分析模型进行训练,参数通过梯度下降的方法进行更新得到训练好的分析模型。
[0093][0094][0095]
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。