一种利用半监督学习的诊断系统提供方法以及利用其的诊断系统与流程

文档序号:26009898发布日期:2021-07-23 21:29阅读:203来源:国知局
一种利用半监督学习的诊断系统提供方法以及利用其的诊断系统与流程

本发明涉及一种利用神经网络的学习方法及利用其的诊断系统。具体来说,就是利用基于监督学习的已学习系统(如疾病诊断系统等),自动对数据进行标注并生成学习数据,利用这种自动生成即自动标注的学习数据对系统进行再学习,从而提高性能的一种方法和系统。



背景技术:

利用神经网络进行深度学习(deeplearning,如利用卷积神经网络(convolutionneuralnetwork,cnn)进行深度学习的方式)的技术正被广泛运用。

利用这种深度学习进行疾病诊断的尝试也逐渐多了起来。

病理学或病理科主要工作之一就是读取患者的生物图像,所进行的诊断是判断特定疾病的状态或征兆。这种诊断是一种依赖于资深的业务熟练的医务人员的经验和知识的方式。

但是,在这类诊断领域,随着机器学习的不断发展,正在积极尝试通过计算机实现识别或分类图像等工作任务的自动化。尤其是,正在尝试利用机器学习的一种即神经网络使以往由业务熟练的医务人员执行的诊断工作实现自动化。

特别是,通过利用神经网络(例如cnn)进行深度学习的诊断并不只是使以往业务熟练的医务人员的经验和知识实现自动化,而是通过自主学习找到特征因素并找出想要的答案,有时候反而能在图像中发现业务熟练的医务人员所不了解的疾病因素的特征。

通常,通过利用生物数据(例如生物图像)的神经网络的诊断疾病是熟练掌握生物数据的医务人员对特定疾病的状态(例如癌症是否表达)进行标注(annotation),并利用这些经标注的数据作为学习数据来学习神经网络。也就是说,对用于学习的学习数据进行标注,主要利用通过已标注的学习数据进行学习的这种学习方式被称为监督学习(supervisedlearning)。

但是,这种监督学习需要用来监督学习的大量标注的学习数据。并且,生成这些大量已标注的学习数据需要熟练的专家花费相当多的时间才能完成,是一个在特性上需要高成本和时间的过程。

因此,需要一种学习方法,通过这种标注方式或多或少可节约一些学习数据的准备过程中所需的时间和费用,同时实施性能优异的学习系统(例如疾病的诊断系统)。

*现有技术文献

-专利文献

韩国注册专利10-1818074“基于人工智能的医用自动诊断辅助方法及其系统”发明的详细的说明技术型课题



技术实现要素:

技术课题

本发明想要实现的技术课题是提供一种诊断疾病的方法和系统,将使用一种基于监督学习的学习系统而诊断的结果用于再学习,从而可以提高诊断系统的诊断性能。

另外,提供一种方法和系统,其可以有效确定诊断系统决定诊断结果时所依据的数值的标准阈值。

另外,提供一种方法和系统,在对这类数值的标准阈值进行再学习后,在预定的时间点,通过重置实现更高性能的改善。

课题解决手段

为了完成上述技术课题,利用半监督学习的诊断系统提供方法包括:通过基于监督学习的神经网络而学习的诊断系统接受预定的输入数据的输入,输出所述输入数据的诊断结果的步骤;所述诊断系统生成包括了用所述诊断结果标注的所述输入数据的自动标注学习数据的步骤;以及所述诊断系统使用所生成的所述自动标注的学习数据执行再学习过程的步骤。

所述诊断系统的特征是,生成包括了用所述诊断结果标注的所述输入数据的自动标注学习数据的步骤作为所述诊断结果的基础,当体现诊断结果概率的数值大于预定的阈值时,将所述输入数据包括在所述自动标注学习数据中。

使用所述半监督学习的诊断系统提供方法进一步包括在改变所述阈值的同时,在执行所述再学习过程之后测试所述诊断系统性能的步骤,以及根据测试结果确定标准阈值的步骤。

使用所述半监督学习的诊断系统提供方法的特征是,所述诊断系统利用所述标准阈值生成所述自动标注学习数据,利用所生成的所述自动标注学习数据执行所述再学习过程,同时还可以进一步包括在执行所述再学习过程后改变所述标准阈值的步骤。

所述诊断系统的特征是将针对输入数据的包括第一判断和第二判断在内的若干诊断中的一个作为诊断结果输出,所述自动标注学习数据包括多于预设数量的标注为所述第一诊断的输入数据以及多于预设数量的标注为所述第二诊断的输入数据。

特征可以是:所述输入数据是生物数据,所述诊断结果是根据疾病表达与否或疾病的发展状态而进行分类中的至少一个。

所述方法可以通过安装在数据处理装置上的计算机程序实施。

用来解决上述技术课题的诊断系统包括处理器、储存着由所述处理器运行的程序的存储器,所述程序存储在所述存储器中,基于监督学习而学习的神经网络接受预设输入数据的输入后输出所述输入数据的诊`断结果,生成包括了用输出的所述诊断结果标注的所述输入数据的自动标注学习数据,利用所生成的自动标注的学习数据后执行所述神经网络的再学习。

所述程序成为所述诊断结果的基础,当体现诊断结果概率的数值大于预设阈值时,则可以将所述输入数据包括在所述自动标注学习数据中,在改变所述阈值的同时,测试执行再学习后的所述神经网络的性能,并根据测试结果确定标准阈值。

所述程序的特点是利用所述标准阈值生成所述自动标注学习数据,利用所生成的所述自动标注学习数据执行所述再学习过程,可以在执行所述再学习过程后改变所述标准阈值。

所述程序的特征是将针对输入数据的包括第一判断和第二判断在内的若干诊断中的一个作为诊断结果输出,所述自动标注学习数据包括多于预设数量的标注为所述第一诊断的输入数据以及多于预设数量的标注为所述第二诊断的输入数据。

发明的效果

根据本发明的技术思想,为诊断疾病,将基于监督学习的经学习的系统所诊断的结果用于再学习,从而可以更有效地执行需要大量费用和时间进行标注的标注过程。另外,通过这种再学习还能有效改善诊断系统的诊断性能。

另外,随着再学习的性能改善,能更有效地确定诊断系统确定诊断结果时所依据的数值的标准阈值,从而有助于再学习后诊断系统性能的提高。

另外,通过在再学习后预设的时间点将这些数据的标准阈值进行重置,从而能够更有效地实现性能的改善。

附图说明

为了更充分地了解本发明详细阐述中引用的附图,提供各附图的简要说明。

图1是实施本发明的技术思想所涉及的利用半监督学习的诊断系统提供方法的系统结构的简要示意图。

图2是本发明实施例涉及的诊断系统的简要结构示意图。

图3是本发明实施例涉及的神经网络的简要诊断方式的示意图。

图4是本发明实施例涉及的设定标准阈值的标准的示意图。

图5是本发明实施例涉及的标准阈值重置方式的示意图。

具体实施方式

本发明可以进行多种转换,可以有多种实施例,将在图纸上举例说明特定实施例,并在详细说明中进行具体阐述。但是,这并不是要将本发明限定于特定的实施形式,而应理解为包含在本发明思想及技术范围内的所有转换、等价物或替代物。在对本发明进行说明时,当认为有关已知技术的具体说明会使本发明的要点反而更加含糊时,则省略详细说明。

第一、第二等术语可以用于对各种组件的说明,但所述组件不能被所述术语限制。所述各术语仅用于将一个组件与其他组件区分开来。

本申请中使用的术语只是用于说明特定实施例,并不是要限制本发明。单数的表达包括复数的表达,除非上下文中有明显不同的意思。

本说明书中“包含”或“具有”等术语是指说明书中记载的特征、数字、步骤、动作、组件、零件或它们的组合的存在,应理解为并不是事先排除一个或多个其他特征、数字、步骤、动作、组件、零件或它们的组合的存在或附加可能性。

另外,在本说明书中,一个组件将数据“传输”到另一个组件时,则意味着所述组件可以直接将所述数据传输到所述其他组件,也可以通过至少一个其他组件将所述数据传输到所述其他组件。相反,如果任意一个组件将数据“直接传输”到另一个组件,则意味着所述数据将从所述组件传输到其他组件,而非通过其他组件。

以下将参照附图并围绕本发明的实施例对本发明进行详细阐述。每个图形中提供的相同参考符号代表相同的部件。

图1是实施本发明的技术思想涉及的利用半监督学习的诊断系统提供方法的系统结构的简要示意图。

参考图1,为了实施本发明技术思想涉及的利用半监督学习的诊断系统提供方法,可以实施基于监督学习(supervisedlearning)的经学习的诊断系统100。

所述诊断系统100可以是一种根据本发明的技术思想的,输入预设的输入数据并输出诊断结果,基于监督学习的经学习的系统。

例如,所述诊断系统100可以是以监督学习为基础进行学习,输入预设的生物数据(例如生物图像)后,通过学习的神经网络将所述生物数据按预定类别(例如根据疾病的表达与否或疾病的进展程度进行分类)进行分类,并将该结果作为诊断结果输出。

所述诊断系统100只要能够执行本说明书中定义的功能,就可以通过多种数据处理系统(例如计算机、服务器、智能手机或专用设备等)实施。

所述诊断系统100可以利用大量的学习数据进行学习。具备预设神经网络的系统(100-1)输入所述大量学习数据(s10)后进行学习(s20),从而所述诊断系统100得到实施。

所述学习数据可以是期望的诊断系统100为输出诊断结果而预先标注的数据。标注可以是与诊断系统100输出的诊断结果相应的信息。

当所述诊断系统100只是单纯地接受输入数据(例如生物图像)的输入,然后将该输入数据中疾病是否表达作为诊断结果输出的系统时,那么所述标注所指的是在大量数据(例如生物图像)的每一个数据中标记疾病表达与否的信息。

另外,当所述诊断系统100是将疾病的进展程度(例如疾病为前列腺癌时的格里森评分)作为诊断结果输出的系统时,那么所述标注所指的是在大量数据(例如生物图像)的每一个数据中标记疾病的进展程度。

无论在何种情况下,都可以根据所标注的信息独立定义所述诊断系统100输出的诊断结果。

利用这种经标注的学习数据进行了学习的诊断系统100的性能可能取决于学习数据的数量和质量。

但是,特别是为了在疾病诊断中使用经学习的诊断系统100,这些标注必须由在查看输入数据和诊断结果后能够做出判断的业务熟练的医务人员进行,并且还要在足够多的学习数据中进行这样的标注。

因此,使用本发明技术思想所涉及的半监督学习的诊断系统提供方法为了缓解这些问题,在一定程度上实施了基于监督学习的经学习的诊断系统100之后,再将所述诊断系统100的诊断结果设置为与所述诊断结果相对应的输入数据的标注结果。

例如,基于监督学习的经学习的所述诊断系统100输入特定的输入数据后(s100),所述诊断系统100可以输出诊断结果(s110)。

然后,所述特定输入数据可以设定为所述诊断结果所标注的数据。

这样,由基于监督学习的经学习的诊断系统100将诊断结果设定为输入数据的标注结果,通过将所述诊断系统100的诊断结果将经标注的数据定义为自动标注的学习数据。

这些自动标注学习数据可以作为所述诊断系统100的再学习的学习数据(s120)。也就是说,所述诊断系统100可以利用所述自动标注学习数据进行再学习。

另一方面,所述诊断系统100输出诊断结果的所有输入数据可能并不是全都被用作自动标注学习数据。也就是说,正如后面所述,因为自动标注学习数据被作为用于所述诊断系统100再学习的数据,所以所述自动标注学习数据的标注结果必须是可靠的。

因此,所述自动标注学习数据可能被限制为所述诊断系统100输出预定的诊断结果时,输出一定概率以上的所述诊断结果时的输入数据。

与这些概率相对应的数值可以由所述神经网络设计,通过所述诊断系统100中包含的神经网络的最终层之前的层输出,也可以是通过实施例中涉及的由所述神经网络的最终层输出所述数值来实施。不管是在何种情况下,包括在所述诊断系统100中的神经网络的至少一层可以被设计和学习,以在输出最终诊断结果之前输出确定诊断结果的基础数值。

那么,所述诊断系统100可以在所述数值高于预定阈值的情况下,将所述第一诊断结果(例如疾病表达或疾病进展程度等第一类)作为诊断结果输出(归类输入数据),在低于阈值的情况下,将第二诊断结果(可以归类为诊断结果的多个类别中的第二类)作为诊断结果输出。

根据另一个实施例,所述诊断系统100可以独立于作为诊断结果分类标准的数值标准,单独定义作为自动标注学习数据标准的阈值。

例如,当数值是一定的值(例如0.8)以上,可输出第一诊断结果,但作为自动标注学习数据使用的标准阈值可设为0.85。也就是说,在归类为第一诊断结果的输入数据中,只有所述阈值为0.85以上的输入数据才能被用作所述自动标注学习数据。

在任何情况下,当所述诊断系统100输入的输入数据被所述诊断系统100归类为预定的诊断结果时,所述阈值可以成为是否将所述输入数据用作自动标注学习数据的判断标准。

而且,可以将作为自动标注学习数据使用标准的阈值定义为标准阈值。所述标准阈值可以决定自动标注学习数据中包含的数据,所确定的所述自动标注学习数据可以用于所述诊断系统100的再学习,因此,标准阈值会对执行再学习后的所述诊断系统100的性能产生很大影响。

根据实施例,成为所述诊断结果基础的数值可以与所述诊断系统100可输出的诊断结果(例如多个类别)中体现第一诊断结果(例如多个类别中的第一类)准确度的概率相对应。但是,根据实施例,所述自动标注学习数据中不止包括分类为第一诊断结果的输入数据,还可能包括分类为其他诊断结果(例如多个类别中非第一类的其他类别)的输入数据。因此,不一定是标准阈值越高,再学习后的诊断系统100的性能改善程度就越高。

因此,根据本发明的技术思想,所述标准阈值也可以由所述诊断系统100决定。

所述诊断系统100可以设定多个阈值,并根据所设定的多个阈值中的每一个指定用于再学习的多个自动标注学习数据集。每个自动标注学习数据都可以被指定为包含多个诊断结果的标注数据,每个数据都大于预先设定的个数。当然,根据实施例,虽然只有某一个作为诊断结果的标注数据才能被指定为所述自动标注学习数据,但一般来说,为每个诊断结果准备具有程度相似的比重的学习数据会对学习性能产生更好的效果,因此可以定义所述自动标注学习数据集,以使包含在所述自动标注学习数据中的多个诊断结果(即归类的类别)分别标注的数据大于事先确定的个数。

而且,可以利用这些多个不同的学习数据集分别重新学习诊断系统100。为此,当然也可以提前准备多个与所述诊断系统100相同的神经网络。

而且,可以使用再学习的多个诊断系统100中每个系统各自的预定义测试数据集进行性能评估。而且,根据性能评估的结果,可以将再学习后性能最好的情况下的阈值确定为标准阈值。

一旦确定了这些标准阈值,所述诊断系统100就可以根据标准阈值生成多个自动标注学习数据。而且,当预定个数以上的自动标注学习数据生成时(此时的数量大于用来确定标准阈值的自动标注学习数据的数量)。利用自动标注学习数据,所述诊断系统100可以进行再学习。

进行再学习的诊断系统100与再学习前的诊断系统100相比,具有更好的性能。

而且,和再学习前诊断系统100相比,具有这样经改善的性能的所述诊断系统100是一种构成神经网络的多个参数都发生了变化的系统。因此,继续利用现有的标准阈值生成再次进行再学习的自动标注学习数据可能是不可取的。因此,优选的是,对于再学习后的所述诊断系统100,如前所述,通过执行重新确定标准阈值的过程,改变重新再学习时要使用的自动标注学习数据分类标准。

为了实施这些技术思想,诊断系统100的简要结构如图2所示。

图2是本发明实施例涉及的诊断系统的简要结构的示意图。

参考图2,所述诊断系统100可以包括如图2所示的配置。

诊断系统10可以包括处理器110和存储器120。所述诊断系统100是指具有实施本发明技术思想的计算能力的数据处理装置,通常可以通过网络、客户端可访问的数据处理装置以及个人计算机、移动终端等能够执行特定服务的任何设备实现,这很容易由本发明技术领域的普通专家推论出来。

所述处理器110可以指能够驱动实现本发明技术思想的程序121的运算装置,而所述处理器110可利用所述程序121和本发明技术思想定义的神经网络(nerualnetwork,123)执行诊断。所述神经网络可以是卷积神经网络,输入生物数据(例如图像)后可以通过学习的神经网络输出诊断结果。

所述程序121可以指为了通过监督学习使神经网络123得到学习或利用学习的神经网络123执行诊断而定义的软件。

所述存储器120可以指储存所述程序121和神经网络123的数据存储手段,也可以根据实施例通过多种存储手段实施。另外,所述存储器120所指的除了包括在所述诊断系统100中的主存储器外,还可能是可以包括在所述处理器110中的临时存储器或内存等。

所述诊断系统100在图2中所示的是由任意一种物理设备实施的,但也可根据需要,可以由多个物理设备有机结合在一起来实现本发明技术思想涉及的诊断系统100,这很容易由本发明技术领域的普通专家推论出来。

以下,本说明书中的所述诊断系统(例如100)执行预定功能指的是诊断系统(例如100)中配备的处理器(例如110)使用所述程序(例如121)执行预定功能。

本说明书中,所述诊断系统100执行诊断可以是指输入生物数据后输出本说明书中定义的输出数据(例如诊断结果)的一系列处理过程。

所述诊断系统100可以按预定的单位单元输入生物数据。例如,单位单元可以是像素单位,也可以是图像块或幻灯片单位。

诊断系统100的诊断结果可以是根据疾病类型的单纯的疾病表达与否或与其相应的值(例如概率等),也可以是疾病表达情况下体现疾病状态程度的状态信息。

例如,如后述,将本发明的技术思想应用于前列腺癌的诊断时,则显现前列腺癌进展程度的指标“格里森模式(gleasonpattern)”或“格里森评分(gleasonscore)”可以包含在所述状态信息中。例如,格利森模式具有的分值为2到5,数字越大,说明前列腺癌表达的程度就越严重。因此,所述状态信息可能包括成为诊断对象的图像块所对应的生物组织对应格里森模式的特定值(例如3、4或5)的概率的信息或与正常(即疾病未表达的情况)相对应的概率的信息。

在任何情况下,所述诊断系统100都可以通过所学习的神经网络123执行将输入数据分类为预设诊断结果的功能。

为了对这样的诊断结果进行分类,根据一个实施例,如上所述,所述诊断系统100中包含的神经网络123可以在确定最终诊断结果前输出预定的数值。

这一实施例如图3所示。

图3是本发明实施例涉及的神经网络的简要诊断方式的示意图。

参考图3,所述神经网络123可以包括众所周知的输入层(inputlayer)、隐含层(hiddenlayer)和输出层(outputlayer),如上所述。

所述输出层可以输出诊断结果,即将输入数据分类为预先确定的类别之一的结果,这些输出层之前的层可以设计为输出至少一个预定的数值。那么,输出层可以根据所述数值确定诊断结果并输出。

此时,所述数值可以作为确定诊断结果的标准,也可以作为生成本发明的实施例涉及的自动标注学习数据的标准,如前述所示。例如,当所述数值大于等于第一值时,则所述神经网络123可以将输入数据分类为第一诊断结果。另外,在分类为所述第一诊断结果的输入数据中,所述数值必须大于等于第二值,才能将所述输入数据包括在自动标注学习数据中。

当然,根据实施例,所述第一值和所述第二值可以设为相同,在这种情况下,可以用上述确定标准阈值的方式确定第二值,即,不仅能确定是否将输入数据纳入自动标注学习数据的标准,同时还可以确定对诊断结果进行分类的标准数值。

图4是本发明实施例涉及的设定标准阈值标准的示意图。

参考图4,所述诊断系统100可以根据多个阈值指定互不相同的多个自动标注学习数据集。

于是,所述诊断系统100可以利用多个自动标注学习数据集中的每一个来评估所述诊断系统100再学习时的性能。

性能评估可以根据评估学习模式的性能的准确度(accuracy)、精密度(precision)、灵敏度(sensitivity)和特异性(specificity)等代表性标准中的至少一个来进行。

所述准确度(accuracy)、精密度(precision)、灵敏度(sensitivity)和特异性(specificity)必须都得到改善才能被认为性能有所改善,但根据需要,也可能只以其中一个或部分为重点进行性能评估。

因为根据输入数据的类型或神经网络的设计示例,准确度(accuracy)、精密度(precision)、灵敏度(sensitivity)和特异性(specificity)中的部分多少可能会有一定的权衡关系,每个性能中最重要的性能指标可能会因实施例而异。

当然,当评估标准中包括多个标准时,则可以根据事先设定的权重因子评价综合性能。

在这种方式下,经过再学习的诊断系统100中的每一性能得到评估后,与拥有最高性能的自动标注学习数据相对应的阈值即可成为标准阈值。

图5是本发明的实施例涉及的标准阈值重置方式的示意图。

参考图5,如上所述,探索并确定标准阈值(s200)后,诊断系统100可以根据标准阈值生成预先确定的有意义数量的自动标注学习数据。当然,此时的所述诊断系统100可以是为了确定标准阈值而已经再学习的诊断系统100,也可能是之前的诊断系统100,即没有再学习的系统。

而且,当按照预设的数量生成所述自动标注学习数据,则所述诊断系统100可以利用生成的自动标注学习数据进行再学习(s210)。所述自动标注学习数据可能必须满足可分类为诊断结果的每个诊断(所有类别)的预设数据的个数或预设比例范围内的数据个数存在的条件。

利用进行了再学习的所述诊断系统100,根据新的输入数据执行预设数量的诊断。并且,当诊断进行到重新探索标准阈值的程度时,就可以按上述方法重新探索新的标准阈值并确定。另外,利用新的标准阈值再次生成一定数量以上的自动标注学习数据,则所述诊断系统100可以进行再学习,从而得到改善,具有更高的性能。

利用本发明实施例涉及的半监督学习的诊断系统提供方法可以作为计算机可读代码在计算机可读的记录介质上实现。计算机可读的记录介质包括存储计算机系统可读数据的所有类型的记录设备。计算机可读记录介质例如rom、ram、cd-rom、磁带、硬盘、软盘和光数据储存装置等。此外,计算机可读的记录介质分布在联网的计算机系统中,可以以分布方式存储和运行计算机可读的代码。并且,用于实施本发明的功能性(functional)程序、代码和各代码段是很容易由本发明技术领域程序员推论出来的。

本发明参考图示的一个实施例进行了说明,但仅仅是举例说明,应该理解为只要掌握本技术领域的常规知识就可以由此进行各种变化和同等的其他实施例。因此,本发明真正的权利要求范围应该由后附的注册权利要求范围的技术思想来定。

工业利用可能性

本发明可应用于“利用半监督学习的诊断系统提供方法及利用此方法的诊断系统”。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1