用于创建指示医疗状况的存在的分类器的方法和装置与流程

文档序号:11208752阅读:407来源:国知局
用于创建指示医疗状况的存在的分类器的方法和装置与流程

本发明的一些实施例涉及用于确定受试者中的医疗状况的存在的方法和装置。具体地,尽管不是排他地,但本发明的一些实施例涉及用于确定受试者中癌症(包括前列腺癌)的存在的方法和装置。本发明的一些实施例涉及用于创建指示受试者中的医疗状况的存在的分类器的方法和装置。

背景

前列腺癌是全世界男性的第二大常见疾病,每年约有1,111,000例新发病例。当许多患有膀胱流出症状的男性被发现有升高的血清psa水平时,经常针对前列腺癌对他们进行研究。然而,psa水平缺乏特异性,因此,这些男性必须经受侵入性测试以确认或反驳前列腺癌的诊断。在许多情况下,没有发现癌症。这往往使人担心,而不是放心,并且可能会跟进重复的psa水平测量的无休止的循环。当前,psa在大多数国家并不被认为是诊断标志物并且尚未被批准用于筛查项目。膀胱癌是全世界第9大常见癌症,并且治理是最昂贵的。没有生物标志物被批准用于随访,并且进行的重复的膀胱镜检查是侵入性的、昂贵的并且并不是没有风险。炎症性肠疾病(ibd)是由肠道中的异常免疫应答引起的慢性胃肠疾病,而肠易激综合征(ibs)是没有已知原因的消化道疾病。对于可用于诊断和筛查包括前列腺癌、前列腺癌、ibd和ibs在内的医疗状况的更好的生物标志物存在迫切的临床需求。这样将节省健康护理提供者的钱,减轻患者痛苦,并还将加快患者急需的治疗。

本发明的实施例的目的在于至少缓解现有技术的一个或更多个问题。

发明陈述

根据本发明的方面,提供了如所附权利要求中所阐述的方法和装置。

根据本发明的方面,提供了确定受试者中的医疗状况的存在的方法,包括:接收指示来自受试者的样本中的挥发性有机化合物的概况的色谱数据;将色谱数据与参考色谱数据匹配;使用一个或更多个预定尺度的墨西哥帽小波变换从色谱数据中提取一个或更多个预定特征;以及使用分类器确定所提取的特征是否指示受试者中的医疗状况的存在。

附图简述

现在将参考附图仅通过示例对本发明的实施例进行描述,其中:

图1示出了根据本发明的实施例的方法;

图2示出了根据本发明的实施例的系统;

图3示出了色谱数据的图示;

图4示出了根据本发明的实施例的反演的色谱数据的图示;

图5示出了根据本发明的实施例的预处理的色谱数据;

图6示出了根据本发明的实施例的归一化的色谱数据;

图7示出了根据本发明的实施例的对齐的色谱数据;

图8示出了根据本发明的实施例的选择用于数据对齐的参考色谱样本的方法;

图9示出了根据本发明的实施例的对齐色谱数据的方法;

图10示出了根据本发明的实施例的对于色谱数据确定的小波系数;

图11示出了根据本发明的实施例的变换的色谱数据;

图12示出了根据本发明的实施例的确定受试者中的医疗状况的存在的方法;以及

图13示出了根据本发明的实施例的对齐所接收的色谱数据的方法。

发明的实施例的具体描述

图1图示了根据本发明的实施例的方法100。方法100是创建指示受试者是否具有一种或更多种医疗状况的分类器的方法。医疗状况可包括一种或更多种癌症(包括膀胱癌和/或前列腺癌)、肠易激疾病(ibd)、肠易激综合征(ibs)、一种或更多种预定细菌(诸如,艰难梭菌(c-dif))的存在、一种或更多种预定寄生虫的存在、一种或多种预定真菌的存在。方法100是用于创建分类器并将分类器储存在计算机可读介质(诸如,非暂时性计算机可读介质)中的基于计算机的方法。

该方法可由根据如图2中所图示的本发明的实施例的装置200执行。装置200包括控制单元210,该控制单元包括处理单元220和存储器单元230。装置210被布置为从感测单元240接收色谱数据。色谱数据指示从受试者采集或获取的样本中的挥发性化合物的存在。样本可以是来自受试者的呼吸、尿液或粪便的样本,但是将意识到该列表并不详尽。

感测单元可包括一个或更多个金属氧化物(mo)传感器。感测单元240可以与诸如wo/2011/061308中所述的装置相关联,其通过引用并入本文以用于所有目的。装置200可包括耦合到一个或更多个传感器的气相色谱柱。该柱可以与用于根据预定方案加热柱的炉相关联。

色谱数据可借助于专用通信信道(即,直接电连接)或借助于在一个或更多个计算机网络上形成的通信信道,在感测单元240和控制单元210之间传送。色谱数据可在控制单元210处以一个或更多个文件的形式被接收,每个文件都包括对于相应样本的色谱数据。

为了产生色谱数据,样本可根据预定方案来加热。方案可在从样本采样预定体积的气体之前定义在一个或更多个预定温度下加热样本的一段时间。

炉的初始温度可保持在40℃13.4分钟,以5℃/分钟的速率升温至100℃,保持30分钟,并使用10℃/分钟的温度斜坡冷却至40℃。将意识到可使用用于炉加热的其它方案。

mo传感器的电阻在一段时间内被确定。色谱数据可包括指示一个或更多个mo传感器在预定间隔(诸如,0.5秒)处的电阻的数据,但是将意识到可使用其它间隔。

图3图示了根据本发明的实施例的色谱数据。图3包括来自相应样本的色谱数据的多个项的曲线图。色谱数据是随着时间(x轴)绘制的,并指示传感器在每个相应的采样时间处的电阻(y轴)。在步骤105中,色谱数据由控制单元210接收。色谱数据可被储存在控制单元210的存储器单元230中。

为了创建指示受试者是否具有一个或更多个医疗状况的分类器,来自多个样本的色谱数据由具有相应的一个或更多个医疗状况的受试者提供。如将解释的,分类器基于来自这些受试者的色谱数据。因此,来自具有一个或更多个医疗状况的多个样本的一组色谱数据在步骤105中被接收。另一组色谱数据由不具有一个或更多个医疗状况的多个样本提供,该另一组色谱数据可被称为对照组色谱数据。

在步骤110中,在步骤105中接收的色谱数据的电阻信号被反演,以便于使用代谢组学工具对它们进行处理。该反演使用以下数学方程式对每个样本单独执行:

x=|x-(max(x)+1)|

其中,x包含为单个样本登记的电阻值。图4包括反演的色谱数据的曲线图。

在步骤120中,所接收的色谱数据被处理。步骤120包括基线移除过程。基线是色谱数据的基线电阻水平。基线可作为多数或仅由流动相发挥作用。流动相是通过气相色谱柱携带代谢物的气体。在一些实施例中,气体可以是合成气体。阈值也可在步骤120中被确定。在一些实施例中,色谱数据的基线通过最小二乘拟合过程被移除。

在一些实施例中,步骤120还包括确定电阻阈值。电阻阈值被定义为来自样本的色谱数据的平均电阻值减去其电阻值的标准偏差。然后,低于电阻阈值的任何电阻值被设置为可以为零的预定值。图5图示了根据步骤120的实施例处理的色谱数据。

在步骤130中,对于每个样本的色谱数据的值被归一化。在一个实施例中,样本的电阻值通过将它们的值除以为特定样本登记的最高电阻值来被归一化。图6图示了根据步骤130的实施例处理的色谱数据。

在步骤140中,参考色谱样本被选择用于数据对齐。步骤140包括从通过步骤130提供的色谱数据中选择参考色谱数据。在一些实施例中,选择参考色谱数据包括确定指示每对色谱数据之间的相关性的系数。如本领域技术人员将认识到的,该系数可以是皮尔森积矩相关系数,通常被称为皮尔森系数。

图8中图示了根据本发明的实施例选择用于对齐色谱数据的参考色谱的方法700。

参照图8,在步骤705中,创建了包含实验状况1中的所有样本(例如,癌症样本)的两个列表。这些列表中的一个可被命名为样本列表参考(samplelistref),而第二列表可被命名为样本列表测试(samplelisttest)。

在步骤710中,样本可从样本列表参考中随机选择,加载到存储器中并从样本列表参考中移除。为了清楚起见,该样本将在此被描述为样本参考(sampleref)。

在步骤715中,样本可从样本列表测试中随机选择,加载到存储器中并从样本列表测试中移除。为了清楚起见,该样本将在此被描述为样本测试(sampletest)。在步骤710和715的第一迭代中,选择的样本可以是数据集中的第一色谱。例如,在色谱数据是全部被分配id的情况下,可在步骤710和715的第一迭代中选择具有最低id值的色谱。

在步骤720和725中,样本参考和样本测试之间的皮尔森相关系数被确定,并被储存在可被命名为r的矩阵中。

在步骤730至765中,样本参考被移位预定数量的采样点,其中相关系数在每次采样点移位之后用样本测试来计算,并且得到的相关系数被储存在矩阵r中。将认识到的是,在一些实施例中,样本参考将相对于样本测试在正的和负的时间点方向二者上移位。在一个实施例中,移位窗口是±15个采样点,但将意识到的是,可选择其它尺寸的移位窗口。

当样本参考移位升至移位窗口的一个或更多个极端时,方法移动到步骤775。将认识到的是,当到达步骤775时,在一些实施例中,每个色谱与p系数如下相关联:

p=(2s+1)×(n-1)

其中,s是移位窗口的幅度,诸如15(因此,2s计算从负到正的移位的极差),以及n是实验状况1中的样本数量。因此,在一个实施例中,每个色谱数据与实验状况1中的其余色谱数据中的每个的31个相关系数相关联。

在步骤775中,获取矩阵r中的最大值,其被储存在命名为m的新矩阵中,并且r的内容被清除或复位。重复步骤715至775,直到样本列表测试为空,并且方法移动到步骤785。

在步骤785中,计算储存在m中的所有值的平均值,并将其连同识别参考样本的信息(诸如,样本参考的id)一起储存在命名为c的矩阵中,并且m的内容被清除。重复步骤710至785,直到样本列表参考为空,并且方法移动到步骤795。在步骤795中,与矩阵c中的最高正值相关联的样本被确定为用于色谱对齐的参考样本。如将要解释的,步骤795可包括将与被选择为参考色谱样本的色谱相关联的id,以允许其它色谱数据在稍后的时间对齐。

返回到图1,在步骤150中,色谱数据被对齐。对齐旨在确保相同特征在来自不同数据类别或分析中的不同医疗状况的样本中进行比较。步骤150包括将色谱数据相对于在步骤140处选择的参考色谱样本对齐。图9中图示了根据本发明的实施例的对齐色谱数据的方法800。

参照图9,在方法800中,每个色谱数据相对于在图1的方法100的步骤140处选择的参考色谱对齐。

在步骤805中,在步骤140处选择的参考色谱样本被加载到存储器中。为了清楚起见,参考色谱样本将在此被描述为参考样本。在步骤810中,创建了包含分析中的一个或更多个数据集中的所有样本(例如,癌症样本和对照样本)的列表。为了清楚起见,该列表将在此被描述为对齐的样本。

在步骤815中,来自对齐的样本的随机样本被加载。为了清楚起见,该样本将在此被描述为样本对齐。在步骤820至870中,样本对齐被移位预定数量的采样点,其中在每个采样点被移位之后单个相关系数在参考样本和样本对齐之间进行计算,并且所得到的相关系数存储在矩阵r中。在一个实施例中,移位窗口是±15个采样点,但是将意识到的是,可选择其他数量的时间点。将认识到的是,在一些实施例中,样本对齐将相对于参考样本在正的和负的时间点方向上移位。当样本对齐移位升至移位窗口的一个或更多个极端时,方法移动到步骤875。将认识到的是,当到达步骤875时,在一些实施例中,样本对齐与p系数如下相关联:

p=2s+1

其中,s是时间移位窗口的幅度,诸如15(因此,2s计算从负到正的时间移位的极差)。因此,在一个实施例中,样本对齐与31个相关系数相关联。在步骤875中,与r中的最高值相关联的移位采样点被确定,并被储存为移位的采样点。在步骤880中,样本对齐被移位在移位的采样点中定义的采样点的数量,并且矩阵r的内容被清除。重复步骤815到880,直到对齐的样本列表为空。图7图示了根据步骤150的实施例对齐的色谱数据。

返回到图1,在步骤160中,对齐的色谱数据的值使用墨西哥帽母小波(其也可被称为ricker小波)变换成小波系数。可使用其他母小波。在一个实施例中,小波系数可使用墨西哥帽母小波的多个尺度来确定。多个尺度可以是介于下限和上限之间的尺度。在一个实施例中,上限和下限可分别为100和1。在一个实施例中,系数可在下限和上限之间的每个整数尺度处被确定。系数可被确定为计算出的系数的模数。也就是说,尽管可使用由墨西哥帽母小波提取的原始值,但对于每个样本的色谱数据的值使用墨西哥帽母小波的尺度被转换为它们的小波系数的模数。然后,如将要解释的,小波系数被储存以供将来使用。小波尺度值中的一个被选择为对于色谱数据的最佳匹配。如将要解释的,最佳匹配可以是具有最高分类准确度的小波尺度。每个小波尺度的准确度可基于验证过程的最小、中值、平均和最大准确度中的一个或更多个来确定。图10图示了根据步骤160的实施例的被变换为小波系数的色谱数据。

在步骤170中,对数、极差和空间符号(spatialsign)的变换过程中的一个或更多个应用于色谱数据。在一个实施例中,在对数、极差和空间符号的变换过程之前,色谱数据的每个值都具有预定值,诸如添加到其的值1。然后,色谱数据可使用自然对数为基准进行对数变换,尽管将意识到其他基值可用于对数变换。在一个实施例中,然后应用极差变换,以将色谱数据的值设置在预定极差内,诸如介于0和1之间的极差。极差变换可确定在色谱数据的每个时间点处的变换的值xt,其中,x是色谱数据的数据值,min(x)和max(x)分别是色谱数据的最小值和最大值。极差变换可使用以下方程来执行:

在一些实施例中,可应用进一步的变换,其可被称为如在由s.serneels、e.denolf、p.j.vanespen于2006年在journalofchemicalinformationandmodeling46的第1402-1409页发表的spatialsignpreprocessing:asimplewaytoimpartmoderaterobustnesstomultivariateestimators中所描述的空间符号变换,其通过引用并入本文。图11图示了根据步骤170的实施例变换的色谱数据。

在步骤180中,选择色谱数据的一个或更多个特征。选择一个或更多个特征来指示一个或更多个医疗状况的存在。在本发明的实施例中,一个或更多个特征通过使用随机森林的特征选择算法来选择。在该算法中,决策树是基于不同的样本组来开发的,并且当特征的值被随机排列在样本组之间时,随机森林用于计算分类准确度的损失。然后,选择与分类准确度的损失相关联的一个或更多个特征。

在本发明的一些实施例中,在步骤180中应用了基于随机森林的被称为boruta和rfe的两种不同算法中的一种,以便选择待使用的特征。boruta算法涉及基于不同样本组的决策树的开发。然后,当特征的值被随机排列在样本组之间时,应用随机森林来计算分类准确度的损失。然后,选择与准确度的损失相关联的特征作为指示特征。rfe算法运作类似于boruta,但它消除了不产生准确度水平的变化的特征,而不是选择产生准确度的损失的特征。boruta和rfe算法在journalofstatisticalsoftware36(11)的第1-13页公开的“featureselectionwiththeborutapackage”,以及由anderssen,e.、k.dyrstad、f.westad和h.martens于2006年在chemometricsandintelligentlaboratorysystems84(1-2)的第69-74页发表的“reducingover-optimisminvariableselectionbycross-modelvalidation”中进行了描述。这些参考通过引用并入本文。在步骤180中,一个或更多个选择的特征被储存以供稍后使用。

在步骤190中,分类器被确定。分类器用于将样本分类为来自具有一个或更多个医疗状况的受试者的样本或不具有一个或更多个医疗状况的样本。分类器可根据以下之一来确定:线性判别分析(lda);偏最小二乘法(pls);随机森林;k最近邻(knn);具有径向基核函数的支持向量机(svm)(svm径向);具有线性基核函数的svm(svm线性);以及具有多项式基核函数的svm(svm多项式)。分类器可使用例如诸如r包脱字符(kuhn,m.于2014年公开的caret:classificationandregressiontraining)的软件包来确定。

在同一数据集上建立和测试分类器可能会由于潜在的过度拟合而产生偏置和过于乐观的结果。因此,在步骤190中,验证过程可用于防止这样的过度拟合。验证过程可以是重复的k重交叉验证和重复的双交叉验证中的一种。特别地,在本发明的示例性实施例中,使用两个验证过程:30次重复的10重交叉验证和30次重复的3重双交叉验证,其中,重复5次10重的内循环。另外,这两个交叉验证过程在相同的数据集上重复,但在每次重复中应用类别标签的蒙特卡罗随机排列。

如在步骤160的以上描述中所述,方法100针对多个小波尺度重复。然后选择产生最高分类准确度的标度作为对于处理的色谱数据的最佳匹配。作为图1中所图示的方法100的实施例的结果,产生分类器,其能够将色谱数据分类为源自具有一个或更多个医疗状况或不具有一个或更多个医疗状况的样本。

图12图示了根据本发明的实施例的确定受试者中的医疗状况的存在的方法1000。该方法基于取自受试者的样本来执行。色谱数据可由如上参照图2所述的装置提供。相同的可以是从受试者排出的物质。样本可以是来自受试者的呼吸、尿液或粪便的样本,尽管将意识到该列表并不详尽。如上所述,医疗状况可包括一种或更多种癌症(包括膀胱癌和/或前列腺癌)、肠易激疾病(ibd)、肠易激综合征(ibs)、一种或更多种预定细菌(诸如艰难梭菌(c-dif))的存在、一种或更多种预定寄生虫的存在、一种或多种预定真菌的存在。

方法1000的多个步骤结合图1中所图示的方法100进行描述。因此,将省略对这些步骤的重复描述,并且读者参考与图1中的等效步骤相关联的描述。

在步骤1050中,色谱数据被接收。为了清楚起见,接收的色谱数据将在此被描述为新样本。在本发明的一些实施例中,如前所述,在步骤1100中,新样本将其基线移除,并且其数据值在步骤1150中被归一化。在步骤1200中,新样本随后被对齐。在图13中图示了根据本发明的实施例的对齐新样本的方法2000。

参照图13,在步骤2050中,在方法100的步骤140处选择的参考色谱样本被加载到存储器中。为了清楚起见,参考色谱数据将在此被描述为参考样本。在步骤2100中,新样本色谱数据被加载到存储器中。

在步骤2150至2650中,新样本的保留时间被移位预定数量的采样点,其中在每个采样点被移位之后单个相关系数在参考样本和新样本之间被计算并且得到的相关系数被储存在矩阵r中。在一个实施例中,移位窗口是±15个采样点,但是将意识到的是,可选择其他数量的移位点。应认识到的是,在一些实施例中,新样本色谱数据将相对于参考样本在正的和负的时间点方向上移位。当新样本色谱数据移位升至移位窗口的一个或更多个极端时,方法移动到步骤2700。将认识到的是,在到达步骤2700时,在一些实施例中,新样本色谱数据与p系数如下相关联:

p=2s+1

其中,s是时间移位窗口的幅度,诸如15(因此,2s计算从负到正的时间移位的极差)。因此,在一个实施例中,新样本色谱数据与31个相关系数相关联。在步骤2700中,与r中的系数相关联的采样点被确定,并被储存为移位的采样点。在步骤2750中,新样本色谱数据被移位在移位的采样点中定义的采样点的数量,以根据图1中所图示的方法将新样本色谱数据与参考色谱数据对齐。

返回到图12,在步骤1250中,新样本色谱数据使用墨西哥帽小波和预定尺度被变换为小波系数。如上所述,预定尺度可以是在参照图1所描述的方法100中被确定产生了最高准确度的那个尺度。

在步骤1300中,由预定小波尺度产生的小波系数被加载,该预定小波尺度可以是与最高准确度相关联并在方法100的步骤160中被储存的小波尺度。方法100的步骤160中使用的小波尺度的值与方法1000的步骤1250中使用的小波尺度的值相同。为了清楚起见,在方法100的步骤160中产生的小波系数将在此被描述为预处理的数据。在步骤1350中,新样本与命名为变换数据的单个数据集中的预处理的数据组合。

然后,在步骤1400中,变换数据如方法100的步骤170中所描述的被变换。然后,在方法100的步骤180中定义的特征从变换数据中被选择。新样本与变换数据隔离,并通过在方法100的步骤190中确定的模型进行预测或分类。

上述方法应用于两个不同的数据集。首先,它们应用于对来自患有前列腺癌、膀胱癌的患者的尿样和患有泌尿症状混合(血尿和前列腺症状(对照))的患者的尿样进行分类。表1示出了对于建立的七个分类器的30次重复的双交叉验证的结果。svm径向能够分别以89.6%和96.2%的准确度对前列腺癌样本和膀胱癌样本进行分类。前列腺癌样本和膀胱癌样本以93.5%的准确度进行区分。然后,上述方法应用于对来自患有炎症性肠病(ibd)、肠易激综合征(ibs)的患者和健康供体(对照)的粪便样本进行分类。表2和表3示出了对于建立的七个分类器的30次重复的双交叉验证的结果。ibd和ibs分别以88.9%和94.4%与对照样本进行区分。ibd样本以85.2%的准确度与ibs样本区分。ibd样本以84.9%的准确度与非ibd样本区分。ibs样本以92.1%的准确度与非ibs样本区分。最后,对照样本以86.8%的准确度与非对照样本区分。因此,可认识到的是,本发明的实施例能够准确地确定样本是否来自具有预定状况的人。

形成本发明的实施例的方法可以是计算机实现的。

将认识到的是,本发明的实施例可以以硬件、软件或硬件和软件的组合的形式来实现。任何这样的软件可以以易失性或非易失性储存器的形式储存,诸如例如,像rom的储存设备,不管是否可擦除或是否可重写;或者以存储器的形式储存,诸如例如,ram、存储器芯片、器件或集成电路;或者储存在光学或磁性可读介质上,诸如例如,cd、dvd、磁盘或磁带。将认识到的是,储存设备和储存介质是适于储存一个或更多个程序的机器可读储存器的实施例,该一个或更多个程序在执行时实现本发明的实施例。因此,实施例提供了程序,其包括用于实现如任一前述权利要求中所要求保护的系统或方法的代码和储存这样的程序的机器可读储存器。此外,本发明的实施例可经由任何介质(诸如,通过有线或无线连接运载的通信信号)被电子地传输,并且实施例适当地包含它们。

本说明书(包括任何所附权利要求、摘要和附图)中公开的所有特征,和/或如此公开的任何方法或过程的所有步骤可以以任何组合来进行组合,除了其中这样的特征和/或步骤中的至少一些是互斥的组合之外。

除非另有明确说明,否则本说明书(包括任何所附权利要求、摘要和附图)中公开的每个特征可由服务于相同、等效或类似目的的可替代特征来代替。因此,除非另有明确说明,否则所公开的每个特征仅仅是等效或类似特征的通用系列的一个示例。

本发明并不限于任何前述实施例的细节。本发明扩展至在本说明书(包括任何所附权利要求、摘要和附图)中公开的特征中的任何新颖的一个特征或任何新颖的组合,或扩展至如此公开的任何方法或过程中的步骤中的任何新颖的一个步骤或任何新颖的组合。权利要求不应被解释为仅仅涵盖前述实施例,而是也包括落在权利要求范围内的任何实施例。

前列腺vs对照

膀胱vs对照

膀胱vs前列腺

表1

ibdvs对照

ibsvs对照

ibdvsibs

表2

ibdvs非ibd

ibsvs非ibs

控制vs非控制

表3

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1