毒素检测系统和方法

文档序号:5873995阅读:183来源:国知局
专利名称:毒素检测系统和方法
技术领域
本发明通常涉及毒素检测,并且更具体地涉及一种开发用于基于从生物传感器提 供的数据检测毒素,尤其是在饮用水中的毒素的模型的系统和方法。
背景技术
市政供水的纯度一直是公民和其主管部门的相对高度优先考虑的事情。最近,虽 然不幸,关于有害化合物有目的的引入到市政供水已引起了关注。响应于这些关注,各种团 体,包括各种政府团体,已经开展计划来开发检测水中存在有害化合物的能力。各种发起者已经围绕基于生物的传感器诸如电细胞基质阻抗传感器(ECIS)进行 开发。不幸的是,当暴露在相对低浓度的某些化合物时,ECIS的响应在统计上不能与暴露 到干净水中显著地区分。结果,尤其在相对低浓度值水平下,现有已知的用于处理来自ECIS 的数据的方法不能提供足够高的灵敏度和足够低的假阳性率。因此,需要用于检测水中毒素的系统和方法,在暴露后尽早具有相对高的灵敏度 和低的假阳性率。本发明至少解决这一需要。

发明内容
在一示意性实施例中,一种对于在水中存在一种或多种毒素生成通用二元分类器 (generic binary classifier)的方法包括从多个标准化先验(a priori)数据集中提取特 征,所述标准化先验数据集包括一个或多个控制数据集和多个处理数据集。所述一个或多 个控制数据集表示对其中没有毒素的水的电细胞基质阻抗传感器(ECIS)响应,并且多个 处理数据集的每个表示对其中具有毒素的水的ECIS响应。利用提取的特征训练多个分类 器算法,并且从每个训练的分类器算法产生多个分类模型。评价每个分类模型,并基于每个 分类模型的评价选择其子集。所选择的分类模型的子集被提供作为通用二元分类器。在另一示意性实施例中,一种制造水中毒素检测系统的方法,包括从多个标准化 先验数据集中提取特征,所述标准化先验数据集包括一个或多个控制数据集和多个处理 数据集。所述一个或多个控制数据集表示对其中没有毒素的水的电细胞基质阻抗传感器 (ECIS)响应,并且多个处理数据集的每个表示对其中具有毒素的水的ECIS响应。利用提取 的特征训练多个分类器算法,并且从每个训练的分类器算法产生多个分类模型。评价每个 分类模型,并基于每个分类模型的评价选择其子集。处理器随后被配置为运行至少所选择 的分类模型的子集,并且ECIS被耦合至所述处理器。仍在另外一示意性实施例中,水中毒素检测系统包括电细胞基质阻抗传感器 (ECIS)和处理器。所述ECIS适于接收水流并配置为提供ECIS数据。所述处理器被耦合以
4接收ECIS数据并且实施通用二元分类器。所述通用二元分类器被配置为响应于ECIS数据 而确定水中是否存在毒素。由所述处理器实施的所述通用二元分类器是通过从多个标准化 先验数据集中提取特征生成的,所述标准化先验数据集包括一个或多个控制数据集和多个 处理数据集。所述一个或多个控制数据集表示对其中没有毒素的水的电细胞基质阻抗传感 器(ECIS)响应,并且多个处理数据集的每个表示对其中具有毒素的水的ECIS响应。利用 提取的特征训练多个分类器算法,并且从每个训练的分类器算法产生多个分类模型。评价 每个分类模型,并基于每个分类模型的评价选择其子集。所选择的分类模型的子集被提供 作为通用二元分类器。进一步,结合附图和前面的背景技术,所述方法和系统的其它期望的特征和特性 将从随后的详细说明和所附的权利要求而变得明显。


以下将结合下面的附图描述本发明,其中相同的数字表示相同的部件,其中图1描绘了根据本发明示意性实施例的水中毒素检测系统的功能方块图;图2以流程图的形式描绘了用于产生由图1的处理器实施的通用二元分类器的全 部过程;图3以流程图的形式描绘了预处理方法的示意性实施例;图4以流程图的形式描绘了特征提取过程的示意性实施例;图5和6分别描述了图4的用于控制数据集和处理数据集的特征提取过程的示意 性结果;图7描绘了对于图5和6示意性结果在早期时间段的局部结构的特写(closeup) 表不;图8以流程图的形式描绘了示意性的构建和评估过程;和图9以流程图的形式描绘了通用分类器可以实施的过程。
具体实施例方式以下的详细说明实质上仅仅是示意性的并且不意图限定本发明或本发明的应用 和使用。另外,不意图受在前面背景技术或下面的详细说明中出现的任何理论的约束。另外应注意的是本发明的实施例可按照功能方块图表和各种处理步骤来描述。应 该意识到此类功能方块可以多种不同形式的硬件,固件和/或配置为执行各种功能的软件 部件实现。例如,本发明可以采用各种集成电路部件,例如储存器元件,数字信号处理元件, 查找表等等,其可在一个或多个微处理器或其他控制设备的控制下执行多种功能。此类通 用技术对于本领域技术人员是公知的并且在此不再详细描述。然而,应该理解所示出的示 意性过程可以包括额外的或更少的步骤或在更大的处理方案的情况下执行。另外,附图或 说明书中出现的各种方法并不解释为限制其中可以执行单独的处理步骤的顺序。应该意识 到在此所示和所述的特定实施方式是本发明的示例性说明及其最佳方式,并非意图以任何 方式在其它方面限定本发明的范围。首先参照图1,描绘了水中毒素检测系统100的示意性实施例,包括生物传感器 102和处理器104。所述生物传感器102优选的是电细胞基质阻抗传感器(ECIS)。所述ECIS 102适于接收水流并被配置为提供ECIS数据。如通常所知的,ECIS包括相对小的电 极,所述电极具有在其表面上生长的细胞。由于其膜的绝缘特性,所述细胞响应于各种物理 现象中的变化而表现为阻抗变化。这些现象之一就是存在各种化合物。因此,从所述ECIS 传感器102提供的ECIS数据表示响应于流过其的水中的毒素化合物浓度的变化的阻抗变 化。处理器104被耦合以从ECIS传感器102接收ECIS数据,并且实施通用二元分类 器106。所述通用二元分类器106被配置为响应于ECIS数据确定水中是否存在毒素。由所 述处理器104实施的通用二元分类器106以相对高的灵敏度和相对低的假阳性率确定水中 存在或不存在一种或多种毒素。如此处所使用的,假阳性表示当一种毒素实际上不存在时 确定存在该毒素。根据即刻将要解释的过程产生所述通用二元分类器106。然而,做此之前,需要注 意处理器104可以使用多种已知的通用微处理器和/或响应于程序指令工作的应用特定处 理器的任何一个或多个来实施。可以意识到处理器104可使用各种其他的电路而不仅仅是 可编程处理器来实施。例如,数字逻辑电路和模拟信号处理电路也可被使用。现在转向图2,以流程图的方式描绘由处理器104实施的用于产生通用二元分类 器106的全部过程,并且现在将进行解释。在如此做的过程中,应该理解的是下面段落中 的夹注指的是图2中相同编号的流程方块和全部顺序参考的流程图。如图2描绘的,全部 过程200通过预处理原始先验ECIS数据集(202)以产生标准化先验数据集开始。随后, 从所述标准化先验数据集中提取特征(204),并且这些提取的特征用于训练多个分类器算 法(206)。从训练的分类器算法产生多个分类模型(208)。然后评估所述分类模型,并且基 于所述评估选择分类模型的子集(212)。选择的分类模型的子集用于实施通用二元分类器 106。现在将更详细地描述这些处理步骤(202-212)中的每一个。在图3描绘了如何实施原始先验ECIS数据集的预处理(202)的示意性实施例。被 优选地首先执行的该过程(202),准备原始先验ECIS数据集用于随后的处理。在描述该过 程之前,需要注意原始先验ECIS数据集包括来自各种实验运行的一个或多个(优选多个) 控制数据集和多个处理数据集。所述控制数据集包括表示对其中没有毒素的水的ECIS响 应的数据,并且多个处理数据集包括表示对其中具有毒素的水的ECIS响应的数据。通过取回每个原始先验ECIS数据集(302)开始预处理(202),并确定原始先验 ECIS数据集中的哪些是控制数据集(304)。那些为控制数据集的数据集被合并(306),然 后被标准化和校准(alighed)以用于随后的处理(308)。应注意的是至少在所描绘的实 施例中,通用二元分类器106被实现为单一的、统一的毒素检测模型以用于其中化学污染 物未知的环境中的普遍适用性。因此,所有处理数据集,无论化是合物种类或浓度,被组合 为单一的“类(class)”。这就是为什么类似于控制数据集一样,将所有的处理数据集合并 (312),然后标准化和校准以用于随后的处理(314)。然而可以意识到在一些实施例中,处理 数据集可根据特定的毒素和/或作为未知毒素单独地分类。在此类实施例中,可通过毒素 类型(如果已知)和/或作为未知毒素单独地预处理处理数据集。如图3进一步所描绘的, 如果需要或期望,标准化的和校准的先验ECIS数据集可以被保存为XML格式的文件(316, 318)。在任何情况下,标准化和校准的先验ECIS数据集可以随后被提供给在图4中所描绘 的并且现在将被详细描述的特征提取过程(204)。
6
从标准化和校准的先验ECIS数据集中提取特征开始于首先加载标准化和校准 的先验ECIS数据集(402)。随后,如果需要,截断加载的一个或多个ECIS数据集的时间 历程(time histories) (404),从而使得每个ECIS数据集包含相同数目的数据点(data points) 0这其中保证了共同的采样速率,并且还检查了一致的时间单位。在ECIS数据集 被时间截断以用于一致性之后,根据类型将ECIS数据集分类并且然后集合(aggregated) (406)。更具体地,每个ECIS数据集被分类为控制数据集,用于特定毒素的数据集,用于多 个毒素的数据集或用于未知毒素的数据集。然后根据分类将已分类的数据集集合到结构 中。结构内的集合数据被划分成两类(408),在此被称作控制类(例如,不存在毒素) 和处理类(存在毒素)。然后,从划分的数据中提取特征(412),并被优选地以属性相关文 件格式(ARFF)保存在合适的文件中(414)。ARFF格式是优选的因为其与机器学习的某些 开发源程序库的兼容性。在进一步处理之前,应该注意由于具有预处理过程(202),处理数 据集可根据特定(和/或未知)毒素被单独地处理。进一步可以意识到提取的特定特征和所使用的特征提取算法可以变化。然而,在 特定的优选实施例中,使用时间序列特征提取算法的符号表示。根据该方法,在时间序列 的连续段(如,“时间仓(temporal bins) ”)构建幅度数据的局部直方图。累积在这些时 间仓中的计数被用来表示规定时间段内的局部结构。如果该局部结构包括足够的信息,则 所述结构可被用来训练图形识别算法(patternrecognition algorithm)。然后所训练的 算法可用于预测随后数据的类(如,存在毒素或不存在毒素)。该类型的特征提取算法的 实例被公开在标题为"A SymbolicRepresentation of Time Series, With Implications for Streaming Algorithms”的公开中,作者是J. Lin等,并且被公开在加利福尼亚(2003), 圣地亚哥,关于数据开采和知识开发的研究措施的第8届ACM SIGMOD研讨会会报中 (Proceedings of the 8thACM SIGMOD Workshop on Research Issues in Data Mining and KnowledgeDiscover, San Diego, CA(2003)) 此公开的全部在此通过参考而被引入。作为上述特征提取算法的例子,参考图5和6,其分别描绘了用于控制数据集和处 理数据集的示意性结果。在图5和6中,数据集被划分成五个邻近的时间序列段。矩形区 502,602表示用于聚集(assemble)局部结构直方图的符号,线和点504,604为下面的时间 序列的标准化值。本发明人发现如图7并排所示的早期时间段具有足够不同的局部结构使 得在控制和暴露数据之间进行区分,从而促进了水中毒素的早期检测。用于产生通用二元分类器106的分类器算法的训练(206),分类模型的生成(208) 和分类模型的评估和选择(212)在图8中以流程图的形式被描述作为单个构建与评估过程 800的一部分。所述构建与评估过程800训练分类器算法(206),产生分类模型(208),并评 估和选择分类模型(212)。所述选择的分类模型为那些对控制数据集表现出相对低的FPR 性能(例如,FI^R <0.1%)的分类模型。所选的分类模型在此处被称作被用作通用二分元 类器106的分类模型的子集。如图8进一步所描绘的,储存所选的分类模型(802)。可以意 识到用于实现该过程800的分类算法可有许多且是可变的。在一特定优选实施方案中,使 用了三个分类算法。这些是表决感知器(Voted Perceptron)算法,贝叶斯网络(Bayesian Network)算法和支持向量机(Support Vector Machine)算法。产生的所述通用二元分类器106评估未知的ECIS数据来确定流过ECIS传感器102的水中是否存在毒素。通用分类器106实施的过程900的实施例被描绘在图9中并且 现在参照其进行描述。通用二元分类器106接收从ECIS 102提供的ECIS数据(902),并从 其中提取特征(904)。然后通用二元分类器106选择模型的子集之一(906)并将提取的特 征应用到模型(908)。重复这些在前的步骤(908)直到提取的特征被应用到模型子集的每 一个模型(912)。在将提取的特征应用到每个模型后,确定每个模型的共识(consensus) (914)。更 具体地,利用每个模型的结果和预先确定的检测阈值执实施简单的表决方案。基于所确定 的共识,确定关于是否将ECIS数据分类为表示存在毒素或不存在毒素(916)。应该注意,如 果大量的模型指示存在毒素,则ECIS数据被分类表示存在毒素,否则数据被重新分类为表 示没有毒素。在此描述的用于检测水中毒素的系统和方法,在暴露后尽早具有相对高的灵敏度 和低的假阳性率。尽管在本发明的前述的详细说明中公开了至少一个示意性实施例,然而应该意识 到还存在大量的变型。也应该意识到示意性实施例或多个示意性实施例仅是举例,并不意 图以任何方式限定本发明的范围、应用或结构。而是,前述详细说明为对于本领域技术人员 提供了用于实施本发明的示意性实施例的便利路线图。可以理解的是可以在示意性实施例 中所描述的元件的功能和布置中作出各种改变而不偏离在附加权利要求书中所提出的本 发明的范围。
权利要求
一种对于在水中存在一种或多种毒素生成通用二元分类器(106)的方法,包括以下步骤从多个标准化先验数据集中提取特征(204),所述标准化先验数据集包括一个或多个控制数据集和多个处理数据集,所述一个或多个控制数据集表示对其中没有毒素的水的电细胞基质阻抗传感器(ECIS)响应,所述多个处理数据集的每个表示对其中具有毒素的水的ECIS响应;利用提取的特征训练多个分类器算法(206);从每个训练的分类器算法产生多个分类模型(208);评价每个分类模型(208),并基于每个分类模型的评价(208)选择其子集;提供所选择的分类模型的子集(212)作为通用二元分类器(106)。
2.如权利要求1所述的方法,进一步包括预处理一个或多个原始先验控制数据集和多个先验原始处理数据集以由此产生多个 标准化先验数据集。
3.如权利要求1所述的方法,其中提取特征的步骤基于时间序列算法的符号表示。
4.如权利要求1所述的方法,其中评价每个分类模型(208)的步骤包括 确定每个分类模型的假阳性率(FPR);和比较确定的FPR和预先确定的FPR阈值。
5.如权利要求4所述的方法,进一步包括如果确定的FPR小于预先确定的FPR阈值则 选择分类模型作为所述子集的一部分。
6.如权利要求1所述的方法,其中评价每个分类模型的步骤包括 确定每个分类模型的真阳性率(TPR);和比较确定的Tra和预先确定的TPR阈值。
7.如权利要求6所述的方法,进一步包括如果确定的IPR大于预先确定的TPR阈值则 选择分类模型作为所述子集的一部分。
8.一种水中毒素检测系统(100),包括电细胞基质阻抗传感器(ECIS) (102),所述电细胞基质阻抗传感器适于接收水流并配 置为提供ECIS数据;和处理器(104),所述处理器被耦合以接收ECIS数据并且配置为实施通用二元分类器, 所述通用二元分类器(106)被配置为响应于ECIS数据而确定水中是否存在毒素,其中所述 通用二元分类器(106)通过以下生成从多个标准化先验数据集中提取特征,所述标准化先验数据集包括一个或多个控制数 据集和多个处理数据集,所述一个或多个控制数据集表示对其中没有毒素的水的电细胞基 质阻抗传感器(ECIS)响应,所述多个处理数据集的每个表示对其中具有毒素的水的ECIS 响应,利用提取的特征训练多个分类器算法, 从每个训练的分类器算法产生多个分类模型, 评价每个分类模型,并基于每个分类模型的评价选择其子集, 提供所选择的分类模型的子集被提供作为通用二元分类器。
9.如权利要求15所述的系统,其中所述通用二元分类器(106)将接收的ECIS提供给每个选择的分类模型的子集;和基于来自所有选择的分类模型的子集的输出确定水中是否存在毒素。
全文摘要
本发明涉及毒素检测系统和方法。提供了一种对于在水中存在一种或多种毒素生成通用二元分类器(106)的系统和方法。从多个标准化先验数据集中提取特征(204),所述标准化先验数据集包括一个或多个控制数据集和多个处理数据集,所述一个或多个控制数据集表示对其中没有毒素的水的电细胞基质阻抗传感器(ECIS)响应,所述多个处理数据集的每个表示对其中具有毒素的水的ECIS响应。利用提取的特征训练多个分类器算法(206),并且从每个训练的分类器算法产生多个分类模型(208)。评价每个分类模型(208),并基于每个分类模型的评价(208)选择其子集。所选择的分类模型的子集(212)被提供作为通用二元分类器(106)。
文档编号G01N27/02GK101963590SQ201010214050
公开日2011年2月2日 申请日期2010年5月21日 优先权日2009年7月22日
发明者J·博克 申请人:霍尼韦尔国际公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1