使用二次似然函数进行数据统计建模的方法和系统的制作方法

文档序号:9794045阅读:397来源:国知局
使用二次似然函数进行数据统计建模的方法和系统的制作方法
【专利说明】使用二次似然函数进行数据统计建模的方法和系统
[0001 ]相关申请
[0002] 本申请要求2013年9月18日提交的美国临时申请号61/879,629的优先权益。 发明领域
[0003] 本发明涉及一种尤其是在非渐近统计估算问题中用于数据预测统计估算的方法 并且更具体地涉及用二次似然函数替代对数似然函数,其中估算系数的数量与数据点的数 量相差无几或大于数据点的数量。
[0004] 发明背景
[0005] 无论是从检测的图像、接收的信号、轮询、检索、或其他任何数据收集方法得来的 测量的数据有可能受到噪声或不确定性的影响。改善尽可能从数据中提取更多信息而不过 度解释数据的能力的方法是必需的。
[0006] 当需要从噪声数据中提取信息时,使用统计估算,噪声数据即是具有未知的随机 分量的数据,这些随机分量从一个数据实现到另一个数据实现改变并且只能够通过统计进 行表征。统计估算的目标是将数据中的信号建模,即,从一个数据实现到下一个数据实现不 会改变的可再现的分量。信号被建模成参数函数,这些参数的值由模型对数据的拟合值确 定。
[0007] 这种将噪声数据建模的过程应用广泛,举几个来说,包括但不限于跟踪对象、信号 处理、成像(包括医学成像,如CT、SPECT、PET、X-ray等)、市场研究、供应链管理、库存控制以 及金融市场。从历史数据中提取出来的信息经常被用于预测未来行为和/或与之相关联的 风险。只要底层模型正确,预测和/或风险分析的质量由估算的准确性确定。
[0008] 应当指出的是统计估算涉及到更广阔的优化领域,其还包括非统计的方法,其中 不涉及噪声数据,并且优化只是找到最佳的参数而已。
[0009] 统计估算可追溯到两个世纪之前的最小二乘法(高斯1809),其后来演化成最大似 然(ML)法(费雪1912,1922)。给定统计上独立的数据的概率分布函数,ML法会最大化数据的 条件概率,给定模型,或等效地,会最小化对数似然函数(LLF)
[0011]在此,X是一个η维空间,其任何维度可以是连续的、离散的、或甚至是范畴的,Θ是 模型参数,私是观察的位置,f(x,0)是pdf,并且δ是η维狄拉克(1958)差量函数。虽然积分可 以在实际中被一个总和逼近,但是积分符号可以被理解为指明这些连续维数上的积分以及 这些离散和范畴维数上的总和。
[0012]在许多应用中,pdf的积分归一化是固定的,典型地固定为一。在此情况下,在方程 式(1)右手侧的第一项是不变的并且可以被省略,产生
[0014]方程式(1)中包括额外的项是为了考虑到观察的归一化只与自身有关系的情况, 例如检测器观察的事件率或产品的销售率。在此情况下,方程式(1)是泊松(1837)分布的未 分箱(unb inned) LLF。
[0015] ML方法具有三个独特的优点:
[0016] 1.其直接估算概率分布函数(pdf),无需对数据进行分箱。
[0017] 2.在渐近极限中,数据点的数量在很大程度上超过参数的数量,由ML方法估算的 参数的方差小于或等于竞争统计的方差。在渐近极限中,一个估算的参数的方差与用于估 算它的数据点数量成反比。因此,对于一个给定的准确度,ML方法允许从比其他方法中的样 本更小的样本中估算参数,从而其具有更高的抽样效率。事实上,替代估算量的效率被定义 为在ML方差与其他估算量的方差之间的比率。这借由定义将ML估算量的效率设定为一,并 且将竞争者的效率设定为小于一的分数或等于一。
[0018] 3.估算的参数中的不确定性的协方差矩阵容易从信息矩阵(费雪,1922)(8卩LLF的 二阶偏导数的最小值的黑塞矩阵)的渐近极限中计算。
[0019] 在非渐近的制度中,当参数的数量与数据点的数量相差无几或大于数据点的数量 时,必须约束解以避免使模型将随机统计噪声处理成可再现的信号(参见,例如培特、戈斯 内尔和亚希勒(Yahil)2005的观点)惯例将信号表示为基函数的通用的线性的"非参数"组 合,基函数的系数待被估算。(可以有表征这些基函数的附加的非线性参数)。目标是使估算 同时提供重要系数的值并且借由归零或至少最小化来约束不重要系数。那样,希望将信号 与噪声分呙。
[0020] 最可靠的参数化是最保守的参数化,其寻找与输入数据一致的最简单的底层参 数,还被称为最小代价或奥卡姆剃刀原理。简单性依赖于上下文,但是对于大多数应用而 言,最简单的解是最平滑的解。PIXON 1"法通过利用极大值、数据许可的空间自适应平滑 取得这个解(Pifta和培特(Puetter)1993;培特(Puetter)和亚希勒(¥ &1^1)1999;培特 (Puetter)等人 2005;美国专利 5,912,993、6,353,688、6,490,374、6,895,125、6,993、204、 8,014,580、8,086,011、8,090,179、8,160,340、8,396,313;美国专利公开 2012/0263393,其 中每一个都被通过引用结合在此)ALGEBR0N?方法是被设计用于没有固定在连续空间内的 离散问题的等效技术,例如金融系统中的预测和风险评估(美国专利7,328,182)。
[0021] 自费雪(1912,1922)的创举之后,统计估算的常用思路是使用ML和其LLF估算量。 然而,ML具有许多严重的缺点,这些缺点会限制其有用性:
[0022] 1 .ML仅仅是渐近高效的。在非渐近制度中,当将附加的约束条件应用到解上时,ML 方法的效率不能再被保证。
[0023] 2.在非渐近制度中,无法从信息矩阵中估算这些参数的协方差矩阵。实际上,无约 束的ML方法常常借由将被看作是信号的噪声放大而产生显著的伪值(artifact)。约束解可 以减小以上所述的这些伪值,但是接着剩余的准确性主要地由约束条件确定而不是由信息 矩阵确定。
[0024] 3.-般而言,LLF在参数Θ中是二次的,并且为了确定这些参数的计算努力可能不 值得额外的渐近抽样效率,尤其是对于大规模的问题而言。
[0025] 4.就这些参数而言,LLF的梯度具有与pdf f (X,Θ)成反比的一个项。
[0027] 低pdf区域中的可能包括离群值(欺骗数据)的数据会在参数估算中导致大的偏差 和/或起伏。
[0028] 给定以上的限制时,在非渐近制度中,ML方法与用于非参数估算的其他估算量相 比不具有特别的优势。准确性和计算效率比不再存在的ML "优势"更重要。
[0029] 发明简要概述
[0030] 根据本发明,提供了一种用于在图像或信号重构、数据分析等等中尤其是在参数 的数量与数据点的数量相差无几或大于数据点的数量的情况下对具有噪声或其他不确定 性的输入数据进行建模的方法。特别是,在统计估算问题中,使用二次似然函数(QLF)代替 对数似然函数。示出了(a)QLF具有费雪一致性,因此适合于统计估算,并且(b)其在渐近极 限的效率仅仅是10-15%,对于大部分相关问题而言,这个效率小于对数似然函数的效率。 接着,指出的是对数似然函数在非渐近制度中不具有天生的优势,其中QLF的准确性和计算 效率以及其对于低概率事件的敏感度较低使得其成为理想的估算量。以下的详细说明提供 了建立和优化QLF的显式程序,包括在数据空间上对函数进行高效的积分。提供了这种新技 术的潜在应用的示例。
[0031] 与LLF-样,QLF不需要将数据分箱,并且其二次型简化了解的计算和约束条件的 应用并且对于低pdf区域中的数据的敏感度更低。甚至在渐近极限中,在常用基函数的抽样 效率方面,QLF不会远远落后于LLF。当考虑线性非参数的pdf时,可以清楚地发现QLF的优 点。
[0032]虽然本公开专注于统计估算,但是对于本领域的技术人员而言,将会更容易看清 楚此处提出的一些技术可以应用于普通的优化问题。
[0033] 在本发明的一个方面,提供了一种在计算机处理器中借由从源接收输入信号而构 建目标对象的模型的方法和系统,该输入信号包含描述该目标对象的数据和多个参数,该 输入信号具有一个噪声部分;选择一组初始参数,估算包括一个平方可积的基函数集合的 一个线性组合的一个非参数的概率分布函数(pdf ),计算一个二次似然函数(QLF),基于该 QLF求这些初始参数对该数据的一个拟合值,借由选择一组新参数并且求该组新参数的拟 合值来迭代优化该QLF直到达到一个预定条件。一旦达到一个可接受的拟合值,则能够显示 使用这些经优化的参数构建的该目标对象的一个模型的一个输出。
[0034] 在本发明的另一方面,一种用于从输入信号生成目标对象的重构图像的方法,该 输入信号具有一个数据分量和一个噪声分量,该方法包括:使一个计算机执行多个指令以 用于:从一个图像源接收该输入信号,该输入信号包括多个参数;从该多个参数中选择一组 初始参数;估算一个非参数的概率分布函数(pdf),该非参数的概率分布函数包括一个平方 可积的基函数集合的一个线性组合;计算形式为以下的一个二次似然函数(QLF),
其中,Θ表示这些参数,X表示观察的位置, 并且f (X,Θ)是该pdf;基于该QLF求这些初始参数该数据的一个拟合值;借由选择一组新参 数并且求该组新参数的拟合值来迭代优化该QLF直到达到一个预定条件;并且生成一个输 出,该输出包括基于这些经优化的参数对该目标对象的重构图像的显示。在一些实施例中, 该输入信号包括第一平面图像数据和第二平面图像数据,其中,对该第一平面图像数据和 该第二平面图像数据中的每一个进行选择、估算、计算、求值以及迭代优化该QLF的这些步 骤,并且其中,生成一个输出包括显示该目标对象的一个三维图像。
[0035] 在本发明的仍另一方面,一种用于对包含在输入信号中的描述目标对象的数据进 行建模的系统,该系统包括:一个计算机可读介质;耦接到该计算机可读介质上的一个参数 优化处理器;以及一个通信接口,该通信接口耦接到该参数优化处理器上并且被适配成用 于分别向并且从该参数优化处理器接收并且传输多个重构模型的多个电子表示,该计算机 可读介质在其上存储有多个软件指令,当这些指令被该参数优化处理器执行时,使得该参 数优化处理器进行多个操作,这些操作包括:
[0036] 从一个源接收该输入信号,该源被配置成用于收集对象数据;生成与该对象数据 对应的一组初始参数;估算一个非参数的概率分布函数,该非参数的概率分布函数包括一个 平方可积的基函数集合的一个线性组合;计算形式
的一个二次似然函数(QLF),其中,Θ表示这些参数,X表示观察的位置,并且f(x,0)是该pdf; 基于该QLF求这些初始参数对该数据的一个拟合值;借由选择一组新参数并且求该组新参 数的拟合值来迭代优化该QLF直到达到一个预定条件;并且生成一个输出,该输出包括使用 这些经优化的参数构建的该目标对象的一个模型。在一些实施例中,该数据包括权重^并 且该QLF具有的形式为
[0038] 该系统进一步包括用于使用该数据和这些基函数计算一个源项的软件指令。得到 该QLF是借由使用这些基函数计算一个格拉姆矩阵;并且将该格拉姆矩阵、这些参数以及该 源项组合以产生该QLF。在一些实施例中,该输入信号是图像数据并且该输出包括显示在一 个图形用户界面上的该目标对象的一个二维、三维或四维的表示。该图像数据可以是从由X 光、CT、发射断层扫描、SPECT和PET构成的一个组中选择的,并且该目标对象是一个病人的 一个身体部分。该图像数据是从至少两个平面中取出的,使得该输出包括一个三维表示。在 一些实施例中,该图像数据是从至少两个平面中取出的并且进一步包括时间,使得该输出 包括一个四维表示。
[0039] 在本发明的又另一方面,提供了一种用于使用统计估算从输入数据生成模型的改 进的方法,其中,改进包括用一个二次似然函数(QLF)替代一个对数似然函数(LLF)以优化 用于生成该模型的多个参数。
[0040] 附图简要描述
[0041] 图1是一个普通计算环境的框图,
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1