使用二次似然函数进行数据统计建模的方法和系统的制作方法

文档序号：9794045阅读：397来源：国知局

使用二次似然函数进行数据统计建模的方法和系统的制作方法
【专利说明】使用二次似然函数进行数据统计建模的方法和系统
[0001 ]相关申请
[0002] 本申请要求2013年9月18日提交的美国临时申请号61/879,629的优先权益。发明领域
[0003] 本发明涉及一种尤其是在非渐近统计估算问题中用于数据预测统计估算的方法并且更具体地涉及用二次似然函数替代对数似然函数，其中估算系数的数量与数据点的数量相差无几或大于数据点的数量。
[0004] 发明背景
[0005] 无论是从检测的图像、接收的信号、轮询、检索、或其他任何数据收集方法得来的测量的数据有可能受到噪声或不确定性的影响。改善尽可能从数据中提取更多信息而不过度解释数据的能力的方法是必需的。
[0006] 当需要从噪声数据中提取信息时，使用统计估算，噪声数据即是具有未知的随机分量的数据，这些随机分量从一个数据实现到另一个数据实现改变并且只能够通过统计进行表征。统计估算的目标是将数据中的信号建模，即，从一个数据实现到下一个数据实现不会改变的可再现的分量。信号被建模成参数函数，这些参数的值由模型对数据的拟合值确定。
[0007] 这种将噪声数据建模的过程应用广泛，举几个来说，包括但不限于跟踪对象、信号处理、成像(包括医学成像，如CT、SPECT、PET、X-ray等）、市场研究、供应链管理、库存控制以及金融市场。从历史数据中提取出来的信息经常被用于预测未来行为和/或与之相关联的风险。只要底层模型正确，预测和/或风险分析的质量由估算的准确性确定。
[0008] 应当指出的是统计估算涉及到更广阔的优化领域，其还包括非统计的方法，其中不涉及噪声数据，并且优化只是找到最佳的参数而已。
[0009] 统计估算可追溯到两个世纪之前的最小二乘法(高斯1809)，其后来演化成最大似然(ML)法(费雪1912，1922)。给定统计上独立的数据的概率分布函数，ML法会最大化数据的条件概率，给定模型，或等效地，会最小化对数似然函数(LLF)
[0011]在此，X是一个η维空间，其任何维度可以是连续的、离散的、或甚至是范畴的，Θ是模型参数，私是观察的位置，f(x，0)是pdf，并且δ是η维狄拉克（1958)差量函数。虽然积分可以在实际中被一个总和逼近，但是积分符号可以被理解为指明这些连续维数上的积分以及这些离散和范畴维数上的总和。
[0012]在许多应用中，pdf的积分归一化是固定的，典型地固定为一。在此情况下，在方程式(1)右手侧的第一项是不变的并且可以被省略，产生
[0014]方程式（1)中包括额外的项是为了考虑到观察的归一化只与自身有关系的情况，例如检测器观察的事件率或产品的销售率。在此情况下，方程式(1)是泊松（1837)分布的未分箱（unb inned) LLF。
[0015] ML方法具有三个独特的优点：
[0016] 1.其直接估算概率分布函数(pdf)，无需对数据进行分箱。
[0017] 2.在渐近极限中，数据点的数量在很大程度上超过参数的数量，由ML方法估算的参数的方差小于或等于竞争统计的方差。在渐近极限中，一个估算的参数的方差与用于估算它的数据点数量成反比。因此，对于一个给定的准确度，ML方法允许从比其他方法中的样本更小的样本中估算参数，从而其具有更高的抽样效率。事实上，替代估算量的效率被定义为在ML方差与其他估算量的方差之间的比率。这借由定义将ML估算量的效率设定为一，并且将竞争者的效率设定为小于一的分数或等于一。
[0018] 3.估算的参数中的不确定性的协方差矩阵容易从信息矩阵(费雪，1922)(8卩LLF的二阶偏导数的最小值的黑塞矩阵）的渐近极限中计算。
[0019] 在非渐近的制度中，当参数的数量与数据点的数量相差无几或大于数据点的数量时，必须约束解以避免使模型将随机统计噪声处理成可再现的信号（参见，例如培特、戈斯内尔和亚希勒(Yahil)2005的观点）惯例将信号表示为基函数的通用的线性的"非参数"组合，基函数的系数待被估算。（可以有表征这些基函数的附加的非线性参数）。目标是使估算同时提供重要系数的值并且借由归零或至少最小化来约束不重要系数。那样，希望将信号与噪声分呙。
[0020] 最可靠的参数化是最保守的参数化，其寻找与输入数据一致的最简单的底层参数，还被称为最小代价或奥卡姆剃刀原理。简单性依赖于上下文，但是对于大多数应用而言，最简单的解是最平滑的解。PIXON 1"法通过利用极大值、数据许可的空间自适应平滑取得这个解（Pifta和培特（Puetter)1993;培特（Puetter)和亚希勒（￥ &1^1)1999;培特 (Puetter)等人 2005;美国专利 5,912,993、6,353,688、6,490,374、6,895，125、6,993、204、 8,014，580、8,086,011、8,090,179、8,160，340、8,396,313;美国专利公开 2012/0263393,其中每一个都被通过引用结合在此）ALGEBR0N?方法是被设计用于没有固定在连续空间内的离散问题的等效技术，例如金融系统中的预测和风险评估(美国专利7,328，182)。
[0021] 自费雪（1912,1922)的创举之后，统计估算的常用思路是使用ML和其LLF估算量。然而，ML具有许多严重的缺点，这些缺点会限制其有用性：
[0022] 1 .ML仅仅是渐近高效的。在非渐近制度中，当将附加的约束条件应用到解上时，ML 方法的效率不能再被保证。
[0023] 2.在非渐近制度中，无法从信息矩阵中估算这些参数的协方差矩阵。实际上，无约束的ML方法常常借由将被看作是信号的噪声放大而产生显著的伪值(artifact)。约束解可以减小以上所述的这些伪值，但是接着剩余的准确性主要地由约束条件确定而不是由信息矩阵确定。
[0024] 3.-般而言，LLF在参数Θ中是二次的，并且为了确定这些参数的计算努力可能不值得额外的渐近抽样效率，尤其是对于大规模的问题而言。
[0025] 4.就这些参数而言，LLF的梯度具有与pdf f (X，Θ)成反比的一个项。
[0027] 低pdf区域中的可能包括离群值(欺骗数据)的数据会在参数估算中导致大的偏差和/或起伏。
[0028] 给定以上的限制时，在非渐近制度中，ML方法与用于非参数估算的其他估算量相比不具有特别的优势。准确性和计算效率比不再存在的ML "优势"更重要。
[0029] 发明简要概述
[0030] 根据本发明，提供了一种用于在图像或信号重构、数据分析等等中尤其是在参数的数量与数据点的数量相差无几或大于数据点的数量的情况下对具有噪声或其他不确定性的输入数据进行建模的方法。特别是，在统计估算问题中，使用二次似然函数(QLF)代替对数似然函数。示出了（a)QLF具有费雪一致性，因此适合于统计估算，并且(b)其在渐近极限的效率仅仅是10-15%，对于大部分相关问题而言，这个效率小于对数似然函数的效率。接着，指出的是对数似然函数在非渐近制度中不具有天生的优势，其中QLF的准确性和计算效率以及其对于低概率事件的敏感度较低使得其成为理想的估算量。以下的详细说明提供了建立和优化QLF的显式程序，包括在数据空间上对函数进行高效的积分。提供了这种新技术的潜在应用的示例。
[0031] 与LLF-样，QLF不需要将数据分箱，并且其二次型简化了解的计算和约束条件的应用并且对于低pdf区域中的数据的敏感度更低。甚至在渐近极限中，在常用基函数的抽样效率方面，QLF不会远远落后于LLF。当考虑线性非参数的pdf时，可以清楚地发现QLF的优点。
[0032]虽然本公开专注于统计估算，但是对于本领域的技术人员而言，将会更容易看清楚此处提出的一些技术可以应用于普通的优化问题。
[0033] 在本发明的一个方面，提供了一种在计算机处理器中借由从源接收输入信号而构建目标对象的模型的方法和系统，该输入信号包含描述该目标对象的数据和多个参数，该输入信号具有一个噪声部分;选择一组初始参数，估算包括一个平方可积的基函数集合的一个线性组合的一个非参数的概率分布函数(pdf )，计算一个二次似然函数(QLF)，基于该 QLF求这些初始参数对该数据的一个拟合值，借由选择一组新参数并且求该组新参数的拟合值来迭代优化该QLF直到达到一个预定条件。一旦达到一个可接受的拟合值，则能够显示使用这些经优化的参数构建的该目标对象的一个模型的一个输出。
[0034] 在本发明的另一方面，一种用于从输入信号生成目标对象的重构图像的方法，该输入信号具有一个数据分量和一个噪声分量，该方法包括:使一个计算机执行多个指令以用于:从一个图像源接收该输入信号，该输入信号包括多个参数;从该多个参数中选择一组初始参数;估算一个非参数的概率分布函数(pdf)，该非参数的概率分布函数包括一个平方可积的基函数集合的一个线性组合；计算形式为以下的一个二次似然函数（QLF)，
其中，Θ表示这些参数，X表示观察的位置，并且f (X，Θ)是该pdf;基于该QLF求这些初始参数该数据的一个拟合值;借由选择一组新参数并且求该组新参数的拟合值来迭代优化该QLF直到达到一个预定条件;并且生成一个输出，该输出包括基于这些经优化的参数对该目标对象的重构图像的显示。在一些实施例中，该输入信号包括第一平面图像数据和第二平面图像数据，其中，对该第一平面图像数据和该第二平面图像数据中的每一个进行选择、估算、计算、求值以及迭代优化该QLF的这些步骤，并且其中，生成一个输出包括显示该目标对象的一个三维图像。
[0035] 在本发明的仍另一方面，一种用于对包含在输入信号中的描述目标对象的数据进行建模的系统，该系统包括:一个计算机可读介质;耦接到该计算机可读介质上的一个参数优化处理器；以及一个通信接口，该通信接口耦接到该参数优化处理器上并且被适配成用于分别向并且从该参数优化处理器接收并且传输多个重构模型的多个电子表示，该计算机可读介质在其上存储有多个软件指令，当这些指令被该参数优化处理器执行时，使得该参数优化处理器进行多个操作，这些操作包括：
[0036] 从一个源接收该输入信号，该源被配置成用于收集对象数据;生成与该对象数据对应的一组初始参数;估算一个非参数的概率分布函数，该非参数的概率分布函数包括一个平方可积的基函数集合的一个线性组合;计算形式
的一个二次似然函数(QLF)，其中，Θ表示这些参数，X表示观察的位置，并且f(x，0)是该pdf; 基于该QLF求这些初始参数对该数据的一个拟合值;借由选择一组新参数并且求该组新参数的拟合值来迭代优化该QLF直到达到一个预定条件;并且生成一个输出，该输出包括使用这些经优化的参数构建的该目标对象的一个模型。在一些实施例中，该数据包括权重^并且该QLF具有的形式为
[0038] 该系统进一步包括用于使用该数据和这些基函数计算一个源项的软件指令。得到该QLF是借由使用这些基函数计算一个格拉姆矩阵;并且将该格拉姆矩阵、这些参数以及该源项组合以产生该QLF。在一些实施例中，该输入信号是图像数据并且该输出包括显示在一个图形用户界面上的该目标对象的一个二维、三维或四维的表示。该图像数据可以是从由X 光、CT、发射断层扫描、SPECT和PET构成的一个组中选择的，并且该目标对象是一个病人的一个身体部分。该图像数据是从至少两个平面中取出的，使得该输出包括一个三维表示。在一些实施例中，该图像数据是从至少两个平面中取出的并且进一步包括时间，使得该输出包括一个四维表示。
[0039] 在本发明的又另一方面，提供了一种用于使用统计估算从输入数据生成模型的改进的方法，其中，改进包括用一个二次似然函数(QLF)替代一个对数似然函数(LLF)以优化用于生成该模型的多个参数。
[0040] 附图简要描述
[0041] 图1是一个普通计算环境的框图，

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：埃莫斯·亚希尔;
技术所有人：伊麦格莱肯有限责任公司;
我是此专利的发明人

上一篇：虚拟镜子的装置、系统和方法
上一篇：用于捕获和生成用户体验的装置和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。