实时跨地点概率模拟方法与装置制造方法

文档序号:6514407阅读:181来源:国知局
实时跨地点概率模拟方法与装置制造方法
【专利摘要】本发明公开了一种实时跨地点概率模拟方法与装置。该方法允许多用户在多地点进行分布式“所见即所得”的概率模拟。该方法将一个问题P投射到到k个子问题空间,其中每个子空间至少有一个维度,然后对每个子问题进行与用户的模型初始化和参数化过程不中断的并行模拟。该方法采用“操作即模拟”和“批量生成批量计算”技术来进行数据检索调用,随机数生成和模拟,并且上述过程是与用户的模型初始化和参数化过程不中断的并行进行的。该装置基于以往模型输入输出建立一个知识库,从而增强数据可重复使用性。如果当且仅当模型的一部分被更新,该装置只对受影响的模型部分进行重复模拟,而固定未受影响的模型部分的输入输出。
【专利说明】实时跨地点概率模拟方法与装置
【技术领域】
[0001]该发明总体来说与不确定性分析有关。特别的,该发明与概率模拟的效率提高有关。
【背景技术】
[0002]许多控制着复杂系统的特征,事件和过程不能很好地被确定性方法来认识和理解。这是因为对大多数真实系统而言,至少某些控制参数,过程和事件通常是随机的和不被理解的。许多决策支持系统的目标就是去识别和量化与某种观点,计划或设计有关的风险。在系统行为分析中引入不确定性被称作不确定性分析。不确定性分析几乎与我们做的每个决定都有关系。我们经常面对不确定性,模糊性和可变性。即使我们有前所未有的获取信息的途径,我们也不能准确预测未来。计算机模拟,在这种情况下,是一种可以让我们看到决策的所有可能结果并评估风险影响的方法,从而使得不确定性下的决策更加科学。在不确定性考量下模拟一个系统并且量化其风险,需要在计算中对不确定性进行定量的分析。
[0003]许多模拟工具和方法实质上还是基于确定性方法的,尽管它们看起来属于不确定性方法。在一个基于确定性方法的模拟中,模型输入由单个数值来表示(通常是“最佳估计值”或者是“三点估计值”,包括最佳值,最差值,和最可能值)。不幸的是,尽管此类模拟能够对基本的机制提供一定程度的解释,但是并不适合用来做支持决策的预测,因为此类模型没能量化内在的风险和不确定性。一个简单的例子是准备一个项目的概预算。在解构主义的框架下,一个项目依据WBS (任务分解结构)或商业功能被分解成若干子项目。每个子项目按照“最可能情况”来准备概预算,然后整个项目的概预算就简单的是这些子项目概预算的加总。当(子项目)的概率分布不是对称分布的时候,因为“中心极限定律”的存在,这种方法会产生有偏差的项目概预算。不幸的是,上述方法在很多行业都已经成为标准。
[0004]而另一方面,概率模拟(也称为概率建模方法),能够更好的,符合一致性(coherently)原则的分析不确定性,并且反映统计学规则。概率模拟将一个真实系统抽象建模成一个或多个生成模型(generative models),并且模型内元素彼此是随机关联的,最终系统的可能结果被以聚合方式模拟出来。概率模拟提供了一个分析和可视化复杂系统的有力框架,而这些复杂系统往往包含着来自于科学研究和日常生活中的大量数据。
[0005]定量的表达概率模拟的不确定性是可能的。在概率模拟过程中,通过将模型输入表达为概率分布,来使不确定性得到精确的描述。如果一个系统的输入是不确定的,那么对其未来结果的预测也会是不确定的。也就是说,基于用概率分布表达的输入的分析的结果也是概率分布。因此,虽然对一个不确定性系统的确定性模拟的结果可以被表达成某种泛泛的结论(比如:“如果我们建立这个水坝,那么此处三文鱼可能会绝迹”),对不确定性系统的不确定性模拟的结果则可以被表达成某种概率(比如:“如果我们建立这个水坝,那么此处三文鱼绝迹的概率为20%”)。这样一个结果(在上例中,三文鱼绝迹的概率)通常对使用模拟结果的决策者更有用。
[0006]为了对被预测的系统结果的概率分布进行计算,有必要将输入中的不确定性传递(转移)至输出中的不确定性。现在有很多传递不确定性的方法。其中一种将系统多方面的不确定性传递至其被预测的结果的方法是“蒙特卡罗模拟”(Monte Carlo Simulation)。在蒙特卡罗模拟中,对整个系统的模拟常常被重复很多次(比如1000次)。每次模拟都是等概率进行的,并且都是对系统的完整实现。对每次实现,所有的随机变量都被取样(即按照某个随机变量的概率分布函数产生一个随机数)。然后,整个系统按照时间进行 模拟(对于给定的一组输入变量),这样一来系统的结果就被计算出来了。这种方法的结果是大量独立的不同的模拟结果,每个结果代表了一种可能的系统未来状态(即系统会按照时间遵循一个可能的路径)。这些独立的系统实现被聚合成为概率分布来表达可能的系统结果。
[0007]上述过程看似简单,但在很多情形下却效率低下。泛泛而言,一个概率模拟过程可以分成两个主要步骤:建模和模拟。建模过程旨在重建真实问题。用户需要定义和参数化一系列的随机变量以及随机变量之间的运算规则,包括算术运算,逻辑运算,矩阵运算等等。在进行模拟时,依照建模中定义的参数和运算规则进行计算并产生结果。传统的概率模拟效率低下是因为它将建模和模拟两个过程割裂开来。对于一个传统的概率模拟来说,比如蒙特卡罗模拟,分析者首先对问题建模并初始化一系列随机数生成器。直到建模过程全部完成后模拟才可能开始。接着,随机数生成器会对每个模型变量产生一个随机数实例,这些产生的随机数被模型执行,并且最终产生一个结果。这一过程叫做一次模拟试验(trial)。第二次模拟试验在第一次模拟试验结束后才会开始。在这种情况下,模拟与建模式完全分开的。
[0008]这种方法导致了很多现实问题。对于简单模型,该方法运行良好。但是面对有着数千,甚至数十万的随机变量和可能更多运算规则的复杂模型来说,特别是当今的复杂问题,传统方法变得不可忍受的低效。实时模拟几乎是不可能的,这使得决策过程变得缓慢。另夕卜,对于“假设情景分析”(What-1f Scenario Analysis)来说,当只有模型的一部分被改变的时候,上述过程(随机数生成和运算过程)需要被全部重复,这显然是一种浪费计算资源的非直接成本。总之,传统的概率模拟方法有如下缺陷:
[0009].建模与模拟过程彼此隔绝;
[0010].模拟效率主要取决于用户使用的设备;质量很难控制;
[0011].如果仅仅只有模型的一部分发生了改变,整个模型,包括未受影响的部分,也需要被重新计算,这对时间和系统资源都是一种浪费;
[0012].很难在不同组织间交换风险模型和风险信息;或者是确保从别的来源地接收到的风险模型和风险信息的真实性;
[0013].建模和对风险信息的解释需要如统计学家的专业人员的参与,而此类专业人员并不是每个组织都具有的;
[0014].模型设置和建模过程的复杂性使得模拟成了一种“专业化”工作;在移动设备上的傻瓜式的应用是几乎不可能的;
[0015].模拟和模拟后的深度分析之间缺乏集成;
[0016].目前的概率模拟方法缺乏可扩展性(scalable),因此不适用于大数据分析;
[0017].不同组织的风险模型彼此隔绝。在现存模拟框架下没有可行方法来基准比较某个企业的“风险程度”相对其它行业竞争者的高低。
[0018]本发明介绍一种方法和装置来实现对大型和复杂模型进行实时的概率模拟,该方法和装置基于两个技术分别是“操作即模拟”(SAYO)和“批量生成批量计算”(BGBC)。该发明提出的方法将有可能完全改变概率模拟的用户体验。
【发明内容】

[0019]该发明介绍了一种方法和信息管理、分析与储存装置,即RISK (Real-timeInter-locational Simulation Kit,实时多地点模拟组件),通过采用流程优化和云分布计算来达到实时跨地点和跨组织的概率模拟。该发明实现了跨地区团队之间的“所见即所得”式的模拟。
[0020]在其中一个实施例中,RISK将问题P投射到k个子问题空间,每个子问题Pi内嵌在一个维度为Hli的空间中。当子问题口1的Hli个变量被完整的参数化后,一个概率模拟将立刻可以在一个基于云的计算单位上执行,而与此同时用户可能仍在参数化其他子模型。当所有子模型被定义和模拟完成后,模拟结果将被聚合,并被送回基于网络的用户界面。上述过程与用户模型初始化和参数化的过程不中断的同时并行执行。
[0021]在另一个实施例中,RISK同步并行执行用户主导的模型参数化过程,以及不确定性和/或风险模型的数据检索调用和/或随机数生成(RNGs)过程。当获取至少一个模型输入的分布参数后(参数化),RISK首先检测在随机数数组数据库DigitBank中是否储存着来自于以前建模和模拟的,符合用户此次定义的分布的随机数数组(RNTs)。如果已有符合用户定义的分布的随机数数组,一个模型评估模块会将这些随机数数组移至一个临时存储空间或缓存空间,用以之后的计算使用。如果没有符合用户定义的分布等随机数数组,模型评估模块则会使用名为DigitSource的源随机数来生成服从特定分布的随机数,并将这些随机数储存在一个临时存储空间或缓存空间,用以之后的计算使用。上述过程与用户模型初始化和参数化的过程不中断的同步并行执行。
[0022]在又另一个实施例中,系统会创建一个指针,该指针包含一条能够将用户请求映射到DigitSource或DigitBank中的特定地址的信息,用以进行数据检索调用和/或随机数生成,并且将该指针和具体用户或具体模型绑定,以提高信息可重复使用性,效率和速度。储存在DigitSource中的真随机数可以定期更新,但是特定用户或特定模型的地址映射信息不会改变以确保一致性。上述过程与用户模型初始化和参数化的过程不中断的同步并行执行。
[0023]在又另一个实施例中,如果当仅仅模型的一部分更新了,系统将未受影响的模型的部分所对应的输入和输出固定不变,如用于模拟的随机数数组和模拟结果,而只对受影响的模型部分重复模拟过程。最终结果将被合成以反映模型的更新的影响。
[0024]在又另一个实施例中,模型平台允许不同地点或不同组织的多用户在RISK上进行跨地点跨组织的“所见即所得”式的模拟。用户可以启动一个与另一个地点的用户的协同模拟项目。不同用户对模型的动作会被实时通过计算机网络,如互联网(internet),送至RISK。RISK随后会按照之前描述的流程执行随机数生成,随机数数组检索调用,模型评估,以及对模型或子模型的云计算等。如果模型的状态有任何更新,其结果将被RISK合成,然后实时返回给基于网络的用户界面。由此,用户能够在发出动作之后立刻看到他们发起的动作以及相应的模型状态的变化。同时,读取,控制和授权等操作如授予或撤销修改和只读权限,覆盖结果,移动或删除模型,创造数据库等,可以按照预先规定的安全权限政策由系统管理员进行操作。
[0025]在又另一个实施例中,系统实现了与模型相关的统计信息的分享与基准比较。一旦某个模拟项目在RISK上完成,用户可以选择通过提交相关信息来公布模拟结果,包括模型的背景信息,模型输入,模型信息和模型模拟输出。系统集成用户提交的信息并计算用户感兴趣的统计指标,包括但不限于:模型输入(如模型变量的概率密度函数roF),模型输入输出的均值,标准差,百分位,最大值与最小值等,模型输入输出的数量,模拟时间,领域或行业(如金融业,零售业,建筑产业,学术项目等等),地理信息(如公司地点)。对于某些具体模拟项目,如针对项目进度计划的PERT模拟(计划评审技术),可计算的统计指标可能包括一些该领域人员感兴趣的指标如项目周期,项目周期不确定性等等。该特点使得任何用户都有机会将他/她的模拟结果与所有提交到RISK的结果进行基准比较。一个典型的例子是通过项目进度计划PERT模拟反映出的项目风险程度的百分位,或者是被模拟股票的风险排名。一系列的过滤器可以帮助用户只集中关注感兴趣的领域或方面。
[0026]在又另一个实施例中,嵌入在系统中的统计分析模块和流程能够实现后台深度统计分析。用户可以将具体的统计分析请求,如考虑概率的回归分析和时间序列分析,提交至系统,系统会利用提交的模型信息如模型输入和模拟输出来在后台进行深度统计分析,并实时将结果返回给用户。如果某些统计分析请求超出系统能力,请求将被送至经验丰富的统计学家来进行后台分析,并最终将结果返回给用户。该分析服务由系统提供。分割原始问题可以把具体和敏感的用户信息在有人参与的流程中隐藏起来。
[0027]在又另一个实施例中,用户界面不仅仅包括个人电脑,还包括移动设备如智能手机,平板电脑,手表,谷歌眼镜等等。模型参数化过程可以由不同方式实现,如触摸屏,扫描,声控等等。模拟过程将在云端服务器进行,结果以数字,图表,颜色,声音等形式返回给用户界面。
【专利附图】

【附图说明】
[0028]为了更好的理解本发明,下列绘图与一个详细的关于本发明的描述一起提供。绘图按照下述排列引用:
[0029]图1是本发明提出的模拟问题分类说明
[0030]图2是本发明提出的模拟时间的四个组成部分
[0031]图3是在本发明提出的流程和方法的基础上对不同类型问题的模拟流程
[0032]图4是实现本发明提出方法的装置的系统架构
[0033]图5是典型的基于RISK的“所见即所得”式的模拟的流程图
[0034]图6是关于本发明提出的模拟方法的描述
[0035]图7是关于只改变模型某一部分情况的图解
[0036]图8是跨组织和跨地点模拟的图解
[0037]图9是云基准比较的图解
[0038]图10是一个项目进度计划例子的图解(可拆分问题)
[0039]图11是有里程碑的项目进度计划被模拟的图解
[0040]图12是跨地区模拟的一个例子
[0041]图13是没有里程碑的项目进度计划被模拟的图解
[0042]图14是关于“在险价值”(VaR)随机数数组的描述
[0043]图15是在移动设备上进行“在险价值”(VaR)实时计算的图解【具体实施方式】
[0044]所有本发明提及的科学和技术名词具有能够被该领域具有一般技能的专业人员所理解的一致含义。如若有具体说明发生冲突,应以本发明提供的描述为准。RISK是一种方法和信息管理、分析与储存装置,其通过采用流程优化和云分布计算来达到实时跨地点和跨组织的概率模拟。它实现了跨地区团队之间的“所见即所得”式的模拟。
[0045]一个模型是对真实世界问题P的重建。基于RISK,一个模型可以被定义为M个随机变量的集合(M>=2),以及随机变量之间的运算规则,记为F,包含算术运算,逻辑运算,矩阵运算等等。模拟结果记为R,则有:
[0046]R = F (P)( I )
[0047]参照图1,按照具体的F,即一个问题100怎样被建模,RISK将问题分为可拆分问题101或不可拆分问题102 ;可拆分问题101可被进一步分为完全可拆分105和不完全可拆分106。
[0048]参照图1,可拆分问题101意味着原始问题要么是可聚合的103,要么是嵌套的104。可聚合指的是原始问题空间可以被投射到至少两个彼此独立的子空间。从实用角度上看,这意味着可聚合问题至少有两个彼此独立的部分(子问题),每个子问题能够被独立的和并行的模拟,其结果稍后可以被合成成最终结果。假设一个问题P有M个变量:
[0049]P= {x1; x2, , xM}(2)
[0050]换言之,P属于一个维度为M的问题空间:
[0051]
【权利要求】
1.一个方法,包括: 将模拟问题分为可拆分问题和不可拆分问题,其中可拆分问题能被继续分为完全可拆分问题和不完全可拆分问题; 通过一个信息装置来执行模型参数化,随机数生成,模拟和合成,其中所说的模型参数化不仅仅包括定义模型变量的概率密度函数,还包括检索调用来自于之前随机数生成过程的已有结果,其中所说的随机数生成包括从一个数据库中调用按照给定概率密度函数的随机数数组,以及利用来自于例如量子随机数生成器产生的真随机数并通过随机数生成方法如马科夫链蒙特卡罗来生成的服从用户定义的任意概率密度函数的随机数,其中所说的执行包括: 对所有类型的问题包括可拆分问题和不可拆分问题,与用户参数化过程同步并行的执行随机数生成任务; 将不完全可拆分问题P投射到k个子空间,其中2 ( k〈m,其中m是模型变量的个数,然后与用户参数化过程同步并行的执行随机数生成任务和子模拟任务,其中某个模拟只有在某个子模型的全部变量都被参数化完成,并且对应的随机数数组都已被实现后才能被执行;在k个子模型都被模拟完成后,k个子模拟的结果被合成以产生最终结果; 将完全可拆分问题P投射到k个子空间,其中2 < k=m,其中m是模型变量的个数,然后与用户参数化过程同步并行的执行随机数生成任务和子模拟任务,其中某个模拟只有在至少两个变量被参数化完成,并且对应的随机数数组被实现后,或至少一个变量被参数化完成,并且对应的随机数数组被实现来更新之前子模拟的结果之后才能被执行;每次子模拟的结果都被新参数化的变量更新,直到所有m个模型变量都被模拟完成以产生最终结果;如果当仅仅模型的一个部分被改变,固定未受影响的模型部分的模型信息保持不变,如用在模拟中的随机数数 组和模拟结果,而只对受影响的模型部分重复上述的过程;合成结果以反映模型的更新。
2.一个计算机执行的方法,包括: 通过一个基于网络的用户界面定义模型,其中所说的模型包括对模型变量的运算规则包括算术运算,逻辑运算和矩阵运算等; 通过一个基于网络的用户界面参数化模型变量,其中所说的参数化包括定义模拟变量的概率密度函数和/或调用之前随机数生成的已有结果; 通过一个计算机网络,如互联网,与模型参数化过程同步并行的将随机数生成请求发送至一个远端的云服务器; 与模型参数化同步并行的在远端云服务器上生成随机数数组,其中所说的生成随机数包括在远端服务器上调用之前随机数生成的已有结果,其中所说的随机数生成还包括在远端服务器上利用来自于例如量子随机数生成器产生的真随机数并通过随机数生成方法如马科夫链蒙特卡罗来生成的服从用户定义的任意概率密度函数的随机数; 将模型和生成的随机数数组送至远端服务器上的一个临时存储或缓存中,该临时存储或缓存会接着将模型和随机数数组送至一个计算单元,例如,基于云的网格计算设施,在其中,模拟将被执行,其中所说的模拟包括对完全可拆分问题的m-Ι个子模拟,其中m为模型变量的个数,或对不完全可拆分问题的k个子模拟,其中k是子模型的个数;并在一个合成模块上合成子模拟的结果以产生最终结果;通过一个基于网络的用户界面将最终结果存储在一个永久性储存上,如远端服务器上的数据库,并将存储信息和结果一并返回给基于网络的用户界面; 通过一个基于网络的用户界面将模型更新请求发送至远端服务器上,其中所说的更新包括对模型变量的修改以及模型本身,其中如果当仅仅模型的一个部分被改变,固定未受影响的模型部分的模型信息保持不变,如用在模拟中的随机数数组和模拟结果,而只对受影响的模型部分重复上述的过程;合成结果以反映模型的更新;通过一个基于网络的用户界面将最终结果存储在一个永久性存储设备上,如远端服务器上的数据库,并将存储信息和结果一并返回给基于网络的用户界面; 通过给远端服务器提交相关信息,来公布被批准的结果,包括模型的一般背景信息,模型输入,模型信息和模型模拟输出,其中提交的信息和感兴趣的计算统计指标将被聚合,包括但不限于:模型输入的概率密度函数,模型输入输出的均值和标准差,模型输入输出的最大值与最小值,模型输入输出的百分位值,模型输入输出的数量,模拟时间,领域或行业(如金融业,零售业,建筑产业,学术项目等等),地理信息(如公司地点);并且将提交的结果与所有之前提交的结果进行基准比较,其中一系列的过滤器可以帮助用户只集中关注感兴趣的领域或方面; 将高级统计分析请求发送至远端服务器,其中请求可能被统计分析模块或有人干预的过程来处理,其中所说的统计分析可能很难用已有的商用软件来实现;并将统计分析结果返回给用户界面; 允许不同地点或来自于不同组织的用户依照事先授予的权限在同一模型上同一时间执行上述描述的部分或全部过程,其中所说的权限包括检视,修改,覆盖,移动,删除模型,为模型创建数据库等等,这些权限由系统管理员按照事先决定的安全政策来授予或取消。
3.一个装置,包括: 一个远端数据库其中包括通过物理过程如量子仪器生成的真随机数;` 一个储存有用户之前参数化的模型,模型输入和模型模拟输出的远端数据库; 一个将建模,参数化和更新任务分配给其它模块并且将完整问题分割成一组子问题以实现即时和并行计算的模型评价模块; 一个储存有子模型和对应变量的临时存储服务器; 一个可以完成被分配的计算任务的基于云的计算网格; 一个将子问题的模拟结果合成的合成模块; 一个在用户允许后将输入和/或模拟结果聚合,并依请求基准比较和展示特定模型,组织,行业的不确定性和风险水平的基准比较模块; 一个以表格或点击形式为基础的,能被移植至移动设备的,包括但不限于:智能手机,平板电脑,手表,计算器,谷歌眼镜等的,基于网络的用户界面。
【文档编号】G06F19/00GK103559380SQ201310461382
【公开日】2014年2月5日 申请日期:2013年9月27日 优先权日:2013年6月28日
【发明者】杜晶 申请人:杜晶
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1