建模数据生成过程的制作方法_3

文档序号：8385963阅读：来源：国知局

出设备230和系统总线208之间提供连接装置的视频卡和声卡。能够注意，其他设备和/或设备的系统提供诸如远程计算机234之类的输入和输出两种功能。
[0043] 计算机202可以是使用到一个或多个远程计算机（诸如，远程计算机234)的逻辑连接在联网环境（诸如，联网环境100)中主存事件预报系统的服务器。远程计算机234可以是配备有web浏览器、PC应用、移动电话应用等等的客户机系统。远程计算机234可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的电器、移动电话、对等设备或其他公共网络节点等等，并通常包括上文参考计算机202所描述的许多或全部元件。为了简洁起见，与远程计算机234 -起示出了存储器存储设备236。远程计算机234通过网络接口 238在逻辑上连接到计算机202,然后，经由通信连接240在物理上连接。
[0044] 网络接口 238包含诸如局域网（LAN)和广域网（WAN)之类的有线或无线通信网络。LAN技术包括光纤分布式数据接口（FDDI)、铜线分布式数据接口（CDDI)、以太网、令牌环网等等。WAN技术包括，但不限于，点对点链路、电路交换网，如综合业务数字网（ISDN)以及其变体，分组交换网络以及数字用户线（DSL)。
[0045] 通信连接240是指用来将网络接口 238连接到系统总线208的硬件/软件。尽管为清楚起见通信连接240被示为在计算机202内部，但是，它也可以位于计算机202外部。连接到网络接口 238的硬件/软件可包括，例如，内部和外部技术，如，移动电话交换机，调制解调器，包括常规电话分级调制解调器、电缆调制解调器和DSL调制解调器、ISDN适配器以及以太网网卡。
[0046] 用于建模数据生成过程的方法
[0047] 图3是用于建模数据生成过程的方法的过程流程图。方法300可由任何合适类型的计算设备来实现。例如，方法300可在上面结合图1和2讨论的联网环境100或计算环境200内实现。
[0048] 方法在框302开始，其中生成包括一对概率函数的二元贝叶斯模型，概率函数表示先验分布和采样分布。先验分布可通过计算对应于二元贝叶斯模型的先验函数的概率密度函数来生成，而采样分布可通过计算对应于二元贝叶斯模型的生成函数（即gen函数）的概率密度函数来生成。可替换地，先验分布可通过计算先验函数的概率质量函数来生成，而采样分布可通过计算对应于二元贝叶斯模型的gen函数的概率质量函数来生成。二元贝叶斯模型可使用类型参数来生成，包括通用参数、超参数、输入参数和输出参数，或其任何组合。二元贝叶斯模型可以是可被用来建模多个不同类型的数据集中的任一个的通用贝叶斯模型。此外，二元贝叶斯模型可使用任何合适的编程语言（诸如概率编程语言）来生成。
[0049] 二元贝叶斯模型可被自动生成、从先前生成的二元贝叶斯模型的库中选择、或以特定概率编程语言来手动地写。此外，二元贝叶斯模型可基于一个或多个先前使用模型组合符生成的二元贝叶斯模型来生成。例如，模型组合符可以是混合模型组合符或同样地且独立地分布的阵列（IID阵列）模型组合符。
[0050] 在框304,数据生成过程使用观察到的数据基于二元贝叶斯模型来被建模。这可通过生成二元贝叶斯模型的学习器对象并基于观察到的数据使用学习器对象来训练二元贝叶斯模型以产生经训练的二元贝叶斯模型来完成。诸参数之上的后验分布可基于经训练的二元贝叶斯模型来生成。此外，后验预测分布可基于后验分布来生成。后验预测分布可被用来预测可观察的变量的结果。例如，后验预测分布可被用来基于新输入数据预测新输出数据的分布。
[0051] 在各实施例中，二元贝叶斯模型的采样器对象可被生成。该采样器对象可被用于通过计算二元贝叶斯模型的综合数据并使用该综合数据判断后验分布或后验预测分布的准确性来测试学习器对象。此外，推断引擎可被用来执行学习器对象和采样器对象。
[0052] 方法300不旨在指示方法300的各步骤要以任何特定次序来执行，或者在每一种情况下都要包括方法300的所有的步骤。此外，取决于具体实现的细节，任何数量的附加步骤可被包括在方法300中。此外，二元贝叶斯模型可被重用来建模任何数量的附加数据生成过程。
[0053] 在此结合特定F#概率编程语言（被称为"Fun"）来描绘二元贝叶斯模型。然而，可以理解，取决于特定实现的细节，二元贝叶斯模型可以任何其它合适类型的编程语言来写。
[0054] Fun是没有递归的一阶功能语言。在此描述的Fun的实现支持具有数组和数组推导式以及Vector(向量）和Matrix(矩阵）类型的概率编程语言。值c的范围可跨基数类型和单位类型的恒定数据，值n的范围可跨整数，而值r的范围可跨实数。等式ty(c)=t 可指示恒量c具有类型t。以下表达式可表示Fun的值。
[0055] U,V：：=XIcI(V,V)IiniV|inrV
[0056] 基数类型的Fun可以如下所示的来表达。
[0057]a，b::=intIdouble
[0058] 此外，以下表达可表示复合类型的Fun。
[0059]t，u: :=unitIbI(I^t2)I(ti+t2)
[0060] 令（Let)bool兰unk+unit。这些类型的确定性函数的集合可被假设为有效，包括算术和逻辑运算符，且fst和snd成对投射。数量n的每个运算f具有形式valf:…*tn-tn+1的签名。包括柏努利分布、|3 (Beta)分布、高斯分布，和y(Gamma)分布的 roist〈t>类型的原语概率分布的标准家族也可被假设为有效。柏努利分布如下示出在以下表达式中。
[0061] (bias:double) -PDist〈bool>
[0062] 0 (Beta)分布可如下所示被表达。
[0063] (a:double*b:double) -PDist〈double>
[0064] 高斯分布如下示出在以下表达式中。
[0065] (mean :double*precision :double) - PDist〈double>
[0066] 高斯分布可被平均数和精度来参数化。标准差〇从身份O2=I/精度来得出。 y(Ga_a)分布可如下所示被表达。
[0067] (shape :double*scale :double) - PDist〈double>
[0068]Fun的表达式可由M或N来表示。Fun的值可由U或V来表示。确定性函数应用的表达式可由f(V1,…，Vn)来表示。令表达式（let-expression)可由letX=MinN来表示。匹配表达式（match-expression)可由matchVwithiniX:M|inry:N来表示。原语分布可由random(Dist(V))来表示，并且观察可由observeV来表示。
[0069]标记17I-M:t可指示，在类型环境r=x1:t丨，…，X1^tn(XiClistinct)中，表达式 M具有类型t。在rFMU的情况下，多个类型化规则可被用于Fun表达式。
[0070] 形式上，封闭Fun表达式M的语义是其返回类型上的测量M[[M]]。如果M不包含 Observe的实例，那么M[[M]]是概率分布。否则，它是观察的模型证据条件

完整全部详细技术资料下载

当前第3页1 2 3 4