混合模型的确定方法及装置的制造方法_4

文档序号：9217416阅读：来源：国知局

变量的变分分布。也就是说，上述步骤203获取到的隐变量的变分分布是样本数据中部分样本数据对应的隐变量的变分分布，而并非能够代表所有样本数据对应的隐变量的变分分布。为了能将所有样本数据对应的隐变量的变分分布代入目标函数确定目标函数值，本实施例提供的方法在获取所有样本数据对应的隐变量的变分分布时，对于当前从样本数据中抽取到的子样本数据，可通过上述步骤203的方式获取当前从样本数据中抽取到的每个子样本数据对应的隐变量的变分分布；对于从未被从样本数据中抽取到的子样本数据，其对应的隐变量的变分分布可以设置为初始值；对于之前曾被从样本数据中抽取出来但当前未被从样本数据中抽取到的子样本数据，可将最近一次通过上述步骤203获取到的隐变量的变分分布作为当前该样本数据对应的隐变量的变分分布。
[0204] 为了便于理解，以样本数据为A、B、C、D及E为例进行说明。在第一次获取所有样本数据对应的隐变量的变分分布时，如果当前抽取到的子样本数据为样本数据A及B，未抽取到的子样本数据为样本数据C、D及E。因此，通过上述步骤203的方式获取样本数据A及 B对应的隐变量的变分分布；对于样本数据C、D及E，则可以分别为其设置初始值。
[0205] 在第二次获取所有样本数据对应的隐变量的变分分布时，重新从样本数据中抽取子样本数据，且如果当前抽取到的子样本数据为样本数据B及C，未抽取到的子样本数据为样本数据A、D及E。因此，通过上述步骤203的方式获取样本数据B及C对应的隐变量的变分分布；由于样本数据A在本次未被抽取出来，但是上一次被抽取出来过，因而将第一次抽取到样本数据A时通过上述步骤203获取到的样本数据A对应的隐变量的变分分布作为当前样本数据A对应的隐变量的变分分布；对于样本数据D及E，由于从未被抽取过，因而样本数据D及E对应的隐变量的变分分布仍为初始值。
[0206] 在第三次获取隐变量的变分分布时，重新从样本数据中抽取到的子样本数据为样本数据D及E，未抽取到的子样本数据为样本数据A、B及C。对于样本数据D及E，通过上述步骤203获取样本数据D及E对应的隐变量的变分分布；对于样本数据A，可将首次抽取样本数据A时通过上述步骤203获取到的样本数据A对应的隐变量的变分分布作为当前样本数据A对应的隐变量的变分分布；对于样本数据B及C，可将第二次抽取到样本数据B时通过上述步骤203获取到的样本数据B对应的隐变量的变分分布作为当前样本数据B对应的隐变量的变分分布，将第二次抽取到样本数据C时通过上述步骤203获取到的样本数据C 对应的隐变量的变分分布作为当前样本数据C对应的隐变量的变分分布。依次类推，直至得到使目标函数收敛的隐变量的变分分布。
[0207] 需要说明的是，当确定目标函数未收敛，重新根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数时，可返回步骤203,按照步骤203的方式重新根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数。当第一次根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数时，步骤203中的公式所涉及到的t-1代表初始值，但返回步骤203重新根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数时，步骤203中的公式所涉及到的t-1代表上一次获取，并且需要重新从样本数据中抽取子样本数据。例如，首次按照上述步骤203中的公式根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数时，公式中的t-1对应的参数使用初始值，得到首次获取到的隐变量的变分分布及组件参数。如果首次获取到的隐变量的变分分布及组件参数未使目标函数收敛，则将首次获取到的隐变量的变分分布及组件参数作为上述步骤203中t-1对应的参数的值，再次根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数，并判断再次获取到的隐变量的变分分布及组件参数是否使确定的目标函数收敛。如此获取，直至得到使目标函数收敛的隐变量的变分分布及组件参数。
[0208] 进一步地，通过上述步骤203至步骤204即完成了根据从样本数据中抽取的子样本数据确定使目标函数收敛的隐变量的变分分布及组件参数，为了完成确定混合模型，本实施例提供的方法还包括后续步骤。
[0209] 205 :根据使目标函数收敛的隐变量的变分分布及组件参数确定混合模型。
[0210] 针对该步骤，目标函数收敛时的取值接近对数似然，可通过使目标函数收敛的隐变量的变分分布及组件参数确定混合模型。
[0211] 进一步地，可设置不同的组件个数C。例如，设置C最小取值为Cmin，C最大取值为 C_ ;在C的取值范围内，针对C的每一种取值，根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数，则在使目标函数收敛的基础上，还可选取使目标函数取值最大的C，并通过该C计算得到的隐变量的变分分布及组件参数确定混合模型。
[0212] 需要说明的是，设置的组件个数C与确定的混合模型的组件个数可能相同，也可能不同，即在确定混合模型的过程中，可自动调整混合模型的结构。
[0213] 确定的混合模型可用于数据的聚类，还可用于数据的分类。当确定的混合模型用于数据的聚类时，确定混合模型的过程即是数据聚类的过程；当确定的混合模型用于数据的分类时，还需要对确定的混合模型进行进一步地处理。利用数据聚类和分类的结果可以进行客户分析、生物分析及地理分析等，产生的大量的社会价值和经济价值。
[0214] 本发明实施例提供的方法，通过根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的变分分布的对数确定目标函数，并根据使目标函数收敛的隐变量的变分分布及组件参数确定混合模型，由于引入了正则项，因而可使得混合模型的复杂度得到自动控制，可适用于处理超大规模数据。此外，由于隐变量和组件参数之间存在依赖关系，因而确定的隐变量的变分分布和组件参数更加准确，确定的混合模型也更为准确。
[0215] 实施例三
[0216] 参见图3,本发明实施例提供了一种混合模型的确定装置，该装置包括：
[0217] 获取模块301，用于获取根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的变分分布的对数；
[0218] 第一确定模块302,用于根据对数似然、正则项及隐变量的变分分布的对数确定目标函数；
[0219] 第二确定模块303,用于根据从样本数据中抽取的子样本数据确定使目标函数收敛的隐变量的变分分布及组件参数；
[0220] 第三确定模块304,用于根据使目标函数收敛的隐变量的变分分布及组件参数确定混合模型。
[0221] 作为一种可选实施例，获取模块301获取到的对数似然为：
[0222] logp(xN，ZN| 0 );
[0223] 其中，logp〇表示对数似然，p表示联合概率密度函数，xN为样本数据，N为样本数据个数，Z N为隐变量，0为组件参数的集合，组件参数包括a、9，a为组件混合比率，供表示每个组件的子模型参数。
[0224] 作为一种可选实施例，获取模块301获取到的正则项为：
[0225] i：f4^Z-，b(Z-)V|1〇giV; c=l ^ Vi=\ i=l J2
[0226] 其中，N为样本数据个数；C为组件个数，zn。为隐变量；夺（）为隐变量的变分分布的近似值；a为组件混合比率，D a为a的维度，D。为组件的子模型参数的维度， L(a, b)=logb+(a_b)/b，a 为，b 为乞夺(z,K.)。 /=1
[0227] 作为一种可选实施例，获取模块301获取到的隐变量的变分分布的对数为：
[0228] logq(ZN)；
[0229] 其中，q(ZN)为隐变量ZN的变分分布，N为样本数据个数。
[0230] 作为一种可选实施例，第一确定模块302,用于根据对数似然的期望值、正则项的期望值及隐变量的变分分布的对数的期望值确定目标函数。
[0231] 作为一种可选实施例，第一确定模块302确定的目标函数为：
[0232] 愿5(《私 x卞 & [tog+''Z? |吩￡? [l0g?(Z'v)]-￡技导彳 Lc=i上k/=i i=\ y」 lz _
[0233] 作为一种可选实施例，参见图4,第二确定模块303,包括：
[0234] 获取单元3031，用于根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数；
[0235] 确定单元3032,用于根据隐变量的变分分布及组件参数确定目标函数是否收敛；
[0236] 获取单元3031，用于当目标函数未收敛时，重新根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数，直至得到使目标函数收敛的隐变量的变分分布及组件参数。
[0237] 作为一种可选实施例，参见图5,获取单元3031，包括：
[0238] 第一获取子单元30311，用于根据从样本数据中抽取的每个子样本数据获取每个子样本数据对应的隐变量的变分分布；
[0239] 第二获取子单元30312,用于根据每个子样本数据对应的隐变量的变分分布获取每个子样本数据对应的组件参数中间值；
[0240] 第一确定子单元30313,用于根据每个子样本数据对应的组件参数中间值确定组件参数的平均值；
[0241] 第三获取子单元30314,用于根据组件参数的平均值获取组件参数。
[0242] 作为一种可选实施例，第一获取子单元30311，用于根据从样本数据中抽取的每个子样本数据按照如下公式获取每个子样本数据对应的隐变量的变分分布：
[0243]
[0244] 第二获取子单元30312,用于根据每个子样本数据对应的隐变量的变分分布集合按照如下公式获取每个子样本数据对应的组件参数中间值《丨?和：
[0248] 第一确定子单元30313,用于根据各个子样本数据对应的组件参数中间值按照如下公式确定组件参数的平均值式和舍：
[0250] 第三获取子单元30314,用于根据组件参数的平均值按照如下公式获取组件参数 :
[0251] ?：={\-pt)a{：-X)^-p，ac ,^={l-p>)9^ + p>^ ,
[0252] t代表当前获取，t_l代表上一次获取或初始化，P为更新步长为第c个组件下第4个子样本数据对应的隐变量的变分分布，S为子样本数据集合，气1为子样本数据集合中的第L个子样本数据，a。为第c个组件的组件参数a，A为第c个组件的组件参数供。
[0253] 作为一种可选实施例，参见图6,确定单元3032,包括：
[0254] 比较子单元30321，用于比较根据隐变量的变分分布及组件参数确定的目标函数值与上一次得到的目标函数值之间的距离是否小于阈值，上一次得到的目标函数值根据上一次获取到的隐变量的变分分布及组件参数确定；
[0255] 第二确定子单元30322,用于当根据隐变量的变分分布及组件参数确定的目标函数值与上一次得到的目标函数值之间的距离小于阈值时，确定目标函数收敛。
[0256]

完整全部详细技术资料下载

当前第4页1 2 3 4 5