混合模型的确定方法及装置的制造方法_5

文档序号：9217416阅读：来源：国知局

综上所述，本发明实施例提供的装置，通过根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的变分分布的对数确定目标函数，并根据使目标函数收敛的隐变量的变分分布及组件参数确定混合模型，由于引入了正则项，因而可使得混合模型的复杂度得到自动控制，可适用于处理超大规模数据。此外，由于隐变量和组件参数之间存在依赖关系，因而确定的隐变量的变分分布和组件参数更加准确，确定的混合模型也更为准确。
[0257] 需要说明的是：上述实施例提供的混合模型的确定装置在确定混合模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的混合模型的确定装置与混合模型的确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0258] 上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0259] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0260] 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种混合模型的确定方法，其特征在于，所述方法包括：获取根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的变分分布的对数，并根据所述对数似然、正则项及隐变量的变分分布的对数确定目标函数；根据从所述样本数据中抽取的子样本数据确定使所述目标函数收敛的隐变量的变分分布及组件参数，根据使所述目标函数收敛的隐变量的变分分布及组件参数确定混合模型。2. 根据权利要求1所述的方法，其特征在于，根据所述样本数据、隐变量及组件参数确定的对数似然为： 1〇甜（xN, ZN|日）；其中，所述logp0表示对数似然，所述P表示联合概率密度函数，所述/为样本数据，所述N为样本数据个数，所述Z"为隐变量，所述0为组件参数的集合，所述组件参数包括〇、^2^，所述a为组件混合比率，所述口表示每个组件的子模型参数。3. 根据权利要求1所述的方法，其特征在于，根据所述样本数据、隐变量及组件参数确定的正则项为：其中，所述N为样本数据个数；所述C为组件个数，所述Z。。为隐变量；所述弓（）为隐变量的变分分布的近似值；所述a为组件混合比率，所述D。为所述a的维度，所述D。为所述组件C的子模型参数的维度，L(a,b) =logb+(a-b)/b，所述a为4. 根据权利要求1所述的方法，其特征在于，根据所述样本数据、隐变量及组件参数确定的隐变量的变分分布的对数为： logq狂W); 其中，所述q狂W)为隐变量ZN的变分分布，所述N为样本数据个数。5. 根据权利要求1至4中任一权利要求所述的方法，其特征在于，所述根据所述对数似然、正则项及隐变量的变分分布的对数确定目标函数，包括：根据所述对数似然的期望值、所述正则项的期望值及所述隐变量的变分分布的对数的期望值确定目标函数。6. 根据权利要求5所述的方法，其特征在于，根据所述对数似然的期望值、所述正则项的期望值及所述隐变量的变分分布的对数的期望值确定的目标函数为：7. 根据权利要求6所述的方法，其特征在于，所述根据从所述样本数据中抽取的子样本数据确定使所述目标函数收敛的隐变量的变分分布及组件参数，包括：根据从所述样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数；根据所述隐变量的变分分布及所述组件参数确定所述目标函数是否收敛，如果所述目标函数未收敛，则重新根据从所述样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数，直至得到使所述目标函数收敛的隐变量的变分分布及组件参数。8. 根据权利要求7所述的方法，其特征在于，所述根据从所述样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数，包括：根据从所述样本数据中抽取的每个子样本数据获取每个子样本数据对应的隐变量的变分分布，并根据每个子样本数据对应的隐变量的变分分布获取每个子样本数据对应的组件参数中间值；根据各个子样本数据对应的组件参数中间值确定组件参数的平均值，并根据所述组件参数的平均值获取组件参数。9. 根据权利要求8所述的方法，其特征在于，根据从所述样本数据中抽取的每个子样本数据按照如下公式获取每个子样本数据对应的隐变量的变分分布：根据每个子样本数据对应的隐变量的变分分布按照如下公式获取每个子样本数据对应的组件参数中间值和於：根据各个子样本数据对应的组件参数中间值按照如下公式确定组件参数的平均值A和夜：根据所述组件参数的平均值按照如下公式获取组件参数和括：為=(1-卢)"r"+户卑，括=(1-戶')如一)+戶廣；所述t代表当前获取，所述t-i代表上一次获取或初始化，所述P为更新步长，所述为第C个组件下第Im个子样本数据对应的隐变量的变分分布，所述S为子样本数据集合，所述为子样本数据集合中的第Im个子样本数据，所述a。为第C个组件的组件参数 a，所述A为第C个组件的组件参数0。10. 根据权利要求7至9中任一权利要求所述的方法，其特征在于，所述根据所述隐变量的变分分布及所述组件参数确定所述目标函数是否收敛，包括：比较根据所述隐变量的变分分布及组件参数确定的目标函数值与上一次得到的目标函数值之间的距离是否小于阔值，所述上一次得到的目标函数值根据上一次获取到的隐变量的变分分布及组件参数确定；如果根据所述隐变量的变分分布及组件参数确定的目标函数值与上一次得到的目标函数值之间的距离小于阔值，则确定所述目标函数收敛。11. 一种混合模型的确定装置，其特征在于，所述装置包括：获取模块，用于获取根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的变分分布的对数；第一确定模块，用于根据所述对数似然、正则项及隐变量的变分分布的对数确定目标函数；第二确定模块，用于根据从所述样本数据中抽取的子样本数据确定使所述目标函数收敛的隐变量的变分分布及组件参数；第H确定模块，用于根据使所述目标函数收敛的隐变量的变分分布及组件参数确定混合模型。12. 根据权利要求11所述的装置，其特征在于，所述获取模块获取到的对数似然为： 1〇甜化ZN|日）；其中，所述logp0表示对数似然，所述P表示联合概率密度函数，所述/为样本数据，所述N为样本数据个数，所述Z"为隐变量，所述0为组件参数的集合，所述组件参数包括 a、界，所述a为组件混合比率，所述口-表示每个组件的子模型参数。13. 根据权利要求11所述的装置，其特征在于，所述获取模块获取到的正则项为：其中，所述N为样本数据个数；所述C为组件个数，所述Z。。为隐变量；所述弓〇为隐变量的变分分布的近似值；所述a为组件混合比率，所述D。为所述a的维度，所述D。为所述组件C的子模型参数的维度，L(a,b) =logb+(a-b)/b，所述a义14. 根据权利要求11所述的装置，其特征在于，所述获取模块获取到的隐变量的变分分布的对数为： logq(Z^)；其中，所述q狂W)为隐变量Z"的变分分布，所述N为样本数据个数。15. 根据权利要求11至14中任一权利要求所述的装置，其特征在于，所述第一确定模块，用于根据所述对数似然的期望值、所述正则项的期望值及所述隐变量的变分分布的对数的期望值确定目标函数。16. 根据权利要求15所述的装置，其特征在于，所述第一确定模块确定的目标函数 FLCLB(、q，[i，0.y')%17. 根据权利要求16所述的装置，其特征在于，所述第二确定模块，包括：获取单元，用于根据从所述样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数；确定单元，用于根据所述隐变量的变分分布及所述组件参数确定所述目标函数是否收敛；所述获取单元，用于当所述目标函数未收敛时，重新根据从所述样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数，直至得到使所述目标函数收敛的隐变量的变分分布及组件参数。18. 根据权利要求17所述的装置，其特征在于，所述获取单元，包括：第一获取子单元，用于根据从所述样本数据中抽取的每个子样本数据获取每个子样本数据对应的隐变量的变分分布；第二获取子单元，用于根据每个子样本数据对应的隐变量的变分分布获取每个子样本数据对应的组件参数中间值；第一确定子单元，用于根据各个子样本数据对应的组件参数中间值确定组件参数的平均值；第H获取子单元，用于根据所述组件参数的平均值获取组件参数。19. 根据权利要求18所述的装置，其特征在于，所述第一获取子单元，用于根据从所述样本数据中抽取的每个子样本数据按照如下公式获取每个子样本数据对应的隐变量的变分分布：所述第二获取子单元，用于根据每个子样本数据对应的隐变量的变分分布按照如下公式获取每个子样本数据对应的组件参数中间值和括:所述第一确定子单元，用于根据各个子样本数据对应的组件参数中间值按照如下公式确定组件参数的平均值屯和:所述第H获取子单元，用于根据所述组件参数的平均值按照如下公式获取组件参数和耗：為=(1 -卢'批(("，+口'，括=(1 -户)口r。+片拓；所述t代表当前获取，所述t-1代表上一次获取或初始化，所述P为更新步长，所述为第C个组件下第im个子样本数据对应的隐变量的变分分布，所述S为子样本数据集合，所述X/?为子样本数据集合中的第Im个子样本数据，所述a。为第C个组件的组件参数 a，所述0。为第C个组件的组件参数P。20. 根据权利要求17至19中任一权利要求所述的装置，其特征在于，所述确定单元，包括：比较子单元，用于比较根据所述隐变量的变分分布及组件参数确定的目标函数值与上一次得到的目标函数值之间的距离是否小于阔值，所述上一次得到的目标函数值根据上一次获取到的隐变量的变分分布及组件参数确定；第二确定子单元，用于当根据所述隐变量的变分分布及组件参数确定的目标函数值与上一次得到的目标函数值之间的距离小于阔值时，确定所述目标函数收敛。
【专利摘要】本发明公开了一种混合模型的确定方法及装置，属于统计技术领域。方法包括：获取根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的变分分布的对数，根据对数似然、正则项及隐变量的变分分布的对数确定目标函数；根据从样本数据中抽取的子样本数据确定使目标函数收敛的隐变量的变分分布及组件参数，根据使目标函数收敛的隐变量的变分分布及组件参数确定混合模型。本发明通过根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的变分分布的对数确定目标函数，根据使目标函数收敛的隐变量的变分分布及组件参数确定混合模型，由于引入了正则项，因而可使得混合模型的复杂度得到自动控制，可适用于处理超大规模数据。
【IPC分类】G06F19/00, G06N7/00, G06F17/50
【公开号】CN104933275
【申请号】CN201410101689
【发明人】刘春辰, 冯璐, 藤巻辽平
【申请人】日本电气株式会社
【公开日】2015年9月23日
【申请日】2014年3月18日

完整全部详细技术资料下载

当前第5页1 2 3 4 5