数据对应的隐变量的变分分布:
[0070]
[0071] 所述第二获取子单元,用于根据每个子样本数据对应的隐变量的变分分布按照如 下公式获取每个子样本数据对应的组件参数中间值和:
[0075] 所述第一确定子单元,用于根据各个子样本数据对应的组件参数中间值按照如下 公式确定组件参数的平均值么和也:
[0077] 所述第三获取子单元,用于根据所述组件参数的平均值按照如下公式获取组件参 数< 和勿:
[0078] = (1 -p' )a^rV)+p'dc,(p'c ={\- p' )cp(^x>+p'q>c;
[0079] 所述t代表当前获取,所述t_l代表上一次获取或初始化,所述P为更新步长,所 述为第c个组件下第I m个子样本数据对应的隐变量的变分分布,所述S为子样本数 据集合,所述气> 为子样本数据集合中的第Im个子样本数据,所述a。为第c个组件的组件 参数a,所述%为第c个组件的组件参数P。
[0080] 结合第二方面的第六种至第七种可能的实现方式中任一种可能的实现方式,在第 二方面的第九种可能的实现方式中,所述确定单元,包括:
[0081] 比较子单元,用于比较根据所述隐变量的变分分布及组件参数确定的目标函数值 与上一次得到的目标函数值之间的距离是否小于阈值,所述上一次得到的目标函数值根据 上一次获取到的隐变量的变分分布及组件参数确定;
[0082] 第二确定子单元,用于当根据所述隐变量的变分分布及组件参数确定的目标函数 值与上一次得到的目标函数值之间的距离小于阈值时,确定所述目标函数收敛。
[0083] 本发明实施例提供的技术方案带来的有益效果是:
[0084] 通过根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的变分 分布的对数确定目标函数,根据使目标函数收敛的隐变量的变分分布及组件参数确定混合 模型,由于引入了正则项,因而可使得混合模型的复杂度得到自动控制,可适用于处理超大 规模数据。
【附图说明】
[0085] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0086] 图1是本发明实施例一提供的混合模型的确定方法的流程图;
[0087] 图2是本发明实施例二提供的混合模型的确定方法的流程图;
[0088] 图3是本发明实施例三提供的混合模型的确定装置的结构示意图;
[0089] 图4是本发明实施例三提供的第二确定模块的结构示意图;
[0090] 图5是本发明实施例三提供的获取单元的结构示意图;
[0091] 图6是本发明实施例三提供的确定单元的结构示意图。
【具体实施方式】
[0092] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0093] 实施例一
[0094] 本发明实施例提供了一种混合模型的确定方法,参见图1,方法流程包括:
[0095] 101 :获取根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的 变分分布的对数,并根据对数似然、正则项及隐变量的变分分布的对数确定目标函数; [0096] 作为一种可选实施例,根据样本数据、隐变量及组件参数确定的对数似然为:
[0097] logp(xN,ZN| 0 );
[0098] 其中,logpO表示对数似然,p表示联合概率密度函数,xN为样本数据,N为样本数 据个数,Z N为隐变量,0为组件参数的集合,组件参数包括a、口,a为组件混合比率,供 表示每个组件的子模型参数。
[0099] 作为一种可选实施例,根据样本数据、隐变量及组件参数确定的正则项为:
[0101] 其中,N为样本数据个数;C为组件个数,zn。为隐变量;5 ()为隐变量的变分 分布的近似值;a为组件混合比率,Da为a的维度,D。为组件c的子模型参数的维度, L(a, b)=logb+(a_b)/b,a 为
[0102] 作为一种可选实施例,根据样本数据、隐变量及组件参数确定的隐变量的变分分 布的对数为:
[0103] logq(ZN);
[0104] 其中,q(ZN)为隐变量ZN的变分分布,N为样本数据个数。
[0105] 作为一种可选实施例,根据对数似然、正则项及隐变量的变分分布的对数确定目 标函数,包括:
[0106] 根据对数似然的期望值、正则项的期望值及隐变量的变分分布的对数的期望值确 定目标函数。
[0107] 作为一种可选实施例,根据对数似然的期望值、正则项的期望值及隐变量的变分 分布的对数的期望值确定的目标函数厂/乂<:/,么夂,)为:
[0109] 102 :根据从样本数据中抽取的子样本数据确定使目标函数收敛的隐变量的变分 分布及组件参数,根据使目标函数收敛的隐变量的变分分布及组件参数确定混合模型。
[0110] 作为一种可选实施例,根据从样本数据中抽取的子样本数据确定使目标函数收敛 的隐变量的变分分布及组件参数,包括:
[0111] 根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数;
[0112] 根据隐变量的变分分布及组件参数确定目标函数是否收敛,如果目标函数未收 敛,则重新根据从样本数据中抽取的每个子样本数据获取隐变量的变分分布及组件参数, 直至得到使目标函数收敛的隐变量的变分分布及组件参数。
[0113] 作为一种可选实施例,根据从样本数据中抽取的每个子样本数据获取隐变量的变 分分布及组件参数,包括:
[0114] 根据从样本数据中抽取的每个子样本数据获取每个子样本数据对应的隐变量的 变分分布,并根据每个子样本数据对应的隐变量的变分分布获取每个子样本数据对应的组 件参数中间值;
[0115] 根据每个子样本数据对应的组件参数中间值确定组件参数的平均值,并根据组件 参数的平均值获取组件参数。
[0116] 作为一种可选实施例,根据从样本数据中抽取的每个子样本数据按照如下公式获 取每个子样本数据对应的隐变量的变分分布:
[0117]
[0118] 根据每个子样本数据对应的隐变量的变分分布按照如下公式获取每个子样本数 据对应的组件参数中间值仑和< :
[0122] 根据各个子样本数据对应的组件参数中间值按照如下公式确定组件参数的平均 值先和戎.
[0124] 根据组件参数的平均值按照如下公式获取组件参数< 和< :
[0125] a'c = +p'dc, (p'c =p'+p'q>c ;
[0126] t代表当前获取,t_l代表上一次获取或初始化,P为更新步长,为第c个组 件下第4个子样本数据对应的隐变量的变分分布,S为子样本数据集合, xim为子样本数据 集合中的第Im个子样本数据,a。为第c个组件的组件参数a,%为第 c个组件的组件参 数供。
[0127] 作为一种可选实施例,根据隐变量的变分分布及组件参数确定目标函数是否收 敛,包括:
[0128] 比较根据隐变量的变分分布及组件参数确定的目标函数值与上一次得到的目标 函数值之间的距离是否小于阈值,上一次得到的目标函数值根据上一次获取到的隐变量的 变分分布及组件参数确定;
[0129] 如果根据隐变量的变分分布及组件参数确定的目标函数值与上一次得到的目标 函数值之间的距离小于阈值,则确定目标函数收敛。
[0130] 本发明实施例提供的方法,通过根据样本数据、隐变量及组件参数确定的对数似 然、正则项及隐变量的变分分布的对数确定目标函数,并根据使目标函数收敛的隐变量的 变分分布及组件参数确定混合模型,由于引入了正则项,因而可使得混合模型的复杂度得 到自动控制,可适用于处理超大规模数据。此外,由于隐变量和组件参数之间存在依赖关 系,因而确定的隐变量的变分分布和组件参数更加准确,确定的混合模型也更为准确。
[0131] 实施例二
[0132] 本发明实施例提供了一种混合模型的确定方法,结合上述实施例一的内容,对本 发明实施例提供的方法进行详细地解释说明,参见图2,方法流程包括:
[0133] 201 :获取根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的 变分分布的对数;
[0134] 关于样本数据的内容,本实施例不作具体限定。具体实施时,每个样本数据包括一 至多个特征向量。
[0135] 为了便于理解,以如下所示的样本数据为例进行说明。该样本数据以向量的形式 表示,向量中的元素表示货物1至货物5,向量中的任一元素Xj表示货物j的特征向量, Xj=(Xjl,? ? ?,xJn);其中1 < j < 5, j、n均为正整数,xJn可以为温度、日期及订货量等属性。
[0136] (Xl,X。,X3,X4,X5)
[0137] 组件参数包括但不限于组件混合比率及每个组件的子模型参数等,本实施例不对 组件参数的具体内容进行限定。以向量式的样本数据为例,组件混合比率为确定的混合模 型的每个组件的元素数占确定的混合模型中向量的总元素数的比例,每个组件的子模型参 数为确定的混合模型的每个组件的数据分布的参数。
[0138] 需要说明的是,隐变量可以和组件参数相互独立,还可以和组件参数存在依赖关 系。由于实际应用中,隐变量和组件参数存在依赖关系,为了使确定的混合模型更加准确, 本发明实施例以隐变量和组件参数存在依赖关系为例进行说明。
[0139] 为了获取根据样本数据、隐变量及组件参数确定的对数似然、正则项及隐变量的 变分分布的对数,本实施例提供的方法首先引出联合概率密度函数:
[0140]
[0141]其中,P表示联合概率密度函数,xN为样本数据,N为样本数据个数,ZN为隐变量, 0为组件参数的集合,组件参数包括ct、9,a为组件混合比率,P?表示每个组件的子模型 参数,C是组件的个数。
[0142] 上述联合概率密度函数确定了混合模型的概率密度分布,确定联合概率密度函数 中组件参数a、P及隐变量2"即可确定混合模型的概率密度分布,从而确定混合模型。为 使联合概率密度函数可解,对联合密度函数的等式两边分别取对数,得到对数似然为:
[0143]
[0144] 作为一种可选实施例,根据样本数据、隐变量及组件参数确定的对数似然为:
[0145] logp(xN, ZN| 0 );
[0146] 其中,logp〇表示对数似然,p表示联合概率密度函数,xN为样本数据,N为样本 数据个数,Z N为隐变量,0为组件参数的集合,组件参数包括a、0,a为组件混合比率, 供表示每个组件的子模型参数。
[0147]具体地,当样本数据/用向量的形式表示时,N为向量的元素个数,C为组件个数; ZN是N*C的隐变量矩阵;Z N的每一个元素Zn。e {0,1},当Znc=l时,表示样本数据xn属于第 c