一种数据处理方法、系统及相关装置的制作方法

文档序号:6441897阅读:124来源:国知局
专利名称:一种数据处理方法、系统及相关装置的制作方法
技术领域
本发明涉及信息检索技术领域,尤其涉及一种数据处理方法、系统及相关装置。
背景技术
信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来, 并根据信息用户的需要找出有关信息的过程和技术。而狭义的信息检索仅指从信息集合中找出所需要的信息的过程,相当于人们所说的信息查询。当今,随着互联网的飞速发展,互联网上的信息以指数级的方式增长,面对如此海量的信息资源,如何高效快速地获取自己需要的信息对人们越来越重要。为了提高用户信息检索的质量和效率,可使用功能强大的信息检索工具一搜索引擎,但搜索引擎在给人们带来很大便利的同时,也暴露出以关键词为基本索引单位的搜索技术的很多不足一方面,无论用户提交什么样的关键词,都会返回过多的结果,其中用户真正需要的信息往往只占很小一部分,用户不得不花费相当多的时间对这些结果进行人工筛选;另一方面,由于同义词、近义词的原因,许多与查找主题有关的文本和用户输入的关键词并不完全匹配,导致搜索引擎不能找出这些文本。对信息基于主题进行分类、检索是解决上述问题的一种有效途径,可以在较大程度上解决网上信息异构、杂乱的问题,从而缩小搜索空间,提高检索速度,改善查询结果。现有技术中,在层次隐含狄利克雷分配(hLDA, hierarchical Latent DirichletAllocation)模型超参数的求解过程中,对于给定的一个文本集合,需要首先给定模型所对应的nCRP先验,并把hLDA模型超参数看成不变量,然后通过分布式的吉布斯抽样,对于每一个文档获取相应的主题路径,对文档中的每个单词获取一个相应的主题,最后根据主题-单词、文档-主题计数矩阵算出最近似的参数hLDA模型超参数。但是,在现有技术中,由于将hLDA模型超参数看成不变量,因此在求解过程中,无法达到最大近似解,最后求出的参数hLDA模型超参数精度较低,并且求解速度较慢。

发明内容
本发明实施例提供了一种数据处理方法、系统及相关装置。用以通过并行化求解提高hLDA模型的参数求解速度,并通过基于最大似然的超参数估计提高hLDA模型的参数求解精度。本发明实施例中的数据处理方法,包括将全局初始统计信息发送给各从节点,所述全局初始统计信息包括根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验, 文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括所述各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括全局文本-主题计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径;若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,所述吉布斯采样用于为各文档的各单词分配主题,以及为各文档分配层次主题路径;根据计算所得到的概率分布,建立所述文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数;若求解层次隐含狄利克雷分配模型超参数迭代已收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。本发明实施例中的数据处理方法,包括接收主节点发送的全局初始统计信息,所述全局初始统计信息包括根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验, 文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题;根据所述嵌套的中国餐馆过程先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;将局部统计信息发送给主节点,所述局部统计信息包括本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。本发明实施例中的主节点,包括发送单元,用于将全局初始统计信息发送给各从节点,所述全局初始统计信息包括根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息,还用于若从节点进行的吉布斯采样未结束,则将新的全局统计信息发送给从节点,以及用于若求解层次隐含狄利克雷分配模型超参数迭代未收敛,则将更新层次隐含狄利克雷分配模型超参数后的所述新的全局统计信息发送给从节点;归并单元,用于归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括所述各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括 全局文本-主题计数矩阵信息,主题-单词计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径;计算单元,用于若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布;还用于根据计算所得到的概率分布,建立文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数,以及用于若求解层次隐含狄利克雷分配模型超参数迭代收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。本发明实施例中的从节点,包括接收信息单元,用于接收主节点发送的全局初始统计信息,所述全局初始统计信息包括根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息; 分配主题单元,用于根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题;分配路径单元,用于根据所述嵌套的中国餐馆过程先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;发送信息单元,用于将局部统计信息发送给主节点,所述局部统计信息包括本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径息O一种数据处理系统,包括上述主节点以及上述从节点。从以上技术方案可以看出,本发明实施例具有以下优点主节点将全局初始统计信息发送给各从节点,归并来自各从节点的局部统计信息,得到新的全局统计信息,判断从节点进行的吉布斯采样是否结束,若未结束,则将该新的全局统计信息发送给从节点继续采样过程,若已结束,则根据新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,而后根据计算所得到的概率分布,建立文本集的似然函数,并极大化似然函数的,得到新的hLDA模型超参数,判断求解hLDA模型超参数迭代是否收敛,若是, 则根据新的hLDA模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布,若否,则将新的全局统计信息更新hLDA模型超参数后发送给从节点,进行下一轮采样计算,由于将hLDA模型超参数当做变量加入数据处理过程,并且,通过判断从节点的采样是否结束及求解hLDA模型超参数迭代是否收敛,不断循环求解hLDA模型超参数,基于最大似然的hLDA模型超参数提高hLDA模型超参数提高求解精度同时,通过由一个主节点与多个从节点交互的并行系统来并行化求解,可提高求解速度,因而使得数据处理结果更为快速、准确。


为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为一个三层的nCRP主题树结构示意图;图2为本发明实施中的数据处理方法的一个实施例示意图;图3为本发明实施中的数据处理方法的另一个实施例示意图;图4为本发明实施中的数据处理方法的另一个实施例示意图;图5为本发明实施中的数据处理方法的另一个实施例示意图;图6为本发明实施例中文本检索的基本流程示意图;图7为本发明实施例中的网络电影推荐系统构架示意图;图8为本发明实施中的网络电影存储情况示意图;图9为本发明实施中的主节点的一个实施例示意图;图10为本发明实施中的从节点的一个实施例示意图;图11为本发明实施中的数据处理系统的一个实施例示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据处理方法、系统及相关装置,用以通过并行化求解提高hLDA模型的参数求解速度,并通过基于最大似然的超参数估计提高hLDA模型的参数求解精度。对信息基于主题进行分类、检索可以在较大程度上解决网上信息异构、杂乱的问题,从而缩小搜索空间,提高检索速度,改善查询结果。对文本进行分类、索引的主要任务是,根据文本内容自动确定关联的类别。目前使用最多的是基于统计和机器学习的文本分类方法,常见的基于统计的分类方法包括简单向量距离分类法、贝叶斯分类法、近邻学习算法、支持向量机。目前应用最为广泛的是主题模型是隐含狄利克雷分配(LDA,LatentDirichlet Allocation)模型和层次隐含狄利克雷分配(hLDA, hierarchical LatentDirichlet Allocation)模型。其中,LDA模型一种概率生成模型,用一个服从Dirichlet分布的K维隐含随机变量表示文本中主题(Topic)的混合比例,利用参数估计从文本集合中提取所对应的主题分布,能有效地降低离散数据的维度。虽然LDA模型能够提取文本的主题集合以及捕获词与主题之间的相关信息,但是不能揭示各主题的抽象层次以及个主题之间的相互关系。而hLDA模型作为LDA模型的扩展形式弥补了 LDA模型的不足,hLDA模型是一种层次主题模型,其不仅能提取文本的主题还能捕获各主题之间的相互关系。hLDA模型以嵌套的中国餐馆过程(nCRP,nested Chinese Restaurant Process)先验为基础,把各主题组织成一个主题树,主题树的深度与分支个数都是无限的,每个节点对应一个主题,越靠近根节点的主题抽象性越强,越靠近叶子节点的主题越具体。请参阅图1,一个三层的nCRP主题树如图I所示,其中每个方框表示一个餐馆且对应一个主题分布β,每个餐馆都有无穷多个餐桌,每个餐桌上都有一张卡片,该卡片指示下层的唯一的一个餐馆。假设餐馆有5位顾客,第一天,5位顾客都去了第一层的餐馆,每个顾客都选择了一个餐桌,I号顾客和2号顾客坐在同一张餐桌上,3号顾客和5号顾客同坐在另一张餐桌上,4号顾客坐在第三张餐桌上;第二天,I号顾客和2号顾客按照第一天所坐餐桌上的卡片的指示进了同一家餐馆,各自坐在不同的两个餐桌上,3号顾客和5号顾客按照第一天所坐餐桌上的卡片的指示进了另一个餐馆,并坐在同一张餐桌上,4号顾客按同样的方法进了第三个餐馆并坐在一个餐桌上;第三天,I号顾客和2号顾客分别按照第二天所坐餐桌上的卡片的指示进了各自的餐馆,3号顾客和5号顾客又进了同一个餐馆,4号顾客按照卡片的指示进了一个餐馆,最终座位分布结果如图I中最底层座位。由hLDA模型生成一个文本的过程如下(I)给定一个nCRP先验; (2)获取主题-单词的概率分布β k Dir ( η);(3)抽取L层主题的路径c nCRP (Y),并抽取主题的概率分布Θ Dir ( α );(4)抽取主题 Zn Mult ( Θ );(5)抽取单词 Wn Mult ( β e[zn])。重复⑷和(5)直到满足文本的处理要求。下面描述本发明实施例中的数据处理方法,请参阅图2,本发明实施例中的数据处理方法的一个实施例包括201、主节点将全局初始统计信息发送给各从节点;
9
本发明实施例中,通过分布式系统求解hLDA模型超参数,该分布式系统为一系列计算机共同接入某种数据交换网络构成,其中一台计算机作为主节点,其它P台计算机作为各个从节点。主节点将全局初始统计信息发送给各从节点,该全局初始统计信息包括根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,预先建立的该文本集的nCRP先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息。本发明实施例中的“单词”指单个词汇,包括中文及外文词汇,为描述方便,以下各实施例均遵循此例。202、归并接收到的各从节点的局部统计信息,得到新的全局统计信息;对接收到的各从节点的局部统计信息进行归并计算,得到新的全局统计信息。其中,局部统计信息包括各从节点的文档-主题计数矩阵,主题-单词计数矩阵, 文档层次主题路径;新的全局统计信息包括全局的文本-主题计数矩阵,各从节点的主题-单词计数矩阵,以及全局文档层次主题路径。具体的,接收各从节点的局部统计信息,具体为文本-主题计数矩阵/7#,主题-词计数矩阵/7 ,文档层次主题路径Cf。203、若从节点进行的吉布斯采样已结束,则根据新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布;如果从节点进行的吉布斯采样已结束,则根据新的全局统计信息计算文档与主题之间的概率分布P (z I d),以及主题与单词之间的概率分布P (ff I z)。204、根据计算所得到的概率分布,建立文本集的似然函数,并极大化似然函数的, 得到新的hLDA模型超参数;根据贝叶斯理论建立文本及的似然函数,如下
权利要求
1.一种数据处理方法,其特征在于,包括将全局初始统计信息发送给各从节点,所述全局初始统计信息包括根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括所述各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括全局文本-主题计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径;若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,所述吉布斯采样用于为各文档的各单词分配主题,以及为各文档分配层次主题路径;根据计算所得到的概率分布,建立所述文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数;若求解层次隐含狄利克雷分配模型超参数迭代已收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
2.根据权利要求I所述的方法,其特征在于,所述将全局初始统计信息发送给从节点之前包括为层次隐含狄利克雷分配模型的各超参数分别设定不同的初始值;将所述文本集划分成多个文本子集,所述文本子集的数量与节点的数量相同;为所述文本集中的每个文档分配一个主题路径,为文档中的每个单词分配一个主题, 根据统计的所述文本集的单词总数,每个文档包含的单词总数,以及所述文本集的单词表, 得到文档-主题计数矩阵及主题-单词计数矩阵。
3.根据权利要求I或2所述的方法,其特征在于,所述归并接收到的各从节点的局部统计信息,得到新的全局统计信息之后包括判断从节点进行的吉布斯采样是否结束;所述判断从节点进行的吉布斯采样是否结束包括根据吉布斯采样的迭代次数或者似然函数的梯度判断吉布斯采样是否结束。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括若从节点进行的吉布斯采样未结束,则将所述新的全局统计信息发送给所述从节点。
5.根据权利要求4所述的方法,其特征在于,所述根据计算所得到的概率分布,建立所述文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数之后包括判断期望最大算法迭代是否收敛;所述判断期望最大算法迭代是否收敛包括当所述层次隐含狄利克雷分配模型超参数所对应的所述文档集的似然函数值的梯度小于预置的梯度阈值时,则确定期望最大算法的迭代已经收敛。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括若求解层次隐含狄利克雷分配模型超参数迭代未收敛,则将更新层次隐含狄利克雷分配模型超参数后的所述新的全局统计信息发送给从节点。
7.一种数据处理方法,其特征在于,包括接收主节点发送的全局初始统计信息,所述全局初始统计信息包括根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题;根据所述嵌套的中国餐馆过程先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;将局部统计信息发送给主节点,所述局部统计信息包括本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
8.根据权利要求7所述的方法,其特征在于,所述根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题之后包括更新重新分配单词主题后的各文档的文档-主题计数矩阵,及主题-单词计数矩阵信息。
9.根据权利要求8所述的方法,其特征在于,所述根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题包括为所述文本子集的每个文档分配多个层次主题,并在所述多个层子主题中,通过吉布斯采样为文档中每个单词分配对应的主题。
10.根据权利要求7至9任一项权利要求所述的方法,其特征在于,所述方法还包括若接收到所述主节点发送的新的全局统计信息,则根据所述新的全局统计信息,通过吉布斯采样为所述各文档重新分配层次主题路径,为所述各文档中的每个单词重新分配主题。
11.一种主节点,其特征在于,包括发送单元,用于将全局初始统计信息发送给各从节点,所述全局初始统计信息包括根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息,还用于若从节点进行的吉布斯采样未结束,则将新的全局统计信息发送给从节点,以及用于若求解层次隐含狄利克雷分配模型超参数迭代未收敛,则将更新层次隐含狄利克雷分配模型超参数后的所述新的全局统计信息发送给从节点;归并单元,用于归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括所述各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括全局文本-主题计数矩阵信息,主题-单词计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径;计算单元,用于若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布;还用于根据计算所得到的概率分布,建立文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数,以及用于若求解层次隐含狄利克雷分配模型超参数迭代收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
12.根据权利要求11所述的主节点,其特征在于,所述主节点还包括设定单元,用于为层次隐含狄利克雷分配模型的各超参数分别设定不同的初始值;划分单元,用于将所述文本集划分成多个文本子集,所述文本子集的数量与节点的数量相同;分配单元,用于为所述文本集中的每个文档分配一个主题路径,为文档中的每个单词分配一个主题,根据统计的所述文本集的单词总数,每个文档包含的单词总数,以及所述文本集的单词表,得到文档-主题计数矩阵及主题-单词计数矩阵;判断单元,用于判断从节点进行的吉布斯采样是否结束,通过根据吉布斯采样的迭代次数或者似然函数的梯度判断吉布斯采样是否结束的方式,判断吉布斯采样是否结束,还用于根据期望最大算法判断求解层次隐含狄利克雷分配模型超参数迭代是否收敛,通过当所述层次隐含狄利克雷分配模型超参数对所述文档集合的似然函数值的梯度小于预置梯度阈值时,则确定期望最大算法的迭代已经收敛的方式,判断层次隐含狄利克雷分配模型求解的迭代是否收敛。
13.根据权利要求12所述的主节点,其特征在于,所述发送单元,还用于若从节点进行的吉布斯采样未结束,则将所述新的全局统计信息发送给所述从节点,若求解层次隐含狄利克雷分配模型超参数迭代未收敛,则将更新层次隐含狄利克雷分配模型超参数后的所述新的全局统计信息发送给从节点。
14.一种从节点,其特征在于,包括接收信息单元,用于接收主节点发送的全局初始统计信息,所述全局初始统计信息包括根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;分配主题单元,用于根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题;分配路径单元,用于根据所述嵌套的中国餐馆过程先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;发送信息单元,用于将局部统计信息发送给主节点,所述局部统计信息包括本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
15.根据权利要求14所述的从节点,其特征在于,所述从节点还包括更新单元,用于更新重新分配单词主题后的各文档的文档-主题计数矩阵,及主题-单词计数矩阵信息。
16.根据权利要求15所述的从节点,其特征在于,所述分配主题单元,用于通过为所述文本子集的每个文档分配多个层次主题,并在所述多个层子主题中,通过吉布斯采样为文档中每个单词分配对应的主题的方式,为文档中每个单词分配对应的主题。
17.根据权利要求14至16任意一项所述的从节点,其特征在于,所述分配路径单元,还用于若接收到所述主节点发送的新的全局统计信息,则根据所述新的全局统计信息,通过吉布斯采样为所述各文档重新选择层次主题路径;所述为所述分配主题单元,还用于若接收到所述主节点发送的新的全局统计信息,则根据所述新的全局统计信息,通过吉布斯采样所述各文档中的每个单词重新分配主题。
18.一种数据处理系统,其特征在于,包括如权利要求11至13任一项所述的主节点,以及如权利要求14至17任一项所述的从
全文摘要
本发明实施例公开了一种数据处理方法、系统及相关装置,用于提高hLDA模型的参数求解速度及参数求解精度。本发明实施例方法包括将全局初始统计信息发送给各从节点,归并接收到的各从节点的局部统计信息,得到新的全局统计信息,若从节点进行的吉布斯采样已结束,则根据新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,根据计算所得到的概率分布,建立文本集的似然函数,并极大化似然函数,得到新的hLDA超参数,若求解hLDA超参数迭代已收敛,则根据新的hLDA超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
文档编号G06F17/30GK102591917SQ20111042417
公开日2012年7月18日 申请日期2011年12月16日 优先权日2011年12月16日
发明者文刘飞, 施广宇, 科比洛夫.维拉迪斯拉维 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1