基于潜在狄利克雷模型的参数推断方法、计算装置及系统的制作方法

文档序号:6358965阅读:165来源:国知局
专利名称:基于潜在狄利克雷模型的参数推断方法、计算装置及系统的制作方法
技术领域
本发明涉及信息检索领域,尤其涉及一种基于潜在狄利克雷模型的参数推断方法、计算装置及系统。
背景技术
随着互联网的飞速发展,互联网上的信息以指数级的方式增长,面对如此海量的信息资源,如何高效快速地获取自己需要的信息对人们越来越重要。为了提高用户信息检索的质量和效率,陆续出现了很多功能强大的信息检索工具一搜索引擎。搜索引擎在给人们带来很大便利的同时,也暴露出以关键词为基本索引单位的搜索技术的很多不足一方面,无论用户提交什么样的关键词,都会返回过多的结果,其中用户真正需要的信息往往只占很小一部分,用户不得不花费相当多的时间对这些结果进行人工筛选;另一方面,许多与查找主题有关的文本可能不包含用户输入的关键词,导致搜索引擎不能找出这些文本。对信息进行自动分类是解决上述问题的一种有效途径,可以在较大程度上解决网上信息异构、杂乱的问题,从而缩小搜索空间,提高检索速度,改善查询结果。由于目前网上信息的表现形式大多数为文本,比如电子邮件、电子杂志、技术报告、新闻及网上图书馆等等,因此,文本分类的方法和技术成为信息检索领域中最重要的研究热点。文本分类的主要任务是,根据文本内容自动确定关联的类别。目前人们使用最多的是基于统计和机器学习的文本分类方法。其中,基于统计的文本分类方法之一的贝叶斯分类的一种常见模型是狄利克雷分配(Latent Dirichlet Allocation, LDA)模型。LDA模型是一种概率生成模型,可以用来识别大规模文本集或语料库中潜藏的主题信息。它采用了词袋的方法,将每一篇文本视为一个词频向量,从而将文本信息转化为易于建模的数字信息。每一篇文本代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多词所构成的一个概率分布。对于语料库中的每篇文本,LDA定义了如下生成过程(1)对每一篇文本,从主题分布中抽取一个主题;(2)从上述被抽到的主题所对应的词分布中抽取一个词;(3)重复上述过程直至遍历文本中的每一个词。参照图1,更形式化一点说,语料库中的每一篇文本与K(通过反复试验等方法预先给定的)个主题的一个多项分布相对应,将该多项分布记为Θ。每个主题又与词汇表中的V个词的一个多项分布相对应,将这个多项分布记为Φ。θ和Φ分别有一个带有超参数α和β的狄利克雷先验分布。对于一篇文本d中的每一个词,我们从该文本所对应的多项分布θ中抽取一个主题Ζ,然后我们再从主题Z所对应的多项分布Φ中抽取一个词 ω。将这个过程重复Nd次,就产生了文本D,这里的Nd是文本D的词总数。图1中,阴影圆圈表示可观测变量,非阴影圆圈表示潜在变量,箭头表示两变量间的条件依赖性,方框表示重复抽样,重复次数在方框的右下角。LDA模型有两个参数需要推断,一个是“文本-主题”分布θ,另外是κ个“主题-词”分布Φ。通过学习这两个参数,我们可以知道文本作者感兴趣的主题,以及每篇文本所涵盖的主题比例。通过实际的计算可以发现,对于大规模文本数据,虽然LDA模型可以模拟文本中主题和词之间的相关性,但是需要人工根据经验预先指定最优的主题个数K,而且输入的主题个数K对所求解的模型精度有很大的影响。因此,如何选择最优的主题个数K仍然是一大难题。

发明内容
本发明实施例提供一种基于潜在狄利克雷模型的参数推断方法、计算装置及系统,以解决因人工输入的主题个数不准确所导致的LDA模型求解精度差的问题。为达到上述目的,本发明的实施例采用如下技术方案一方面,提供的基于潜在狄利克雷模型的参数推断方法,包括根据设置的初始第一超参数、初始第二超参数、初始主题个数计、初始全局文本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与词之间的概率分布;利用期望最大算法得到使概率分布的对数似然函数最大的第一超参数、第二超参数、主题个数;判断第一超参数、第二超参数、主题个数是否收敛,若不收敛,则将第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行计算,直至得到使概率分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后得到的概率分布、最优第一超参数、最优第二超参数、最优主题个数。一方面,提供的一种基于潜在狄利克雷模型参数推断计算装置,包括潜在狄利克雷模型计算单元,用于根据设置的初始第一超参数、初始第二超参数、 初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与词之间的概率分布;参数估计单元,用于利用期望最大算法得到使概率分布的对数似然函数最大的第一超参数、第二超参数、主题个数;判断输出单元,用于判断第一超参数、第二超参数、主题个数是否收敛,若不收敛, 则将第一超参数、第二超参数、主题个数带入潜在狄利克雷模型进行计算,直至得到使概率分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后得到的概率分布、最优第一超参数、最优第二超参数、最优主题个数。一方面,提供的一种基于潜在狄利克雷模型参数推断计算系统,包括主计算装置,用于将文本集合分割成多个文本子集;设置初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵;将一个文本子集以及初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵对应发送给一个从计算装置;接收各个从计算装置返回的局部文本与主题计数矩阵和主题与词计数矩阵,归并得到全局文本与主题计数矩阵和主题与词计数矩阵;判断各从计算装置求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程是否收敛,若不收敛,则将全局文本与主题计数矩阵和主题与词计数矩阵对应发送给各个从计算装置计算,继续更新局部文本与主题计数矩阵和主题与词计数矩阵直至计算潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题计数矩阵和主题与词计数矩阵;根据全局文本与主题计数矩阵和主题与词计数矩阵计算得到文本与主题和主题与词之间的概率分布;利用期望最大算法得到使概率分布的对数似然函数最大的第一超参数、第二超参数、主题个数;判断第一超参数、第二超参数、主题个数是否收敛,若不收敛,则将第一超参数、第二超参数、主题个数发送给各个从计算装置,直至得到使概率分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后得到的概率分布、所述最优第一超参数、最优第二超参数、最优主题个数;多个从计算装置,用于接收主计算装置发送的文本子集以及初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵,计算潜在狄利克雷模型,更新局部文本与主题计数矩阵和主题与词计数矩阵,并将局部文本与主题计数矩阵和主题与词计数矩阵返回给主计算装置;接收主计算装置发送的全局文本与主题计数矩阵和主题与词计数矩阵带入潜在狄利克雷模型进行局部计算;接收第一超参数、 第二超参数、主题个数带入潜在狄利克雷模型进行局部计算。本发明实施例提供的基于潜在狄利克雷模型的参数推断方法、计算装置及系统, 能够通过期望最大算法自适应地求解出使文本与主题、主题与词之间的概率分布的对数似然函数最大的主题个数、第一超参数和第二超参数,从而避免了人工根据经验预先指定的主题数目,提高了潜在狄利克雷模型计算结果的精度。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为潜在狄利克雷模型的图模型表示图;图2为本发明提供的基于潜在狄利克雷模型的参数推断方法的流程图;图3为本发明另一实施例提供的基于潜在狄利克雷模型的参数推断方法的流程图;图4为本发明实施例提供的基于潜在狄利克雷模型的参数推断计算装置的结构示意图;图5为本发明实施例提供的基于潜在狄利克雷模型的参数推断计算系统的结构示意图;图6为本发明另一实施例提供的基于潜在狄利克雷模型的参数推断计算系统的结构示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在下述各实施例中,“第一超参数”是指“文本-主题”分布的超参数,“第二超参” 数是指“主题个数”个“主题-词”分布的超参数。通过对LDA结果中“文本-主题”分布和 “主题-词”分布的学习,就可以知道文本作者感兴趣的主题,以及每篇文本所涵盖的主题比例。本发明实施例提供的基于潜在狄利克雷模型的参数推断方法,如图2所示,其步骤包括S201、根据设置的初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与词之间的概率分布。S202、利用期望最大算法得到使所述概率分布的对数似然函数最大的主题个数、
第一超参数和第二超参数。S203、判断该主题个数、第一超参数和第二超参数是否收敛,若不收敛,则将该主题个数、第一超参数和第二超参数带入潜在狄利克雷模型进行计算,直至得到使概率分布的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参数收敛为止,并输出最后得到的概率分布、最优主题个数、最优第一超参数和最优第二超参数。本发明实施例提供的基于潜在狄利克雷模型的参数推断方法,能够通过期望最大算法自适应地求解出使文本与主题、主题与词之间的概率分布的对数似然函数最大的主题个数、第一超参数和第二超参数,从而避免了人工根据经验预先指定的主题数目,提高了潜在狄利克雷模型计算结果的精度。本发明另一实施例提供的另一种基于潜在狄利克雷模型的参数推断方法,如图3 所示,包括S301、主计算装置将文本集合分割成多个文本子集,设置初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵,并将一个文本子集以及初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵对应发送给一个从计算装置。S302、从计算装置根据接收到的文本子集、初始全局文本与主题计数矩阵和主题与词的计数矩阵以及初始第一超参数、初始第二超参数、初始主题个数求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵。S303、主计算装置接收各个从计算装置返回的局部文本与主题计数矩阵和主题与词计数矩阵并归并得到全局文本与主题计数矩阵和主题与词计数矩阵。S304、主计算装置判断各从计算装置求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程是否收敛,若不收敛,则将全局文本与主题计数矩阵和主题与词计数矩阵发送给各个从计算装置,执行步骤S302。若收敛,则执行S305。S305、主机算装置根据全局文本与主题计数矩阵和主题与词计数矩阵计算得到文本与主题和主题与词之间的概率分布。S306、主机算装置利用期望最大算法得到使该概率分布的对数似然函数最大的主题个数、第一超参数和第二超参数。
S307、主计算装置判断该主题个数、第一超参数和第二超参数是否收敛。若不收敛,则执行步骤S302,此时主计算装置将该主题个数、第一超参数和第二超参数发送给各个从计算装置,以便各个从计算装置将该主题个数、第一超参数和第二超参数带入潜在狄利克雷模型进行局部计算。若收敛,则执行步骤S308。S308、主计算装置输出使概率分布的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参数,以及最后得到的概率分布。需要说明的是,S302中求解狄利克雷模型可以采用包括吉布斯采样法实现; S305、主机算装置根据全局文本与主题计数矩阵、主题与词计数矩阵计算得到文本与主题、 主题与词之间的概率分布可以采用包括贝叶斯推断法实现。本发明实施例提供的基于潜在狄利克雷模型的参数推断方法,能够通过期望最大算法自适应地求解出使文本与主题、主题与词之间的概率分布的对数似然函数最大的主题个数、第一超参数和第二超参数,从而避免了人工根据经验预先指定的主题数目,提高了潜在狄利克雷模型计算结果的精度。本发明例提供的基于潜在狄利克雷模型的参数推断计算装置40,如图4所示,包括潜在狄利克雷模型计算单元401,用于根据设置的初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与词之间的概率分布。参数估计单元402,用于利用期望最大算法得到使该概率分布的对数似然函数最大的主题个数、第一超参数和第二超参数。判断输出单元403,用于判断该主题个数、第一超参数和第二超参数是否收敛,若不收敛,则将该主题个数、第一超参数和第二超参数带入潜在狄利克雷模型进行计算,直至得到使概率分布的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参数收敛为止,并输出最后得到的概率分布、最优主题个数、最优第一超参数和最优第二超参数。本发明实施例提供的基于潜在狄利克雷模型的参数推断计算装置,能够通过期望最大算法自适应地求解出使文本与主题、主题与词之间的概率分布的对数似然函数最大的主题个数、第一超参数和第二超参数,从而避免了人工根据经验预先指定的主题数目,提高了潜在狄利克雷模型计算结果的精度。本发明实施例提供的基于潜在狄利克雷模型的参数推断计算系统,如图5所示, 包括主计算装置51和多个从计算装置52,即分布并行式计算系统,主计算装置51可以分别与多个从计算装置52分布并行式连接。主计算装置51,用于将文本集合分割成多个文本子集;设置初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵;将一个文本子集以及初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵对应发送给一个从计算装置52 ;接收各个从计算装52置返回的局部文本与主题计数矩阵和主题与词计数矩阵,归并得到全局文本与主题计数矩阵和主题与词计数矩阵;判断各从计算装置52求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程是否收敛,若不收敛,则将全局文本与主题计数矩阵和主题与词计数矩阵对应发送给各个从计算装置52计算,继续更新局部文本与主题计数矩阵和主题与词计数矩阵直至求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题计数矩阵和主题与词计数矩阵;根据全局文本与主题计数矩阵和主题与词计数矩阵计算得到文本与主题和主题与词之间的概率分布;利用期望最大算法得到使所述概率分布的对数似然函数最大的第一超参数、第二超参数、主题个数;判断该主题个数、第一超参数和第二超参数是否收敛,若不收敛,则将该主题个数、第一超参数和第二超参数发送给各个从计算装置52,直至得到使概率分布的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参数收敛为止, 并输出最后得到的概率分布、最优主题个数、最优第一超参数和最优第二超参数。从计算装置52,用于接收主计算装置51发送的文本子集以及初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵,计算潜在狄利克雷模型,更新局部文本与主题计数矩阵和主题与词计数矩阵,并将局部文本与主题计数矩阵和主题与词计数矩阵返回给主计算装置51 ;接收主计算装置51发送的全局文本与主题计数矩阵和主题与词计数矩阵带入潜在狄利克雷模型进行局部计算更新局部文本与主题计数矩阵和主题与词计数矩阵;接受主机算装置51发送的主题个数、第一超参数和第二超参数带入潜在狄利克雷模型进行局部计算更新局部文本与主题计数矩阵和主题与词计数矩阵。本发明实施例提供的基于潜在狄利克雷模型的参数推断计算系统,能够通过期望最大算法自适应地求解出使文本与主题、主题与词之间的概率分布的对数似然函数最大的主题个数、第一超参数和第二超参数,从而避免了人工根据经验预先指定的主题数目,提高了潜在狄利克雷模型计算结果的精度。此外,本发明实施例提供的基于潜在狄利克雷模型的参数推断计算系统采用分布式并行化的计算,降低了一台机器上的计算复杂度,提高了运算速度。进一步地,如图6所示,主计算装置51包括初始化单元511,用于将文本集合分割成多个文本子集;设置初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵。参数估计单元512,用于构造概率分布的对数似然函数;接收潜在狄利克雷模型计算单元513发来的文本与主题和主题与词之间的概率分布利用期望最大算法得到使概率分布的对数似然函数最大的主题个数、第一超参数和第二超参数即判断主题个数、第一超参数和第二超参数是否收敛,若不收敛,通过第一数据收发单元514将该主题个数、第一超参数和第二超参数通过第一数据收发单元514发送给从计算装置52 ;直至得到使概率分布的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参数收敛为止,并输出最后得到的概率分布、最优主题个数、最优第一超参数和最优第二超参数。潜在狄利克雷模型计算单元513,用于将通过第一数据收发单元514接收到的多个局部文本与主题计数矩阵和主体与词计数矩阵归并得到全局文本与主题计数矩阵和主体与词计数矩阵;判断各从计算装置52求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程是否收敛,若不收敛,则将全局文本与主题计数矩阵和主题与词计数矩阵通过第一数据收发单元514对应发送给各个从计算装置计算52,继续更新局部文本与主题计数矩阵和主题与词计数矩阵直至计算潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题计数矩阵和主题与词计数矩阵;根据全局文本与主题计数矩阵和主题与词计数矩阵计算得到文本与主题和主题与词之间的概率分布,并把文本与主题和主题与词之间的概率分布发送到参数估计模单元512。第一数据收发单元514,用于将一个文本子集以及初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵对应发送给一个从计算装置52 ;接收各个从计算装置52返回的局部文本与主题计数矩阵和主题与词计数矩阵;将全局文本与主题计数矩阵和主题与词计数矩阵发送给各个从计算装置52 ;将参数估计单元512发来的主题个数、第一超参数和第二超参数发送给各个从计算装置52。从计算装置52包括第二数据收发单元521,用于接收主计算装置51发送的文本子集以及初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵;向主计算装置51发送的全局文本与主题计数矩阵和主题与词计数矩阵;接收主计算装置51发送的主题个数、第一超参数和第二超参数。潜在狄利克雷模型局部计算单元522,用于根据通过第二数据收发单元521接收的文本子集以及所述初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵,计算潜在狄利克雷模型更新得到局部文本与主题计数矩阵和主题与词计数矩阵;将通过所述第二数据收发单元521接收的全局文本与主题计数矩阵和主题与词计数矩阵带入所述潜在狄利克雷模型进行局部计算更新局部文本与主题计数矩阵和主题与词计数矩阵;将通过第二数据收发单元521接收的主题个数、第一超参数和第二超参数带入潜在狄利克雷模型进行局部计算更新局部文本与主题计数矩阵和主题与词计数矩阵。本发明另一实施例提供的基于潜在狄利克雷模型的参数推断计算系统,如图6所示。主计算装置51包括初始化单元511、参数估计单元512、LDA计算单元513及第一数据收发单元514。从计算装置52包括第二数据收发单元521和LDA局部计算单元522。其中,初始化单元511,主要功能包括文本分割和参数初始化。在初始化阶段,初始化单元511将包含M个文本的文本集合分成P个子集,并为每个子集建立一个索引;为了进行迭代,给定初始全局文本-主题计数矩阵C-以及主题-词计数矩阵C d,同时给LDA 模型的每个参数设定一个初始值α = α0>β = β『K = Ktl,在此,α、β为超参数,K为主题个数。参数估计单元512,用于似然函数建立、极大化似然函数以及更新LDA模型的参数。基于LDA模型,参数估计单元512由LDA计算单元513得到的文本-主题、主题-词之间的概率分布P (Ζ I d)和ρ (W I Z),然后根据贝叶斯理论建立目标似然函数
权利要求
1.一种基于潜在狄利克雷模型的参数推断方法,其特征在于,包括根据设置的初始第一超参数、初始第二超参数、初始主题个数计、初始全局文本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与词之间的概率分布;利用期望最大算法得到使所述概率分布的对数似然函数最大的第一超参数、第二超参数、主题个数;判断所述第一超参数、第二超参数、主题个数是否收敛,若不收敛,则将所述第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行计算,直至得到使所述概率分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后得到的概率分布、所述最优第一超参数、最优第二超参数、最优主题个数。
2.根据权利要求1所述的方法,其特征在于,所述根据设置的初始第一超参数、初始第二超参数、初始主题个数计、初始全局文本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与词之间的概率分布包括主计算装置将文本集合分割成多个文本子集,并设置初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵;所述主计算装置将一个文本子集以及所述初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵对应发送给一个从计算装置; 以便各个从计算装置根据接收到的所述初始随机全局文本与主题计数矩阵和主题与词的计数矩阵以及所述初始第一超参数、初始第二超参数、初始主题个数求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵;所述主计算装置接收各个从计算装置返回的所述局部文本与主题计数矩阵和主题与词计数矩阵并归并得到全局文本与主题计数矩阵和主题与词计数矩阵;所述主计算装置判断所述各从计算装置求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程是否收敛,若不收敛,则将所述全局文本与主题计数矩阵和主题与词计数矩阵对应发送给各个从计算装置计算,继续更新所述局部文本与主题计数矩阵和主题与词计数矩阵直至所述求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题计数矩阵和主题与词计数矩阵;所述主计算装置根据所述全局文本与主题计数矩阵和主题与词计数矩阵计算得到文本与主题和主题与词之间的概率分布。
3.根据权利要求2所述的方法,其特征在于,所述判断所述第一超参数、第二超参数、 主题个数是否收敛,若不收敛,则将所述第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行计算包括所述主计算装置判断所述第一超参数、第二超参数、主题个数是否收敛,若不收敛,将所述第一超参数、第二超参数、主题个数发送给各个从计算装置,以便所述各个从计算装置将所述第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行局部计算。
4.一种基于潜在狄利克雷模型的参数推断计算装置,其特征在于,包括潜在狄利克雷模型计算单元,用于根据设置的初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与词之间的概率分布;参数估计单元,用于利用期望最大算法得到使所述概率分布的对数似然函数最大的第一超参数、第二超参数、主题个数;判断输出单元,用于判断所述第一超参数、第二超参数、主题个数是否收敛,若不收敛, 则将所述第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行计算,直至得到使所述概率分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后得到的概率分布、最优第一超参数、最优第二超参数、最优主题个数。
5.一种基于潜在狄利克雷模型的参数推断计算系统,特征在于,包括主计算装置,用于将文本集合分割成多个文本子集;设置初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵;将一个文本子集以及所述初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵对应发送给一个从计算装置;接收各个从计算装置返回的局部文本与主题计数矩阵和主题与词计数矩阵,归并得到全局文本与主题计数矩阵和主题与词计数矩阵;判断所述各从计算装置求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程是否收敛,若不收敛,则将所述全局文本与主题计数矩阵和主题与词计数矩阵对应发送给各个从计算装置计算,继续更新所述局部文本与主题计数矩阵和主题与词计数矩阵直至所述计算潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题计数矩阵和主题与词计数矩阵;根据所述全局文本与主题计数矩阵和主题与词计数矩阵计算得到文本与主题和主题与词之间的概率分布;利用期望最大算法得到使所述概率分布的对数似然函数最大的第一超参数、第二超参数、主题个数;判断所述第一超参数、第二超参数、主题个数是否收敛,若不收敛,则将所述第一超参数、第二超参数、主题个数发送给各个从计算装置,直至得到使所述概率分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后得到的概率分布、所述最优第一超参数、最优第二超参数、最优主题个数;多个从计算装置,用于接收所述主计算装置发送的文本子集以及所述初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵, 计算潜在狄利克雷模型,更新局部文本与主题计数矩阵和主题与词计数矩阵,并将所述局部文本与主题计数矩阵和主题与词计数矩阵返回给所述主计算装置;接收所述主计算装置发送的所述全局文本与主题计数矩阵和主题与词计数矩阵、第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行局部计算。
6.根据权利要求5所述的计算系统,其特征在于,所述主计算装置包括初始化单元,用于将文本集合分割成多个文本子集;设置初始第一超参数、初始第二超参数、初始主题个数、初始随机全局文本与主题计数矩阵和主体与词计数矩阵;参数估计单元,用于构造概率分布的对数似然函数;利用期望最大算法得到使所述概率分布的对数似然函数最大的第一超参数、第二超参数、主题个数;判断所述第一超参数、 第二超参数、主题个数是否收敛,若不收敛,通过所述第一数据收发单元将所述第一超参数、第二超参数、主题个数发送给所述从计算装置;直至得到使所述概率分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后得到的概率分布、所述最优第一超参数、最优第二超参数、最优主题个数;潜在狄利克雷模型计算单元,用于将通过所述第一数据收发单元接收到的多个局部文本与主题计数矩阵和主体与词计数矩阵归并得到全局文本与主题计数矩阵和主体与词计数矩阵;判断所述各从计算装置求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程是否收敛,若不收敛,则将所述全局文本与主题计数矩阵和主题与词计数矩阵对应发送给各个从计算装置计算,继续更新所述局部文本与主题计数矩阵和主题与词计数矩阵直至所述计算潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题计数矩阵和主题与词计数矩阵;根据所述全局文本与主题计数矩阵和主题与词计数矩阵计算得到文本与主题和主题与词之间的概率分布;第一数据收发单元,用于将一个文本子集以及所述初始第一超参数、初始第二超参数、 初始主题个数计、初始全局文本与主题计数矩阵和主体与词计数矩阵对应发送给一个从计算装置;接收各个从计算装置返回的局部文本与主题计数矩阵和主题与词计数矩阵;将所述全局文本与主题计数矩阵和主题与词计数矩阵发送给各个从计算装置;将所述第一超参数、第二超参数、主题个数发送给各个从计算装置。
7.根据权利要求6所述的计算系统,其特征在于,所述从计算装置包括 第二数据收发单元,用于接收所述主计算装置发送的文本子集以及所述初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵; 向所述主计算装置发送局部文本与主题计数矩阵和主题与词计数矩阵;接收所述主计算装置发送的所述全局文本与主题计数矩阵和主题与词计数矩阵;接收所述主计算装置发送的所述第一超参数、第二超参数、主题个数;潜在狄利克雷模型局部计算单元,用于根据通过所述第二数据收发单元接收的所述文本子集以及所述初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵,计算潜在狄利克雷模型更新得到局部文本与主题计数矩阵和主题与词计数矩阵;将通过所述第二数据收发单元接收的所述全局文本与主题计数矩阵和主题与词计数矩阵带入所述潜在狄利克雷模型进行局部计算;将通过所述第二数据收发单元接收的所述第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行局部计笪弁。
全文摘要
本发明实施例提供一种基于潜在狄利克雷模型的参数推断方法、计算装置及系统,涉及信息检索领域,以解决因人工输入的主题个数不准确所导致的LDA模型求解精度差的问题。该方法包括根据设置的初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵计算LDA模型,得到概率分布;利用期望最大算法得到使概率分布的对数似然函数最大的主题个数、第一超参数和第二超参数;判断主题个数、第一超参数和第二超参数是否收敛,若不收敛,则将主题个数、第一超参数和第二超参数带入LDA模型进行计算,直至得到使概率分布的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参数收敛为止。本发明实施例用于文本参数推断。
文档编号G06F17/30GK102439597SQ201180001128
公开日2012年5月2日 申请日期2011年7月13日 优先权日2011年7月13日
发明者文刘飞, 施广宇, 科比洛夫·维拉迪斯拉维 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1