一种罗杰斯特-正态模型话题提取方法

文档序号:6538141阅读:357来源:国知局
一种罗杰斯特-正态模型话题提取方法
【专利摘要】本发明提供了一种罗杰斯特-正态模型话题提取方法,包括:S1:参数服务器将计数矩阵分布式存储在计算节点上,将训练集中的所有文档分发给计算节点;S2:对文档中的每个单词对应的话题进行吉布斯采样;S3:采样本文档的特征向量;S4:计算本节点中每个文档的特征向量的和、平方和及均值和协方差所服从的后验分布,从后验分布中采样每个文档的特征向量的均值和协方差;S5:判断迭代次数是否到预定常数,如果是,则停止迭代,执行S6,否则迭代次数加1,执行S2、S3、S4;S6:对本计算节点的文档依次执行S2、S3,对S3中所采样的特征向量做软最大值变换,输出本计算节点中的每个文档中每个话题占该文档的比例。通过该方法,能够提高话题提取的速度。
【专利说明】一种罗杰斯特-正态模型话题提取方法
【技术领域】
[0001]本发明涉及数据挖掘【技术领域】,尤其涉及一种罗杰斯特-正态模型话题提取方法。
【背景技术】
[0002]隐式话题模型在挖掘文档语义信息和处理复杂的文档结构方面都体现出了明显的优势,利用隐式话题模型挖掘大规模文档中的语义结构需要解决的问题主要是:文档数量十分庞大,需要在分布式计算环境中可用的算法;模型的灵活性,如提取话题的相关性。
[0003]如今应用隐式话题模型的数据已经从小规模的文本集发展到大规模的社会网络、乃至整个互联网。传统的单机学习方法无法适应大数据的要求,需要快速、并且可以在分布式计算环境下运行的算法。
[0004]现有技术中,利用关联话题模型,通过采用非共轭罗杰斯特正态模型,提取话题相关性,在关联话题模型中,罗杰斯特正态模型的学习算法使用变分法,通过数值算法多次迭代进行求解。
[0005]通过上述描述可见,关联话题模型中的罗杰斯特正态模型的学习算法使用变分法,通过数值算法多次迭代进行求解,效率较低,速度低。

【发明内容】

[0006]本发明提供了一种罗杰斯特-正态模型话题提取方法,能够提高话题提取的速度。
[0007]本发明提供了一种罗杰斯特-正态模型话题提取方法,该方法包括:
[0008]S1:参数服务器将训练集中话题与单词对应关系的计数矩阵分布式存储在计算节点上,参数服务器将训练集中的所有文档分发给所述计算节点,每个计算节点保存所述计数矩阵和参数服务器发来的文档;
[0009]S2:计算节点对本计算节点中的文档中的每个单词对应的话题根据本计算节点存储的计数矩阵进行吉布斯采样;
[0010]S3:计算节点根据本计算节点所采样的文档中的每个单词的话题采样本文档的特征向量;
[0011]S4:计算节点计算本节点中每个文档的特征向量的和、平方和,利用所述和、平方和计算所有所述特征向量的均值和协方差所服从的后验分布,并从后验分布中采样每个文档的特征向量的均值和协方差;
[0012]S5:计算节点中,判断迭代次数是否达到预定常数,如果是,则停止迭代,执行S6,如果否,则迭代次数加1,依次执行S2、S3、S4 ;
[0013]S6:计算节点中,对本计算节点的文档依次执行S2、S3,对S3中所采样的特征向量做软最大值变换,输出本计算节点中的每个文档中每个话题所占该文档的比例。
[0014]进一步地,所述方法进一步包括:[0015]计算节点将所述话题的后验分布拆分成本节点存储的所述计数矩阵的项和先验的项,通过引入增广均匀分布随机变量采样,当从所述计数矩阵的项采样时只采样非零元。
[0016]进一步地,所述计算节点根据本计算节点所采样的文档中的每个单词的话题采样本文档的特征向量,进一步包括:
[0017]S31:对所述特征向量的每一维引入增广变量;
[0018]S32:从当前特征向量下的每一维增广变量的条件分布中利用高斯分布近似采样该增广变量;
[0019]S33:从给定所述特征向量的其他所有维以及增广变量后,特征向量的某一维的条件分布中依次采样所述特征向量的每一维;
[0020]S34:判断所述循环次数是否到达预设循环次数,如果否,则循环次数加1,依次执行 S32、S33。
[0021]进一步地,所述预设循环次数为8次。
[0022]进一步地,所述步骤S32,包括:从当前特征向量下的任一维增广变量的条件分布中利用经过变换的Polya-Ga_a(l, ζ)分布近似采样该增广变量。
[0023]进一步地,所述方法还包括:在任一话题的后验分布中将隐式话题-单词分布矩阵通过积分去掉。
[0024]进一步地,所述方法还包括:
[0025]计算节点记录本计算节点的计数矩阵的增量,周期性地将该计数矩阵的每一行与该行对应的参数服务器进行同步,其中,所述参数服务器是分布式服务器,该计数矩阵的不同行存储在不同的节点上。
[0026]进一步地,所述计算节点记录本计算节点的计数矩阵的增量,周期性地将该计数矩阵的每一行与这一行对应的参数服务器进行同步,具体包括:
[0027]按照所述行的编号计算存储器的参数服务器,将该行在本计算节点上的增量发送到参数服务器;
[0028]参数服务器根据发来的增量更新参数服务器中的计数矩阵,将参数服务器上对应的行与计算节点上的所述行的差发送回所述计算节点;
[0029]计算节点根据接收到的差值更新本计算节点上的该行。
[0030]通过本发明提供的一种罗杰斯特-正态模型话题提取方法,通过分布式计算处理大规模数据,并能够提高话题提取的速度。
【专利附图】

【附图说明】
[0031]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]图1是本发明实施例提供的一种罗杰斯特-正态模型话题提取方法流程图。【具体实施方式】
[0033]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0034]本发明实施例提供了一种罗杰斯特-正态模型话题提取方法,参见图1,该方法包括:
[0035]S1:参数服务器将训练集中话题与单词对应关系的计数矩阵分布式存储在计算节点上,参数服务器将训练集中的所有文档分发给所述计算节点,每个计算节点保存所述计数矩阵和参数服务器发来的文档;
[0036]S2:计算节点对本计算节点中的文档中的每个单词对应的话题根据本计算节点存储的计数矩阵进行吉布斯采样;
[0037]S3:计算节点根据本计算节点所采样的文档中的每个单词的话题采样本文档的特征向量;
[0038]S4:计算节点计算本节点中每个文档的特征向量的和、平方和,利用所述和、平方和计算所有所述特征向量的均值和协方差所服从的后验分布,并从后验分布中采样每个文档的特征向量的均值和协方差;
[0039]S5:计算节点中,判断迭代次数是否达到预定常数,如果是,则停止迭代,执行S6,如果否,则迭代次数加1,依次执行S2、S3、S4 ;
[0040]S6:计算节点中,对本计算节点的文档依次执行S2、S3,对S3中所采样的特征向量做软最大值变换,输出本计算节点中的每个文档中每个话题所占该文档的比例。
[0041]本发明实施例提供的一种罗杰斯特-正态模型话题提取方法,通过分布式计算处理大规模数据,并能够提高话题提取的速度。
[0042]其中,在一个话题提取的系统中,包括一个参数服务器和至少一个计算节点,参数服务器用于为计算节点分配训练集中的待提取的文档,并将计数矩阵发送给计算节点;计算节点保存参数服务器分配的训练集中所有文档中的一部分文档,并对保存的文档进行话题提取。
[0043]在步骤SI中,参数服务器将训练集中话题与单词对应关系的计数矩阵C1T分布式存储在计算节点上,参数服务器将训练集中的所有文档分发给所述计算节点,每个计算节点保存所述计数矩阵?τ和参数服务器发来的文档。
[0044]其中,
【权利要求】
1.一种罗杰斯特-正态模型话题提取方法,其特征在于,该方法包括: S1:参数服务器将训练集中话题与单词对应关系的计数矩阵分布式存储在计算节点上,参数服务器将训练集中的所有文档分发给所述计算节点,每个计算节点保存所述计数矩阵和参数服务器发来的文档; S2:计算节点对本计算节点中的文档中的每个单词对应的话题根据本计算节点存储的计数矩阵进行吉布斯采样; S3:计算节点根据本计算节点所采样的文档中的每个单词的话题采样本文档的特征向量; S4:计算节点计算本节点中每个文档的特征向量的和、平方和,利用所述和、平方和计算所有所述特征向量的均值和协方差所服从的后验分布,并从后验分布中采样每个文档的特征向量的均值和协方差; 55:计算节点中,判断迭代次数是否达到预定常数,如果是,则停止迭代,执行S6,如果否,则迭代次数加1,依次执行S2、S3、S4 ; 56:计算节点中,对本计算节点的文档依次执行S2、S3,对S3中所采样的特征向量做软最大值变换,输出本计算节点中的每个文档中每个话题所占该文档的比例。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括: 计算节点将所述话题 的后验分布拆分成本节点存储的所述计数矩阵的项和先验的项,通过引入增广均匀分布随机变量采样,当从所述计数矩阵的项采样时只采样非零元。
3.根据权利要求1所述的方法,其特征在于,所述计算节点根据本计算节点所采样的文档中的每个单词的话题采样本文档的特征向量,进一步包括: S31:对所述特征向量的每一维引入增广变量; S32:从当前特征向量下的每一维增广变量的条件分布中利用高斯分布近似采样该增广变量; S33:从给定所述特征向量的其他所有维以及增广变量后,特征向量的某一维的条件分布中依次采样所述特征向量的每一维; S34:判断所述循环次数是否到达预设循环次数,如果否,则循环次数加1,依次执行S32、S33。
4.根据权利要求3所述的方法,其特征在于,所述预设循环次数为8次。
5.根据权利要求3所述的方法,其特征在于,所述步骤S32,包括:从当前特征向量下的任一维增广变量的条件分布中利用经过变换的Polya-Ga_a(l,ζ)分布近似采样该增广变量。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:在任一话题的后验分布中将隐式话题-单词分布矩阵通过积分去掉。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括: 计算节点记录本计算节点的计数矩阵的增量,周期性地将该计数矩阵的每一行与该行对应的参数服务器进行同步,其中,所述参数服务器是分布式服务器,该计数矩阵的不同行存储在不同的节点上。
8.根据权利要求7所述的方法,其特征在于,所述计算节点记录本计算节点的计数矩阵的增量,周期性地将该计数矩阵的每一行与这一行对应的参数服务器进行同步,具体包括: 按照所述行的编号计算存储器的参数服务器,将该行在本计算节点上的增量发送到参数服务器; 参数服务器根据发来的增量更新参数服务器中的计数矩阵,将参数服务器上对应的行与计算节点上的所述行的差发送回所述计算节点; 计算节点根据接收到的差 值更新本计算节点上的该行。
【文档编号】G06F17/30GK103810282SQ201410056958
【公开日】2014年5月21日 申请日期:2014年2月19日 优先权日:2014年2月19日
【发明者】朱军, 陈键飞, 王紫, 张钹 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1