深度玻尔兹曼机模型及短文本主题分类系统和方法

文档序号:6547070阅读:207来源:国知局
深度玻尔兹曼机模型及短文本主题分类系统和方法
【专利摘要】本发明公开了一种深度玻尔兹曼机模型及短文本主题分类系统及方法,该模型由一层可见层和两层隐藏层组成,可见层和隐藏层包含若干随机二元单元,层与层之间存在连接,各层的节点内部相互独立;该系统包含短文本预处理模块;短文本的特征表示模块;模型训练模块;获得的文本的向量模型进行主题建模,构建主题分类器,该模块包含预训练和正式训练两个子模块;短文本分类模块;该系统及方法充分利用短文本的潜在语义信息,弥补传统短文本分类方法的不足,降低了对词语相似度的依赖,使该系统应用具有准确度高、易于实现、易于扩展以及无需人工参与的优点。
【专利说明】深度玻尔兹曼机模型及短文本主题分类系统和方法

【技术领域】
[0001] 本发明涉及一种深度玻尔兹曼机模型及短文本主题分类系统和方法,属于自然语 言处理领域。

【背景技术】
[0002] 近年来,在线社交网络平台(SNS)日益成为个人和组织结构的最重要的交流平台 之一。在这些平台中,用户不仅仅可以接收到最新的新闻和信息,还可以自由的发表自己的 观点和看法,每个用户都成为了所谓的"自媒体"。因此,在线社交网络平台上产生了海量 的异构的信息,而这些信息有其独有的特征,最显著的特征是长度短,因此我们称之为短文 本。还有其他显著特点,比如内容丰富、表达方式不规范、主题比较突出、实时性强等。
[0003] 短文本的分类技术是其他与短文本有关的研究的基础,比如事件探测、个性化推 荐等。传统的文本分类技术,是以对比文档相似度为基础,仅仅依赖词语表面上的相同,这 类方法的明显不足之处在于对同义词或近义词的识别上精确度不够。应用于短文本分类 中,受到短文本数据特征稀疏性的影响,效果非常不好


【发明内容】

[0004] 本发明的技术解决问题:克服现有技术方案的不足,提供一种基于深度玻尔兹曼 机模型和短文本主题分类系统及方法,该系统及方法充分利用挖掘短文本的隐藏语义信 息,弥补传统短文本分类技术的不足,降低了对文档表面相似度的依赖,使该系统应用具有 准确度高、易于扩展以及实用性强的优点。
[0005] 本发明通过以下技术手段实现:
[0006] -种深度玻尔兹曼机模型,由一层可见层和两层隐藏层组成,可见层和隐藏层包 含若干随机二元单元,层与层之间存在连接,各层的节点内部相互独立。
[0007] -种基于深度玻尔兹曼机的短文本的主题分类系统,包括:
[0008] 短文本预处理模块,所述的短文本预处理模块用于采用基于正则表达式的方法将 短文本中包含的非文本数据和冗余信息删除;
[0009] 短文本的特征表示模块,所述的短文本的特征表示模块将短文本数据转换成向量 形式;
[0010] 模型训练模块,所述的模型训练模块采用含有双隐藏层的深度玻尔兹曼机模型对 训练集的短文本数据进行建模,构建主题分类器,所述的模型训练模块包含预训练子模块 和正式训练子模块;
[0011] 短文本分类模块,所述的短文本分类模块根据模型训练模块训练所得的分类器, 对测试数据集的数据进行分类。
[0012] 进一步的,所述的短文本的特征表示模块包含以下步骤:
[0013] S1,确定一个词典;
[0014] S2,对短文本进行分词处理;
[0015] S3,将分词后的短文本转换成向量形式,该向量的维数与字典长度相同,元素值为 与之对应单词在短文本中出现的次数。
[0016] 一种深度玻尔兹曼机模型对短文本进行主题挖掘的方法,包含以下步骤:
[0017] S1,对短文本进行建模,第一层表不可见的短文本数据,第一隐藏层表不短文本隐 藏的主题;
[0018] S2,第二隐藏层对第一隐藏层进行优先级控制;
[0019] S3,模型训练,所述的模型训练包含预训练与正式训练;所述的模型训练为将训练 集中的每个短文本数据看作是模型中的可见层,对文本数据进行训练,学习出相应的模型 参数,构建一个主题分类器。
[0020] 进一步的所述的预训练包含以下步骤:
[0021] S301,初始化第二隐藏层;
[0022] S302,重构第一隐藏层;
[0023] S303,重构可见层;
[0024] S304,重构第一隐藏层;
[0025] S305,计算对比离散度;
[0026] S306,更新参数并返回到文本数据初始位置。
[0027] 最后,所述的正式训练包含以下步骤:
[0028] S311,变分法重构第一隐藏层;
[0029] S312,变分法重构第二隐藏层;
[0030] S313, MCmC算法计算期望;
[0031] S314,更新参数并返回文本数据初始位置。
[0032] 本发明与现有技术相比的优点在于:
[0033] (1)本发明提出了基于含有双隐藏层的深度玻尔兹曼机对短文本进行主题建模的 方法。传统的主题模型属于有向概率图模型,其参数推理的算法非常耗时且不精确。此外, 传统的主题模型以词语相似度为基础,直接使用传统主题模型对短文本进行主题建模时, 会因为短文本的数据稀疏性而导致效果不好。而含有双隐藏层的深度玻尔兹曼机是一种生 成式无向概率图模型,采用变分法和马尔科夫链一蒙特卡洛算法进行参数学习,相比于传 统的主题模型,其参数推理的效率和准确度更高。而且,含有双隐藏层的深度玻尔兹曼机是 直接从短文本自身挖掘潜在主题,不依赖于词语相似度对比,因此能够更好的表达出短文 本的潜在语义结构,从而达到更好的主题分类精确度;
[0034] (2)本发明摆脱了对人工标注的依赖。传统的主题模型方法属于监督式学习,需要 预先给定带有正确标注的训练集,而本发明提出的方法是一种无监督式的特征学习方法, 只需要给定词典和语料库,就能够自主的学习出短文本的潜在主题信息。

【专利附图】

【附图说明】
[0035] 图1是本发明系统的体系结构图;
[0036] 图2是本发明的模型预训练的具体过程;
[0037] 图3是本发明的模型正式训练的具体过程。

【具体实施方式】
[0038] 下面结合附图对本发明的实施方式进行详细说明,具体步骤如下:
[0039] 如图1所示,该系统包括如下模块:
[0040] 短文本预处理模块。社交网络平台上产生了海量的异构短文本数据,这些短文本 中包含大量的非文本数据和冗余信息,比如时间戳、用户名、URL信息等,需要将这些无用信 息过滤掉,我们采用基于正则表达式的方法将这些信息从每个短文本中删除,只保留纯文 本数据。
[0041] 短文本的特征表示模块。由于计算机无法理解普通文本数据,因此需要将文本数 据转化成计算机能够处理的形式。采用向量空间模型,将语料库中的所有短文本数据转换 成向量形式。首先确定一个词典,然后对短文本进行分词处理,最后将分词后的每个短文本 转换成向量形式。该向量的维数与字典长度相同,元素值为与之对应单词在短文本中出现 的次数。
[0042] 模型训练模块:在短文本的向量模型基础上,将每个短文本视为模型中的可见数 据,模型中的第一隐藏层表示短文本的潜在主题结构。通过训练模型,挖掘出短文本的潜在 主题信息,进而构建主题分类器。其中包含预训练子模块和正式训练模块:预训练是为了获 得一组更加合理的参数初始值,从而缩短正式训练的所花费的时间。在预训练中,采用一步 对比离散度算法学习模型参数,在正式训练中,采用平均场变分法和基于马尔科夫链一蒙 特卡洛算法对参数进行估计。
[0043] 短文本分类模块:根据模型训练模块训练所得的分类器,对测试数据集中的数据 进行分类。
[0044] 为了便于比较,我们采用一个公有的Twitter文本数据集,它是由文本检索会议 (TREC)提供的Tweet2011数据集,包含了 2011年1月23号到2月8号的一部分Twitter 文本数据。
[0045] 一、短文本预处理
[0046] 在Tweet2011数据集中,包含大量的冗余信息,比如时间戳、用户名、URL信息等, 将这些无用信息过滤掉,对文本进行小写化和词根化处理。具体步骤有:(1)去除用户名信 息和时间戳信息,采用基于正则表达式的方法;(2)单词小写化;(3)单词词根化;(4)去除 重复文本。通过文本预处理,语料库中拥有560万条短文本数据。我们随机的抽取60%的 数据作为训练集,剩下的作为测试集。
[0047] 二、短文本特征表示
[0048] 在本发明中,采用空间向量模型表示短文本。具体来说,首先选择一个词典,该 词典不仅仅包含常用英文单词,而且包含Twitter平台上所特有的语言表达用语,总共计 58110个单词。对语料库中的每一个文本,将其转换成一个1X58110的向量。
[0049] 三、模型训练
[0050] 在本发明中,模型训练分为两个阶段,即预训练和正式训练。
[0051] 在预训练过程中,如图2所示,对于每个短文本数据,我们用其初始化第二隐藏 层,然后使用一步对比离散度算法,对可见层和第一隐藏层进行重构,然后采用梯度下降法 进行参数的更新,从而得到参数的一组初始值。
[0052] 在正式训练过程中,如图3所示,在之前预训练得到的参数基础上,采用平均场变 分法重构第一隐藏层和第二隐藏层,基于马尔科夫链一蒙特卡洛算法(MCMC算法)对参数 进行估计,从而构建了一个含有双隐藏层的深度玻尔兹曼机模型。
[0053] 四、短文本分类
[0054] 将第四步得到深度玻尔兹曼机模型对测试集中的短文本进行分类。
[0055] 以上实施例仅用以说明而非限制本发明的技术方案,不脱离本发明精神和范围的 任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。本发明未详细描述的部分 属于本领域公知技术。
【权利要求】
1. 一种深度玻尔兹曼机模型,其特征在于:由一层可见层和两层隐藏层组成,可见层 和隐藏层包含若干随机二元单元,层与层之间存在连接,各层的节点内部相互独立。
2. -种基于深度玻尔兹曼机的短文本的主题分类系统,其特征在于包括: 短文本预处理模块,所述的短文本预处理模块用于采用基于正则表达式的方法将短文 本中包含的非文本数据和冗余信息删除; 短文本的特征表示模块,所述的短文本的特征表示模块将短文本数据转换成向量形 式; 模型训练模块,所述的模型训练模块采用含有双隐藏层的深度玻尔兹曼机模型对训练 集的短文本数据进行建模,构建主题分类器,所述的模型训练模块包含预训练子模块和正 式训练子模块; 短文本分类模块,所述的短文本分类模块根据模型训练模块训练所得的分类器,对测 试数据集的数据进行分类。
3. 根据权利要求2所述的基于深度玻尔兹曼机的短文本的主题分类系统,其特征在 于:所述的短文本的特征表示模块包含以下步骤: S1,确定一个词典; 52, 对短文本进行分词处理; 53, 将分词后的短文本转换成向量形式,该向量的维数与字典长度相同,元素值为与之 对应单词在短文本中出现的次数。
4. 根据权利要求1的深度玻尔兹曼机模型对短文本进行主题挖掘的方法,其特征在于 包含以下步骤: S1,对短文本进行建模,第一层表示可见的短文本数据,第一隐藏层表示短文本隐藏的 主题; 52, 第二隐藏层对第一隐藏层进行优先级控制; 53, 模型训练,所述的模型训练包含预训练与正式训练;所述的模型训练为将训练集中 的每个短文本数据看作是模型中的可见层,对文本数据进行训练,学习出相应的模型参数, 构建一个主题分类器。
5. 根据权利要求4的深度玻尔兹曼机模型对短文本进行主题挖掘的方法,其特征在 于:所述的S3中所述的预训练包含以下步骤: S301,初始化第二隐藏层; 5302, 重构第一隐藏层; 5303, 重构可见层; 5304, 重构第一隐藏层; 5305, 计算对比离散度; S306,更新参数并返回到文本数据初始位置。
6. 根据权利要求4的深度玻尔兹曼机模型对短文本进行主题挖掘的方法,所述的S3中 所述的正式训练包含以下步骤: S311,变分法重构第一隐藏层; S312,变分法重构第二隐藏层; S313,MCmC算法计算期望; S314,更新参数并返回文本数据初始位置。
【文档编号】G06F17/30GK104123336SQ201410215042
【公开日】2014年10月29日 申请日期:2014年5月21日 优先权日:2014年5月21日
【发明者】李超, 李昂, 赵彩贝 申请人:深圳北航新兴产业技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1