本发明涉及节点语义的提取技术,更具体的,涉及一种提取深度信念网络中隐含节点语义的方法。
背景技术:
随着深度神经网络技术在数据挖掘,人工智能等方面的广泛应用,越来越多的应用使用深度神经网络技术处理文本,图像,语音和视频数据。在文本建模任务上,利用深度信念网络(deepbeliefnetworks)以及扩展模型,作为深度神经网络的一种,在文档建模方面,也成为一种有效的手段。深度信念网络是一种深度生成网络,包含多层受限玻尔兹曼机(restrictedboltzmannmachine)。而受限玻尔兹曼机(简称rbm)是一种生成式随机神经网络,主要由一个可见层与一个隐含层构成的一种网络映射结构。隐含层包含了若干隐含节点,每一个隐含节点都与可见层的所有节点相连。
深度信念网络常常被用来提取文本信息的隐含特征。在对文档进行建模时,常规的操作方式是将文档中的单词表示为词袋模型,然后输入到深度信念网络的可见层,经过多层的网络映射,使用最高的隐含层的表达作为文本的向量。利用这种向量,我们可以进行文本检索,文档分类,文档聚类等数据挖掘任务。
在文档映射过程中,单词信息通过深度信念网络,被表示成隐含层的向量。这个向量是由该隐含层的所有隐含节点表示。文档的语义信息被融合在这些隐含节点中。由于单层神经网络的强大表达能力,每一层的隐含节点能够获取文档不同层次的语义信息,并最终提取有效的文档向量。
然而,上述现有的技术存在以下缺点:在对文档进行建模时,我们无法获得隐含层中每一个隐含节点的语义信息。也就是说,在文档映射过程中,虽然我们能够获得每一个隐含节点的数值,但是我们无法确定每一层隐含层中的每一个隐含节点所代表的具体语义是什么。因此,深度信念网络在对文本数据进行映射时,隐含层的向量表达属于黑箱操作,不能显式的表达具体的语义信息。然而,探究每一个节点的具体语义能够为我们揭示深度神经网络在文本建模时的过程,获取更接近人类能够理解的语义信息。
技术实现要素:
本发明旨在至少解决现有技术中存在的技术问题之一。
本发明提出了全新的获取深度信念网络中隐含层内部隐含节点的语义信息的方法。该方法的关键点是,利用半结构化主题模型和深度信念网络相结合,同时学习模型参数,从而能够获取深度信念网络中不同隐含层的隐含节点的显式语义信息。本发明的另一关键点是,本发明结合了贝叶斯网络和深度神经网络这两种不同的网络类型,通过主题模型来对深度信念网络进行语义解析。
为实现上述目的,本发明提出一种提取深度信念网络中隐含节点语义的方法,包括步骤:
步骤1,对于一个文档,首先对所述文档通过深度信念网络进行特征映射,获得深度信念网络的最高层的向量表示;
步骤2,对于最高层的隐含层,通过gibbs采样得到对应隐含节点的二值样本点;
步骤3,对于某一个隐含节点,利用二值样本点,在
步骤4,对该隐含节点中的主题分布进行排序,选择前面n个主要的主题;
步骤5,在
步骤6,对每一个隐含节点,重复上述步骤(3)(4)(5),直至所有节点遍历完毕。
更具体的,所述隐含节点的主题分布是通过hiddennodessemanticlearning(hinsel)算法计算的。
更具体的,所述hinsel模型的概率生成过程如下:
步骤3.1,对于每一个主题,采样生成
步骤3.2,对于每一个结构化信息,采样生成
步骤3.3,对于每一个文档
步骤3.4,利用
步骤3.5,对于每一个文档
步骤3.6,对于
其中,
更具体的,所述隐含语义的是通过半结构化的模型得到的,所述半结构化模型的生产步骤如下:
步骤4.1,首先采样产生
步骤4.2,对于文档
步骤4.3,利用
其中,
步骤4.4,根据获得的
更具体的,其特征在于,hinsel基于传统的深度信念网络,利用所述的半结构化主题模型,通过贝叶斯学习,从而获得深度信念网络中隐含节点的语义信息。
更具体的,所述半结构化模型中的结构化信息为文本的标签,文本的关键词等显式信息,文本隐含信息,隐式语义表达,文本在某个空间上的向量表示的一种或几种。
与现有技术相比,本发明提出的技术方案中,构建了获取深度信念网络中隐含层内部隐含节点的语义信息的方法。这种方案能够通过利用贝叶斯主题模型,对深度信念网络中的隐含节点进行建模,获取其具体的语义信息。
同时,利用深度信念网络和半结构化主题模型的结合,本发明也能提高对文档的建模能力。相比传统的文本建模方法,例如主题模型lda等,在文档分类任务上,本发明所提出的方法在准确率上提高5%-9%的效果。在文档检索任务上,本发明所提出的技术,在准确率和召回率上都提高了3%以上的效果。
附图说明
图1示出了本发明一种提取深度信念网络中隐含节点语义的方法的流程图;
图2示出了本发明的半结构化的主题模型示意图;
图3示出了hinsel的概率图模型示意图;
图4示出了本发明的实施例的可视化效果图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种提取深度信念网络中隐含节点语义的方法的流程图。
如图1所示,本发明公开了一种提取深度信念网络中隐含节点语义的方法,包括步骤:
步骤1,对于一个文档,首先对所述文档通过深度信念网络进行特征映射,获得深度信念网络的最高层的向量表示;
步骤2,对于最高层的隐含层,通过gibbs采样得到对应隐含节点的二值样本点;
步骤3,对于某一个隐含节点,利用二值样本点,在
步骤4,对该隐含节点中的主题分布进行排序,选择前面n个主要的主题;
步骤5,在
步骤6,对每一个隐含节点,重复上述步骤(3)(4)(5),直至所有节点遍历完毕。
更具体的,所述隐含节点的主题分布是通过hiddennodessemanticlearning(hinsel)算法计算的。
更具体的,所述hinsel模型的概率生成过程如下:
步骤3.1,对于每一个主题,采样生成
步骤3.2,对于每一个结构化信息,采样生成
步骤3.3,对于每一个文档
步骤3.4,利用
步骤3.5,对于每一个文档
步骤3.6,对于
其中,
更具体的,所述隐含语义的是通过半结构化的模型得到的,所述半结构化模型的生产步骤如下:
步骤4.1,首先采样产生
步骤4.2,对于文档
步骤4.3,利用
其中,
步骤4.4,根据获得的
更具体的,其特征在于,hinsel基于传统的深度信念网络,利用所述的半结构化主题模型,通过贝叶斯学习,从而获得深度信念网络中隐含节点的语义信息。
更具体的,所述半结构化模型中的结构化信息为文本的标签,文本的关键词等显式信息,文本隐含信息,隐式语义表达,文本在某个空间上的向量表示的一种或几种。
图2示出了本发明的半结构化的主题模型示意图。
如图2所示,半结构化主题模型是一种基于贝叶斯主题模型的文本处理模型。该模型能够同时处理文本信息,以及相应的结构化信息。这里的结构化信息可以是文本的标签,文本的关键词等显式信息,也可以是文本隐含信息,隐式语义表达,或者文本在某个空间上的向量表示。该半结构化主题模型的输入是文本中的单词信息和相应的结构化信息,通过贝叶斯推理,获得结构化信息的主题分布,从而得到这些结构化信息在语义空间上的向量表达。
该模型的生产过程如下:
(1)首先采样产生
(2)对于文档
(3)利用
其中,
(4)根据获得的
根据上述的半结构化主题模型,利用大量已知的文本信息,就能够获得文档集合中结构化信息在主题空间上的分布,而这个分布能够反映这些结构化信息的显式语义信息
图3示出了hinsel的概率图模型示意图。
如图3所示,在本发明的技术方案中,定义了一种全新的隐含节点语义学习方法,该方法能够利用半结构化主题模型,自动学习出深度信念网络中,隐含层内部隐含节点的显式语义信息。我们称该隐含节点语义学习方法为hiddennodessemanticlearning(hinsel)。hinsel基于传统的深度信念网络,利用上述的半结构化主题模型,通过贝叶斯学习,从而获得深度信念网络中隐含节点的语义信息。
在hinsel中,左侧是传统的深度信念网络模型,
该hinsel模型的概率生成过程如下:
(1)对于每一个主题,采样生成
(2)对于每一个结构化信息,采样生成
(3)对于每一个文档
(4)利用
(5)对于每一个文档
(6)对于
再通过上述的步骤之后,再利用大量文档,通过变分法学习出hinsel模型的参数后,可以通过以下的步骤获得隐含层节点的语义信息。步骤如下:
(1)对于某一个文档,我们首先对该文档通过深度信念网络进行特征映射,获得深度信念网络的最高层的向量表示。
(2)对于最高层的隐含层,通过gibbs采样得到对应隐含节点的二值样本点。
(3)对于某一个隐含节点,利用二值样本点,在
(4)对该隐含节点中的主题分布进行排序,选择前几个主要的主题。
(5)在
(6)对每一个隐含节点,重复上述过程(3)(4)(5),直至所有节点遍历完毕。
通过隐含节点在主题空间上的分布,就能获得某一个节点语义信息。由于主题是定义在单词空间的分布,那么每一个主题都能显式的使用单词进行描述。同时,隐含节点又定义在主题空间上的分布,那么隐含节点就能够使用相对主要的主题进行描述,而这些主题又能通过单词进行描述。因此,可以通过hinsel在单词空间上描述深度信念网络的隐含层中隐含节点的显式语义信息。
同时,通过hinsel,也可以学习到深度信念网络中,中间隐含层的各个隐含节点的显式语义信息。
图4示出了本发明的实施例的可视化效果图。
如图所示,为了更好的说明本发明的具体优点,下面针对两个不同的数据集:维基百科(wikipedia)和论文数据集(dblp)进行了试验。结果表明,本发明所提出的技术,能够很好的捕捉深度信念网络中隐含节点的语义信息,并将其可视化。
其中图4中的左图:在dblp论文数据集上,随机选择了8个隐含节点,每一个隐含节点使用12个单词进行语义可视化。右图:在wikipedia数据集上,随机选择了5个隐含节点,每一个隐含节点使用20个单词进行语义可视化。
综上,利用深度信念网络和半结构化主题模型的结合,本发明也能提高对文档的建模能力。相比传统的文本建模方法,例如主题模型lda等,在文档分类任务上,本发明所提出的方法在准确率上提高5%-9%的效果。在文档检索任务上,本发明所提出的技术,在准确率和召回率上都提高了3%以上的效果。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(readonlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。