本发明涉及层级体系构建,具体涉及一种基于文本组块的层级体系自动构建方法。
背景技术:
1、层级体系旨在构建具有层级的图结构系统,该图结构系统包括属于不同层级的节点以及节点之间的连接,节点之间的连接也称为边。
2、现有的层级体系构建方法往往采用自顶向下的方法,即先设计体系,然后用数据填充体系内容。这种方法需要大量的人工设计和构建工作,维护成本高,难以及时对新数据更新。
技术实现思路
1、为解决上述技术问题,本发明提供一种基于文本组块的层级体系自动构建方法。本发明从数据出发,采用自底向上的方法构建层级体系。
2、为解决上述技术问题,本发明采用如下技术方案:
3、一种基于文本组块的层级体系自动构建方法,为给定语料库构建层级体系,包括以下步骤:
4、步骤一:从语料库中取出若干段文本,并将每段文本切分为单词;其中,第i段文本切分后的单词序列记为,表示文本中的第j个单词,表示文本中单词的总数;
5、步骤二、文本组块抽取:对于各段文本,从文本中抽取个文本组块,组成文本组块集合,其中为文本的第k个文本组块,文本组块为文本中一个或多个连续单词组成的序列;在文本组块之间建立连接,得到维度的邻接矩阵;
6、步骤三、编码:将文本各单词的单词向量输入编码器中,得到单词的隐向量;
7、步骤四、文本组块表征:通过最大池化方法由单词的隐向量计算文本各文本组块的隐向量;
8、步骤五:通过l层的注意力图卷积神经网络,对文本中文本组块的隐向量以及邻接矩阵a进行建模;在注意力图卷积神经网络第层中,计算得到文本中第v个文本组块对第k个文本组块的权重,;
9、步骤六、文本组块重要性计算:计算文本中第v个文本组块的重要性:;计算文本中第v个文本组块和第k个文本组块构成的文本组块对(,)的重要性:;
10、步骤七:将文本各文本组块及文本组块的重要性、各文本组块对及文本组块对的重要性记录到单词表v中;
11、步骤八、层级体系构建:将单词表中所有相同文本组块的重要性相加并计算平均,得到第个文本组块的重要性;将单词表中所有相同文本组块对的重要性相加并计算平均,得到第个文本组块和第个文本组块组成的文本组块对的重要性;为单词表v中所有不相同的文本组块的总数;
12、使用预先定义的阈值,其中,把所有文本组块分为层;如果满足,则第个文本组块属于层级体系的第层;如果满足,则第个文本组块属于层级体系的第一层;如果满足,则第个文本组块属于层级体系的第层;层级体系中节点为分层级的文本组块,节点之间的边由文本组块对表示,边上的权重由文本组块对的重要性表示。
13、具体地,步骤二中,文本的第k个文本组块表示为,其中表示文本组块中的第个单词,表示文本组块中单词的个数。
14、进一步地,步骤二具体包括以下步骤:
15、s21:计算单词与单词的逐点互信息:
16、;
17、其中,表示单词与单词在语料库中连续出现的概率,即单词对出现的概率;表示单词出现在语料库中的概率;表示单词出现在语料库中的概率;
18、s22:将与一个预先定义的阈值比较,如果,则在单词与单词之间插入一个分隔符,如果,则不插入分隔符;
19、s23:使用分隔符将文本切分,得到文本组块集合;
20、s24:在第k个文本组块与第k-2个文本组块、第k-1个文本组块、第k+1个文本组块、第k+2个文本组块之间建立连接;使用维度的邻接矩阵记录连接,第k行第v列位置的值记为;如果第k个文本组块与第v个文本组块之间有连接,则,否则。
21、进一步地,步骤四中,计算文本组块的隐向量时:
22、;
23、其中,表示最大池化方法,是文本组块的第个单词的隐向量。
24、进一步地,步骤五中,在注意力图卷积神经网络第层中计算文本组块对文本组块的权重时:
25、;
26、注意力图卷积神经网络第层的输出隐向量即为第层的输入隐向量,在第层中计算第层的第k个输入隐向量;
27、;
28、其中是激活函数,和是第层的参数。
29、与现有技术相比,本发明的有益技术效果是:
30、1.本发明从数据出发,采用自底向上的方法构建层级体系。本发明基于神经网络模型,使用完全自动的方法从数据中抽取文本组块信息构建体系节点及其连接。完全从数据出发,不依赖人工设计,易于更新,具有更好的对新数据的适应性。
31、2.本发明采用基于注意力图卷积神经网络的方法计算不同文本组块的重要性,实现基于重要性的体系节点分层。
1.一种基于文本组块的层级体系自动构建方法,为给定语料库构建层级体系,包括以下步骤:
2.根据权利要求1所述的基于文本组块的层级体系自动构建方法,其特征在于,步骤二中,文本的第k个文本组块表示为,其中表示文本组块中的第个单词,表示文本组块中单词的个数。
3.根据权利要求1所述的基于文本组块的层级体系自动构建方法,其特征在于:步骤二具体包括以下步骤:
4.根据权利要求1所述的基于文本组块的层级体系自动构建方法,其特征在于:步骤四中,计算文本组块的隐向量时:
5.根据权利要求1所述的基于文本组块的层级体系自动构建方法,其特征在于:步骤五中,在注意力图卷积神经网络第层中计算文本组块对文本组块的权重时: