一种小样本文本分类方法及模型与流程

文档序号:29086499发布日期:2022-03-02 01:31阅读:394来源:国知局
一种小样本文本分类方法及模型与流程

1.本发明涉及人工智能领域,特别是一种小样本文本分类方法及模型。


背景技术:

2.目前的人工智能,本质上都是通过计算机强大的计算能力找到海量数据潜在的生物或者数学意义,从而一定程度实现的智能。
3.但是,数据的获取、标注的开销都很大,因此如何用少量的样本就能学习一个可以使用的模型就成为了热点问题。现有技术中,一般采用孪生网络、原型网络或者关系网络来实现。
4.现有技术中,所采用的算法都是在计算类表示上用的均值或者距离度量的方式,将样本放在相同维度进行度量,却丢失了样本分布的空间信息。具体举例:“我考了好成绩而手舞足蹈”与“手舞足蹈的我与好成绩无关”。两个句子的关键部分“手舞足蹈”和“好成绩”相同,却因为空间信息不同(顺序关系不同)而表现出不同的情感,属于不同类别。在这一情况下,现有技术中的算法并不能对文本语义的类表示进行有效的归纳,无法反映出更深层次的文本空间特征。


技术实现要素:

5.本发明的主要目的在于提供了一种小样本文本分类方法及模型,能够学习文本空间特征,对于文本语义的类表示进行更有效的归纳,能够反映出更深层次的文本空间特征。
6.为实现上述目的,本发明提供了一种小样本文本分类方法,其包括以下步骤:步骤a.对输入语料信息中的词汇进行词向量转换,得到词向量矩阵;步骤b.通过双向长短期记忆层处理所述词向量矩阵,得到所述词向量矩阵对应的隐层状态序列;并基于所述隐层状态序列提取自注意力特征向量e,得到自注意力特征向量矩阵e;步骤c.基于所述自注意力特征向量矩阵e,通过胶囊网络来表征类别向量c,得到所有已知类别的类别向量c;步骤d.基于所有已知类别的类别向量c对所述输入语料信息进行关系打分,所述关系打分指的是将所述输入语料信息与类别向量c进行相似度判断,得到与所述输入语料信息相似度最高的类别向量c,则该类别向量c对应的类别为所述输入语料信息的分类结果。
7.可选的,在所述步骤a之前还包括数据读取步骤:将支持集和查询集的样本按c-way k-shot的方式从原始语料信息中随机选择样本,构造训练集;并将支持集和查询集的样本分别按c-way q-shot的方式从原始语料信息中随机选择样本,构造验证集;其中,c表示类别数量,k表示训练集样本数量,q表示验证集样本数量。
8.可选的,所述输入语料信息是对训练集进行数据处理后得到的;所述数据处理包括以下步骤:步骤一:对训练集内的训练样本进行预处理,并构建字表,所述字表为所述训练样本中包含的所有汉字所组成的列表;基于所述字表对所述训练样本中的每个字进行数字化,得到数字化训练样本;步骤二:对数字化训练样本的句子文本进行文本意图分类,得到每个句子文本的所属意图类别,分批读取句子文本以及其对应的所属类别;并将所述句
子文本进行分词得到标注标签;步骤三:将所述标注标签与句子文本长度、文本掩码进行拼接,形成所述输入语料信息。
9.可选的,所述步骤a通过bert预训练模型、skip-gram模型或cbow模型中的一种来实现。
10.可选的,所述步骤a中,将所述输入语料信息中的句子最大长度设置为n,词向量维度设置为k,所述词向量矩阵为n*k的矩阵;所述句子最大长度n设置为32或64,所述词向量维度k设置为128或256。
11.可选的,所述步骤b包括如下步骤:b1.通过双向长短期记忆层处理所述词向量矩阵,得到所述词向量矩阵对应的隐层状态序列q1;b2.将隐层状态序列q1与k1进行点乘运算,得到词向量矩阵的相关性,其中,k1表示第一权重序列向量;b3.对所述相关性进行求和并取平均值,得到自注意力特征向量矩阵e。
12.可选的,将所述输入语料信息与类别向量c进行相似度判断,是指计算自注意力特征向量e和类别向量c的相似度;通过计算内积、计算余弦相似度或计算皮尔森相关系数其中一种来实现。
13.可选的,所述步骤c包括如下步骤:c1.将自注意力特征向量矩阵e进行一次线性映射得到映射注意力特征向量矩阵e’,再将映射注意力特征向量矩阵e’压缩成胶囊尺寸的单位向量;c2.初始化变量b=0,对变量b进行求和、归一化处理得到向量d,所述向量d为路由索引的权重;c3.将向量d与映射注意力特征向量矩阵e’进行点乘运算,并将运算结果再与映射注意力特征向量矩阵e’进行点乘运算得到变量b’;c4.用变量b’更新向量b,并重复步骤c1和c2,迭代m次,直到得到各个类别样本对类别归纳向量的映射;c5.对各个类别样本对类别归纳向量的映射进行归一化处理,得到对应类别的表示概率。
14.可选的,所述步骤d包括如下步骤:d1.将所述类别向量c和自注意力特征向量e做内积运算,得到类别向量c和自注意力特征向量e的关系矩阵;d2.将所述关系矩阵进行神经网络建模后再利用激活函数进行激活,将所述关系矩阵的计算结果压缩至(0,1)的范围内;d3.对压缩后的关系矩阵进行独热编码处理,得到输入语料信息的分类结果。
15.此外,与所述小样本文本分类方法相对应的,一种小样本文本分类模型,包括:文本表示层:用于对输入语料信息中的词汇进行词向量转换,得到词向量矩阵;bilstm层:用于处理所述词向量矩阵,得到所述词向量矩阵对应的隐层状态序列;自注意力机制层:基于所述隐层状态序列提取注意力特征向量,得到注意力特征向量矩阵e;动态路由层:基于所述注意力特征向量矩阵e,通过胶囊网络来表征类别向量c,得到所有已知类别的类别向量c;关系层:基于所有已知类别的类别向量c对所述输入语料信息进行关系打分,所述关系打分指的是将所述输入语料信息与类别向量c进行相似度判断,得到与所述输入语料信息相似度最高的类别向量c,则该类别向量c对应的类别为所述输入语料信息的分类结果。
16.本发明的有益效果是:
17.(1)本发明提出了一种小样本文本分类方法,通过文本语义编码、文本类表示归纳、文本关系评价,能够学习文本空间特征,对于文本语义的类表示能够进行更有效的归纳,反映出更深层次的文本空间特征;
18.(2)通过训练集训练模型,确定模型的基本参数,通过验证集调整基本参数,辅助模型构建;
19.(3)对原始语料信息进行数据处理得到输入语料信息,能够有效提高后续文本意图分类的效率;
20.(4)通过设置句子最大长度n和词向量维度k,能够避免句子长度不统一所导致的分批输入效率低下的问题。
附图说明
21.此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
22.图1为本发明小样本文本分类方法的流程简图。
具体实施方式
23.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.如图1所示,本发明的一种小样本文本分类方法,其包括以下步骤:步骤a.对输入语料信息中的词汇进行词向量转换,得到词向量矩阵;步骤b.通过双向长短期记忆层处理词向量矩阵,得到词向量矩阵对应的隐层状态序列;并基于隐层状态序列提取自注意力特征向量e,得到自注意力特征向量矩阵e;步骤c.基于自注意力特征向量矩阵e,通过胶囊网络来表征类别向量c,得到所有已知类别的类别向量c;步骤d.基于所有已知类别的类别向量c对输入语料信息进行关系打分,关系打分指的是将输入语料信息与类别向量c进行相似度判断,得到与输入语料信息相似度最高的类别向量c,则该类别向量c对应的类别为输入语料信息的分类结果。
25.本发明的主要目的在于提供了一种小样本文本分类方法及模型,能够学习文本空间特征,对于文本语义的类表示进行更有效的归纳,能够反映出更深层次的文本空间特征。
26.在本实施例中,在步骤a之前还包括数据读取步骤:将支持集和查询集的样本按c-way k-shot的方式从原始语料信息中随机选择样本,构造训练集;并将支持集和查询集的样本分别按c-way q-shot的方式从原始语料信息中随机选择样本,构造验证集;其中,c表示类别数量,k表示训练集样本数量,q表示验证集样本数量。
27.在本实施例中,训练集用于训练模型,确定模型的基本参数,验证集用于在训练模型的过程中调整基本参数,当模型的参数最终确定后停止训练。即,通过训练集训练模型,确定模型的基本参数,通过验证集调整基本参数,辅助模型构建。
28.在本实施例中,步骤a通过bert预训练模型、skip-gram模型或cbow模型中的一种来实现。
29.在本实施例中,步骤a中,将输入语料信息中的句子最大长度设置为n,词向量维度设置为k,词向量矩阵为n*k的矩阵;句子最大长度n设置为32或64,词向量维度k设置为128或256。通过设置句子最大长度n和词向量维度k,能够避免句子长度不统一所导致的分批输入效率低下的问题。
30.在本实施例中,输入语料信息是对训练集进行数据处理后得到的;数据处理包括以下步骤:步骤一:对训练集内的训练样本进行预处理,并构建字表,字表为训练样本中包含的所有汉字所组成的列表;基于字表对训练样本中的每个字进行数字化,得到数字化训练样本。步骤二:对数字化训练样本的句子文本进行文本意图分类,得到每个句子文本的所属意图类别,分批读取句子文本以及其对应的所属类别;并将句子文本进行分词得到标注标签。步骤三:将标注标签与句子文本长度、文本掩码进行拼接,形成输入语料信息。
31.优选的,步骤一中的预处理还包括去除特殊字符、停用词和表情符号。
32.在本实施例中,以医疗美容行业语料为例,对输入语料信息中的数字化、向量化进行示例说明,请参照表1中的对输入语料信息的数字化、向量化处理结果。
[0033][0034]
表1
[0035]
本发明通过对原始语料信息进行数据处理得到输入语料信息,能够有效提高后续文本意图分类的效率。
[0036]
需要说明的是,就医疗领域而言,本发明仅仅在每个类中只包含少量的样本的情况下,就能够在文本意图分类任务中达到0.76的准确率,与海量数据下得到的0.8左右的准确率差别不大。
[0037]
在本实施例中,步骤b包括如下步骤:b1.通过双向长短期记忆层处理词向量矩阵,得到词向量矩阵对应的隐层状态序列q1;b2.将隐层状态序列q1与k1进行点乘运算,得到词向量矩阵的相关性,其中,k1表示第一权重序列向量;b3.对相关性进行求和并取平均值,得到自注意力特征向量矩阵e。
[0038]
在本实施例中,将输入语料信息与类别向量c进行相似度判断,是指计算自注意力特征向量e和类别向量c的相似度;通过计算内积、计算余弦相似度或计算皮尔森相关系数其中一种来实现。
[0039]
在本实施例中,步骤c包括如下步骤:c1.将自注意力特征向量矩阵e进行一次线性映射得到映射注意力特征向量矩阵e’,再将映射注意力特征向量矩阵e’压缩成胶囊尺寸的单位向量;c2.初始化变量b=0,对变量b进行求和、归一化处理得到向量d,向量d为路由索引的权重;c3.将向量d与映射注意力特征向量矩阵e’进行点乘运算,并将运算结果再与映
射注意力特征向量矩阵e’进行点乘运算得到变量b’;c4.用变量b’更新向量b,并重复步骤c1和c2,迭代m次,直到得到各个类别样本对类别归纳向量的映射;c5.对各个类别样本对类别归纳向量的映射进行归一化处理,得到对应类别的表示概率。
[0040]
需要说明的是,m为超参数,可以根据需要进行设置,迭代部分比较耗时,因此一般会将m的值设置的比较小,优选为m=3、或m=4、或m=5。
[0041]
在本实施例中,步骤d包括如下步骤:d1.将类别向量c和自注意力特征向量e做内积运算,得到类别向量c和自注意力特征向量e的关系矩阵;d2.将关系矩阵进行神经网络建模后再利用激活函数进行激活,将关系矩阵的计算结果压缩至(0,1)的范围内;d3.对压缩后的关系矩阵进行独热编码处理,得到输入语料信息的分类结果。
[0042]
在本实施例中,一种小样本文本分类模型,包括:文本表示层:用于对输入语料信息中的词汇进行词向量转换,得到词向量矩阵;bilstm层:用于处理词向量矩阵,得到词向量矩阵对应的隐层状态序列;自注意力机制层:基于隐层状态序列提取注意力特征向量,得到注意力特征向量矩阵e;动态路由层:基于注意力特征向量矩阵e,通过胶囊网络来表征类别向量c,得到所有已知类别的类别向量c;关系层:基于所有已知类别的类别向量c对输入语料信息进行关系打分,关系打分指的是将输入语料信息与类别向量c进行相似度判断,得到与输入语料信息相似度最高的类别向量c,则该类别向量c对应的类别为输入语料信息的分类结果。
[0043]
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0044]
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1