一种基于中文文本分类的情报快速整编方法

文档序号:26050686发布日期:2021-07-27 15:25阅读:591来源:国知局
一种基于中文文本分类的情报快速整编方法
本发明属于文本分类
技术领域
,尤其涉及一种基于中文文本分类的情报快速整编方法。技术背景文本分类作为自然语言处理中的一项基础任务,目前在英文文本上的效果已经达到了可实用的程度,但是在中文文本上,由于分词所带来的歧义性仍然给文本分类带来了严峻挑战。具体而言,由于中文没有自然定界符,将输入句子序列分词可能得到不同的分割结果,而分割歧义会进而损害文本分类模型的性能;此外,即使正确分割之后,每个词也可能存在一词多义的现象,为准确识别语义带来了困难。已有模型为多义词训练单一的嵌入表示明显是不合理的,也会导致模型性能的下降。在自然语言处理中,文本分类是众多下游应用所依赖(包括情感分析和观点挖掘)的关键任务。该任务被定义为从预定义的标签集中为给定文本选择适当的类别标签。传统方法设计手工特征,例如词袋(bow)和n-gram,并将线性分类器应用于分类。最近,神经网络(例如卷积神经网络和递归神经网络)的流行提升了神经文本分类模型的热度,因为神经网络可以自动从原始文本中提取有用的特征来进行端到端的类别预测,并且取得更好的效果。然而,目前大多数关于文本分类的高级研究都集中在英语上,却忽略了不同语言具有不同的文本形式。基于英语文本的主流方法不能直接套用到其他语言上,因为这些方法依赖分词好的句子序列。然而有些语言没有自然定界符,例如中文,这就使得句子分割变得困难。现有的中文文本分类工作可以按照分割粒度分为两类:基于字符的模型和基于单词的模型。在基于字符的模型中,输入句子被视为字符序列。这种类型的模型的缺点是没有充分利用单词的信息量。而基于单词的模型使用自然语言处理工具来执行单词分割。然而,他们存在由单词分割工具引起的分割歧义的问题。例如,附图1中第一行是句子的字符序列。第二行显示正确的分段单词序列,而第三行显示错误的单词序列。在图1中的句子,正确的单词序列表示的是“位置”类型,但是错误的单词序列倾向于描述“学习”的类型。可见,分词歧义性可能会损害文本分类模型的性能。最近有工作试图通过级联或加法方式整合这两个粒度的特征,从而解决分词歧义性问题。但是它们的融合策略仍然停留在浅层。虽然它们使用神经网络分别从单词序列和字符序列中提取特征,但是忽略了内部单词和字符之间的依赖关系,这就导致提取到的特征仅仅是两个文本细粒度上的简单组合,并不能够有效地提高模型性能。但是在现实文本中,单词序列和字符序列是相互依赖的,例如,单词“法学院(lawschool)”以字符“法(law)”开头,因此它们共享相同的历史上下文信息。然后,在此位置应集成单词级和字符级信息,因为单词“法学院(lawschool)”以字符“院(institute)”结尾。此外,即使能够正确分割一个句子序列,分割后得到的多义词的模糊性仍然不可忽视。现有的神经文本分类模型首先通过查找嵌入表将离散的单词或字符映射到向量空间中。具有多种含义的单词或字符不能用这种方式很好地处理,因为每个单词或字符仅对应一个嵌入。因此,为多义词训练单一嵌入是不合理的。传统的文本分类模型第一步从文本中提取了一些手工的特征。第二步,将这些特征送入分类器以进行预测。典型特征包括词袋和tf-idf,流行的分类器包括支持向量机和随机森林。但是,这种方法严重依靠繁琐的特征工程来实现较好的性能,需要依赖于领域知识来设计特征。因此这种方法限制了对新任务的推广。深度学习的最新发展引发了采用神经网络进行文本分类的趋势,因为神经网络可以自动学习输入文本的特征以进行分类。前馈神经网络是表示文本的最简单的神经网络,而这一系列方法也称为基于嵌入的模型。对于文本中的每个单词,基于嵌入的方法将学习一个嵌入,并且单词嵌入的总和或平均值代表文本。句子嵌入经过一个或多个前馈层,然后投入分类器。最近的研究采用联合训练方法,联合单词、句子和句子标签嵌入,以进一步提高句子嵌入的质量。这些代表性的神经网络包括递归神经网络,卷积神经网络,胶囊网络和图卷积网络。一些研究使用长短期记忆网络(递归神经网络的扩展形式)来学习文本表示。在这些工作中,包括利用标准的长期短期记忆网络对临床笔记进行分类,或为了解决训练数据不足的普遍问题,通过跨多个相关任务的联合学习,将文本分类任务纳入基于长短期记忆网络的多任务学习框架。考虑到目标文本中存在一些琐碎信息,引入了注意力机制,通过区分文本中少量的重要信息来更灵活地生成文本表示。对于情感分析这种文本分类的特殊情况,在非专利文献1中,ma等人从外部知识库中提取情感知识,并将其纳入长期短期记忆网络中[lstm,longshorttermmemory]。但是,此模型仅用于情感分析,不适用于其他文本分类任务。情感分析需要专门的调查,这超出了该研究的范围。另一组研究集中在基于卷积神经网络的模型上,使用单层卷积神经网络作为句子分类的编码器,实现了较好的性能。非专利文献2中,zhang等人设计了字符级卷积网络,在文本中挖掘不同级别的信息。一些研究表明,某些浅的词级卷积神经网络比字符级卷积神经网络更精确。但是,卷积神经网络中的合并操作会导致空间信息的丢失。为了解决这个问题,非专利文献3中,s.sabour等人提出了胶囊网络,其中网络中的胶囊旨在检测模式的类别。胶囊的输出是向量,其中向量的长度指示模式是否存在,并且向量的每个尺寸代表模式的特征。近来,胶囊网络已经被用于文本分类。其他更复杂神经网络也可用于文本分类,例如图卷积网络和transformer。此外,还对一些语言模型(包括bert,xlnet和albert)进行了微调,以对已在多个基准测试中取得最新结果的文本进行分类。然而,大多数上述研究集中在英语文本上。由于中文单词之间没有分隔符。因此,这些模型不能直接用于中文文本分类。现有的中文文本分类模型是基于单词或基于字符的。但是,基于单词的方法需要使用分词工具将文本切成单词序列。由于分词工具和字符的有限知识表示所引起的错误,zhou等人使用两个单独的双向长短期存储网络分别提取单词和字符级特征。这些特征被集成以补充字符序列中缺失的语义信息,并减轻单词序列中的分词错误。为了增加融合词和字符级特征的灵活性,引入了词级和字符级注意力。因为中文是一种象形文字,有些工作利用基本特征来处理中文自然语言。非专利文献4中,sun等首先从每个字符中选择一个部首,然后开发部首增强型汉字嵌入。为了充分利用字符中的所有部首,非专利文献5中,shi等人为各种任务训练纯基本嵌入。此外,非专利文献6中,peng等研究基于部首的分层中文嵌入以进行情感分析。然后,非专利文献7中,通过注意力方式探索单词和汉字的部首,形成多粒度特征。先前的特征融合策略分为两种类型:串联和加权求和。这些策略只是表面地集成了不同级别的信息。我们认为需要改进现有模型以解决分词歧义性和分割后多义词歧义带来的挑战。参考文献非专利文献[1]may,pengh,khant,etal.senticlstm:ahybridnetworkfortargetedaspect-basedsentimentanalysis[j].cognitivecomputation,2018.[2]zhangx,zhaoj,lecuny.character-levelconvolutionalnetworksfortextclassification[c]//neuralinformationprocessingsystems.mitpress,2015.[3]s.sabour,n.frosst,andg.e.hinton,“dynamicroutingbetweencapsules,”inadvancesinneuralinformationprocessingsystems30:annualconferenceonneuralinformationprocessingsystems2017,longbeach,ca,usa,december4-9,2017,pp.3856–3866.[4]suny,linl,tangd,etal.radical-enhancedchinesecharacterembedding[c]//internationalconferenceonneuralinformationprocessing.springerinternationalpublishing,2014:279-286.[5]x.shi,j.zhai,x.yang,z.xie,andc.liu,“radicalembedding:delvingdeepertochineseradicals,”inproceedingsofthe53rdannualmeetingoftheassociationforcomputationallinguisticsandthe7thinternationaljointconferenceonnaturallanguageprocessingoftheasianfederationofnaturallanguageprocessing,beijing,china,july26-31,2015,pp.594–598.[6]h.peng,e.cambria,andx.zou,“radical-basedhierarchicalembeddingsforchinesesentimentanalysisatsentencelevel,”inproceedingsofthethirtiethinternationalfloridaartificialintelligenceresearchsocietyconference,marcoisland,florida,usa,may22-24,2017,pp.347–352.[7]taoh,tongs,zhaoh,etal.aradical-awareattention-basedmodelforchinesetextclassification[j].proceedingsoftheaaaiconferenceonartificialintelligence,2019,33:5125-5132.[8]hintonge,srivastavan,krizhevskya,etal.improvingneuralnetworksbypreventingco-adaptationoffeaturedetectors[j].computerscience,2012,3(4):págs.212-223.[9]mikolovt,sutskeveri,chenk,etal.distributedrepresentationsofwordsandphrasesandtheircompositionality[j].advancesinneuralinformationprocessingsystems,2013,26.技术实现要素:有鉴于此,本发明提出了一种基于中文文本分类的情报快速整编方法。为了解决分割歧义带来的问题,使用了一种具有外部感知知识的双向晶格长短期记忆网络(sk-lattice)用于中文文本分类,该网络以句子中的字符和单词作为输入。本发明的网络与标准的长短期记忆网络的不同之处在于,它增加了链接单词的开头和结尾字符的路径以控制信息流。字符级特征通过额外的门进入单词级,而单词级特征则通过另一个门根据不同的上下文选择正确的匹配词,通过加权方式集成到字符级。此外,本发明多维度注意力来对获取单词的多个需要注意的特征,以捕捉句子完整的语义特征。本发明公开的一种基于中文文本分类的情报快速整编方法,包括以下步骤:获取情报中的中文文本,将每个字符ci转换为向量xi,将每个输入词wi训练得到dw维向量,对于具有多重感觉的字符和单词,通过共同学习词语和感觉来获得多重感觉嵌入;利用字符意义lstm单元来融合字符的多种字符意义、利用单词意义lstm单元来融合单词的多种单词意义以及利用融合lstm单元来融合字符级和单词级特征,获得双向隐藏向量序列{h1,h2,...,hm};将所述双向隐藏向量序列馈送到多维度注意力模块以产生多维度特征向量,获得最终表示g;将所述最终表示g传输到完全连接层中以计算每种类型的置信度得分;以信息增益为目标函数,通过迭代优化模型中的所有参数直至收敛,以最小化损失函数;对分类后的情报文本根据用户需要的内容和格式进行组织,生成用户需要的情报产品。进一步的,所述将每个字符ci转换为向量xi的步骤如下:给定一个由m个字符组成的句子s={c1,c2,...,cm},通过查找预先训练的嵌入表,将每个字符ci通过下式映射到具有相应的字母组合嵌入的向量表示中:xi=ec(ci),其中表示字符嵌入表,|vc|代表字符的词汇量,表示字符ci的unigram嵌入;所述将每个输入词wi训练得到dw维向量的步骤如下:对应输入句子的单词序列s={w1,w2,...,wn},每个单词wi通过下式捕获单词的语义和句法信息:wi=ew(wi),其中,是词汇表为|vw|的单词嵌入表,句子的向量表示为{w1,w2,...,wn};所述通过共同学习词语和感觉来获得多重感觉嵌入的步骤如下:其中代表意义嵌入表,|vsen|是词汇量,是的意义嵌入,代表了第j个字符的意义。进一步的,利用字符意义lstm单元来融合字符的多种字符意义的步骤包括通过以下公式计算ci第j个意义的单元的门:其中代表字符ci的意义嵌入,是字符ci-1的前向隐表示,表示ci-1的单元状态,和和bc是训练参数,分别代表了输入门,遗忘门和字符ci的字符级特征。进一步的,所述利用单词意义lstm单元来融合单词的多种单词意义的步骤包括:通过一个附加的lstm单元获得单词wb,e的第j个意义的单元门:其中,是单词wb,e的第j个意义的嵌入,和是字符cb-1的正向隐藏向量和单元状态;通过以下方式计算ci的单元状态:其中和如下定义:和分别代表了单词wb,e、字符ci和句子c的各个意义层级的单元状态,是字符ci的输入门,和由控制单词意义和字符意义的附加门生成,代表了单词wb,e的第j个意义的嵌入结合附加的单词意义门后的特征表示。进一步的,所述获得双向隐藏向量序列{h1,h2,...,hm}的步骤如下:其中和是每个输入字符ci的前向隐藏表示和后向隐藏表示。进一步的,所述最终表示g通过如下公式计算:其中表示可训练的参数,dh是所述双向隐藏向量的维数,hi为所述双向隐藏向量序列中的元素,m为所述双向隐藏向量序列中元素个数。进一步的,所述置信度得分定义如下:o=wog+bo,其中表示可学习的转换矩阵,表示偏向向量,k是文本种类的数量。进一步的,,给定训练集t={(si,yi)},所述信息增益定义为:其中θ表示模型中使用的所有参数,p为真实分布概率,q为理论分布概率。进一步的,利用随机梯度下降优化器通过迭代优化θ直至收敛,以最小化损失函数。本发明的有益效果如下:1)发现中文分词歧义性是固有地存在于中文文本分类任务中的,这对文本分类任务带来巨大影响,有效解决了中文分词的歧义性带来的负面影响;2)首创从知网中检索词义,以共同训练更具代表性的词和字符嵌入,并获得多义词的词义嵌入,很大程度上解决了分割后的多义词带来的歧义性;3)在三个中文文本分类数据集上进行了广泛的实验,并对比了20个基线方法,充分显示本发明能够成功在字和词的粒度进行特征融合,相比基线方法简单又高效。附图说明图1本发明的分段的单词序列;图2本发明的模型架构;图3本发明的一种基于中文文本分类的情报快速整编方法流程图;图4本发明实施例研究的热图可视化。具体实施方式下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。消除歧义的分词:与以前的基于单词的模型使用分词工具剪切句子不同,本发明使用外部词典来提取句子中所有匹配的词,如图1所示,图中最后一行是本发明的文本分割方法的示例,该方法提取句子中所有匹配的单词。因此,所有词级信息维护时都不会引入细分错误。对于每个匹配的单词,通过在字符序列中直接链接其开始和结束字符来构造快捷通道,该快捷通道控制字符级别和单词级别之间的信息交互。具体地,字符级特征首先流入单词级,然后通过根据上下文动态选择正确的匹配单词的门将单词级特征集成到该字符中。消除多义词:在主流的神经文本分类方法中,每个输入词都对应一个向量,该向量不能表示多义性的多种含义。本发明首创地从知网中检索了单词意义作为外部知识,以提高单词嵌入的质量,并获得了多义词的意义嵌入。对于具有多种意义的每个输入字符或匹配的单词,本发明将其映射到相应的多重意义嵌入中,然后将其注入神经网络。在上述解决方案的基础上,本发明提出了一种具有感知知识的晶格长短期记忆网络模型(sk-lattice)。该模型利用词与字符之间的依存关系,对中文原始文本进行编码,进而完成文本分类任务。模型架构如图2所示。在该网络中,使用标准的长短期记忆网络来提取字符级信息。同样,一个附加的门控制单词级和字符级特征的集成,另一个门来选择多义词的正确含义。本发明的模型与这些工作有关,主要区别在于本发明精心设计了晶格结构以改善多粒度特征的集成,并且将基于晶格长短期记忆网络的模型制定为一项新任务。基线方法现有的中文文本分类方法主要基于字符或基于单词。本发明以基于字符和基于单词的双向长短期记忆神经网络为基线。对于一个有m个字符s={c1,c2,...,cm}或n个单词s={w1,w2,...,wn}s={w1,w2,...,wn}的输入,这里ci(wi)表示句子中的第i个字符(单词)。一层双向长期记忆网络(lstm,longshorttermmemory)被用作编码器,并且使用softmax分类器来预测所有类型的概率。为了清楚起见,下面使用缩写lstm表示长短期记忆神经网络。对基线的详细介绍如下。基于字符的输入表示基于字符的基线将句子的字符序列作为直接输入。给定一个由m个字符组成的句子s={c1,c2,...,cm},首先通过查找预先训练的嵌入表,将每个字符c映射到具有相应的字母组合嵌入的向量表示中,表示为:xi=ec(ci),(1)其中表示字符嵌入表,|vc|代表字符的词汇量,表示字符ci的unigram嵌入,完成上述变换后,将{x1,x2,...,xm}投入到双向lstm层中。基于单词的输入表示类似于基于字符的基线方法,基于单词的基线方法将句子的单词序列s={w1,w2,...,wn}作为输入。每个单词wi通过非专利文献9中的skip-gram模型训练得到dw维向量,该模型捕获单词的语义和句法信息,表示为:wi=ew(wi),(2)其中,是词汇表为|vw|的单词嵌入表。句子的向量表示可以表示为{w1,w2,...,wn}。同样采用双向长短期存储网络层作为编码器,以自动从句子中提取特征以进行文本分类。基线编码器由于基于字符的和基于单词的基线方法都使用相同的编码器,因此本发明以基于字符的基线方法为例来说明双向长期短期存储网络的机制。长短期记忆网络是一种带有附加门单元的递归神经网络,可以保留长期信息并解决梯度消失问题。字符ci的正向表示通过以下方式计算:其中,ic,oc以及fc为分别用来控制数入门,输出门和遗忘门,代表字符ci的字符级特征,和bc为待学习的模型参数,σ(·)与ranh(·)分别表示sigmoid和双曲正切函数。对于每个输入字符ci,得到其前向隐藏表示和后向隐藏表示和为了从两个方向捕获信息,c的最终向量表示是通过将两个方向的表示串联而得出的:字符序列{c1,c2,...,cm}编码为同样,对于基于单词的基准,编码序列表示为如图2所示,晶格长短期记忆网络通过将每个匹配的单词的初始字符链接到最后一个字符,为每个匹配的单词添加了一条捷径(每个匹配的单词经过一个cell连接器首位字符)。与前面介绍的基线方法不同,晶格lstm模型的输入包括了已有的字符序列{c1,c2,...,cm}和所有子序列它们是匹配到外部词典中的词。图2仅展示出了前向晶格长短期存储网络(lstm)。双矩形、深色单矩形和浅色单矩形分别表示句子中的字符、匹配词和歧义词。箭头表示信息流的方向。如图3所示,本发明公开的一种用于情报快速整编的中文文本分类方法的步骤如下:s10:输入表示:获取情报中的中文文本,将每个字符转换为向量,将每个输入词训练得到维向量,对于具有多重感觉的字符和单词,通过共同学习词语和感觉来获得多重感觉嵌入离散的字符和单词在映射到低维向量后应馈入神经网络。对于字符级输入,每个字符ci由公式1转换为向量xi。每个输入词wb,e由公式2表示为wb,e。skip-gram模型通过无监督的方式捕获了字符和词的语义信息,但是在训练过程中不能很好地处理多义词,因为它只能为每个字符或单词获得一个向量。本发明为解决这个问题,借助hownet中的感官知识,通过sat模型学习了多义词的感官嵌入。对于具有多重感觉的字符和单词,通过共同学习词语和感觉来获得多重感觉嵌入。第j个字符和单词可以嵌入为:其中代表意义嵌入表,|vsen|是词汇量。是的意义嵌入,代表了第j个字符的意义。s20:晶格lstm编码器:利用字符意义lstm单元来融合字符的多种字符意义、利用单词意义lstm单元来融合单词的多种单词意义以及利用融合lstm单元来融合字符级和单词级特征,获得双向隐藏向量序列本发明的晶格lstm编码器是传统lstm的扩展,旨在完全捕获单词嵌入和意义嵌入中包含的语义信息,同时更好地组合字符级和单词级特征。利用三个不同的lstm单元来融合多种字符意义、多种单词意义以及字符级和单词级特征。采用正向晶格lstm来说明其机理如下。字符意义lstm单元假设每个字符都有m个意义,本发明使用lstm单元来整合字符的所有m个意义。因此,通过以下公式计算ci第j个意义的单元的门:其中代表字符ci的意义嵌入,是字符ci-1的前向隐表示,表示ci-1的单元状态。单元门和激活函数的定义与公式3、4相同。要动态集成所有字符感知,本发明对m个单元状态应用加权方法:其中,代表的注意力分数,而由另一个门获得:w,u和b是可训练的参数,而xi是ci的字符嵌入。使用字符意义lstm单元,本发明将ci的所有意义都纳入了单元状态。同样,应考虑每个潜在单词的多种含义。单词意义lstm单元与字符相似,假设每个单词都具有n种意义,并通过注意力方式将它们整合在一起。可以通过一个附加的lstm单元获得wb,e的第j个意义的单元门:其中,是单词wb,e的第j个意义的嵌入,和是字符cb-1的正向隐藏向量和单元状态。类似于公式11、12,可以通过加权和来获得单词wb,e的综合意义:和公式11、12类似,由另一个门获得:xi是第i个字符在输入序列中的字符嵌入。此外,可以使用公式11和16动态集成字符和单词的多种含义。使用一个附加的lstm单元来融合字符和单词级别的输出结果。融合lstm单元该lstm单元用于将字符感知和单词感知融合到基于字符的lstm中。基于字符的lstm与公式3、4、5相同。要合并下表以i结尾的所有单词的信息,序列中第i个字符的单元状态应考虑所有wb,e,因此,可以通过以下方式计算ci的单元状态:其中和如下定义:由公式3获得,它是字符ci的输入门,和由控制单词意义和字符意义的附加门生成:其中,和分别由公式16和11计算,b为训练参数,代表偏转矢量。最后,可以通过公式5计算每个字符的正向隐藏向量可以通过类似的机制来学习向后隐藏向量使用公式6,获得了双向隐藏向量序列{h1,h2,...,hm}。s30:将所述双向隐藏向量序列馈送到多维度注意力模块以产生多维度特征向量,获得最终表示g获得隐藏的向量序列后,本发明将其馈送到多维度注意力模块以产生多维度特征向量,表示为其中dh是隐藏向量的维数。最终表示g是隐藏向量序列的加权和:其中表示可训练的参数。s40:将g传输到完全连接层中以计算每种类型的置信度得分:o=wog+bo,(26)其中表示可学习的转换矩阵,表示偏向向量,k是文本种类的数量。在实现中,在此层中应用dropout,以通过在正向传播过程中随机丢弃隐藏单元来防止特征解码器的共同适应。属于类型y的文本s的概率计算为:s50:以信息增益为目标函数。给定训练集t={(si,yi)},所述信息增益定义为:其中θ表示模型中使用的所有参数,p为真实分布概率,q为理论分布概率。在实现中,本发明利用随机梯度下降(sgd)优化器通过迭代优化θ直至收敛,以最小化损失函数。s60:对分类后的情报文本根据用户需要的内容和格式进行组织,生成用户需要的情报产品根据用户需要的内容和格式,对获取的情报要素进行组织,生成满足用户需要的情报产品,例如对获取的文本进行参数整编或专项分析服务;根据原始数据、态势情报、电子目标情报的存在形态和规模,采用网络化数据管理技术,提高情报共享能力和情报快速分发效率。实验与结果这里,首先介绍实验中的评估指标、数据集和实现细节。然后,进行了广泛的实验,以证明本发明的模型能够成功应用在中文文本分类任务中。度量标准本发明将准确率(acc)用于评估性能。考虑到一个好的分类器应该在不同类别上具有均衡的性能,因此本发明还将精确度(pre)、召回率(rec)和f1值作为本发明的实验评估指标。数据集为了验证本发明提出的模型的有效性,本发明在三个带有很好分类标签的中文数据集上进行了广泛的实验。第一个数据集是从32个类别的中文新闻标题中收集的,其中47,952个标题被标记为用于训练,而15,986个标题用于测试(即数据集1)。第二个数据集是clue(即数据集2)上的数据集,其中包含53,360个实例用于训练,10,000个实例用于验证,10,000个实例用于测试。在实验中,本发明在数据集2的验证集上展示了测试模型的评估指标。至于数据集3,它是从新浪新闻中收集的10种类型的数据,数据集中包括180,000个实例用于训练的实例,10,000个实例用于验证,另外10,000个实例用于测试。可以从https://github.com/ningpang/ch-tc获得本文的代码和数据集。实验设置本发明通过网格搜索方法对模型的超参数进行了调整。本发明将随机梯度下降的学习率设置为λ={0.01,0.012,0.014,0.016,0.018,0.02}(其中学习率为0.016时效果最优)和lstm隐藏层大小dh={100,150,200,250}(其中隐藏层大小为200时效果最优)。由于其他超参数对整体结果影响很小,因此本发明根据经验进行设置。衰减率γ设定为0.05。换句话说,学习速率λ在每个周期乘以γ。本发明使用sat模型来预训练200维的意义嵌入。而预训练的字符嵌入为100维度。为了避免过拟合问题,本发明将公式26的dropout设置为0.5。对于本发明实验中基于单词的对比方法,使用了jieba分词工具将中文文本切成单词序列。晶格lstm编码器的作用本部分的实验旨在展示本发明的模型在融合字符级和单词级功能方面的成功效果。采用了性能较强的基准方法作为对比:利用标准双向lstm代替双向晶格lstm,以与本发明提出的sk-lattice比较。对于基于字符的基线方法,采用的是char-baseline基线方法。为了增强字符级别的表示,本发明添加了额外的单词级别特征,即bichar和softword。这两种变体是通过将unigram字符嵌入与bigram字符嵌入和softword(当前字符所在的单词)嵌入串联在一起实现的。在基于单词的基线中,word-baseline将句子的单词序列作为输入,并使用标准的双向lstm来编码序列。此外,字符级特征是通过卷积神经网络(cnn)或标准的双向lstm学习的,并与相应的词嵌入作为附加的语义特征连接在一起。因此,两种类型的强基线都使用字符和单词信息对文本进行分类。表1显示了本发明提出的模型和所有基线方法的实验结果,从中可以看出:(1)对于基于字符的基线方法,单词级别的信息(包括bichar和softword)为所有数据集的所有度量标准带来了改进。同样,与基于cnn或lstm提取的字符级功能结合使用时,基于单词的基准也得到了改善。(2)尽管集成不同级别的信息能够提高两个基线的性能,级联方法的效果相对有限,尤其是对于word-baseline。(3)本发明提出的sk-lattice在数据集1、数据集2和数据集3上超过所有基线多于5%,这表明sk-lattice通过动态控制字符和单词级别的特征是一种更有效的融合字符和单词级功能的策略。除此之外,字符和单词的多种意义也通过消歧而有助于性能的提高。表1晶格lstm编码器的作用总体效果在这一部分中,将本发明的方法与多种最新方法进行比较,如下所示:·tf-idf+svm:是一种是采用词频、逆文档频率做权重的词袋模型(bow),其分类器为svm。·leam:将句子中的单词和标签嵌入到统一的空间中以用来文本分类。在本发明的比较中,在单词级和字符级嵌入中均进行了测试。·gcn:将包含句子的结点以及单词(或字符)的结点构建成异质图,并采用gcn对图中的结点进行编码。本发明测试了基于单词的gcn以及基于字符的gcn。·texcnn:在用于句子级别分类的预训练词向量顶层应用cnn层,这个方法主要应用于单词级别。·charcnn:实验性地探索了字符级卷积网络在文本分类任务中的使用。·radicalcnn:将输入文本分解为部首,并在部首嵌入之上应用cnn架构。·hsentic:通过融合部首级特征和字符级特征,开发了一种层次结构来学习字符嵌入。cnn模型在字符嵌入的顶部提取句子级别的特征进行分类。·dpcnn:是在单词级别构建的深金字塔cnn结构。·capsulenet:由四层组成,一个n-gram卷积层,一个胶囊层,一个卷积胶囊层和一个全连接胶囊层。·textrnn:使用rnn的最后一个隐藏状态作为整个文本的最终表示形式。·blstm-c:是用于中文文本分类的单词级神经模型。它使用由双向lstm层和cnn层组成的混合神经结构来提取特征。·stacke-blstm:将两层双向lstm堆叠在预训练的单词嵌入序列之上,以进行中文微博情感分析。·han:在基于gru的序列编码器中对文档分类应用了分层注意机制。·transformer:使用多头注意力来吸引句子中单词之间的全局依存关系,从而使用了非循环的结构。·fasttext:将n-gram嵌入作为句子嵌入的平均值,然后将嵌入的句子输入线性分类器。·albert-tiny:是经过预训练的精简bert语言模型的微型版本,针对中文文本分类进行了微调。·rafg:集成了四个粒度特征,包括字符、单词、字符部首和单词部首,用于中文文本分类。在这些对比方法中,tfidf+svm是基于特征的方法。基于嵌入的模型包括fasttext和leam。神经网络模型包括gcn,textcnn,charcnn,radialcnn,hsentic,dpcnn,capsulenet,textrnn,blstm-c,han,transformer和rafg。其中,charcnn,textcnn,radialcnn和dpcnn基于cnn,而textrnn,blstm-c,han基于rnn。gcn使用两层图卷积网络。capsulenet是胶囊网络在文本分类中的应用。radicalcnn,hsentic和rafg利用基本信息来进行中文文本分类。albert-tiny是一种经过微调的语言模型。上述竞争方法涵盖了所有类型的文本分类模型。表2显示了三个数据集上每个模型的结果。从比较中可以明显看出:(1)一些基于英文文本的最新方法在中文文本分类中显示出较差的性能,因为它们只能基于单词或基于字符,无法充分利用包含在不同级别的信息。(2)radicalcnn使用纯粹的部首嵌入,并通过字符嵌入和单词嵌入获得较好的性能。hsentic的性能优于radicalcnn,因为它利用了层次结构中的部首和字符特征。由于rafg结合了基本特征、字符和单词级特征,因此在数据集1上的性能得到了明显的改善。但是,rafg仍被sk-lattice超越,因为它未能探索不同粒度特征之间的深层关系。(3)训练有素的语言模型albert-tiny是最强的对比方法。在所有指标上,本发明的sk-lattice都比它好1%以上。表2不同模型的整体表现bert对比实验作为nlp研究中具有里程碑意义的模型,bert在多个nlp任务上都取得了优异的成绩。考虑到目前几乎所有的研究工作都会使用或参考对比bert的工作,本发明将单独对比本发明的sk-lattice和bert-base进行比较。bert-base模型具有12层,768个隐藏维度和12个注意力头,总参数量达到102m。为了公平起见,本发明将两种模型统一在一块2080ti11g显卡上进行训练和测试,实验结果如表3所示。本发明的模型在三个数据集上的效果与bert-base模型相比,差距并没有特别悬殊。此外,本发明对模型进行集成处理(设定为5折)之后,sk-lattice的性能优于bert-base模型。可见,本发明的模型更加简单高效,即使在没有采用复杂bert模型的情况下也已经取得了优异效果。根据应用需求,本发明也能灵活地将bert融合入模型架构中。这段话作为脚注:由于bert-base模型参数量过大、训练时间过长,因此不再比较bert-base模型的集成效果,而作为后续工作。表3在三个数据集上使用bert-base模型进行性能比较为了显示sk-lattice模型的效率,本发明还将模型复杂度(参数量)和推理时间与bert-base模型进行了比较。在使用intelcorei7cpu的huaweimatebook14上,仅使用bert-base和sk-lattice模型对一批一条文本进行预测。报告的统计数据是处理500批次的平均值和标准偏差。比较结果如表4所示,本发明的方法具有很高的cpu推理速度。与bert-base模型相比,sk-lattice的速度提高了10倍,并且模型复杂度大大降低。总而言之,实验结果表明,本发明提出的sk-lattice模型在具有更少参数量和更快速推理速度的情况下,就可以达到与最新大规模语料预训练模型相当的性能。表4sk-lattice和bert-base模型在#dataset3上的参数大小和推断时间methods参数量时间(s/batch)bert-base102.2m0.23±0.20sk-lattice7.7m0.02±0.01为了显示每个组件的效果,本发明进行了一次消融研究,一次去除一个组件以找出其对整体性能的影响。第一种变型是通过去除反向晶格lstm(即w/o双向)来构造的。第二个只考虑了word2vec模型预训练的字符嵌入和单词嵌入,而不是sat模型预训练的字符和单词的多义嵌入(即不带多重意义)。最后测试的变体是通过用平均池化操作(即不带多维度注意力)替换多维度注意力模块来建立的。结果表明:(1)去除反向晶格lstm后,所有数据集上的所有度量指标均降低,从而表明双向的上下文有助于理解文本以进行文本分类。(2)当不考虑字符和单词的多种意义时,性能会明显下降。这是因为没有多义输入的变体无法解决多义词的歧义,而歧义是自然语言理解中的重要问题。(3)删除多维度注意力模块时,所有度量标准都会降低,因为损失了多维度的信息。表5消融实验结果案例研究在这一部分中本发明将介绍一个案例,来展示本发明的sk-lattice是如何选择正确的意义以及如何融合不同的粒度功能。在图4中,本发明可视化了意义和单词的选择(参见公式16、20、21和22)。热量图显示了匹配单词一个单词和上下文单元格状态的权重,颜色越深表示权重越高。从上下文来看,“生产”一词的意思是“production”,而不是“givebirthto”,因此,“product”意义的热力图具有更深的色彩。此外,当本发明将句子分割成单词序列时,公司名称“益生(yisheng)”一词不合适。如热力图4所示,单词“益生(yisheng)”的单元状态权重低于上下文单元状态图4中本发明提出了正确的单词顺序和句子中所有匹配的单词,可以根据匹配的单词将句子转换为如图2所示的格结构。上方的热图将“生产”一词的感官选择可视化,其中第一感是“production”,第二感是“givebirthto”。较低的热量图显示了错误匹配单词“益生”和上下文单元格状态的权重。本发明用结合外部感知知识的双向晶格长期短期记忆网络(sk-lattice)对汉字分类的字符和单词级特征进行了深度集成。此外,通过添加三个额外的门来解决中文文本分类中的分隔歧义性和一词多义的问题。在三个数据集上的结果表明,本发明提出的sk-lattice具有比各种高级文本分类模型更好的性能。通过与基于字符和基于单词的基线方法进行比较,该模型在融合两个粒度特征方面取得了成功。在与bert-base模型的对比实验中,本发明提出的sk-lattice在使用效率方面更出色,同时在实验效果上也达到甚至超越了bert-base模型。消融研究证明,sk-lattice中的每个组件都有助于提升整体性能。本发明的有益效果如下:1)发现中文分词歧义性是固有地存在于中文文本分类任务中的,这对文本分类任务带来巨大影响,有效解决了中文分词的歧义性带来的负面影响;2)首创从知网中检索词义,以共同训练更具代表性的词和字符嵌入,并获得多义词的词义嵌入,很大程度上解决了分割后的多义词带来的歧义性;3)在三个中文文本分类数据集上进行了广泛的实验,并对比了20个基线方法,充分显示本发明能够成功在字和词的粒度进行特征融合,相比基线方法简单又高效。上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1