文本分类主动学习的基于半径的不确定度采样方法和系统与流程

文档序号:22891311发布日期:2020-11-10 18:17阅读:209来源:国知局
文本分类主动学习的基于半径的不确定度采样方法和系统与流程

本发明涉及一种采样方法和系统,具体涉及一种用于文本分类主动学习的基于半径的不确定度采样方法和系统。



背景技术:

随着电子商务和线上交流的盛行,在许多应用领域,如即时消息、在线聊天日志、公告板系统标题、internet新闻评论、twitter等,多分类短文本充斥人们的日常生活。因此,在主题推荐、电子商务聊天机器人等许多情况下,处理短文本变得十分重要。但是,由于诸如非标准性之类的短文本的特性,需要人工来应对拼写错误,非标准术语和噪音。此外,由于大多数短文本数据集通常分布极不平衡,因此在相同类型的数据类别重复标记会浪费大量标记工作。

目前可以使用主动学习来处理短文本分类问题。

主动学习的框架如图1所示。

给定数据集z={(x1,1),...xn,n)},其中xi是一个d维特征向量,yi∈{0,1,...,k}。为了描述主动学习,我们将分为已标注数据集和未标注数据集。f是分类器。

通用的主动学习算法主要包含以下步骤:

a.算法从小部分的已标注数据集和大部分的未标注数据ut=z\t开始,此时t=0;

b.用lt训练分类器ft;

c.根据采样方法决定下一次迭代中会被标记的数据x*∈ut;

d.x*由人工标注给出了标签y*

e.t递增,然后重复步骤b-e直到分类器达到期望的模型准确度或是迭代次数达到了预设的限制。

在图1所示的过程中,文本分类器学习已标注数据,对未标注数据进行评估,并选择出最有价值的数据请人进行手动标注,然后将其加入已标注数据,重复这个步骤直到迭代次数达到上限或模型准确度达标。

但是传统的主动学习方法在应用于多类别短文本数据集时,发现它们在多类别短文本上的表现不佳,与随机采样没有很大差距。实验发现,随着数据集类别数的增加,现有的采样方法的表现会随之下降,没有办法应用工业界。



技术实现要素:

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题,提供了一种文本分类主动学习的基于半径的不确定度采样方法和系统,应用于多类别短文本,优化减弱场景中噪声对结果的不良影响,并且方法的普适性较高,能够适用于任何存在隐藏层的深度模型。

本发明的技术方案为:本发明揭示了一种文本分类主动学习的基于半径的不确定度采样方法,方法包括对未标注数据的处理以及基于未标注数据的处理结果进行综合评分,其中:

对未标注数据的处理过程包括:

通过文本分类器对每个标注数据的数据点的信息熵进行评分,并给出该未标注数据的预测类别;

分别计算每个预测类别的半径;

综合评分过程包括:

将未标注数据的信息熵评分、未标注数据的预测类别的半径组合在一起,得到综合评分。

根据本发明的文本分类主动学习的基于半径的不确定度采样方法的一实施例,未标注数据的数据点的信息熵的评分h(xi):

其中,是文本分类器预测数据点xi的标签为j的概率,参数k表示数据点xi的标签个数。

根据本发明的文本分类主动学习的基于半径的不确定度采样方法的一实施例,计算预测类别的半径的过程进一步包括:

根据预测类别中的数据点平均得到该类别的中心;

计算出预测类别中的每个数据点及其中心的余弦相似度;

选取该预测类别中最大的余弦相似度的值作为该预测类别的半径。

根据本发明的文本分类主动学习的基于半径的不确定度采样方法的一实施例,预测类别的中心c(类别y):其中y为预测类别;预测类别y中的每个数据点i和中心c(类别y)的余弦相似度d(数据i):预测类别y的半径r(类别y):

根据本发明的文本分类主动学习的基于半径的不确定度采样方法的一实施例,综合评分v(x)的计算为:

其中h(x)为标注数据x的信息熵的评分,r(类别y)为预测类别y的半径。

本发明还揭示了一种文本分类主动学习的基于半径的不确定度采样系统,系统包括未标注数据处理模块以及综合评分模块,其中:

未标注数据处理模块配置为通过文本分类器对未标注数据的数据点的信息熵进行评分并给出该未标注数据对应的预测类别,分别计算每个预测类别的半径;

综合评分模块配置为将标注数据的信息熵评分、未标注数据的预测类别的半径组合在一起,得到综合评分。

根据本发明的文本分类主动学习的基于半径的不确定度采样系统的一实施例,未标注数据处理模块的配置中,未标注数据的数据点的信息熵的评分h(xi):

其中,是文本分类器预测数据点xi的标签为j的概率,参数k表示数据点xi的标签个数。

根据本发明的文本分类主动学习的基于半径的不确定度采样系统的一实施例,未标注数据处理模块的配置中,计算预测类别的半径进一步包括:根据预测类别中的数据点平均得到该类别的中心;计算出预测类别中的每个数据点及其中心的余弦相似度;选取该预测类别中最大的余弦相似度的值作为该预测类别的半径。

根据本发明的文本分类主动学习的基于半径的不确定度采样系统的一实施例,未标注数据处理模块的配置中,预测类别的中心c(类别y):其中y为预测类别;预测类别y中的每个数据点i和中心c(类别y)的余弦相似度d(数据i):预测类别y的半径r(类别y):

根据本发明的文本分类主动学习的基于半径的不确定度采样系统的一实施例,综合评分模块的配置中,综合评分v(x)的计算为:

其中h(x)为标注数据x的信息熵的评分,r(类别y)为预测类别y的半径。

本发明对比现有技术有如下的有益效果:本发明的基于半径的不确定度采样方法对于相似度权重条件进行了条件放宽,相较于针对每个点计算余弦相似度,本发明将整个类别的半径作为权重。在应用领域和设计框架方面,传统的主动学习在应用于文本分类时更加偏重于理论,容易忽视工业界存在的噪声较多的场景,本发明则从工业界的视角出发,以短文本作为研究内容,放松了方法的限制,提出了基于半径的优化的概念,极大程度上缓解了工业界使用学术界方法困难的问题。而且在模型普适性方面,对于下游文本分类器,本发明的优化方案也限制性也不多,只要是存在隐藏层的深度模型都可以使用本发明的采样方法。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了传统的主动学习框架。

图2示出了本发明的文本分类主动学习的基于半径的不确定度采样方法的一实施例的流程示意图。

图3示出了图2所示实施例中的半径计算步骤的流程示意图。

图4示出了本发明的文本分类主动学习的基于半径的不确定度采样系统的一实施例的原理示意图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。

图2示出了本发明的文本分类主动学习的基于半径的不确定度采样方法的一实施例的流程。请参见图2,本实施例的文本分类主动学习的基于半径的不确定度采样方法包括对未标注数据的处理以及基于未标注数据的处理结果进行综合评分。

首先,通过文本分类器对每个未标注数据的数据点的信息熵进行评分,并给出该未标注数据的预测类别。

组成待标注数据x的全部数据点xi的信息熵的评分h(xi)如下:

其中,是文本分类器预测数据点xi的标签为j的概率,参数k表示数据点xi的标签个数。

文本分类器给出待标注数据x的预测类别。

本实施例的文本分类器可以使用诸如fasttext、bert、cnn以及使用attention注意力机制的lstm等的深度学习模型。

fasttext模型基于word2vec模型,使用整个序列文本来预测中间词,而不是用上下文来预测,比传统深度网络能够快许多数量级。

bert(bidirectionalencoderrepresentationfromtransformers)实现了双向transformer的编码器部分。该模型在wikipedia以及bookcorpus上实现了maskedlm和nextsentenceprediction两种方法来分别捕捉词语和句子级别的表示。模型的主要创新点在于学习预训练语言模型,通过微调应用在上游任务中提升模型效果。

卷积神经网络(cnn)也可以与图片分类类似地被应用于文本分类,本实施例中使用的是最基本的cnn模型,共有五层。第一层是嵌入层(embeddinglayer),将句子转换为二维矩阵;第二层是卷积层,第三层是池化层,第四层是全连接层,最后一层是softmax层。

attention注意力机制打破了传统编码器-解码器(encoder-decoder)结构在编解码时都依赖于内部一个固定长度的限制。在实现上,attention机制通过保留lstm(longshort-termmemory,长短期记忆)编码器对输入序列的中间输出结果,然后训练模型对其进行选择性学习并在模型输出时将输出序列与之关联。本发明使用了模型softmax层之前的隐藏层输出作为数据的表示方法。

对于未标注数据的处理部分如下。

首先,文本分类器对未标注数据给出对应的预测类别。

然后,对每一个预测类别1-k,分别计算预测类别的半径。

如图3所示,以计算预测类别y为例,计算预测类别y的半径r(类别y)的处理过程如下。

先根据预测类别y中的数据点平均得到类别y的中心|类别y||表示属于预测类别y的集合测度。此式中的预测类别y中的数据i即图3中最左边虚线框内的数据1到数据x,实际计算用的是隐藏层向量。

然后,计算出预测类别y中的每个数据点i和中心c(类别y)的余弦相似度,余弦相似度用以度量一个数据点的代表性,即数据点i到中心的距离,h(数据i)是模型隐藏层输出的数据i的表示向量。余弦相似度是距离的一种度量方式,公式左边的d(数据i)是指数据点i和中心c的余弦相似度,数据i和c之间的distance,简写成了d。

最后,选取预测类别y中最大的余弦相似度的值d(数据i)作为预测类别y的半径r(类别y):

基于未标注数据的处理结果(未标注数据x的信息熵评分h(x)以及预测类别的半径r),得到综合评分。详细而言,在计算出每个预测类别的半径r之后,将信息熵评分h(x)、未标注数据的预测类别y的半径r(类别y)组合在一起,得到综合评分为:

v(x)是主动学习的采样标准。对于每一个点都根据一定方法计算出v(x),然后就所有v(x)进行排序,选取最好的点进行标注,是主动学习的采样方法概述。本发明提出的方法是对于v(x)的实现。

图4示出了本发明的文本分类主动学习的基于半径的不确定度采样系统的一实施例的原理。请参见图4,本实施例的系统包括:未标注数据处理模块以及综合评分模块。

未标注数据处理模块配置为通过文本分类器对未标注数据给出对应的预测类别,分别计算每个预测类别的半径。在未标注数据处理模块的配置中,未标注数据的数据点的信息熵的评分h(xi):

其中,是文本分类器预测数据点xi的标签为j的概率,参数k表示数据点xi的标签个数。

未标注数据处理模块的配置中,计算预测类别的半径进一步包括:根据预测类别中的数据点平均得到该类别的中心;计算出预测类别中的每个数据点及其中心的余弦相似度;选取该预测类别中最大的余弦相似度的值作为该预测类别的半径。

上述配置中,预测类别的中心c(类别y):其中y为预测类别;预测类别y中的每个数据点i和中心c(类别y)的余弦相似度d(数据i):预测类别y的半径r(类别y):

综合评分模块配置为将未标注数据的信息熵评分以及未标注数据的预测类别的半径组合在一起,得到综合评分。

综合评分v(x)的计算为:

其中h(x(为标注数据x的信息熵的评分,r(类别y)为预测类别y的半径。

尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如dsp与微处理器的组合、多个微处理器、与dsp核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、dsl、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(cd)、激光碟、光碟、数字多用碟(dvd)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1