一种文本数据的分类方法、装置以及系统与流程

文档序号：17587415发布日期：2019-05-03 21:27阅读：191来源：国知局

本发明涉及人工智能领域，特别涉及一种文本数据的分类方法、装置以及系统。

背景技术：

随着计算机技术的迅猛发展，越来越多的行业开始使用计算机技术进行日常的工作以达到提高工作效率的目的。但对于医疗，金融等行业，由于其行业所具备的特性，传统的计算机技术并不能够解决大多数问题。通常由于其所使用的数据规模较大，或者个体之间差异性较强等原因，导致传统机器学习算法受限于自身的局限性，对于特异样本点和大规模的样本数据集，算法本身难以进行合理的推理预测，可扩展性较差，并且由于其中的参数普遍由人为进行设定，对于数据的特性拟合并不够完善。

深度学习技术作为一项新兴技术逐渐被广泛地应用于各个领域，它可以对于给定的文本、图表等数据集合，通过相关算法对于其数据的具体分布特性，自动的优化调节算法的内部参数，实现基于当前数据特性对于数据的可能情况进行推理预测的目的。深度学习是一种特殊的机器学习，它可以具有较高的运算性能也十分灵活便于移植使用。与传统的机器学习方法不同的是，深度学习在模型的训练阶段通常需要使用到大量的训练样本数据，通过学习一种深层非线性网络结构来实现复杂函数的逼近，与人工构造的特征相比，在大规模数据训练下生成的深度学习模型，能够更好的学习数据本身的特征。

而随着计算机技术的不断发展，文本数据也呈现爆发性的增长，通过文本数据进行样本的分类成为了一项需要耗费大量时间的工作，用户需要面对海量的文本数据并逐一筛查。而且，筛查结果也极大程度上取决于用户的个人能力水平以及当前工作状态，否则，极易出现误判和漏判的现象。

目前传统的计算机分类识别辅助工具只能适用于简单的统计以及分类计算，缺乏针对于特定文本数据的自动化诊断识别方法，而通过使用深度学习技术，对文本数据进行模型建立，最终将训练完成的模型对测试文本数据进行分类推理，输出正确的分类识别结果，从而达到提高工作效率，减轻相关工作任务量的最终目的。

技术实现要素：

针对现有技术存在的不足，本发明旨在解决针对文本数据分类识别缺乏有效的识别方法的问题，提供一种文本数据的分类方法。装置以及系统，提高分类效率，降低计算成本，可以有效地辅助人们判断特定文本数据，同时提高诊断效率，降低误诊率，满足判断要求。

为解决上述技术问题，本发明提供了一种文本数据的分类方法，所述方法包括：

获取文本数据集；

对所述文本数据集进行预处理，形成训练数据集；

构建深度神经网络模型；

基于所述训练数据集对所述深度神经网络模型进行训练；

使用训练完成的深度神经网络模型，对待分类的文本数据进行分类识别。

优选地，所述对所述文本数据集进行预处理，包括：

提取和填补重要数据信息，去除无效或者敏感信息。

优选地，所述对所述文本数据集进行预处理，形成训练数据集，包括：

对每列数据计算其高斯分布，依据相应分布进行对应数值填充，删除缺失特征信息过多的个体，使用logistics算法进行特征筛选，融合形成训练数据集。

优选地，所述构建深度神经网络模型，包括卷积层、池化层、lstm(longshort-termmemory,长短期记忆)层、全连接层：

卷积层，由4层卷积层组成，其中各个层的卷积核大小分别是1*3,3*1,3*3,1*1，步长均设置为1，所使用的激活函数为relu；

池化层，由2层池化层组成，采用max_pooling的方式，步长设置为2，与卷积层组合使用；

lstm层，由1层组成，隐含层节点数设置为64，加入dropout方法，处理由卷积层得到的文本数据特征向量；

全连接层，由2层组成，通道数分别为128和2，采用softmax函数进行映射，得到具体分类类别的概率。

优选地，所述基于所述训练数据集对所述深度神经网络模型进行训练，包括：

将所述训练数据集分为训练集、训练集标签、测试集、测试集标签；

在keras框架下，设定所述深度神经网络模型需要分类的num_class的值，使用所述训练数据集训练所述深度神经网络模型，迭代预设次数后停止训练；

保存迭代结束后且训练完成的深度神经网络模型。

优选地，使用训练完成的深度神经网络模型，对待分类的文本数据进行分类识别，包括：

用户选择训练完成的深度神经网络模型，输入待分类的文本数据路径；

经由训练完成的深度神经网络模型处理，输出分类结果。

为解决上述技术问题，本发明还提供了一种文本数据的分类装置，采用上述任一种文本数据的分类方法，所述装置包括：

数据载入模块，用于获取与文本数据分类对应的数据集，载入用户选择的文本数据；

模式设定模块，用于设定深度神经网络模型训练模式或深度神经网络数据推理模式；

用户输入模块，用于接收用户基于当前需求的输入，当前模式为深度神经网络模型训练模式时，接收待训练的文本数据集，当前模式为深度神经网络数据推理模式时，接收待分类的文本数据；

模型保存模块，用于保存训练完成的深度神经网络模型；

结果输出模块，用于输出对待分类的文本数据进行分类识别的结果。

优选地，所述装置还包括：

算法调用模块，用于根据设定的模式，调用对应算法进行模型训练或数据推理。

为解决上述技术问题，本发明还提供了一种文本数据的分类系统，所述系统包括：输入部分、输出部分、通信总线、处理器、存储器以及驱动器，其中，所述输入部分、输出部分、处理器、存储器以及驱动器通过通信总线进行连接；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序时实现如上任一种文本数据的分类方法的步骤。

本发明提供的文本数据的分类方法、装置以及系统，与现有技术相比，具有如下有益效果：

通过使用深度神经网络技术，能够针对特定文本数据进行自动化分类识别，提高分类效率，降低计算成本，可以有效地辅助人们判断特定文本数据，同时提高诊断效率，降低误诊率，满足判断要求。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种文本数据的分类方法的流程图；

图2为本发明实施例提供的深度神经网络模型的功能结构设计图；

图3为本发明实施例提供的一种文本数据的分类装置的结构图；

图4为本发明实施例提供的一种文本数据的分类系统的示意性框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

如图1所示，是本发明实施例提供的一种文本数据的分类方法的流程图，所述方法包括以下步骤：

s101：获取文本数据集；

在本实施例中，文本数据集以网上公开的特定文本数据为主体，从中获取2000个个体的文本数据。

可选地，本实施例中的文本数据集可以根据用户不同的需求进行相应的更换。

s102：对所述文本数据集进行预处理，形成训练数据集；

在本实施例中，由于不同个体标注生成的文本数据具有的属性不尽相同，经常会有部分数据缺失的情况出现，因此需要对文本数据进行数据预处理，提取和填补重要的数据信息并去除其它无效或者敏感信息，整理合并形成训练数据集。

可选地，在本实施例中由于数据样本标注人员不一，在标注的指标选择上也存在一定的差别，为了统一整体数据的特性，对于每列数据计算其高斯分布，依据相应分布进行对应数值填充，同时对于缺失特征信息过多的个体进行删除处理，并使用logistics算法进行特征筛选，最终融合形成训练数据集。

s103：构建深度神经网络模型；

在本实施例中，基于卷积神经网络cnn和长短期记忆(longshort-termmemory，lstm)网络进行网络模型构建，该模型主要由输入数据、cnn、lstm以及全连接层组成。cnn包括卷积层和池化层。其中由于lstm网络结构通常参数较多，训练速度缓慢等问题，因此设置其中的隐含层节点数为64，减少相应参数量，并在这之后使用softmax函数将输出结果进行映射，得到对应的分类类别概率。

使用cnn+lstm模型进行分类识别的主要思想是基于当前数据集的数据分布特性，可以在不模型参数复杂度的前提下提高准确率，同时还减少了超参数的数量，在分类识别的同时，节约计算资源。如图2所示，模型具体设计如下：

a.卷积层，由4层卷积层组成，其中各个层的卷积核大小分别是1*3,3*1,3*3,1*1，步长均设置为1，所使用的激活函数为relu；

b.池化层，由2层池化层组成，采用max_pooling的方式，步长设置为2，与卷积层组合使用；

c.lstm层，由1层组成，隐含层节点数设置为64，加入dropout方法，处理由卷积层得到的文本数据特征向量；

d.全连接层，由2层组成，通道数分别为128和2，采用softmax函数进行映射，得到具体分类类别的概率。

s104：基于所述训练数据集对所述深度神经网络模型进行训练；

在本实施例中，基于agx-2芯片下，使用keras框架，将训练数据分成训练集、训练集标签、测试集、测试集标签。采用反向传播算法和随机梯度下降方法,根据前向传播loss值的大小,来进行迭代更新每一层的权重。直到模型的loss值趋向于稳定时,停止训练模型。为了提高本发明模型的收敛速度,引入batchnormalization的方法,对卷积之后的数据归一化，然后使其继承原数据的结构特点。这能够有效的缩短模型训练的周期，以及能够得到更好的深度学习模型。

具体实施细节如下：

(1)将所述训练数据集分为训练集、训练集标签、测试集、测试集标签；

(2)在keras框架下，设定所述深度神经网络模型需要分类的num_class的值，使用所述训练数据集训练所述深度神经网络模型，迭代预设次数后停止训练；

(3)保存迭代结束后且训练完成的深度神经网络模型。

s105：使用训练完成的深度神经网络模型，对待分类的文本数据进行分类识别。

在本实施例中，用户如果需要使用训练好的深度神经网络模型对于未知文本数据进行推理，输入到保存的深度学习模型中,提取样本的深度学习特征，采用cnn卷积神经网络，通过对文本数据进行有效特征提取后，使用lstm对相应特征进行融合输出。

具体实施细节如下：

a.用户选择训练完成的深度神经网络模型，输入待分类的文本数据路径；

b.经由训练完成的深度神经网络模型处理，输出分类结果。

本发明实施例提供的文本数据的分类方法，通过使用深度神经网络技术，能够针对特定文本数据进行自动化分类识别，提高分类效率，降低计算成本，可以有效地辅助人们判断特定文本数据，同时提高诊断效率，降低误诊率，满足判断要求。

上文对于本发明提供的一种文本数据的分类方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的文本数据的分类装置以及系统，由于装置、系统的实施例与方法部分的实施例相互照应，因此装置、系统的实施例请参见方法部分的实施例的描述，这里暂不赘述。

如图3所示，是本发明实施例提供的一种文本数据的分类装置的结构图，应用于上述任一种文本数据的分类方法的实施例，所述装置包括：

数据载入模块301，用于获取与文本数据分类对应的数据集，载入用户选择的文本数据；

模式设定模块302，用于设定深度神经网络模型训练模式或深度神经网络数据推理模式；

用户输入模块303，用于接收用户基于当前需求的输入，当前模式为深度神经网络模型训练模式时，接收待训练的文本数据集，当前模式为深度神经网络数据推理模式时，接收待分类的文本数据；

模型保存模块304，用于保存训练完成的深度神经网络模型；

结果输出模块305，用于输出对待分类的文本数据进行分类识别的结果。

可选地，所述装置还包括：

算法调用模块306，用于根据设定的模式，调用对应算法进行模型训练或数据推理。

本发明实施例提供的文本数据的分类装置，具有上述文本数据的分类方法的有益效果。

如图4所示，是本发明实施例提供的一种文本数据的分类系统的示意性框架图，所述系统包括输入部分402、输出部分403、通信总401线、处理器cpu404、存储器405以及驱动器406，其中，所述输入部分402、输出部分403、cpu404、存储器405以及驱动器406通过通信总线401进行连接。

在本实施例中，输入部分402可以包括显示屏(display)，以及键盘(keyboard)、鼠标，用于输入待分类的文本数据，以及用户点选操作。

在本实施例中，输出部分403可以是显示屏，用于显示分类后文本数据中个体地具体类别。

在本实施例中，通信总线401主要用于各模块间通信，包括spi通信总线、i2c通信总线。

在本实施例中，cpu404为中央处理器，用于核心算法程序运行与逻辑处理，对输入数据以及用户输入操作进行识别，根据程序逻辑算法进行相关运算，完成对输入的标准功能，并将处理后标签数据传输至存储器405进行存储，通过通信总线401发送至输出部分403进行显示。

在本实施例中，存储器405指磁盘存储器，用来对标注后的个体进行存储。

在本实施例中，驱动器406用来提供底层驱动功能，保障上层应用程序的顺利运行。

其中，存储器405，用于存储计算机程序；

处理器cpu404，用于执行所述计算机程序时实现如上任一种文本数据的分类方法的步骤。

本发明实施例提供的文本数据的分类系统，具有上述文本数据的分类方法的有益效果。

以上对本发明所提供的文本数据的分类方法、装置以及系统进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢迎
技术所有人：郑州云海信息技术有限公司
我是此专利的发明人

上一篇：一种分段补料发酵生产鲜味肽的方法与流程
上一篇：一种基于区块链的通信方法及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。