文本数据类别的识别方法及装置、存储介质、计算机设备与流程

文档序号:18940685发布日期:2019-10-23 01:08阅读:188来源:国知局
文本数据类别的识别方法及装置、存储介质、计算机设备与流程

本申请涉及信息处理技术领域,尤其是涉及到文本数据类别的识别方法及装置、存储介质及计算机设备。



背景技术:

随着科学技术的发展,在很多应用场景下都会涉及到文本数据的分类,且基于越来越智能化的应用场景,对文本数据的类别划分需求也越来越高。因此,在面临多分类问题时,通常基于神经网络来实现对文本数据的分类。

现有技术存在的不足为,目前多分类问题下的神经网络,其识别精度往往会受到文本数据类别较多的影响,即当文本数据的类别较多时,神经网络的识别准确度将会有所降低;同时,在构建多个分类器或者多步分类器时,需要专业的技术人员对具体的构建过程进行校对,以便确认是否准确,从而完成后续的文本数据类别识别操作。

可见,基于现有神经网络所构建的分类器在进行类别划分时,识别准确度较低,用户无法得到较为精确的文本数据分类识别结果,影响用户的使用体验,且现有神经网络需要专业的技术人员介入确认分类器的具体构建过程,人工和时间成本较高。



技术实现要素:

有鉴于此,本申请提供了文本数据类别的识别方法及装置、存储介质、计算机设备,主要目的在于解决目前基于现有神经网络所构建的分类器识别准确度较低,以及现有神经网络需要专业的技术人员介入确认分类器的具体构建过程,人工和时间成本较高的问题。

根据本申请的一个方面,提供了一种文本数据类别的识别方法,该方法包括:

利用多分类神经网络模型,根据验证集中的文本数据得到所述文本数据的预测分类结果;

根据所述文本数据的预测分类结果和所述验证集中文本数据的预设类别标签,将所述多分类神经网络模型调整为初始化分类预测模型;

利用初始化分类预测模型,根据待识别文本数据得到待识别文本数据类别。

根据本申请的另一方面,提供了一种文本数据类别的识别装置,该装置包括:

验证模块,用于利用多分类神经网络模型,根据验证集中的文本数据得到所述文本数据的预测分类结果;

调整模块,用于根据所述文本数据的预测分类结果和所述验证集中文本数据的预设类别标签,将所述多分类神经网络模型调整为初始化分类预测模型;

预测模块,用于利用初始化分类预测模型,根据待识别文本数据得到待识别文本数据类别。

依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述文本数据类别的识别方法。

依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本数据类别的识别方法。

借由上述技术方案,本申请提供的文本数据类别的识别方法及装置、存储介质、计算机设备,与目前现有神经网络所构建的分类器在进行类别划分时,识别准确度较低,用户无法得到较为精确的文本数据分类识别结果相比,本申请利用多分类神经网络模型,根据验证集中的文本数据得到该文本数据的预测分类结果,根据该文本数据的预测分类结果和该验证集中与该文本数据对应的预设类别标签,将多分类神经网络模型调整为初始化分类预测模型,并利用初始化分类预测模型,根据待识别文本数据得到待识别文本数据类别。通过自动验证对多分类神经网络模型进行改进,使得改进后的初始化分类预测模型无需专业的技术人员介入确认分类器的具体构建过程,降低人工和时间成本,且改进后的初始化分类预测模型能够有效提升对文本数据识别的准确度。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1示出了本申请实施例提供的一种文本数据类别识别方法的流程示意图;

图2示出了本申请实施例提供的另一种文本数据类别识别方法的流程示意图;

图3示出了本申请实施例提供的一种文本数据类别识别装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

针对目前基于现有神经网络所构建的分类器识别准确度较低,以及现有神经网络需要专业的技术人员介入确认分类器的具体构建过程,人工和时间成本较高的问题。本实施例提供了一种文本数据类别的识别方法,能够自动化构建初始化分类预测模型,同时能够有效提高文本数据类别的识别准确度,如图1所示,该方法包括:

101、利用多分类神经网络模型,根据验证集中的文本数据得到所述文本数据的预测分类结果。

验证集用于验证多分类神经网络模型对文本数据类别的识别准确度,是基于网络行为构建的,社交网络行为是海量的、多种多样的。例如,撰写一篇博客,浏览一组照片,点击一个广告,购买一件商品,订阅特定新闻话题等所产生的社交网络行为均可用于多分类识别,以实现对社交网络行为的类别识别。

在本实施例中,以文本数据类别识别为例,从社交网络获取各种行为的文本数据,提取文本数据中的多维度特征(例如,标题、关键字等特征),并对应该多维度特征预设类别标签(即,该文本数据的预设类别),根据所提取的多维度特征和预设的类别标签构建验证集。

102、根据所述文本数据的预测分类结果和所述验证集中文本数据的预设类别标签,将所述多分类神经网络模型调整为初始化分类预测模型。

将基于多分类神经网络模型输出的预测分类结果与验证集中多维度特征对应的预设类别标签进行比对,根据比对结果,在多分类神经网络模型原有的网络结构的基础上,进行网络结构调整,以使调整后的多分类神经网络模型(即初始化分类预测模型)对文本数据类别的识别准确度更高,尤其是对与所构建的验证集中的文本数据较为相似的文本数据进行类别识别时,其识别准确度更为理想。

在具体场景中,若针对特有的文本数据进行类别识别时,为了满足调整后的多分类神经网络模型对特有的文本数据类别的识别准确度较高的需求,可以重新构建新的验证集,以便基于所构建的新的验证集,对多分类神经网络模型原有的网络结构进行重新调整,以使其更加适用于新的文本数据类别的识别。

103、利用初始化分类预测模型,根据待识别文本数据得到待识别文本数据类别。

获取待识别文本数据,对获取到的待识别文本数据进行预处理,提取待识别文本数据中的多维度特征,利用初始化分类预测模型,根据待识别文本数据的多维度特征得到待识别文本数据类别。

在本实施例中,对初始化分类预测模型进行训练,将待识别文本数据输入训练后的初始化分类预测模型(即预设的分类预测模型),输出待识别文本数据类别,以使用户能够基于预设的分类预测模型处理后的文本数据分类,准确地获取到与文本数据类别匹配度较高的信息,提升用户体验。

对于本实施例可以按照上述方案,利用多分类神经网络模型,根据验证集中的文本数据得到该文本数据的预测分类结果,根据该文本数据的预测分类结果和该验证集中与该文本数据对应的预设类别标签,将多分类神经网络模型调整为初始化分类预测模型,并利用初始化分类预测模型,根据待识别文本数据得到待识别文本数据类别,与目前现有神经网络所构建的分类器在进行类别划分时,识别准确度较低,用户无法得到较为精确的文本数据分类识别结果相比,本实施例能够通过自动验证对多分类神经网络模型进行改进,使得改进后的初始化分类预测模型无需专业的技术人员介入确认分类器的具体构建过程,降低人工和时间成本,且改进后的初始化分类预测模型能够有效提升对文本数据识别的准确度。

进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种文本数据类别的识别方法,该方法包括:利用训练集训练初始化神经网络模型,得到多分类神经网络模型。

具体为,基于网络行为构建训练集,从社交网络获取各种行为的新的文本数据(即,有别于上述用于构建验证集的文本数据),提取文本数据中的多维度特征,并对应该多维度特征预设类别标签,根据所提取的多维度特征和预设的类别标签构建训练集,以使获取到的训练集中文本数据的多维度特征与验证集中文本数据的多维度特征不相同,或者,获取到的训练集中文本数据的多维度特征和预设的类别标签与验证集中文本数据的多维度特征和预设的类别标签均不相同。

在对获取到的训练集对初始化神经网络模型进行训练之前构建初始化神经网络模型,初始化神经网络模型可以是初始化卷积神经网络模型,或者初始化循环神经网络模型,初始化神经网络模型的主要结构为多连接的多层结构,以实现针对多维度特征的运算,以文本数据类别识别为例,初始化神经网络模型主要包括:输入层、卷积层、池化层和全连接层,其中各层的初始化网络参数均为随机生成的。

在具体场景中,若分类目标为客户分类,则初始化神经网络模型的网络结构也可以以全连接层为主,此处不对初始化神经网络模型的具体网络结构进行限定。

以文本数据类别识别为例,根据获取到的训练集对初始化神经网络模型进行训练,具体为,将初始化神经网络模型的卷积层和池化层统称为隐层,根据实际应用的需求,隐层可以为多个,在python的tensorflow库中,将训练集中的多维度特征输入初始化神经网络模型的输入层,输入层对多维度特征进行预处理,将多维度特征转换成多维向量,输入层将多维向量输入隐层进行处理,最后一个隐层将处理结果输入全连接层,全连接层将处理结果转换成文本形式的分类结果。将分类结果与预设类别标签进行比对,若分类结果与预设类别标签不一致,则根据输出的分类结果与预设类别标签计算得到交叉熵,并作为用于训练初始化神经网络模型的损失函数。

不断迭代上述训练过程,利用自适应矩估计(adam:adaptivemomentestimation)优化算法对所确定的损失函数进行最小化,从而实现对隐层的网络参数的更新,直至训练集中所有文本数据的多维度特征全部训练完成,得到多分类神经网络模型。

进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种文本数据类别的识别方法,如图2所示,该方法包括:

201、利用多分类神经网络模型,根据验证集中的文本数据得到所述文本数据的预测分类结果。

将验证集中的n个多维度特征输入多分类神经网络模型的输入层,输入层将验证集中的多维度特征转换成多维向量后输出给隐层进行处理,最后一个隐层将处理结果输入全连接层,全连接层将处理结果转换成文本形式的预测分类结果,以便根据多分类神经网络模型输出的预测分类结果和验证集中对应的文本数据的预设类别标签,将多分类神经网络模型调整为初始化分类预测模型。

202、根据所述文本数据的预测分类结果和所述验证集中文本数据的预设类别标签,确定所述预测分类结果中的混淆类别。

为了说明步骤202的具体实施方式,作为一种优选实施例,步骤203具体可以包括:若所述文本数据的预测分类结果中的预测类别与所述验证集中相应文本数据的预设类别标签不一致,则将所述预测分类结果中的预测类别确定为混淆类别。

在本实施例中,将多分类神经网络模型输出的预测分类结果与验证集中多维度特征对应的预设类别标签进行比对,若预测分类结果中的预测类别与验证集中相应多维度特征的预设类别标签不一致,则将该预测类别确定为基于该多分类神经网络模型的混淆类别,该混淆类别包括多个预设类别标签分类及每个预设类别标签分类下所包含的预设类别标签数量,根据所确定的混淆类别以实现对多分类神经网络模型的改进。

此外,若预测分类结果中的预测类别与验证集中相应多维度特征的预设类别标签一致,即该预测类别中仅包括一个预设类别标签分类及该预设类别标签分类下所包含的预设类别标签数量,则该预测类别不进行重新设定,即不作为对多分类神经网络模型进行改进的考虑因素。

203、根据所述混淆类别,对所述多分类神经网络模型进行网络结构调整,得到初始化分类预测模型。

为了说明步骤203的具体实施方式,作为一种优选实施例,步骤203具体可以包括:

步骤2031:根据所述混淆类别确定多个文本数据类别。

为了说明步骤2031的具体实施方式,作为一种优选实施例,步骤2031具体可以包括:对用于表征所述混淆类别的混淆矩阵进行t型矩阵运算,得到相似度矩阵;对所述相似度矩阵进行谱聚类运算,得到多个文本数据类别。

在本实施例中,在sklearn库中,根据所确定的预测分类结果中的多个混淆类别构建用于表征该多个混淆类别的混淆矩阵matrix,将混淆矩阵matrix中每个混淆类别包含的每个预设类别标签分类下的类别标签数量转换成每个预设类别标签分类下的类别标签数量占所对应的混淆类别中的类别标签总数量的比例,将转换后的混淆矩阵matrix进行t型矩阵运算,即利用计算公式matrix*matrix.t得到包含多个预设类别标签分类的相似度矩阵,并对得到的包含多个预设类别标签分类的相似度矩阵进行谱聚类运算,得到谱聚类输出结果,即多个预设类别标签分类。其中,t型矩阵即托普利兹矩阵toeplitzmatrix。

在具体场景中,谱聚类运算具体为,将相似度矩阵中的预设类别标签分类作为顶点,以顶点之间的相似度作为特征向量构造向量空间并进行切分,得到较高类内相似度与较低类间相似度,从而实现对预测分类结果中的多个混淆类别的进一步分类。

其中,混淆类别是在利用多分类神经网络模型进行预测的过程中存在较高混淆程度的类别,即每一个混淆类别中所包括的多个预设类别标签分类所对应的多维度特征利用多分类神经网络模型预测所得到的预测类别,都极易被预测成为混淆类别中其它的预测类别,且发生的概率较高。因此,根据所确定的混淆类别,对多分类神经网络模型进行网络结构调整,能够有针对性地,且有效地提升多分类神经网络模型对文本数据类别的识别准确度。同时,能够针对各种特殊的应用场景,通过构建不同的验证集,以实现对多分类神经网络模型所进行的针对性改进。

步骤2032:根据所述混淆类别与多个文本数据类别的对应关系,对多分类神经网络模型中所述混淆类别所对应的全连接层进行网络结构调整,得到初始化分类预测模型。

在本实施例中,根据混淆类别与多个文本数据类别之间一对多的对应关系,为多分类神经网络模型中的全连接层设置平行分类神经网络,即在多分类神经网络模型的基础上构建与多分类神经网络模型中的全连接层并行的多个连接层。具体为,每一新增的连接层的输入端分别与对应的混淆类别的连接层的输出端相连接,以实现对混淆类别中的隐含特征的扩充,从而得到网络结构调整后的多分类神经网络模型(即,初始化分类预测模型)。

204、利用训练集训练初始化分类预测模型,得到预设的分类预测模型。

在本实施例中,利用在前构建好的训练集对网络结构调整后的多分类神经网络模型进行再次训练,具体为,在python的tensorflow库中,将训练集中的多维度特征输入初始化分类预测模型的输入层,输入层对多维度特征进行预处理,将多维度特征转换成多维向量,并经由隐层输入全连接层,得到文本形式的分类结果。

根据全连接层输出的分类结果与训练集中相应多维度特征的预设类别标签计算得到交叉熵,并作为用于训练初始化分类预测模型的损失函数,利用adam优化算法对所确定的损失函数进行最小化,从而实现对全连接层中的网络参数进行优化,且其它隐层中的网络参数保持固定不变,从而进一步提升初始化分类预测模型的分类精度,并将训练后的初始化分类预测模型作为最终用于对待识别文本数据类别进行识别的预设的分类预测模型。

205、利用预设的分类预测模型对待识别文本数据进行识别,得到待识别文本数据类别。

在本实施例中,当用户需要对所获取的网络信息(即,待识别文本数据)进行分类处理时,提取待识别文本数据的多维度特征,将提取到的多维度特征输入预设的分类预测模型的输入层,输入层对多维度特征进行预处理,将多维度特征转换成多维向量,输入层将多维向量输入隐层进行处理后输出给全连接层,全连接层根据处理结果得到网络信息的分类结果(即,待识别文本数据类别)。

在具体场景中,若用户所获取的网络信息为新闻领域的网络信息,提取新闻领域的网络信息的多维度特征,利用预设的分类预测模型进行分类处理后,得到的分类结果分别是国际新闻、国内新闻、体育新闻等。

通过应用本实施例的技术方案,利用多分类神经网络模型,根据验证集中的文本数据得到该文本数据的预测分类结果,根据该文本数据的预测分类结果和该验证集中与该文本数据对应的预设类别标签,将多分类神经网络模型调整为初始化分类预测模型,并利用初始化分类预测模型,根据待识别文本数据得到待识别文本数据类别。与目前现有神经网络所构建的分类器在进行类别划分时,识别准确度较低,用户无法得到较为精确的文本数据分类识别结果相比,能够通过自动验证实现对多分类神经网络模型的网络结构改进,使得改进后的初始化分类预测模型无需专业的技术人员介入确认分类器的具体构建过程,降低人工和时间成本,且改进后的初始化分类预测模型能够有效提升对文本数据识别的准确度。

进一步的,作为图1方法的具体实现,本申请实施例提供了一种文本数据类别的识别装置,如图3所示,该装置包括:验证模块31、调整模块32、预测模块33。

验证模块31,可以用于利用多分类神经网络模型,根据验证集中的文本数据得到所述文本数据的预测分类结果。

调整模块32,可以用于根据所述文本数据的预测分类结果和所述验证集中文本数据的预设类别标签,将所述多分类神经网络模型调整为初始化分类预测模型。

预测模块33,可以用于利用初始化分类预测模型,根据待识别文本数据得到待识别文本数据类别。

在具体的应用场景中,该装置还包括:训练模块34。

训练模块34,可以用于利用训练集训练初始化神经网络模型,得到多分类神经网络模型。

在具体的应用场景中,调整模块32,具体可以用于根据所述文本数据的预测分类结果和所述验证集中文本数据的预设类别标签,确定所述预测分类结果中的混淆类别;根据所述混淆类别,对所述多分类神经网络模型进行网络结构调整,得到初始化分类预测模型。

在具体的应用场景中,根据所述文本数据的预测分类结果和所述验证集中文本数据的预设类别标签,确定所述预测分类结果中的混淆类别,具体还可以用于,若所述文本数据的预测分类结果中的预测类别与所述验证集中相应文本数据的预设类别标签不一致,则将所述预测分类结果中的预测类别确定为混淆类别。

在具体的应用场景中,根据所述混淆类别,对所述多分类神经网络模型进行网络结构调整,得到初始化分类预测模型,具体还可以用于,根据所述混淆类别确定多个文本数据类别;根据所述混淆类别与多个文本数据类别的对应关系,对多分类神经网络模型中所述混淆类别所对应的全连接层进行网络结构调整,得到初始化分类预测模型。

在具体的应用场景中,根据所述混淆类别确定多个文本数据类别,具体还可以用于,对用于表征所述混淆类别的混淆矩阵进行t矩阵运算,得到相似度矩阵;对所述相似度矩阵进行谱聚类运算,得到多个文本数据类别。

在具体的应用场景中,预测模块33,具体还可以用于,利用训练集训练初始化分类预测模型,得到预设的分类预测模型;利用预设的分类预测模型对待识别文本数据进行识别,得到待识别文本数据类别。

需要说明的是,本申请实施例提供的一种基金的持仓调整装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。

基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的文本数据类别的识别方法。

基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法,以及图3所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的文本数据类别的识别方法。

可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(radiofrequency,rf)电路,传感器、音频电路、wi-fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等,可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、wi-fi接口)等。

本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有神经网络所构建的分类器在进行类别划分时,识别准确度较低,用户无法得到较为精确的文本数据分类识别结果相比,本实施例可通过自动验证对多分类神经网络模型进行改进,使得改进后的初始化分类预测模型无需专业的技术人员介入确认分类器的具体构建过程,降低人工和时间成本,且改进后的初始化分类预测模型能够有效提升对文本数据识别的准确度。

本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1