数据分级分类方法、装置、设备及存储介质与流程

文档序号：36888806发布日期：2024-02-02 21:22阅读：16来源：国知局

本技术涉及数据处理，尤其涉及一种数据分级分类方法、装置、设备及存储介质。

背景技术：

1、目前对数据进行分级分类是使用短文本分类的方法，通过使用深度学习的词向量技术，将文本数据从难处理的高纬度、高稀疏的神经网络的数据方式，转化为类似图像、语音等连续稠密的数据方式的数据，从而使词语转化为稠密向量，进而解决文本表示问题。现有的分级分类方法首先是使用“结巴”(jieba)中文分词将句子进行切分，再使用文本卷积神经网络(convolutional neural network，cnn)或者相关变体形式的网络进行关键特征的自动提取，从而进一步对提取的关键词进行数据类别和级别标注。

2、在上述方法中，对数据进行分级分类时，自动识别率较低，并且存在词语切分错误、模型运算时间长等问题，不能有效实现自动分级分类操作。因此，对数据分级分类的效率较差、准确度较低。

技术实现思路

1、本技术提供一种数据分级分类方法、装置、设备及存储介质，用于提高对数据进行分类的效率和准确度。

2、为达到上述目的，本技术采用如下技术方案：

3、第一方面，提供了一种数据分级分类方法，该方法包括：获取待分类的原始数据，并对原始数据进行预处理，得到目标数据，预处理包括以下至少一项：统一数据格式、去除噪音、去除停用词和提取关键数据；基于预设分词模型将目标数据进行分词处理，得到多个分词数据；基于预设向量化模型从多个分词数据中确定出多个关键词，并确定多个关键词中每个关键词对应的词向量；将多个关键词，以及多个关键词中每个关键词对应的词向量输入至预设分类模型中，确定每个关键词对应的标签，预设分类模型包括以下至少一项：正则匹配模型、余弦算法模型和目标分类模型，目标分类模型为预先训练得到的模型。

4、在一种可能的实现方式中，基于预设向量化模型从多个分词数据中确定出多个关键词，并确定多个关键词中每个关键词对应的词向量，包括：基于预设向量化模型，计算多个分词数据中每个分词数据的词频-逆文档频率tf-idf；将多个分词数据中每个分词数据的tf-idf进行降序排序，并根据排序结果，从多个分词数据中确定出多个关键词；基于预设向量化模型，对多个关键词中每个关键词进行向量化处理，得到多个关键词中每个关键词对应的词向量。

5、在一种可能的实现方式中，方法还包括：从多个关键词中筛选出第一类关键词，第一类关键词用于通过正则匹配模型确定对应的标签；将多个关键词，以及多个关键词中每个关键词对应的词向量输入至预设分类模型中，确定每个关键词对应的标签，包括：将第一类关键词中每个关键词输入至正则匹配模型中，对第一类关键词中每个关键词进行分类处理，确定第一类关键词中每个关键词对应的标签。

6、在一种可能的实现方式中，方法还包括：从多个关键词中筛选出第二类关键词，第二类关键词用于通过余弦算法模型确定对应的标签；将多个关键词，以及多个关键词中每个关键词对应的词向量输入至预设分类模型中，确定每个关键词对应的标签，包括：将第二类关键词中每个关键词、第一类关键词中每个关键词对应的词向量和第二类关键词中每个关键词对应的词向量输入至余弦算法模型中，基于第一类关键词中每个关键词对应的词向量和第二类关键词中每个关键词对应的词向量，确定第二类关键词中每个关键词对应的标签。

7、在一种可能的实现方式中，方法还包括：从多个关键词中筛选出第三类关键词，第三类关键词用于通过目标分类模型确定对应的标签；将多个关键词，以及多个关键词中每个关键词对应的词向量输入至预设分类模型中，确定每个关键词对应的标签，包括：将第三类关键词中每个关键词输入至目标分类模型中，对第三类关键词中每个关键词进行分类处理，确定第三类关键词中每个关键词对应的标签。

8、在一种可能的实现方式中，方法还包括：获取第一类关键词中每个关键词对应的标签；对预设的基础模型设置多组模型参数，得到多个待选分类模型；基于第一类关键词中每个关键词对应的标签，对多个待选分类模型进行训练，得到多个训练后的分类模型；从多个训练后的分类模型中确定出目标分类模型。

9、第二方面，提供了一种数据分级分类装置，该数据分级分类装置包括：获取单元和处理单元；获取单元，用于获取待分类的原始数据；处理单元，用于对原始数据进行预处理，得到目标数据，预处理包括以下至少一项：统一数据格式、去除噪音、去除停用词和提取关键数据；处理单元，还用于基于预设分词模型将目标数据进行分词处理，得到多个分词数据；处理单元，还用于基于预设向量化模型从多个分词数据中确定出多个关键词，并确定多个关键词中每个关键词对应的词向量；处理单元，还用于将多个关键词，以及多个关键词中每个关键词对应的词向量输入至预设分类模型中，确定每个关键词对应的标签，预设分类模型包括以下至少一项：正则匹配模型、余弦算法模型和目标分类模型，目标分类模型为预先训练得到的模型。

10、在一种可能的实现方式中，处理单元，具体用于基于预设向量化模型，计算多个分词数据中每个分词数据的词频-逆文档频率tf-idf；处理单元，具体用于将多个分词数据中每个分词数据的tf-idf进行降序排序，并根据排序结果，从多个分词数据中确定出多个关键词；处理单元，具体用于基于预设向量化模型，对多个关键词中每个关键词进行向量化处理，得到多个关键词中每个关键词对应的词向量。

11、在一种可能的实现方式中，处理单元，还用于从多个关键词中筛选出第一类关键词，第一类关键词用于通过正则匹配模型确定对应的标签；处理单元，具体用于将第一类关键词中每个关键词输入至正则匹配模型中，对第一类关键词中每个关键词进行分类处理，确定第一类关键词中每个关键词对应的标签。

12、在一种可能的实现方式中，处理单元，还用于从多个关键词中筛选出第二类关键词，第二类关键词用于通过余弦算法模型确定对应的标签；处理单元，具体用于将第二类关键词中每个关键词、第一类关键词中每个关键词对应的词向量和第二类关键词中每个关键词对应的词向量输入至余弦算法模型中，基于第一类关键词中每个关键词对应的词向量和第二类关键词中每个关键词对应的词向量，确定第二类关键词中每个关键词对应的标签。

13、在一种可能的实现方式中，处理单元，还用于从多个关键词中筛选出第三类关键词，第三类关键词用于通过目标分类模型确定对应的标签；处理单元，具体用于将第三类关键词中每个关键词输入至目标分类模型中，对第三类关键词中每个关键词进行分类处理，确定第三类关键词中每个关键词对应的标签。

14、在一种可能的实现方式中，获取单元，还用于获取第一类关键词中每个关键词对应的标签；处理单元，还用于对预设的基础模型设置多组模型参数，得到多个待选分类模型；处理单元，还用于基于第一类关键词中每个关键词对应的标签，对多个待选分类模型进行训练，得到多个训练后的分类模型；处理单元，还用于从多个训练后的分类模型中确定出目标分类模型。

15、第三方面，一种电子设备，包括：处理器以及存储器；其中，存储器用于存储一个或多个程序，一个或多个程序包括计算机执行指令，当电子设备运行时，处理器执行存储器存储的计算机执行指令，以使电子设备执行如第一方面的一种数据分级分类方法。

16、第四方面，提供了一种存储一个或多个程序的计算机可读存储介质，该一个或多个程序包括指令，上述指令当被计算机执行时使计算机执行如第一方面的一种数据分级分类方法。

17、本技术提供了一种数据分级分类方法、装置、设备及存储介质，应用于对数据进行分类的场景中。首先获取待分类的原始数据，将原始数据进行统一数据格式、去除噪音、去除停用词和提取关键数据的预处理操作，得到目标数据。再基于预设分词模型将目标数据进行分词处理，从而得到多个分词数据，然后进一步使用预设向量化模型，确定出多个分词数据中的多个关键词，并确定多个关键词中每个关键词对应的词向量。从而将多个关键词，以及多个关键词中每个关键词对应的词向量输入至预设分类模型中，根据预设分类模型中包含的正则匹配模型、余弦算法模型和目标分类模型，确定每个关键词对应的标签。通过上述方法，可以根据待分类的原始数据，通过确定关键词、关键词的词向量的方式，结合使用预设分类模型确定出原始数据中的多个关键词的标签，进而基于标签实现对原始数据的分级分类。从而可以提高对数据进行分类的效率和准确度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈蒙蒙,孙毅,侯碧海,范晨曦,周霄,马益锋
技术所有人：中国联合网络通信集团有限公司
我是此专利的发明人

上一篇：一种针织品印染用染色均匀的高温节水染色机的制作方法
上一篇：一种带自动排气的滴斗装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。