数据分类方法、装置、电子设备、介质、车辆及云端服务器与流程

文档序号:36405805发布日期:2023-12-16 12:59阅读:34来源:国知局
数据分类方法与流程

本公开涉及数据处理,尤其涉及一种数据分类方法、装置、电子设备、介质、车辆及云端服务器。


背景技术:

1、现有技术中,为了获取用户对产品的口碑,需要从网络上获取大量的舆情数据如:通过对舆情数据分析,可以得到用户对产品的内容分类,如:问题、建议、咨询、好评和差评等。但是,上述结果需要人工逐一去分析舆情数据,这样就会出现不同的人在分析相同的舆情数据时,所得到的用户对产品的内容分类存在差异,导致内容分类的分析效率较低。


技术实现思路

1、为了解决上述技术问题,本公开提供了一种数据分类方法、装置、电子设备、介质、车辆及云端服务器,用于解决现有技术中在对舆情数据进行分析时,需要人工逐一去分析舆情数据,这样导致舆情数据的分析效率较低的问题。

2、为达到上述目的,本公开采用如下技术方案:

3、第一方面,本公开提供了一种数据分类方法,包括:获取待分析舆情数据;其中,待分析舆情数据至少包括实际标题和实际正文,实际正文包括一个或者多个实际短句;将实际标题和实际短句分别输入至预先配置的语言模型中,确定实际标题在至少一个内容分类中每个内容分类上的第一概率,以及实际短句在每个内容分类上的第二概率;将每个内容分类对应的分类关键词与实际短句进行语义匹配,确定实际短句在每个内容分类上的第三概率;对第一概率、第二概率和第三概率进行融合处理,为待分析舆情数据匹配对应的内容分类。

4、在一些可实施的示例中,预先配置的语言模型的训练过程如下:获取训练舆情数据和训练舆情数据的标记结果;其中,训练舆情数据中至少包括训练标题和训练正文;将训练舆情数据输入至语义模型中,确定训练标题在每个内容分类上的第一预测概率,和训练正文在每个内容分类上的第二预测概率;在第一预测概率与第一标记概率不同,和/或第二预测概率与第二标记概率不同的情况下,对语义模型的网络参数进行调整,直至语义模型收敛,得到预先配置的语言模型。

5、在一些可实施的示例中,一个分类关键词对应一个分类概率;将每个内容分类对应的分类关键词与实际短句进行语义匹配,确定实际短句在每个内容分类上的第三概率,包括:将每个内容分类对应的分类关键词与实际短句进行语义匹配,确定实际短句在每个内容分类上相匹配的分类关键词;根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率,确定第三概率。

6、在一些可实施的示例中,将每个内容分类对应的分类关键词与实际短句进行语义匹配,确定实际短句在每个内容分类上相匹配的分类关键词,包括:对实际短句进行分词处理,确定至少一个分词;根据分类关键词对应的词向量与每个分词对应的词向量,确定每个分词与每个分类关键词之间的相似度;根据相似度,确定实际短句在每个内容分类上相匹配的分类关键词。

7、在一些可实施的示例中,根据相似度,确定实际短句在每个内容分类上相匹配的分类关键词,包括:针对每个内容分类,执行如下操作:将大于预设阈值的相似度对应的分类关键词,作为实际短句在内容分类上相匹配的分类关键词。

8、在一些可实施的示例中,根据分类关键词对应的词向量与每个分词对应的词向量,确定每个分词与每个分类关键词之间的相似度前,本公开提供的数据分类方法还包括:将分类关键词和分词分别输入至预先配置的词向量模型中,确定分类关键词对应的词向量,以及每个分词对应的词向量。

9、在一些可实施的示例中,根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率,确定第三概率,包括:针对每个内容分类,执行如下操作:根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率的平均值,确定第三概率。在一些可实施的示例中,对第一概率、第二概率和第三概率进行融合处理,为待分析舆情数据匹配对应的内容分类,包括:对第二概率和第三概率进行加权处理,确定实际短句在每个内容分类上的第四概率;对第一概率和第四概率进行融合处理,确定待分析舆情数据在每个内容分类上的融合概率;根据融合概率,确定待分析舆情数据的内容分类。

10、在一些可实施的示例中,根据融合概率,确定待分析舆情数据的内容分类,包括:针对每个内容分类,执行如下操作:将大于目标阈值的融合概率对应的内容分类,作为融合概率对应的实际短句的内容分类;根据每个实际短句对应的内容分类,生成待分析舆情数据的内容分类。

11、第二方面、本公开提供一种数据分类装置,包括:获取单元,用于获取待分析舆情数据;其中,待分析舆情数据至少包括实际标题和实际正文,实际正文包括一个或者多个实际短句;处理单元,用于将获取单元获取的实际标题和获取单元获取的实际短句分别输入至预先配置的语言模型中,确定实际标题在至少一个内容分类中每个内容分类上的第一概率,以及实际短句在每个内容分类上的第二概率;处理单元,还用于将每个内容分类对应的分类关键词与获取单元获取的实际短句进行语义匹配,确定实际短句在每个内容分类上的第三概率;处理单元,还用于对第一概率、第二概率和第三概率进行融合处理,为待分析舆情数据匹配对应的内容分类。

12、在一些可实施的示例中,预先配置的语言模型的训练过程如下:获取单元,还用于获取训练舆情数据和训练舆情数据的标记结果;其中,训练舆情数据中至少包括训练标题和训练正文;处理单元,还用于将获取单元获取的训练舆情数据输入至语义模型中,确定训练标题在每个内容分类上的第一预测概率,和训练正文在每个内容分类上的第二预测概率;处理单元,还用于在第一预测概率与第一标记概率不同,和/或第二预测概率与第二标记概率不同的情况下,对语义模型的网络参数进行调整,直至语义模型收敛,得到预先配置的语言模型。

13、在一些可实施的示例中,一个分类关键词对应一个分类概率;处理单元,具体用于将每个内容分类对应的分类关键词与获取单元获取的实际短句进行语义匹配,确定实际短句在每个内容分类上相匹配的分类关键词;处理单元,具体用于根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率,确定第三概率。

14、在一些可实施的示例中,处理单元,具体用于对获取单元获取的实际短句进行分词处理,确定至少一个分词;处理单元,具体用于根据分类关键词对应的词向量与每个分词对应的词向量,确定每个分词与每个分类关键词之间的相似度;处理单元,具体用于根据相似度,确定实际短句在每个内容分类上相匹配的分类关键词。

15、在一些可实施的示例中,处理单元,具体用于针对每个内容分类,执行如下操作:将大于预设阈值的相似度对应的分类关键词,作为实际短句在内容分类上相匹配的分类关键词。

16、在一些可实施的示例中,处理单元,还用于将分类关键词和分词分别输入至预先配置的词向量模型中,确定分类关键词对应的词向量,以及每个分词对应的词向量。

17、在一些可实施的示例中,处理单元,具体用于针对每个内容分类,执行如下操作:根据实际短句在每个内容分类上相匹配的分类关键词对应的分类概率的平均值,确定第三概率。

18、在一些可实施的示例中,处理单元,具体用于对第二概率和第三概率进行加权处理,确定实际短句在每个内容分类上的第四概率;处理单元,具体用于对第一概率和第四概率进行融合处理,确定待分析舆情数据在每个内容分类上的融合概率;处理单元,具体用于根据融合概率,确定待分析舆情数据的内容分类。

19、在一些可实施的示例中,处理单元,具体用于针对每个内容分类,执行如下操作:将大于目标阈值的融合概率对应的内容分类,作为融合概率对应的实际短句的内容分类;处理单元,具体用于根据每个实际短句对应的内容分类,生成待分析舆情数据的内容分类。

20、第三方面,本公开提供一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在执行计算机程序时,使得所述电子设备实现如上述第一方面提供的数据分类方法。

21、第四方面,本公开提供一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现如上述第一方面提供的数据分类方法。

22、第五方面,本公开提供一种车辆或云端服务器,包括如上述第二方面提供的数据分类装置。

23、在本公开中,上述数据分类装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似,属于本公开权利要求及其等同技术的范围之内。

24、本公开的这些方面或其他方面在以下的描述中会更加简明易懂。

25、本公开提供的技术方案与现有技术相比具有如下优点:

26、通过预先配置的语言模型,可以确定待分析舆情数据中实际标题在每个内容分类上的第一概率,以及实际短句在每个内容分类上的第二概率。之后,将每个内容分类对应的分类关键词与实际短句进行语义匹配,确定实际短句在每个内容分类上的第三概率。这样,就可以对第一概率、第二概率以及第三概率进行融合处理,为该待分析舆情数据匹配对应的内容分类。无需人工去逐一标注待分析舆情数据的内容分类,这样可以大大提高待分析舆情数据的内容分类的分析效率,解决了现有技术中在对舆情数据进行分析时,需要人工逐一去分析舆情数据,这样导致舆情数据的分析效率较低的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1