本申请涉及数据处理,尤其涉及一种解析方法、装置、电子设备及存储介质。
背景技术:
1、在当今时代,问卷调查已经成为一种常见的数据收集方法,用于收集被调查人员的意见、偏好、行为等信息。随着互联网和移动技术的普及,大量的问卷调查数据被生成并存储在各种数据源中,包括在线调查平台、企业数据库和社交媒体等。然而,这些海量的问卷调查数据往往是非结构化和混杂的,包含着大量的文本、数字和多媒体内容,要从这些数据中提取有用的信息,需要经过有效的数据解析和分析,才能识别和提取出关键信息、实体、属性和关系等,从而帮助我们获取数据中有价值的信息,加快数据处理和分析的速度。传统的数据解析方法通常需要依赖人工处理和手动编码,这种方法费时费力且容易出错,并且在处理复杂数据时,可能还会遇到一些挑战,例如,数据中存在噪音、缺失值或异常值等情况时,传统的解析方法可能无法准确地处理这些数据,从而导致结果的失真或者不可靠。因此,我们需要寻求一种更有效的解析方法,以提高数据处理的准确性和效率。
技术实现思路
1、本发明提供一种解析方法、装置、电子设备及存储介质,用于提高数据处理的准确性和效率。
2、第一方面,提供一种解析方法。该方法包括:
3、从终端读取调查数据中每一个用户的调查信息,将调查数据中每一个用户的调查信息按照预设的数据类别填入表格并形成表格数据,获得第一预设数据;
4、根据第一预设规则将第一预设数据进行筛选,获取符合第一预设规则的第二预设数据;
5、将第二预设数据送入特征提取模型,获取具有关键特征信息的第三预设数据;其中,特征提取模型根据第二预设规则对具有关键特征信息的第三预设数据进行筛选,获取符合第二预设规则的第四预设数据;
6、根据第三预设规则对第四预设数据进行排序,并将第四预设数据返回至终端。
7、一种可能的设计方案中,根据第一预设规则将第一预设数据进行筛选,获取符合第一预设规则的第二预设数据,包括:
8、第一预设规则为第一预设数据中的每一个单元格的数据都需要符合所属列的数据格式;
9、当第一预设数据中的一个单元格的数据不符合所属列的数据格式时,删除该单元格的所属行的全部数据。
10、另一种可能的设计方案中,特征提取模型根据第二预设规则对具有关键特征信息的第三预设数据进行筛选,获取符合第二预设规则的第四预设数据,包括:
11、第二预设规则为第三预设数据与第三预设数据的对应的用户的历史问卷的关键特征信息相一致;
12、当特征提取模型在生成所述具有关键特征信息的第三预设数据时,将第三预设数据与第三预设数据对应的用户的历史问卷的关键特征信息进行对比;
13、当第三预设数据与第三预设数据的对应的用户的历史问卷的关键特征信息相矛盾时,删除第三预设数据对应的用户的所有调查信息。
14、另一种可能的设计方案中,将第二预设数据送入特征提取模型,获取具有关键特征信息的第三预设数据,包括:
15、特征提取模型包括预处理模块、词袋模块、词嵌入模块、主题建模模块;
16、其中,预处理模块对第二预设数据进行规范化操作;
17、词袋模块将规范化操作后的第二预设数据转换为词袋表示,根据词袋表示中每个词的出现频率,构建一个向量化的表示;
18、词嵌入模块将向量化的表示映射到连续的文本向量空间;
19、主题建模模块对映射到连续的文本空间后的向量化的表示进行主题建模,获取具有关键特征信息的第三预设数据。
20、可选地,规范化操作,包括:
21、判断第二预设数据中的每一数据是否包含在预设的规范化数据中;
22、当第二预设数据中的存在包含在预设的规范化数据中的数据时,删除该数据;
23、其中,预设的范化数据包括:标点符号、停用词和特殊字符。
24、另一种可能的设计方案中,第三预设规则,包括:
25、根据调查数据中不同的调查信息来源设置不同的来源可信度分数。
26、可选地,根据第三预设规则对第四预设数据进行排序,并将第四预设数据返回至终端,包括:
27、根据调查数据中每一个用户的调查信息的来源和来源可信度分数,将第四预设数据进行排序,并将第四预设数据返回至终端。
28、第二方面,提供一种解析装置。该装置包括:
29、读取模块,从终端读取调查数据中每一个用户的调查信息,将调查数据中每一个用户的调查信息按照预设的数据类别填入表格并形成表格数据,获得第一预设数据;
30、第一筛选模块,根据第一预设规则将第一预设数据进行筛选,获取符合第一预设规则的第二预设数据;
31、第二筛选模块,将第二预设数据送入特征提取模型,获取具有关键特征信息的第三预设数据;其中,特征提取模型根据第二预设规则对具有关键特征信息的第三预设数据进行筛选,获取符合第二预设规则的第四预设数据;
32、排序模块,根据第三预设规则对第四预设数据进行排序,并将第四预设数据返回至终端。
33、第三方面,提供一种电子设备,该电子设备包括存储器和处理器,存储器上存储有计算机程序,处理器执行计算机程序时实现如第一方面中任一项的方法。
34、第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面任一项的方法。
35、本发明提供的解析方法、装置、电子设备及存储介质,该方法包括:从终端读取调查数据中每一个用户的调查信息,将调查数据中每一个用户的调查信息按照预设的数据类别填入表格并形成表格数据,获得第一预设数据,根据第一预设规则将第一预设数据进行筛选,获取符合第一预设规则的第二预设数据,将第二预设数据送入特征提取模型,获取具有关键特征信息的第三预设数据;其中,特征提取模型根据第二预设规则对具有关键特征信息的第三预设数据进行筛选,获取符合第二预设规则的第四预设数据,根据第三预设规则对第四预设数据进行排序,并将第四预设数据返回至终端。也就是说,通过设置第一预设规则要求每个单元格的数据符合所属列的数据格式,并删除不符合格式的数据,提高第一预设数据的准确性和一致性,特征提取模型根据第二预设规则对具有关键特征信息的第三预设数据进行筛选,删除与历史问卷关键特征信息相矛盾的第三预设数据,能够进一步提高第三预设数据的一致性和可靠性,根据第三预设规则对第四预设数据进行排序,从而获得更有价值的数据解析结果。
36、应当理解,
技术实现要素:
部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征,亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
1.一种解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的解析方法,其特征在于,所述根据第一预设规则将所述第一预设数据进行筛选,获取符合所述第一预设规则的第二预设数据,包括:
3.根据权利要求1所述的解析方法,其特征在于,所述特征提取模型根据第二预设规则对所述具有关键特征信息的第三预设数据进行筛选,获取符合所述第二预设规则的第四预设数据,包括:
4.根据权利要求1所述的解析方法,其特征在于,所述将所述第二预设数据送入特征提取模型,获取具有关键特征信息的第三预设数据,包括:
5.根据权利要求4所述的解析方法,其特征在于,所述规范化操作,包括:
6.根据权利要求1所述的解析方法,其特征在于,所述第三预设规则,包括:
7.根据权利要求1或6所述的解析方法,其特征在于,所述根据第三预设规则对所述第四预设数据进行排序,并将所述第四预设数据返回至所述终端,包括:
8.一种解析装置,其特征在于,所述装置包括:
9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。