数据筛选方法、装置、电子设备及存储介质与流程

文档序号:30266733发布日期:2022-06-02 04:31阅读:93来源:国知局
数据筛选方法、装置、电子设备及存储介质与流程

1.本技术涉及数据处理技术领域,尤其涉及一种数据筛选方法、装置、电子设备及存储介质。


背景技术:

2.在大数据环境下,随着数据量的快速积累,使得分析出海量数据所蕴含的价值,筛选出有价值的数据十分重要。数据筛选在整个数据处理流程中处于至关重要的地位。
3.相关技术中,可以通过数据筛选算法从数据中筛选出有价值的数据。然而,由于数据量的增加以及数据复杂度的增加,导致数据筛选的效率和准确性较低。


技术实现要素:

4.为了解决上述技术问题,本技术提供了一种数据筛选方法、装置、电子设备及存储介质。
5.根据本技术的第一方面,提供了一种数据筛选方法,包括:
6.获取各个区域的二维码对应的用户扫描数据,对所述用户扫描数据进行属性特征识别,得到所述用户扫描数据在一个或多个属性特征下的特征信息;
7.根据所述用户扫描数据在一个或多个属性特征下的特征信息,确定所述用户扫描数据对应的特征值;
8.根据所述特征值,确定所述用户扫描数据对应的数据类别;
9.针对每个数据类别中的用户扫描数据,根据所述数据类别中的用户扫描数据的特征信息,对所述数据类别中的用户扫描数据进行分类,并按照得到的分类结果进行数据筛选。
10.可选的,所述方法还包括:
11.获取所述用户扫描数据对应的人脸特征信息;
12.建立所述人脸特征信息和所述用户扫描数据的对应关系。
13.可选的,所述方法还包括:
14.如果一个或多个属性特征下的特征信息中不包含目标属性特征下的特征信息,根据所述用户扫描数据和其他用户扫描数据在一个或多个属性特征下的特征信息,对所述目标属性特征下的特征信息进行填充。
15.可选的,根据所述用户扫描数据和其他用户扫描数据在一个或多个属性特征下的特征信息,对所述目标属性特征下的特征信息进行填充,包括:
16.根据所述用户扫描数据和其他用户扫描数据在一个或多个属性特征下的特征信息,利用贝叶斯公式或判定树对所述目标属性特征下的特征信息进行填充。
17.可选的,所述根据所述特征值,确定所述用户扫描数据对应的数据类别,包括:
18.根据多个数据类别分别对应的数据范围,确定所述特征值所属的数据范围;
19.将所述特征值所属的数据范围对应的数据类别,确定为所述用户扫描数据对应的
数据类别。
20.可选的,所述根据所述用户扫描数据在一个或多个属性特征下的特征信息,确定所述用户扫描数据对应的特征值,包括:
21.根据所述用户扫描数据在单个属性特征下的特征信息,确定所述用户扫描数据在单个属性特征下的特征信息对应的特征值;
22.将所述用户扫描数据在一个或多个属性特征下的特征信息对应的特征值之和,确定为所述用户扫描数据对应的特征值。
23.可选的,在确定所述用户扫描数据对应的数据类别之后,所述方法还包括:
24.将所述用户扫描数据存储至所述数据类别对应的对象存储桶中。
25.根据本技术的第二方面,提供了一种数据筛选装置,包括:
26.特征信息确定模块,用于获取各个区域的二维码对应的用户扫描数据,对所述用户扫描数据进行属性特征识别,得到所述用户扫描数据在一个或多个属性特征下的特征信息;
27.特征值确定模块,用于根据所述用户扫描数据在一个或多个属性特征下的特征信息,确定所述用户扫描数据对应的特征值;
28.数据类别确定模块,用于根据所述特征值,确定所述用户扫描数据对应的数据类别;
29.数据筛选模块,用于针对每个数据类别中的用户扫描数据,根据所述数据类别中的用户扫描数据的特征信息,对所述数据类别中的用户扫描数据进行分类,并按照得到的分类结果进行数据筛选。
30.可选的,所述数据筛选装置,还包括:
31.人脸特征信息获取模块,用于获取所述用户扫描数据对应的人脸特征信息;
32.对应关系建立模块,用于建立所述人脸特征信息和所述用户扫描数据的对应关系。
33.可选的,所述数据筛选装置,还包括:
34.信息填充模块,用于如果一个或多个属性特征下的特征信息中不包含目标属性特征下的特征信息,根据所述用户扫描数据和其他用户扫描数据在一个或多个属性特征下的特征信息,对所述目标属性特征下的特征信息进行填充。
35.可选的,所述信息填充模块,具体用于如果一个或多个属性特征下的特征信息中不包含目标属性特征下的特征信息,根据所述用户扫描数据和其他用户扫描数据在一个或多个属性特征下的特征信息,利用贝叶斯公式或判定树对所述目标属性特征下的特征信息进行填充。
36.可选的,所述数据类别确定模块,具体用于根据多个数据类别分别对应的数据范围,确定所述特征值所属的数据范围;将所述特征值所属的数据范围对应的数据类别,确定为所述用户扫描数据对应的数据类别。
37.可选的,所述特征值确定模块,具体用于根据所述用户扫描数据在单个属性特征下的特征信息,确定所述用户扫描数据在单个属性特征下的特征信息对应的特征值;将所述用户扫描数据在一个或多个属性特征下的特征信息对应的特征值之和,确定为所述用户扫描数据对应的特征值。
38.可选的,所述数据筛选装置,还包括:
39.存储模块,用于将所述用户扫描数据存储至所述数据类别对应的对象存储桶中。
40.根据本技术的第三方面,提供了一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
41.根据本技术的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
42.根据本技术的第五方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面所述的方法。
43.本技术实施例提供的技术方案与现有技术相比具有如下优点:
44.由于各个区域的二维码对应的用户扫描数据包含进入各个区域的用户的相关信息,该用户扫描数据的数据量是不断增加的。并且,随着场景的变化,用户扫描数据的复杂度也会不断增加。因此,可以先根据用户扫描数据在一个或多个属性特征下的特征信息,确定用户扫描数据对应的数据类别。进而,再根据数据类别中的用户扫描数据的特征信息,对各个数据类别中的用户扫描数据进行分类,并根据分类结果进行数据筛选。通过先分类再筛选的方式可以提高数据筛选的效率,并且,由于特征信息表示用户扫描数据在各个属性特征下的信息,基于用户扫描数据的特征信息可以准确地对用户扫描数据进行分类,因此可以提高数据筛选的准确性。
附图说明
45.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
46.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
47.图1为本技术实施例中数据筛选方法的一种流程图;
48.图2为本技术实施例中数据筛选方法的又一种流程图;
49.图3为本技术实施例中数据筛选装置的一种结构示意图;
50.图4为本技术实施例中电子设备的一种结构示意图。
具体实施方式
51.为了能够更清楚地理解本技术的上述目的、特征和优点,下面将对本技术的方案进行进一步描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
52.在下面的描述中阐述了很多具体细节以便于充分理解本技术,但本技术还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本技术的一部分实施例,而不是全部的实施例。
53.目前,为了有效地对出入各个区域的人员进行统计,可以对各个区域设置不同的二维码,在用户进入某个区域(例如写字楼、商场、小区等)时,使用户扫描该区域的二维码。
这样,在某些情况下(例如在发生传染性疾病的情况下),可以某个区域用户的轨迹进行有效追踪。
54.由于用户扫描不同区域的二维码后生成的数据量日益增多,并且,该数据量也会日益复杂化,例如,可以增加用户针对传染性疾病的检测情况及疫苗接种情况等。虽然,通过筛选算法可以从中筛选出有效的数据,但是,数据筛选的效率和准确性较低。
55.为了解决上述问题,本技术实施例提供了一种数据筛选方法、装置、电子设备及存储介质,以提高数据筛选的效率和准确性。
56.参见图1,图1为本技术实施例中数据筛选方法的一种流程图,可以包括以下步骤:
57.步骤s110,获取各个区域的二维码对应的用户扫描数据,对用户扫描数据进行属性特征识别,得到用户扫描数据在一个或多个属性特征下的特征信息。
58.步骤s120,根据用户扫描数据在一个或多个属性特征下的特征信息,确定用户扫描数据对应的特征值。
59.步骤s130,根据特征值,确定用户扫描数据对应的数据类别。
60.步骤s140,针对每个数据类别中的用户扫描数据,根据数据类别中的用户扫描数据的特征信息,对数据类别中的用户扫描数据进行分类,并按照得到的分类结果进行数据筛选。
61.本技术实施例的数据筛选方法中,由于各个区域的二维码对应的用户扫描数据包含进入各个区域的用户的相关信息,该用户扫描数据的数据量是不断增加的。并且,随着场景的变化,用户扫描数据的复杂度也会不断增加。因此,可以先根据用户扫描数据在一个或多个属性特征下的特征信息,确定用户扫描数据对应的数据类别。进而,再根据数据类别中的用户扫描数据的特征信息,对各个数据类别中的用户扫描数据进行分类,并根据分类结果进行数据筛选。通过先分类再筛选的方式可以提高数据筛选的效率,并且,由于特征信息表示用户扫描数据在各个属性特征下的信息,基于用户扫描数据的特征信息可以准确地对用户扫描数据进行分类,因此可以提高数据筛选的准确性。
62.参见图2,图2为本技术实施例中数据筛选方法的又一种流程图,可以包括以下步骤:
63.步骤s210,获取各个区域的二维码对应的用户扫描数据,对用户扫描数据进行属性特征识别,得到用户扫描数据在一个或多个属性特征下的特征信息。
64.各个区域指按照地理位置预先划分的区域,各个区域可以是大范围的区域,也可以是小范围的区域。一个区域可以对应一个二维码,也可以对应多个二维码,例如,针对同一写字楼如果包含多个不同的入口,不同的入口可以设置不同的二维码。另外,大范围的区域内还可以包含小范围的区域,例如,针对商场内的店铺,也可以对应有二维码,用户进入商场扫描商场的二维码后,在进入商场的某一店铺后,还可以再次扫描该店铺的二维码。
65.用户每次扫描某个区域的二维码后,可以生成对应的用户扫描数据。该用户扫描数据可以包括扫描时刻、该区域的信息和用户的信息。例如,可包括区域的名称、用户的姓名、用户的户籍信息、用户的病毒检测情况和用户的疫苗接种情况等。本技术实施例中,可以预先设置多个属性特征,可以包括姓名,性别,年龄段,户籍所属省、区、县、镇,病毒检测情况和疫苗接种情况等。
66.可以理解的是,各个区域的二维码对应的用户扫描数据可能会存在差异,例如,区
域a的二维码对应的扫描数据包括户籍信息,区域b的二维码对应的扫描数据不包括户籍信息。因此,对用户扫描数据进行属性特征识别,可能得到用户扫描数据在一个属性特征下的特征信息,也可能得到用户扫描数据在多个属性特征下的特征信息。不同的用户扫描数据对应的属性特征可能相同,也可能不同。例如,针对某个用户扫描数据,得到的特征信息可以包括:北京市、朝阳区、20岁等。针对另一个用户扫描数据,对应的特征信息可以包括:北京市、海淀区、30岁等。本技术实施例中,可以预先训练生成特征提取模型,将用户扫描数据输入特征提取模型,即可输出对应的特征信息。
67.步骤s220,如果一个或多个属性特征下的特征信息中不包含目标属性特征下的特征信息,可以根据用户扫描数据和其他用户扫描数据在一个或多个属性特征下的特征信息,对目标属性特征下的特征信息进行填充。
68.如前所述,由于多个属性特征是预先设置的,并不是每个用户扫描数据在每个属性特征下均具有对应的特征信息。例如,用户扫描数据在目标属性特征下不具有对应的特征信息,此时,存在信息缺失的问题。本技术可以根据获取到的、已知的用户扫描数据对目标属性特征下的特征信息进行填充。
69.可选的,可以根据用户扫描数据和其他用户扫描数据在一个或多个属性特征下的特征信息,利用贝叶斯公式或判定树对目标属性特征下的特征信息进行填充。例如,可以从其他用户扫描数据中提取出在目标属性特征下的特征信息,即目标特征信息,根据每个目标特征信息,结合该用户扫描数据对应的特征信息,计算目标特征信息在目标属性特征下的条件概率,将对应的条件概率值最大的目标特征信息作为该用户扫描数据在目标属性特征下的特征信息。
70.判定树是一种常用的分类方法,是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。因此,也可以通过判定树推断用户扫描数据在目标属性特征下的特征信息。
71.步骤s230,根据用户扫描数据在一个或多个属性特征下的特征信息,确定用户扫描数据对应的特征值。
72.本技术实施例中,特征信息指的是字符串信息,可以对特征信息进行数据转换,将特征信息转换为特征值,以根据特征值对用户扫描数据进行分类。在一些实施例中,根据用户扫描数据在单个属性特征下的特征信息,确定用户扫描数据在单个属性特征下的特征信息对应的特征值。例如,针对不同属性特征下的特征信息,可以预先设置不同的数值,数值的大小可以和属性特征的重要程度成正相关。即,针对重要的属性特征下的特征信息,可以对应较大的数值,针对不重要的属性特征下的特征信息,可以对应较小的数值。将用户扫描数据在一个或多个属性特征下的特征信息对应的特征值之和,确定为用户扫描数据对应的特征值。在一些实施例中,也可以将某个属性特征下的特征信息对应的特征值确定为用户扫描数据对应的特征值。
73.步骤s240,根据特征值,确定用户扫描数据对应的数据类别。
74.在一些实施例中,可以根据多个数据类别分别对应的数据范围,确定特征值所属的数据范围,将特征值所属的数据范围对应的数据类别,确定为用户扫描数据对应的数据类别。
75.例如,一共包括三个数据类别,数据类别a对应的数据范围为0~10(包括10),数据类别b对应的数据范围为10~20(包括20),数据类别c对应的数据范围为20~30(包括30)。如果用户扫描数据对应的特征值为15,那么可以确定该用户扫描数据对应的数据类别为数据类别b。
76.步骤s250,将用户扫描数据存储至数据类别对应的对象存储桶中。
77.每个数据类别均可以具有对应的对象存储桶(oss,object storage service),对象存储桶是对象的载体,即存放对象的容器。在此,对象即为用户扫描数据。在确定数据类别后,可以将用户扫描数据存储至数据类别对应的对象存储桶中。
78.在一些实施例中,用户在扫描某个区域的二维码时,可能会先进行人脸扫描,因此,还可以获取用户扫描数据对应的人脸特征信息,建立人脸特征信息和用户扫描数据的对应关系。这样,对象存储桶中可以存储人脸特征信息和用户扫描数据的对应关系,该人脸特征信息可以认为是用户的身份标识。
79.步骤s260,针对每个数据类别中的用户扫描数据,根据数据类别中的用户扫描数据的特征信息,对数据类别中的用户扫描数据进行分类,并按照得到的分类结果进行数据筛选。
80.每个对象存储桶中存储有数据类别相同的数据,本技术还可以进一步根据用户扫描数据的特征信息,对每个对象存储桶中的数据进行分类。需要说明的是,针对不同的对象存储桶,所使用的数据分类方式可以不同,具体可以根据实际场景进行设置,以满足不同的数据处理需求。例如,从分类结果中可以筛选某个用户的行程轨迹等。
81.本技术实施例的数据筛选方法,可以对获取到的用户扫描数据进行属性特征识别,得到用户扫描数据在一个或多个属性特征下的特征信息。在信息缺失的情况下,还可以根据已知信息(该用户扫描数据的特征信息和其他用户扫描数据的特征信息)对缺失的信息进行信息填充。根据用户扫描数据在一个或多个属性特征下的特征信息,可以确定用户扫描数据对应的数据类别,并将用户扫描数据存储至对应的对象存储桶中。还可以获取人脸特征信息,建立并存储人脸特征信息和用户扫描数据的对应关系。进而,根据数据类别中的用户扫描数据的特征信息,对各个数据类别中的用户扫描数据进行分类,并根据分类结果进行数据筛选。通过先分类再筛选的方式可以提高数据筛选的效率,并且,由于特征信息表示用户扫描数据在各个属性特征下的信息,基于用户扫描数据的特征信息可以准确地对用户扫描数据进行分类,因此可以提高数据筛选的准确性。
82.本技术实施例还提供了一种数据筛选装置,参见图3,数据筛选装置300包括:
83.特征信息确定模块310,用于获取各个区域的二维码对应的用户扫描数据,对用户扫描数据进行属性特征识别,得到用户扫描数据在一个或多个属性特征下的特征信息;
84.特征值确定模块320,用于根据用户扫描数据在一个或多个属性特征下的特征信息,确定用户扫描数据对应的特征值;
85.数据类别确定模块330,用于根据特征值,确定用户扫描数据对应的数据类别;
86.数据筛选模块340,用于针对每个数据类别中的用户扫描数据,根据数据类别中的用户扫描数据的特征信息,对数据类别中的用户扫描数据进行分类,并按照得到的分类结果进行数据筛选。
87.可选的,数据筛选装置300,还包括:
88.人脸特征信息获取模块,用于获取用户扫描数据对应的人脸特征信息;
89.对应关系建立模块,用于建立人脸特征信息和用户扫描数据的对应关系。
90.可选的,数据筛选装置300,还包括:
91.信息填充模块,用于如果一个或多个属性特征下的特征信息中不包含目标属性特征下的特征信息,根据用户扫描数据和其他用户扫描数据在一个或多个属性特征下的特征信息,对目标属性特征下的特征信息进行填充。
92.可选的,信息填充模块,具体用于如果一个或多个属性特征下的特征信息中不包含目标属性特征下的特征信息,根据用户扫描数据和其他用户扫描数据在一个或多个属性特征下的特征信息,利用贝叶斯公式或判定树对目标属性特征下的特征信息进行填充。
93.可选的,数据类别确定模块330,具体用于根据多个数据类别分别对应的数据范围,确定特征值所属的数据范围;将特征值所属的数据范围对应的数据类别,确定为用户扫描数据对应的数据类别。
94.可选的,特征值确定模块320,具体用于根据用户扫描数据在单个属性特征下的特征信息,确定用户扫描数据在单个属性特征下的特征信息对应的特征值;将用户扫描数据在一个或多个属性特征下的特征信息对应的特征值之和,确定为用户扫描数据对应的特征值。
95.可选的,数据筛选装置300,还包括:
96.存储模块,用于将用户扫描数据存储至数据类别对应的对象存储桶中。
97.上述装置中各模块或单元的具体细节已经在对应的方法中进行了详细的描述,因此此处不再赘述。
98.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
99.在本技术的示例性实施例中,还提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行本示例实施方式中上述数据筛选方法。
100.图4为本技术实施例中电子设备的一种结构示意图。需要说明的是,图4示出的电子设备400仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
101.如图4所示,电子设备400包括中央处理单元(cpu)401,其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram 403中,还存储有系统操作所需的各种程序和数据。中央处理单元401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
102.以下部件连接至i/o接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如局域网(lan)卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
103.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元401执行时,执行本技术的装置中限定的各种功能。
104.本技术实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据筛选方法。
105.需要说明的是,本技术所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器、只读存储器、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频等等,或者上述的任意合适的组合。
106.本技术实施例中,还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述数据筛选方法。
107.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
108.以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1