一种数据采集方法、装置及相关设备与流程

文档序号:37935061发布日期:2024-05-11 00:13阅读:10来源:国知局
一种数据采集方法、装置及相关设备与流程

本技术涉及人工智能(artificial intelligence,ai)领域,尤其涉及一种数据采集方法、装置及相关设备。


背景技术:

1、随着科学技术的不断发展,ai模型在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。ai模型通常需要使用大量的样本对其进行训练,通常情况下,传感器会将采集到的原始数据统一上传至服务器中,再对服务器中的原始数据进行标注后获得样本才,然后使用样本训练ai模型。

2、但是,传感器采集到的原始数据可能会存在大量与业务场景无关的数据,这些数据也会被上传至服务器,造成数据传输和存储的压力,降低模型训练效率。


技术实现思路

1、本技术提供了一种数据采集方法、装置及相关设备,用于解决传感器采集到的原始数据与业务场景无关,导致数据传输和存储的压力大,模型训练效率低的问题。

2、第一方面,提供了一种数据采集方法,该方法包括以下步骤:数据采集装置获取用户输入的场景信息,其中,场景信息包括用户所需训练的模型对应的业务场景信息,根据场景信息确定至少一个传感器中的目标传感器,使用目标传感器进行数据采集获得多个数据,目标传感器的数量为一个或者多个,根据场景信息确定多个数据中每个数据的场景相关度,每个数据的场景相关度用于描述每个数据与业务场景之间的相关程度,向用户发送用于训练模型的样本集,其中,样本集是根据每个数据的场景相关度确定的。

3、上述实现方式,数据采集装置可以获取用户输入的场景信息,然后根据场景信息确定至少一个传感器中的目标传感器,使用目标传感器进行数据采集获得多个数据,再根据场景信息确定多个数据中每个数据的场景相关度,向用户发送用于训练上述模型的样本集,其中,样本集是根据每个数据的场景相关度确定的,使得样本集中的数据是与业务场景相关的数据,将样本集中的数据上传至服务器,可以避免与业务场景无关的数据被上传至服务器,从而减轻数据传输和存储的压力,提高模型训练效率。

4、在一可能的实现方式中,在数据采集装置获取用户输入的场景信息之前,该方法还包括以下步骤:数据采集装置向用户提供传感器信息,其中,传感器信息包括数据采集装置拥有的至少一个传感器的参数信息,传感器信息用于供用户确定场景信息。

5、可选地,传感器信息可包括数据采集装置中传感器的参数信息,比如分辨率、灵敏度、线性范围、稳定性、精度、频率响应特性、采样频率等等,本技术不作具体限定。应理解,不同传感器的参数信息类型可能不同,本技术不作具体限定。

6、可选地,传感器信息还可包括其他用于确认业务场景的相关信息,举例来说,传感器信息还可包括数据采集装置的设备信息,比如数据采集装置的设备型号、设备功能、资源状态、设备状态等等,其中,资源状态可包括但不限于内存资源状态、中央处理器(centralprocessing unit,cpu)资源状态、网络占用等等,设备状态可包括但不限于数据采集装置的传感器是否发生损坏,数据采集装置是否处于异常状态等等。再举例来说,传感器信息还可包括数据采集装置和用户所持有的客户端之间的通信网络的状态信息,比如带宽、网速等等,应理解,上述举例用于说明,本技术不作具体限定。

7、具体实现中,数据采集装置可以在首次与用户所持有的客户端建立通信连接后,向客户端上报传感器信息,或者,在接收到客户端发起的上报请求之后,向客户端上报传感器信息,或者,在数据采集装置的传感器信息发生更新后,将更新后的传感器信息上报给客户端,本技术不作具体限定。

8、可选地,用户可以根据客户端显示的传感器信息,输入用户所需的业务场景的信息,如果客户端显示该数据采集装置没有业务场景所需的传感器信息,用户可以选择其他能够满足业务场景需求的其他数据采集装置,从而避免数据采集装置无法采集到用户的业务场景相关的数据,降低模型训练效率。

9、上述实现方式,在用户输入场景信息之前,将数据采集装置的传感器信息上报给用户,使得用户可以根据数据采集装置的传感器信息确定输入的场景信息,避免出现数据采集装置无法满足用户需求这一情况的发生,提高用户的使用体验。

10、在一可能的实现方式中,场景信息可以是用户所需的业务场景的信息,比如业务场景的名称、编号、缩写等等,本技术不作具体限定。用户所需的业务场景可包括但不限于图像识别、语音识别、文字识别、图像检测等等,本技术不作具体限定。

11、具体实现中,客户端可以根据传感器信息确定该传感器信息可实现的一个或者多个场景,然后向用户展示的上述一个或者多个场景后,获取用户从中选择的场景信息。或者,用户也可以根据客户端展示的传感器信息,自行输入场景信息,本技术不作具体限定。具体实现中,客户端可以通过可视化界面向用户展示多个场景信息以供选择,也可以通过应用程序接口(application programming interface,api)输入场景信息,本技术不作具体限定。

12、上述实现方式,通过获取用户输入的场景信息,可以使得最后确定的样本集中的数据是与业务场景相关的数据,从而避免与业务场景无关的数据被上传至服务器,减轻数据传输和存储的压力,提高模型训练效率。

13、在一可能的实现方式中,数据采集装置可以存储有场景信息和目标传感器之间的对应关系,获取用户输入的场景信息之后,可以根据对应关系确定该场景信息对应的目标传感器,比如图像识别场景对应图像传感器,语音识别场景对应麦克风、声敏传感器等等,本技术不作具体限定。

14、需要说明的,根据场景信息对应的多个目标传感器中,不仅包括业务直接需求的目标传感器,还可包括业务扩展需求的目标传感器,其中,业务扩展需求的目标传感器所采集到的数据,能够为业务直接需求的目标传感器采集到的数据提供更多数据维度的补充。举例来说,图像识别场景中,业务直接需求的目标传感器是摄像头,但是雷达传感器、红外传感器、激光传感器等其他传感器所采集到的关联模态的样本数据也可能在该图像识别场景中提供数据维度的补充,这些传感器可以是该业务场景下存在业务扩展需求的目标传感器,那么图像识别场景下的目标传感器不仅包括摄像头,还可包括雷达传感器、红外传感器、激光传感器等,应理解,上述举例用于说明,在不同的业务场景中,业务直接需求的目标传感器和业务扩展需求的目标传感器不同,这里不一一举例说明。

15、上述实现方式,根据用户确认的场景信息确定目标传感器,使用目标传感器采集多个数据,这样提供给用户的多个数据是与用户所确认的业务场景相关的数据,从而避免向用户提供与业务场景无关的数据,提高通信效率,同时减轻样本存储压力,避免资源的浪费。

16、在一可能的实现方式中,在目标传感器的数量为多个时,使用目标传感器采集的多个数据可包括同一时刻下多个目标传感器采集的多个数据。具体地,可以对多个目标传感器采集到的数据进行数据对齐操作后,获得上述多个数据。应理解,由于不同目标传感器的采集频率存在差异,因此可以对多个目标传感器采集的数据进行数据对齐处理,获得上述多个数据。

17、具体实现中,可以为多个目标传感器在周期时间内采集到的多个数据以及采集时间建立数据集合和对应的查找索引,基于索引快速定位和筛选出同一时刻下采集的数据,从而获得对齐后的多个数据。应理解,对多个目标传感器采集到的数据进行对齐处理时,也可以适当进行数据补偿,以获得对齐后的多个数据,本技术不作具体限定。

18、需要说明的,对于多传感器融合场景来说,上述多个数据中的每个数据可以包括同一时刻下的多个传感器采集的数据,比如同一时刻下的雷达帧和图像帧可以作为一个数据。对于单一传感器场景来说,一个数据对应一个传感器采集的数据,比如一个图像帧,一个文本等等,本技术不作限定。

19、上述实现方式,通过将多个目标传感器采集的多个数据进行对齐操作,使得最后样本集中的数据是同一时刻下中多个目标传感器采集的数据,提高数据的准确性,避免由于数据误差导致模型训练效果差的问题。

20、在一可能的实现方式中,数据的场景相关度是根据数据与场景信息所描述的业务场景之间的相关程度确定的,相关程度越高,数据的场景相关度越高,反之则越低。

21、可选地,数据的场景相关度是根据数据是否包含目标确定的,包含目标的数据的场景相关度高于不包含目标的数据的场景相关度,该目标可以是业务场景所需的目标,比如业务场景是行人识别时,业务场景所需的目标可以是行人;比如业务场景是车辆识别,业务场景所需的目标可以是车辆,上述举例用于说明,本技术不作具体限定。

22、可选地,数据的场景相关度是根据数据包含的目标数量确定的,数据包含的目标数量越高,数据的场景相关度越高,反之则越低,比如业务场景是车辆识别时,包含2个车辆的图像数据a的场景相关度高于包含1车辆的图像数据b的场景相关度,上述举例用于说明,本技术不作具体限定。

23、可选地,数据的场景相关度是根据数据对模型训练时的贡献程度决定的,比如数据的标签置信度越差、样本清晰度越差、训练效果越差的数据的场景相关度越底,反之则越高,举例来说,数据c的目标边框模糊不清,或者边框位置错误没有将目标完整框住,数据d的目标边框完整、清晰的框住了目标,那么数据c的场景相关度低于数据d的场景相关度,上述举例用于说明,本技术不作具体限定。

24、可选地,数据的场景相关度是根据数据采集装置200采集数据时的设备状态决定的,设备状态越差,数据采集装置所采集的数据的场景相关度越低,反之则越高。举例来说,数据采集装置200为园区机器人,园区机器人处于非正常姿态时,比如园区机器人摔倒、倾覆等状态时,其采集的数据e的场景相关度低于正常姿态下采集的数据f的场景相关度,上述举例用于说明,本技术不作具体限定。

25、可选地,可以通过评估模型确定每个数据的场景相关度,其中,评估模型可以是使用评估样本集对神经网络进行训练后获得的,其中,评估样本集包括评估样本和评估样本对应的标签,评估样本包括已知数据,评估样本对应的标签包括已知数据对应的场景相关度。其中,评估样本的标签可以是根据评估标准确定的,评估标准可包括但不限于评估样本是否包含目标、包含目标数量、样本置信度中的一个或者多个,还可以包括其他评估标准,这里不一一举例说明。

26、可选地,上述评估标准还可包括数据采集装置的设备状态,设备状态差时,样本的场景相关度较低,设备状态可包括但不限于数据采集装置的传感器是否发生损坏,数据采集装置是否处于异常状态等等。举例来说,数据采集装置是园区机器人,那么异常状态可以包括园区机器人的运动路线发生严重偏移。应理解,上述举例用于说明,本技术不作具体限定。

27、需要说明的,数据采集装置可以使用通用的评估模型确定每个数据对应的场景相关度,或者,根据用户选择的场景信息确定与业务场景对应的评估模型,应理解,不同的业务场景下数据的场景相关度的评估标准可能存在差异,因此可以使用业务场景对应的评估模型进行数据的场景相关度评估,从而提高数据的场景相关度的获取的准确性。举例来说,目标识别场景下,样本中目标数量越多,样本场景相关度越高,目标检测场景下,目标边界框的置信度越高,样本场景相关度越高,应理解,上述举例用于说明,本技术不作具体限定。

28、上述实现方式中,通过确定每个数据的场景相关度,并以此来确定样本集,可以使得样本集更加符合用户所需的业务场景,从而避免向用户提供与业务场景无关的数据,提高通信效率,同时减轻样本存储压力,避免资源的浪费。

29、在一可能的实现方式中,根据场景信息确定多个数据中每个数据的场景相关度之前,该方法还包括以下步骤:获取用户输入的采集策略,其中,采集策略包括模型训练时所需的样本的目标样本特征。

30、具体实现中,数据采集装置也可以结合客户下发的采集策略进一步确定数据的场景相关度,数据采集装置可以对多个数据中任意一个第一数据执行以下步骤:在第一数据符合采集策略的情况下,将第一数据输入评估模型获得第一数据的场景相关度,或者,将第一数据输入评估模型获得第一场景相关度,根据采集策略获得第二场景相关度,根据第一场景相关度和第二场景相关度获得第一数据的场景相关度。其中,第一场景相关度和第二场景相关度的获取可以是同时进行的,也可以是先后进行的,本技术不作具体限定。

31、举例来说,以目标检测场景为例,假设用户需要优先采集“消防栓”样本图像,那么采集策略可以包括“消防栓”样本的纹理特征,其中,纹理特征用于描述图像中目标的表面性质,例如图像纹理的粗细、稠密等特征。常见的纹理特征有灰度共生矩阵特征、自回归纹理模型特征、tamura纹理特征、小波变换特征等,本技术不作具体限定。其中,数据的样本特征与目标样本特征越相似,该数据的场景相关度越高。

32、可选地,采集策略包括目标采集条件,其中,样本集中数据的是在目标采集条件下采集的数据,在目标采集条件下采集到的数据的场景相关度高,非目标采集条件下采集到的数据的场景相关度低,或者,非目标采集条件下采集到的数据不进行场景相关度评估,比如场景相关度为0,只将目标采集条件下采集到的数据输入评估模型进行场景相关度评估。举例来说,用户需求采集环境温度高于40摄氏度时目标传感器采集的样本,那么对于环境温度低于40摄氏度时目标传感器采集的样本不进行场景相关度评估。

33、可选地,采集策略可以包括目标指标,满足目标指标的数据场景相关度高,不满足目标指标的数据场景相关度低,或者,不满足目标指标的数据不进行场景相关度评估,只将满足目标指标的数据输入评估模型进行场景相关度评估。举例来说,用户需求置信度高于阈值x的样本,那么对于置信度低于阈值x的数据不进行场景相关度评估。应理解,上述举例用于说明,本技术不作具体限定。

34、可选地,采集策略包括数据的优先级信息,其中,优先级高的数据的场景相关度高于优先级低的数据的场景相关度,数据上传时,场景相关度高的数据比场景相关度低的数据优先上传。换句话说,优先级得低的数据可以在优先级高的数据采集完之后,再进行采集,举例来说,用户需求难例样本进行模型训练,那么用户下发的采集策略中难例样本的优先级高于非难例样本,此时可以先上传难例样本,然后再上传非难例样本,本技术不作具体限定。再举例来说,用户当前训练的业务模型的识别精度较差,需要优先采集元素丰富的样本,那么用户下发的采集策略中元素丰富的数据的优先级高于元素单一的数据,那么元素丰富的数据的场景相关度高于元素单一的数据的场景相关度。其中,元素丰富的数据指的是目标传感器采集到的数据中的目标数量高于阈值,这里的目标可以是用户所需的目标,也可以不是用户所需的目标,可以是识别出的目标,也可以是未知目标,本技术不作具体限定。举例来说,目标传感器包括激光传感器和图像传感器,目标传感器采集到的第一数据中,图像传感器采集并识别出场景中的物体a,激光传感器探测出场景中存在障碍物a、b以及c,也就是说,物体a是已知目标,物体b和c是未知目标,那么第一数据属于元素丰富的数据,应理解,上述举例用于说明,在不同的应用场景下,用户可以灵活设置场景所需的优先级信息,这里不一一举例说明。

35、可选地,采集策略可包括上传逻辑,上传逻辑包括实时上传、资源占用低时上传、定时上传、周期间隔上传中的任一种,根据上传逻辑将样本集上传至服务器,其中,服务器用于供用户训练模型。上传逻辑可包括实时上传、资源占用低时上传、定时上传、周期间隔上传等等,本技术不作具体限定。举例来说,对于业务模型迭代要求及时的场景,用户可以输入的采集策略可包括实时上传,对于业务模型要求优先保证使用者体验的场景,用户输入的采集策略可以包括资源占用较低时上传,具体实现中,数据采集装置可以获取本地资源状态,包括内存、cpu、网络占用等,在资源状态降低的情况下进行打包和上传。应理解,上述上传逻辑用于举例说明,在不同的应用场景下,用户可以灵活设置场景所需的上传逻辑,这里不一一举例说明。

36、在一实施例中,用户的采集策略可以以指令的形式下发至数据采集装置,该指令可包括多个参数,一个参数对应一种上传策略,比如参数1对应上传逻辑,参数2对应优先级信息,参数3对应目标指标,参数4对应目标采集条件,参数5对应目标样本特征等等,这里不一一举例说明。携带有采集策略的指令下发至数据采集装置之后,评估单元可以根据指令中的参数确定用户下发的采集策略,比如指令包括参数1和参数5,那么可根据参数1的值确定上传逻辑,比如资源占用低时上传,根据参数5的值确定目标样本特征,比如“消防栓”的纹理特征,然后根据采集策略和评估模型确定多个数据中每个数据的场景相关度。应理解,上述举例用于说明,本技术不作具体限定。

37、上述实现方式,通过获取用户的采集策略,根据采集策略来确定训练模型使用的样本集,可以使得样本集更加符合用户所需的业务场景,从而避免向用户提供与业务场景无关的数据,提高通信效率,同时减轻样本存储压力,避免资源的浪费。

38、在一可能的实现方式中,样本集可以包括场景相关度高于阈值的数据,数据采集装置将场景相关度高于阈值的数据上传至服务器,或者,样本集中的数据是数据采集装置按照数据的场景相关度对数据进行排序后获得的,场景相关度高的数据的上传顺序早于场景相关度低的数据,具体可根据用户的采集策略确定。

39、可选地,数据采集装置可以先将样本集存储于数据采集装置的存储器中,该存储器与服务器建立通信连接,使得服务器可以基于用户的上报策略获取存储器中的样本集,其中,上述存储器可以是可移动存储介质,比如数据采集装置的u盘、移动硬盘、软盘、光盘、存储卡等等,本技术不作具体限定。

40、可选地,数据采集装置也可以对样本集进行标注,获得样本集中每个数据的标签,该标签可以是人工标注的标签也可以是机器标注的标签,具体可根据数据采集装置的处理能力决定,本技术不作具体限定,

41、可选地,数据采集装置确定多个数据中每个数据的场景相关度之后,可以通过客户端向用户显示每个数据的场景相关度,用户可以根据业务需求选择样本集中的数据,然后将样本集上传至服务器,本技术不作具体限定。

42、上述实现方式,根据数据的场景相关度确定样本集,使得样本集中的数据都是与用户所需的业务场景相关的数据,从而避免向用户提供与业务场景无关的数据,提高通信效率,同时减轻样本存储压力,避免资源的浪费。

43、在一可能的实现方式中,向用户发送用于训练模型的样本集之后,获取的新的采集策略,根据新的采集策略确定新的样本集,其中,新的采集策略是服务器使用样本集对模型训练后确定的,或者,新的采集策略是用户输入的。

44、举例来说,业务模型下一个训练阶段为增量学习阶段,在增量学习阶段需求更多难例样本,此时服务器可以根据增量学习阶段的采集策略获得更新后的采集策略,将更新后的采集策略发送给数据采集装置,使得数据采集装置可以根据更新后的采集策略对目标传感器采集到的新数据进行场景相关度评估。其中,更新后的采集策略可以包括优先级信息,该优先级信息包括优先采集难例样本的信息。应理解,上述举例用于说明本技术不作具体限定。

45、需要说明的,也可以根据业务模型的训练结果和当前样本的数据维度,获取新的采集策略,其中,新的采集策略用于获取关联数据,该关联数据的数据维度与当前样本的数据维度不同,比如当前样本是单模态数据,关联数据是多模态数据。举例来说,当前样本的数据维度是单模态的数据,比如只有摄像头采集的视频帧,业务模型为识别消防栓的模型,模型的训练结果显示模型预测的准确率较低,此时需要更多的样本,服务器可以基于此获取关联数据,比如激光采集的样本以及雷达采集的样本,关联样本可以提高模型的预测能力。应理解,上述举例用于说明,本技术不作具体限定。

46、可选地,服务器可以向用户显示业务模型的训练结果,接收用户输入的更新后的采集策略。当然,用户也可以通过客户端向数据采集装置发送新的采集策略,本技术不作具体限定。

47、举例来说,业务模型是训练完毕后,用户根据业务模型的训练结果,认为业务模型对a类别的样本识别能力很高,但是对b类别的样本识别能力较差,而当前业务场景正好需求业务模型拥有对b类别的样本识别能力,用户希望可以获取更多b类别的样本对业务模型进行进一步的训练。此时用户可以通过客户端输入新的采集策略,新的采集策略中包括目标样本特征,即b类别样本的纹理特征,还可包括优先级信息,即b类别样本优先采集的信息,然后客户端100可以将上述新的采集策略发送给数据采集装置,使其优先采集b类别的数据至服务器,服务器对b类别的数据进行标注后即可获得b类别的样本。应理解,上述举例用于说明,本技术不作具体限定。

48、上述实现方式,根据训练结果更新采集策略,再使用新的采集策略获取新的样本集对模型进行进一步的训练,不断使用与业务场景相关的样本集对模型进行训练,解决了模型的样本集需求会随着时间不断变化的问题,提高用户的使用体验。

49、第二方面,提供了一种数据采集装置,该数据采集装置包括采集单元,用于获取用户输入的场景信息,其中,场景信息包括用户所需训练的模型对应的业务场景信息,采集单元,用于根据场景信息确定至少一个传感器中的目标传感器,使用目标传感器进行数据采集获得多个数据,目标传感器的数量为一个或者多个,评估单元,用于根据场景信息确定多个数据中每个数据的场景相关度,上传单元,用于向用户发送用于训练模型的样本集,其中,样本集是根据每个数据的场景相关度确定的。

50、上述实现方式,数据采集装置可以获取用户输入的场景信息,然后根据场景信息确定至少一个传感器中的目标传感器,使用目标传感器进行数据采集获得多个数据,再根据场景信息确定多个数据中每个数据的场景相关度,向用户发送用于训练上述模型的样本集,其中,样本集是根据每个数据的场景相关度确定的,使得样本集中的数据是与业务场景相关的数据,将样本集中的数据上传至服务器,可以避免与业务场景无关的数据被上传至服务器,从而减轻数据传输和存储的压力,提高模型训练效率。

51、在一可能的实现方式中,样本集中的数据的场景相关度高于阈值,或者,样本集中的数据是根据多个数据的场景相关度对多个数据进行排序后获得的。

52、在一可能的实现方式中,装置包括上报能力单元,上报能力单元用于在数据采集装置获取用户输入的场景信息之前,向用户提供传感器信息,其中,传感器信息包括数据采集装置拥有的至少一个传感器的参数信息,传感器信息用于供用户确定场景信息。

53、在一可能的实现方式中,采集单元还用于获取用户输入的采集策略,其中,采集策略包括模型训练时所需的样本的目标样本特征,评估单元,用于根据场景信息确定每个数据的第一场景相关度,根据采集策略确定每个数据的第二场景相关度,根据第一场景相关度和第二场景相关度确定每个数据的场景相关度,其中,每个数据的数据特征与目标样本特征之间的相似度越高,数据的第二场景相关度越高。

54、在一可能的实现方式中,采集策略包括目标采集条件,其中,样本集中数据的是在目标采集条件下采集的数据。

55、在一可能的实现方式中,采集策略包括数据的优先级信息,其中,优先级高的数据的场景相关度高于优先级低的数据的场景相关度。

56、在一可能的实现方式中,采集策略包括上传逻辑,上传逻辑包括实时上传、资源占用低时上传、定时上传、周期间隔上传中的任一种,上传单元用于根据上传逻辑将样本集上传至服务器,其中,服务器用于供用户训练模型。

57、在一可能的实现方式中,评估单元,用于确定场景信息对应的评估模型,使用评估模型对数据进行场景相关度评估,确定数据的第一场景相关度,其中,不同场景信息对应不同的评估模型。

58、在一可能的实现方式中,采集单元还用于获取的新的采集策略,根据新的采集策略确定新的样本集,其中,新的采集策略是服务器使用样本集对模型训练后确定的,或者,新的采集策略是用户输入的。

59、第三方面,提供了一种计算设备,该计算设备包括处理器和存储器,存储器用于存储代码,处理器用于执行代码实现如第一方面描述的方法。

60、第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括指令,当指令在计算设备上运行时,使得计算设备实现如第一方面描述的方法。

61、第五方面,提供了一种计算机程序产品,该计算机程序产品包括代码,该代码在计算机上运行时使得计算机实现如第一方面描述的方法。

62、本技术在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1