多模态数据处理方法、装置、介质和电子设备与流程

文档序号:36403572发布日期:2023-12-16 09:09阅读:23来源:国知局
多模态数据处理方法与流程

本公开涉及计算机,具体地,涉及一种多模态数据处理方法、装置、介质和电子设备。


背景技术:

1、内容推荐系统需要多模态内容理解能力。多模态包括文本、音频、图像、视频等多种体裁。如何兼容多种模态以将训练数据高效地输送给模型,是亟需解决的问题。


技术实现思路

1、提供该
技术实现要素:
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、第一方面,本公开提供一种多模态数据处理方法,包括:获取待读取数据集;以行为粒度,采用多个进程从所述待读取数据集中读取数据,得到目标行数据;根据所述目标行数据,生成目标批数据;按照数据模态,对所述目标批数据进行特征处理,得到目标数据。

3、第二方面,本公开提供一种多模态数据处理装置,包括:获取模块,用于获取待读取数据集;读取模块,用于以行为粒度,采用多个进程从所述待读取数据集中读取数据,得到目标行数据,根据所述目标行数据,生成目标批数据;处理模块,用于按照数据模态,对所述目标批数据进行特征处理,得到目标数据。

4、第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面中任一项所述方法的步骤。

5、第四方面,本公开提供一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面中任一项所述方法的步骤。

6、通过采用上述技术方案,一方面,由于是以行为粒度,采用多个进程从待读取数据集中读取数据,得到目标行数据,根据所述目标行数据,生成目标批数据,这样就使得每个进程会均分待读取的数据,从而能够在每个进程之间均匀地分配数据,并能够实现数据集长度的自适应,保障了在支持行粒度的数据分片过程中,没有读取性能相关的损失;另一方面,由于是按照数据模态,对目标批数据进行特征处理,得到目标数据,因此,能够满足高内聚低耦合,有助于不同模态的组合,以及单个模态下算子的丰富,而且部署时只需实现单个模态的对齐,通过组合就能满足各类模型的上线对齐。另外,根据本公开实施例的多模态数据处理方法还能够支持业务间模型/数据处理的横向复用,提高模型的产出与迭代效率,支持parquet格式数据的打包存储,支持基于parquet的数据流在多机多卡下大规模数据(例如,亿级别数据)的并行读取。

7、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。



技术特征:

1.一种多模态数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,每一行的数据读取量是相同的。

3.根据权利要求1所述的方法,其特征在于,所述待读取数据集的数量为多个;

4.根据权利要求1所述的方法,其特征在于,所述待读取数据集的数量为多个;

5.根据权利要求1所述的方法,其特征在于,所述按照数据模态,对所述目标批数据进行特征处理,得到目标数据,包括:

6.根据权利要求5所述的方法,其特征在于,所述采用所确定的特征处理方式,对所述目标批数据进行特征处理,得到所述目标数据,包括:

7.根据权利要求1所述的方法,其特征在于,所述数据模态包括文本、图像、视频、音频、存储桶。

8.一种多模态数据处理装置,其特征在于,包括:

9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备,其特征在于,包括:


技术总结
本公开涉及一种多模态数据处理方法、装置、介质和电子设备,属于计算机技术领域,能够在每个进程之间均匀地分配数据,并有助于不同模态的组合。一种多模态数据处理方法,包括:获取待读取数据集;以行为粒度,采用多个进程从所述待读取数据集中读取数据,得到目标行数据;根据所述目标行数据,生成目标批数据;按照数据模态,对所述目标批数据进行特征处理,得到目标数据。

技术研发人员:潘梓祺,冉蛟
受保护的技术使用者:北京字跳网络技术有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1