本公开涉及数据库系统和用于从中取得数据的方法的领域。这种系统例如可以用于存储与训练将在载具中使用的机器学习算法有关的训练数据。
背景技术:
1、数据仓储是以使相关用户能够搜索和访问数据的方式存储数据的常用方式。数据仓库用于许多数据驱动的应用。一种这样的应用是存储用于训练或验证机器学习算法的数据。用于数据仓库的应用的另一示例是算法验证,例如用于验证诸如可以在载具中使用的视觉检测算法的功效。
2、为了用于算法的训练或验证,通常需要适当地注释存储在数据仓库中的所有数据。在这种应用中使用的要存储的数据的量会是相当大的。此外,数据量会随时间显著增加。处理和存储如此大量的数据是耗时且资源密集的。此外,为了能够处理这种数据,数据通常以人类可读格式存储在可搜索的数据库中。虽然这使得数据能够被用户搜索和处理,但是这是低效的并且增加了存储数据所需的资源。
3、为了减少存储数据所需的资源,可以将数据存储为压缩的二进制数据。例如,数据可以存储成通常称为blob的二进制大对象。然而,这否定了通过在数据库中存储数据而实现的可访问性和可搜索性。
4、因此,需要一种资源高效的数据库系统,其能够以高效的方式搜索和取得数据。
技术实现思路
1、本公开涉及一种数据库系统,所述数据库系统用于存储和取得与机器学习算法一起使用的训练数据,所述数据库系统包括:
2、二进制存储组件,所述二进制存储组件包括多个二进制元素,其中,各个二进制元素包括根据二进制数据存储框架排序的第一多个数据字段;
3、元数据组件,所述元数据组件包括多个元数据元素,各个元数据元素包括第二多个数据字段和对至少一个二进制元素的引用,其中,所述元数据组件被配置成根据元数据存储框架对各个元数据元素中的所述第二多个数据字段进行排序;以及
4、中间层,所述中间层被配置成根据所述元数据组件的元数据存储框架对所述二进制元素的二进制数据存储框架进行调整。
5、通过使用单独组件来单独地存储元数据和二进制数据,可以最大化二进制存储组件中的存储效率,同时通过元数据实现数据的快速和有效的搜索和查询。
6、在本公开中提供了数据库系统的附加特征。
7、本公开还涉及一种取得数据库系统中的数据的方法,所述数据库系统包括:二进制存储组件,所述二进制存储组件包括多个二进制元素,并且各个所述二进制元素包括根据二进制数据存储框架排序的第一多个数据字段;元数据组件,所述元数据组件包括多个元数据元素,其中,各个所述元数据元素包括第二多个数据字段和对至少一个二进制元素的引用,并且其中,所述元数据组件被配置成根据元数据存储框架对各个元数据元素中的所述第二多个数据字段进行排序;以及中间组件,所述中间组件被配置成根据所述元数据组件的元数据存储框架对所述二进制元素的二进制数据存储框架进行调整,
8、所述方法包括以下步骤:
9、接收搜索请求,所述搜索请求包括至少第一数据搜索引用;
10、从所述搜索请求中提取所述至少第一数据搜索引用;
11、基于所述至少第一数据搜索引用和所述第二多个数据字段,确定所述二进制存储组件的部分;以及
12、从所述二进制存储组件中提取所述部分。
13、有利地,确定步骤包括提取与存储在二进制存储组件中的至少一个对应二进制元素相关联的至少一个第一标识符。
14、本公开涉及一种包括程序指令的计算机可读介质,当所述程序指令由计算机执行时,使所述计算机执行如上所述的方法。
15、此外,本公开涉及一种包括上述数据库系统的计算机系统,其可操作以执行上述方法。
1.一种数据库系统,所述数据库系统用于存储和取得与机器学习算法一起使用的训练数据,所述数据库系统包括:
2.根据权利要求1所述的数据库系统,其中,所述中间层被配置成基于指示所述元数据组件的数据存储框架的配置数据存储文件来调整所述二进制数据存储框架。
3.根据权利要求2所述的数据库系统,其中,所述第一多个数据字段和/或所述第二多个数据字段是根据以下各项之一来排序的:分层框架;或群集框架。
4.根据权利要求1或2所述的数据库系统,其中,所述二进制存储组件中的各个二进制元素还包括第一标识符。
5.根据权利要求4所述的数据库系统,其中,所述第一标识符是以下中的一种:相应二进制元素的起始字节,或相应二进制元素的字节范围。
6.根据权利要求4所述的数据库系统,其中,各个元数据元素中的对至少一个二进制元素的所述引用包括对所述第一标识符的引用。
7.根据权利要求1所述的数据库系统,其中,各个元数据元素中的第二多个数据字段是各个二进制元素的第一多个数据字段的子集。
8.根据权利要求1所述的数据库系统,其中,所述第二多个数据字段中的各个数据字段包括对各个二进制元素的所述第一多个数据字段的对应数据字段的引用。
9.根据权利要求1所述的数据库系统,其中,所述元数据组件包括结构描述符,所述结构描述符包括所述二进制数据存储框架的结构的定义。
10.一种取得数据库系统中的数据的方法,所述数据库系统包括:二进制存储组件,所述二进制存储组件包括多个二进制元素,并且各个所述二进制元素包括根据二进制数据存储框架排序的第一多个数据字段;元数据组件,所述元数据组件包括多个元数据元素,其中,各个所述元数据元素包括第二多个数据字段和对至少一个二进制元素的引用,并且其中,所述元数据组件被配置成根据元数据存储框架对各个元数据元素中的所述第二多个数据字段进行排序;以及中间组件,所述中间组件被配置成根据所述元数据组件的元数据存储框架对所述二进制元素的二进制数据存储框架进行调整,
11.根据权利要求10所述的方法,其中,基于所述至少第一数据搜索引用和所述第二多个数据字段,确定所述二进制存储组件的部分的步骤包括提取与存储在所述二进制存储组件中的至少一个对应二进制元素相关联的至少一个第一标识符。
12.一种计算机系统,所述计算机系统包括根据权利要求1至9中的任一项所述的数据库系统。
13.根据权利要求12所述的计算机系统,所述计算机系统能够操作以执行根据权利要求10或11所述的方法。
14.一种计算机可读介质,所述计算机可读介质包括程序指令,所述程序指令在由计算机执行时使所述计算机执行根据权利要求10或11所述的方法。