本公开的多种实施例总体上涉及一种系统和操作该系统的方法,并且更具体地涉及一种基于分类算法对数据进行分类的系统和操作该系统的方法。
背景技术:
1、k最近邻(k nearest neighbor,knn)算法是一种属于监督学习的机器学习分类算法。当输入查询时,knn算法会选择与该查询最接近(或最相似)的k个数据片并且将所选择的数据片作为结果数据输出。对于该操作,需要扫描所有数据片和具有新数据的经扫描数据片,因此可能会出现存储器访问增加和出现瓶颈(bottleneck)的问题。需要一种解决方案来克服这样的问题。
技术实现思路
1、本公开的多种实施例涉及一种执行减少了存储器访问的数据分类操作的系统以及操作系统的方法。
2、本公开的实施例可以提供一种系统。该系统可以包括存储器和处理器,该处理器被配置为基于存储器中存储的数据组和从外部接收到的查询的第一相似度与具有第一相似度的最大值的数据组中包括的数据片和该查询的第二相似度的最小值之间的比较结果,确定包括从存储器中存储的数据组之中选择的数据组的扫描目标,并且输出根据扫描数据片的参考数量从扫描目标中包括的数据组中的扫描数据片之中选择的扫描数据作为响应于查询的结果数据。
3、本公开的实施例可以提供一种系统。该系统可以包括存储器和处理器,该处理器被配置为计算存储器中存储的多个数据组与从外部装置接收到的查询之间的各个组相似度,基于多个数据组之中的具有组相似度的最大值的参考数据组中包括的数据片与查询之间的数据相似度确定参考值,确定包括多个数据组之中的组相似度等于或大于参考值的数据组的扫描目标,并且输出根据扫描数据片的参考数量以各个扫描数据片与查询之间的数据相似度的下降的顺序从扫描目标中包括的扫描数据片之中选择的扫描数据作为响应于查询的结果数据。
4、本公开的实施例可以提供一种操作系统的方法。该方法可以包括存储分别与多个数据组相对应的多个组向量,从外部装置接收查询,确定多个数据组之中的与查询的查询向量和多个组向量之间的组相似度的最大值相对应的数据组,基于所确定的数据组中包括的数据片的各个数据向量与查询向量之间的数据相似度的最小值,确定多个数据组之中的目标中包括的数据组中的扫描数据片,并且基于扫描数据片的各个数据向量与查询向量之间的数据相似度,确定扫描数据片之中的响应于查询的结果数据。
1.一种系统,包括:
2.根据权利要求1所述的系统,其中:
3.根据权利要求2所述的系统,其中所述相似函数包括欧氏距离函数和余弦相似函数中的一种。
4.根据权利要求3所述的系统,其中所述处理器通过将与具有所述第一相似度的最大值的数据组中包括的数据片相对应的各个数据向量以及所述查询向量输入到所述相似函数来计算所述第二相似度。
5.根据权利要求1所述的系统,其中所述处理器基于所述比较结果确定包括所述数据组之中的第一相似度等于或大于所述第二相似度的最小值的数据组的所述扫描目标。
6.根据权利要求1所述的系统,其中所述处理器基于所述比较结果,确定排除所述数据组之中的所述第一相似度小于所述第二相似度的最小值的数据组的所述扫描目标。
7.根据权利要求1所述的系统,进一步包括网络接口,
8.根据权利要求1所述的系统,其中所述数据组中的每一个包括被分类为相应类别的数据片。
9.一种系统,包括:
10.根据权利要求9所述的系统,其中所述处理器:
11.根据权利要求10所述的系统,其中所述相似函数包括欧氏距离函数和余弦相似函数中的一种。
12.根据权利要求9所述的系统,其中所述处理器确定排除所述多个数据组之中的所述组相似度小于所述参考值的数据组的所述扫描目标。
13.根据权利要求9所述的系统,进一步包括:
14.一种操作系统的方法,包括:
15.根据权利要求14所述的方法,其中确定所述扫描数据片包括:
16.根据权利要求14所述的方法,其中确定所述扫描数据片包括:
17.根据权利要求14所述的方法,其中确定所述结果数据包括:
18.根据权利要求14所述的方法,进一步包括:
19.根据权利要求18所述的方法,其中所述分组包括:
20.根据权利要求14所述的方法,进一步包括: