数据查找模型建立方法、装置、计算机设备和存储介质与流程

文档序号：18475329发布日期：2019-08-20 20:57阅读：148来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及大数据技术领域，特别是涉及一种数据查找模型建立方法、装置、计算机设备和存储介质。

背景技术：

随着互联网技术的发展，互联网应用迅速扩大，数据量也正在爆发式增长。面对这些海量数据，用户常常会利用数据库、大数据平台等方法进行数据保存，后续在需要利用数据时避免数据丢失。

然而，因为数据量的巨大，目前在进行数据查找时，本身已经要消耗不少资源和时间，且在查找数据时，待查找数据的数据要求若发生变化，需要在数据库根据改变的数据要求重新查找，效率低下。

技术实现要素：

基于此，有必要针对上述技术问题，提供一种能够提高数据查找效率的数据查找模型建立方法、装置、计算机设备和存储介质。

一种数据查找模型建立方法，所述方法包括：

获取初始数据集合；

将所述初始数据集合划分得到第一数据块，对所述第一数据块进行数据筛选得到第一筛选时长；

将所述初始数据集合划分得到第二数据块，对所述第二数据块进行数据筛选得到第二筛选时长；

根据所述第一筛选时长、所述第二筛选时长、所述第一数据块以及所述第二数据块得到筛选时长与数据块大小的第一对应逻辑，并根据所述第一对应逻辑确定当前数据块的数据量；

将所述初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断所述当前筛选时长与所述当前数据块是否符合所述第一对应逻辑；

当所述当前筛选时长与所述当前数据块符合所述第一对应逻辑时，则根据所述第一对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将所述初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至所述当前筛选时长与所述当前数据块不符合所述第一对应逻辑时，将所述当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型。

在其中一个实施例中，还包括：

当所述当前筛选时长与所述当前数据块不符合所述第一对应逻辑时，则获取所述第一筛选时长、第二筛选时长以及当前筛选时长中最短筛选时长对应的数据块；

通过所述最短筛选时长对应的数据块建立数据查找模型。

在其中一个实施例中，所述直至所述当前筛选时长与所述当前数据块不符合所述第一对应逻辑之后，还包括：

获取所述当前数据块的前一数据块，将所述初始数据集合划分得到所述当前数据块的前一数据块后进行数据筛选若干次，存储若干次的筛选时长；

所述通过所述当前数据块的前一数据块大小建立数据查找模型，包括：

计算所存储的筛选时长的平均时长；

获取历史筛选时长，判断所述平均时长是否小于所述历史筛选时长；

当所述平均时长小于所述历史筛选时长时，通过所述当前数据块的前一数据块大小建立数据查找模型。

在其中一个实施例中，所述计算所存储的筛选时长的平均时长之前，还包括：

检测所存储的筛选时长中是否包括与所述平均时长差值大于预设值的异常筛选时长；

当所存储的筛选时长中包含异常筛选时长时，删除所述异常筛选时长；

所述计算所存储的筛选时长的平均时长，包括：

计算删除所述异常筛选时长后的所存储的筛选时长的平均时长。

在其中一个实施例中，在所述通过当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型之后，还包括：

获取用于对所述初始数据集合进行数据筛选的第一资源分配占比，关联存储所述数据查找模型与所述第一资源分配占比。

在其中一个实施例中，在所述通过当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型之后，还包括：

接收数据筛选请求，所述数据筛选请求携带有目标数据集合；

获取当前资源环境中用于数据筛选的第二资源分配占比；

检测是否存在与所述第二资源分配占比匹配的第一资源分配占比；

当存在与所述第二资源分配占比匹配的第一资源分配占比时，获取所述第一资源分配占比对应的数据查找模型；

获取所述数据查找模型中的模型数据块大小，根据所述模型数据块大小对所述目标数据集合进行划分，并对划分后的所述目标数据集合进行数据筛选。

在其中一个实施例中，还包括：

当不存在与所述第二资源分配占比匹配的第一资源分配占比时，将所述目标数据集合划分得到第三数据块，对所述第三数据块进行数据筛选得到第三筛选时长；

将所述目标数据集合划分得到第四数据块，对所述第三数据块进行数据筛选得到第四筛选时长；

根据所述第三筛选时长、所述第四筛选时长、所述第三数据块以及所述第四数据块得到筛选时长与数据块大小的第二对应逻辑，并根据所述第二对应逻辑得到当前数据块的大小；

将所述目标数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断所述当前筛选时长与所述当前数据块是否符合所述第二对应逻辑；

当所述当前筛选时长与所述当前数据块符合所述第二对应逻辑时，则根据所述第二对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将所述目标数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至所述当前筛选时长与所述当前数据块不符合所述第二对应逻辑时，将所述当前数据块的前一数据块大小作为模型数据块大小建立目标数据查找模型；

保存所述目标数据查找模型与所述第二资源分配占比的对应关系。

一种数据查找模型建立装置，所述装置包括：

获取模块，用于获取初始数据集合；

第一筛选模块，用于将所述初始数据集合划分得到第一数据块，对所述第一数据块进行数据筛选得到第一筛选时长；

第二筛选模块，用于将所述初始数据集合划分得到第二数据块，对所述第二数据块进行数据筛选得到第二筛选时长；

逻辑分析模块，用于根据所述第一筛选时长、所述第二筛选时长、所述第一数据块以及所述第二数据块得到筛选时长与数据块大小的第一对应逻辑，并根据所述第一对应逻辑确定当前数据块的数据量；

划分模块，用于将所述初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断所述当前筛选时长与所述当前数据块是否符合所述第一对应逻辑；

模型建立模块，用于当所述当前筛选时长与所述当前数据块符合所述第一对应逻辑时，则根据所述第一对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将所述初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至所述当前筛选时长与所述当前数据块不符合所述第一对应逻辑时，将所述当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述数据查找模型建立方法、装置、计算机设备和存储介质，服务器在获取到初始数据集合后，首先将初始数据集合划分得到第一数据块后进行数据筛选得到第一筛选时长，然后将初始数据集合划分得到第二数据块后进行数据筛选得到第二筛选时长；通过分析得到的第一筛选时长、第二筛选时长、第一数据块以及第二数据块得到筛选时长与数据块大小的第一对应逻辑，并根据第一对应逻辑确定当前数据块的数据量；其次将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第一对应逻辑；当当前筛选时长与当前数据块符合第一对应逻辑时，则根据第一对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第一对应逻辑时，最后将当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型。通过建立数据查找模型，使数据查找的过程中，即使数据要求发生改变，也能够通过数据查找模型确定最具效率的查找方法，提高了数据查找的效率。

附图说明

图1为一个实施例中数据查找模型建立方法的应用场景图；

图2为一个实施例中数据查找模型建立方法的流程示意图；

图3为一个实施例中验证平均筛选时长大小的步骤的流程示意图；

图4为一个实施例中数据查找模型建立装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据查找模型建立方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104在获取到终端102上传的初始数据集合后，首先将初始数据集合划分得到第一数据块后进行数据筛选得到第一筛选时长，然后将初始数据集合划分得到第二数据块后进行数据筛选得到第二筛选时长；通过分析得到的第一筛选时长、第二筛选时长、第一数据块以及第二数据块得到筛选时长与数据块大小的第一对应逻辑，并根据第一对应逻辑确定当前数据块的数据量；其次将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第一对应逻辑；当当前筛选时长与当前数据块符合第一对应逻辑时，则根据第一对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第一对应逻辑时，最后将当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种数据查找模型建立方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，获取初始数据集合。

具体地，服务器获取终端上传的初始数据集合，初始数据集合可以各种类型数据的集合，初始数据集合可以为数据单位为万以上量级的数据集合，对万以上量级的大数据量的数据集合进行后续数据查找模型的建立，与对小数据量的数据集合进行数据查找模型的建立相比，提高数据查找的效率的效果会更加显著。

步骤204，将初始数据集合划分得到第一数据块，对第一数据块进行数据筛选得到第一筛选时长。

具体地，服务器将获取到的初始数据集合根据预先设定的第一数据块的大小进行划分，划分得到第一数据块，并获取数据筛选的筛选条件，对得到的第一数据块进行数据筛选，并得到对第一数据块数据筛选的第一筛选时长。比如当初始数据集合为10000个年龄数据的集合时，预设的第一数据块大小为1000，则将初始数据集合划分得到10个1000数据量的第一数据块，然后获取数据筛选的筛选条件，比如筛选条件为筛选出初始数据集合中的男性年龄，则筛选出10个1000数据量的第一数据块中的男性年龄，并得到筛选第一数据块中的男性年龄的第一筛选时长。

步骤206，将初始数据集合划分得到第二数据块，对第二数据块进行数据筛选得到第二筛选时长。

具体地，服务器将获取到的初始数据集合根据预先设定的第二数据块的大小进行划分，划分得到第二数据块，并获取数据筛选的筛选条件，对得到的第二数据块进行数据筛选，并得到对第二数据块数据筛选的第二筛选时长。比如当初始数据集合为10000个年龄数据的集合时，预设的第二数据块大小为500，则将初始数据集合划分得到20个500数据量的第二数据块，然后获取数据筛选的筛选条件，比如筛选条件为筛选出初始数据集合中的男性年龄，则筛选出20个500数据量的第二数据块中的男性年龄，并得到筛选第二数据块中的男性年龄的第二筛选时长。

步骤208，根据第一筛选时长、第二筛选时长、第一数据块以及第二数据块得到筛选时长与数据块大小的第一对应逻辑，并根据第一对应逻辑确定当前数据块的数据量。

具体地，在服务器对初始数据集合进行两次数据划分并对划分的数据块分别进行数据筛选得到第一筛选时长以及第二筛选时长后，根据得到的第一筛选时长、第二筛选时长、第一数据块以及第二数据块进行分析，得到筛选时长与数据块大小的第一对应逻辑，其中，第一对应逻辑表示筛选时长与数据块大小的关系，比如第一对应逻辑可以为：数据块越大时，筛选时长越短，或是数据块越小时，筛选时长越短等。然后根据得到的第一对应逻辑确定当前数据块的数据量，当前数据块的数据量大小遵循第一对应逻辑，比如当第一对应逻辑为数据块越小时，筛选时长越短，则当前数据块的大小要小于第一数据块和第二数据块，具体可以比如第一数据块大小为1000，第二数据块大小为500，当第一对应逻辑为数据块越小时，筛选时长越短时，则当前数据块大小可以为400、300、200等，随机在小于第一数据块大小(1000)与第二数据块大小(500)的范围内选取当前数据块的大小即可，也可以预先设定当前数据块的选取范围，比如当前数据块不能小于第一数据块与第二数据块中较小值的50％，即当前数据块大小可以在小于500(第一数据块与第二数据块中较小值)与大于250(第一数据块与第二数据块中较小值的50％)中随机选取。步骤210，将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第一对应逻辑。

步骤210，将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第一对应逻辑。

具体地，在服务器根据第一对应逻辑得到当前数据块大小后，将初始数据集合根据当前数据块的大小进行划分，划分得到当前数据块，并获取与上述同样的数据筛选的筛选条件，对得到的当前数据块进行数据筛选，并得到对当前数据块数据筛选的当前筛选时长。

步骤212，当当前筛选时长与当前数据块符合第一对应逻辑时，根据第一对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第一对应逻辑时，将当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型。

具体地，在服务器得到根据当前数据块进行数据筛选的当前筛选时长后，判断当前筛选时长与当前数据块是否符合第一对应逻辑，当当前筛选时长与当前数据块符合第一对应逻辑时，继续根据第一对应逻辑得到上述当前数据块的方式，得到下一数据块大小，替代当前数据块大小，然后继续重复进行下面4个步骤：1、初始数据集合划分为当前数据块；2、对当前数据块进行数据筛选得到当前筛选时长；3、判断当前筛选时长与当前数据块是否符合第一对应逻辑；4、判断结果为符合第一对应逻辑时根据第一对应逻辑得到下一数据块大小作为当前数据大小。直至第3步中的判断结果为当前筛选时长与当前数据块不符合第一对应逻辑时不再重复进行，当判断结果为不符合第一对应逻辑之后，说明当前筛选时长对应的当前数据块大小也不符合第一对应逻辑，则当前数据块的前一数据块为重复步骤中符合第一对应逻辑的最后一个数据块，为符合第一对应逻辑的筛选时长最短的数据块，则获取当前数据块的前一数据块的大小，将当前数据块的前一数据块大小作为模型数据块的大小建立数据查找模型。

上述数据查找模型建立方法中，服务器在获取到初始数据集合后，首先将初始数据集合划分得到第一数据块后进行数据筛选得到第一筛选时长，然后将初始数据集合划分得到第二数据块后进行数据筛选得到第二筛选时长；通过分析得到的第一筛选时长、第二筛选时长、第一数据块以及第二数据块得到筛选时长与数据块大小的第一对应逻辑，并根据第一对应逻辑确定当前数据块的数据量；其次将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第一对应逻辑；当当前筛选时长与当前数据块符合第一对应逻辑时，则根据第一对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第一对应逻辑时，最后将当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型。通过建立数据查找模型，使数据查找的过程中，即使数据要求发生改变，也能够通过数据查找模型确定数据查找时间最短的查找方法，提高了数据查找的效率。

在一个实施例中，提供一种数据查找模型建立方法，该方法可以包括：当当前筛选时长与当前数据块不符合第一对应逻辑时，则获取第一筛选时长、第二筛选时长以及当前筛选时长中最短筛选时长对应的数据块；通过最短筛选时长对应的数据块建立数据查找模型。

具体地，在服务器判断当前筛选时长与当前数据块不符合第一对应逻辑时，说明根据第一对应逻辑得到的当前数据块与对应的当前筛选时长，不符合根据第一筛选时长及对应的数据块和第二筛选时长及对应的数据块分析得到的第一对应逻辑，则可以比较第一筛选时长、第二筛选时长以及当前筛选时长，获取其中时长最短的筛选时长对应的数据块，通过对应的数据块建立查找模型。举例说明，比如第一数据块及第一筛选时长可以为1000、2s，第二数据块及第二筛选时长可以为500、1.5s，则对应的第一对应逻辑可以为数据块越小，筛选时长越短，则根据第一对应逻辑，当前数据块可以为300，当当前数据块对应的筛选时长为2.5s，不符合数据块越小，筛选时长越短的第一对应逻辑，则直接获取筛选时长最短(1.5s)对应的第二数据块，根据第二数据块建立数据查找模型。

上述实施例中，在当前筛选时长与当前数据块不符合第一对应逻辑时，直接获取最短筛选时长对应的数据块建立数据查找模型，使得数据集合在没有对应逻辑的前提下也能建立数据查找模型，提高了数据查找的效率。

在一个实施例中，如图3所示，数据查找模型建立方法在进行当前筛选时长是否符合第一对应逻辑的判断直至当前筛选时长与当前数据块不符合第一对应逻辑之后，还包括：

步骤302，获取当前数据块的前一数据块，将初始数据集合划分得到当前数据块的前一数据块后进行数据筛选若干次，存储若干次的筛选时长。

具体地，服务器在上述重复步骤结束后，得到当前数据块的前一数据块为筛选时长最短的数据块，则重新将初始数据集合划分得到当前数据块的前一数据块，并重复进行相同筛选条件的数据筛选若干次，得到若干次的筛选时长并存储。

步骤304，计算所存储的筛选时长的平均时长。

具体地，服务器在得到若干次筛选时长时并存储后，计算存储的筛选时长的平均时长。

步骤306，获取历史筛选时长，判断平均时长是否小于历史筛选时长。

具体地，历史筛选时长可以为上述服务器在对初始数据集合进行数据划分然后数据筛选的步骤中，除了将初始数据集合划分得到当前数据块的前一数据块对应的数据筛选时长以外，其余的对初始数据集合进行数据筛选时长均可以为历史筛选时长。在服务器获取到历史筛选时长后，判断所存储的筛选时长的平均时长是否小于历史筛选时长。

步骤308，当平均时长小于历史筛选时长时，通过当前数据块的前一数据块大小建立数据查找模型。

具体地，当服务器的判断结果为平均时长小于历史筛选时长时，判断结果说明当前数据块的前一数据块为筛选时长最短的数据块，通过若干次的筛选结果消除了在数据筛选过程中可能产生的误差，然后通过当前数据块的前一数据块大小建立数据查找模型。

上述数据查找模型建立方法，服务器在获取到数据查找效率最快的数据块之后，还通过数据查找效率最快的数据块重新进行数据查找若干次来检测效率最快的数据块的准确性，保证了建立的数据查找模型的查找效率。

在一个实施例中，数据查找模型建立方法在计算所存储的筛选时长的平均时长之前，还包括：检测所存储的筛选时长中是否包括与平均时长差值大于预设值的异常筛选时长；当所存储的筛选时长中包含异常筛选时长时，删除异常筛选时长；计算所存储的筛选时长的平均时长，包括：计算删除异常筛选时长后的所存储的筛选时长的平均时长。

具体地，在服务器存储筛选时长之后，还会判断所存储的筛选时长中是否包括与平均时长差值大于预设值的异常筛选时长，异常筛选时长可能因为筛选过程中的各种外界因素影响，导致与平均时长可能存在较大的差值，比如，所存储的筛选时长均在2.8s至3.2s之间，计算得到的筛选时长平均值为3s，异常筛选时长即为与平均时长大于预设值(0.2s)的筛选时长。在检测出异常筛选时长后，删除所存储的异常筛选时长，并通过计算删除异常筛选时长后的所存储的筛选时长的平均时长进行后续计算。

上述数据查找模型建立方法，服务器在计算所存储的筛选时长的平均时长之前，还会检测异常筛选时长，并删除检测到的异常筛选时长，排除误差影响，使后续的计算结果更加准确。

在一个实施例中，数据查找模型建立方法在通过当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型之后，还包括：获取用于对初始数据集合进行数据筛选的第一资源分配占比，关联存储数据查找模型与第一资源分配占比。

具体地，因为资源分配占比的不同，进行数据查找可能会存在区别，通常来说，对数据查找分配的资源占比越大，在数据查找时能够处理的单个数据量越大，所以在服务器建立数据查找模型之后，还会获取建立当前数据查找模型时进行数据查找的第一资源分配占比，关联存储数据查找模型与第一资源分配占比，表示在当前资源分配占比下，关联存储的数据查找模型为最有效率的数据查找方法。

上述数据查找模型建立方法，服务器在建立数据查找模型之后，还会将数据查找模型与当前的资源分配占比关联存储，确定了在当前的资源分配占比下最具效率的数据查找方法。

在一个实施例中，数据查找模型建立方法接收数据筛选请求，数据筛选请求携带有目标数据集合；获取当前资源环境中用于数据筛选的第二资源分配占比；检测是否存在与第二资源分配占比匹配的第一资源分配占比；当存在与第二资源分配占比匹配的第一资源分配占比时，获取第一资源分配占比对应的数据查找模型；获取数据查找模型中的模型数据块大小，根据模型数据块大小对目标数据集合进行划分，并对划分后的目标数据集合进行数据筛选。

具体地，在服务器检测到数据筛选请求时，获取当前资源环境中分配用于数据筛选的第二资源分配占比，并检测是否存在与第二资源分配占比匹配的关联存储的第一资源分配占比，匹配过程可以为模糊匹配，比如关联存储的第一资源分配占比为30％，则当匹配对象第二资源分配占比在25％至35％之间时，匹配成功。在匹配成功后，获取与第一资源分配占比关联存储的数据查找模型，并根据数据查找模型中的模型数据块大小对目标数据集合进行划分，以及后续的数据筛选。

上述数据查找模型建立方法，服务器在接收到数据筛选请求后，判断是否存在与当前资源分配占比匹配的关联存储的资源分配占比，当存在时之间通过关联存储关系获取对应的数据查找模型，提高了数据查找的效率。

在一个实施例中，数据查找模型建立方法当不存在与第二资源分配占比匹配的第一资源分配占比时，将目标数据集合划分得到第三数据块，对第三数据块进行数据筛选得到第三筛选时长；将目标数据集合划分得到第四数据块，对第四数据块进行数据筛选得到第四筛选时长；根据第三筛选时长、第四筛选时长、第三数据块以及第四数据块得到筛选时长与数据块大小的第二对应逻辑，并根据第二对应逻辑得到当前数据块的大小；将目标数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第二对应逻辑；当当前筛选时长与当前数据块符合第二对应逻辑时，则根据第二对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将目标数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第二对应逻辑时，将当前数据块的前一数据块大小作为模型数据块大小建立目标数据查找模型；保存目标数据查找模型与第二资源分配占比的对应关系。

具体地，在服务器检测到数据筛选请求时，获取当前资源环境中分配用于数据筛选的第二资源分配占比，并检测是否存在与第二资源分配占比匹配的关联存储的第一资源分配占比，当不存在与第二资源分配占比匹配的关联存储的第一资源分配占比时，则对目标数据集合重新进行上述数据查找模型的建立过程，包括：将目标数据集合进行两次数据划分并对划分的数据块筛选得到筛选时长；分析数据块与筛选时长得到对应逻辑，根据对应逻辑得到当前数据块的大小；将数据集合划分得到当前数据块后进行筛选得到当前筛选时长，当前筛选时长符合对应逻辑时根据逻辑得到下一当前数据块的大小，并继续对当前数据块划分、筛选得到当前筛选时长，直至当前筛选时长不符合对应逻辑时，根据当前数据块的前一数据块大小建立目标数据查找模型。在建立目标数据查找模型之后，保存目标数据查找模型与第二资源分配占比的对应关系，方便后续的数据查找。

上述数据查找模型建立方法，服务器在接收到数据筛选请求后，判断是否存在与当前资源分配占比匹配的关联存储的资源分配占比，当不存在时重新通过数据查找模型的建立方法建立数据查找模型当前资源分配占比的对应关系，提高了后续数据查找的效率。

在一个实施例中，上述数据查找模型建立方法，在建立与初始数据集合对应的数据查找模型之后，不管后续数据查找时查找数据的要求如何变化，都可以通过数据查找模型高效率的查找数据。举例说明，用户想再十万级数据量的年龄数据集合中查找男性年龄，直接处理十万级数据量的数据集合，消耗的资源大且耗时长，可以通过数据查找模型建立方法建立最具效率的数据查找模型，将十万级数据量的男性年龄数据集合划分然后进行男性年龄的筛选，并且在用户的查找要求改变时，比如用户想要从数据集合中查找小孩年龄，也可以直接通过建立的数据查找模型对数据集合进行数据查找，大大提高了数据查找的效率。

应该理解的是，虽然图2、图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种数据查找模型建立装置，包括：获取模块402、第一筛选模块404、第二筛选模块406、逻辑分析模块408、划分模块410和模型建立模块412，其中：

获取模块402，用于获取初始数据集合。

第一筛选模块404，用于将初始数据集合划分得到第一数据块，对第一数据块进行数据筛选得到第一筛选时长。

第二筛选模块406，用于将初始数据集合划分得到第二数据块，对第二数据块进行数据筛选得到第二筛选时长。

逻辑分析模块408，用于根据第一筛选时长、第二筛选时长、第一数据块以及第二数据块得到筛选时长与数据块大小的第一对应逻辑，并根据第一对应逻辑确定当前数据块的数据量。

划分模块410，用于将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第一对应逻辑。

模型建立模块412，用于当当前筛选时长与当前数据块符合第一对应逻辑时，则根据第一对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第一对应逻辑时，将当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型。

在一个实施例中，装置还可以包括：

第二获取模块，用于当当前筛选时长与当前数据块不符合第一对应逻辑时，则获取第一筛选时长、第二筛选时长以及当前筛选时长中最短筛选时长对应的数据块。

第二模型建立模块，用于通过最短筛选时长对应的数据块建立数据查找模型。

在一个实施例中，装置还可以包括：

第三获取模块，用于获取当前数据块的前一数据块，将初始数据集合划分得到当前数据块的前一数据块后进行数据筛选若干次，存储若干次的筛选时长。

计算模块，用于计算所存储的筛选时长的平均时长。

第四获取模块，用于获取历史筛选时长，并判断平均时长是否小于历史筛选时长。

第三模型建立模块，用于当平均时长小于历史筛选时长时，通过当前数据块的前一数据块大小建立数据查找模型。

在一个实施例中，装置还可以包括：

检测模块，用于检测所存储的筛选时长中是否包括与平均时长差值大于预设值的异常筛选时长。

删除模块，用于当所存储的筛选时长中包含异常筛选时长时，删除异常筛选时长。

第二计算模块，用于计算删除异常筛选时长后的所存储的筛选时长的平均时长。

在一个实施例中，装置还可以包括：

存储模块，用于获取用于对初始数据集合进行数据筛选的第一资源分配占比后，关联存储数据查找模型与第一资源分配占比。

在一个实施例中，装置还可以包括：

接收模块，用于接收数据筛选请求，数据筛选请求携带有目标数据集合。

第五获取模块，用于获取当前资源环境中用于数据筛选的第二资源分配占比。

第二检测模块，用于检测是否存在与第二资源分配占比匹配的第一资源分配占比。

第六获取模块，用于当存在与第二资源分配占比匹配的第一资源分配占比时，获取第一资源分配占比对应的数据查找模型。

第七获取模块，用于获取数据查找模型中的模型数据块大小，根据模型数据块大小对目标数据集合进行划分，并对划分后的目标数据集合进行数据筛选。

在一个实施例中，装置还可以包括：

第三筛选模块，用于当不存在与第二资源分配占比匹配的第一资源分配占比时，将目标数据集合划分得到第三数据块，对第三数据块进行数据筛选得到第三筛选时长。

第四筛选模块，用于将目标数据集合划分得到第四数据块，对第四数据块进行数据筛选得到第四筛选时长。

第二逻辑分析模块，用于根据第三筛选时长、第四筛选时长、第三数据块以及第四数据块得到筛选时长与数据块大小的第二对应逻辑，并根据第二对应逻辑得到当前数据块的大小。

第二划分模块，用于将目标数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第二对应逻辑。

第四模型建立模块，用于当当前筛选时长与当前数据块符合第二对应逻辑时，则根据第二对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将目标数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第二对应逻辑时，将当前数据块的前一数据块大小作为模型数据块大小建立目标数据查找模型。

第二存储模块，用于保存目标数据查找模型与第二资源分配占比的对应关系。

关于数据查找模型建立装置的具体限定可以参见上文中对于数据查找模型建立方法的限定，在此不再赘述。上述数据查找模型建立装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据查找模型建立方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取初始数据集合；将初始数据集合划分得到第一数据块，对第一数据块进行数据筛选得到第一筛选时长；将初始数据集合划分得到第二数据块，对第二数据块进行数据筛选得到第二筛选时长；根据第一筛选时长、第二筛选时长、第一数据块以及第二数据块得到筛选时长与数据块大小的第一对应逻辑，并根据第一对应逻辑确定当前数据块的数据量；将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第一对应逻辑；当当前筛选时长与当前数据块符合第一对应逻辑时，则根据第一对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第一对应逻辑时，将当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当当前筛选时长与当前数据块不符合第一对应逻辑时，则获取第一筛选时长、第二筛选时长以及当前筛选时长中最短筛选时长对应的数据块；通过最短筛选时长对应的数据块建立数据查找模型。

在一个实施例中，处理器执行计算机程序时所实现的直至当前筛选时长与当前数据块不符合第一对应逻辑之后，还可以包括：获取当前数据块的前一数据块，将初始数据集合划分得到当前数据块的前一数据块后进行数据筛选若干次，存储若干次的筛选时长；通过当前数据块的前一数据块大小建立数据查找模型，包括：计算所存储的筛选时长的平均时长；获取历史筛选时长，判断平均时长是否小于历史筛选时长；当平均时长小于历史筛选时长时，通过当前数据块的前一数据块大小建立数据查找模型。

在一个实施例中，处理器执行计算机程序时所实现的计算所存储的筛选时长的平均时长之前，还可以包括：检测所存储的筛选时长中是否包括与平均时长差值大于预设值的异常筛选时长；当所存储的筛选时长中包含异常筛选时长时，删除异常筛选时长；计算所存储的筛选时长的平均时长，包括：计算删除异常筛选时长后的所存储的筛选时长的平均时长。

在一个实施例中，处理器执行计算机程序时所实现的通过当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型之后，还可以包括：获取用于对初始数据集合进行数据筛选的第一资源分配占比，关联存储数据查找模型与第一资源分配占比。

在一个实施例中，处理器执行计算机程序时所实现的通过当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型之后，还可以包括：接收数据筛选请求，数据筛选请求携带有目标数据集合；获取当前资源环境中用于数据筛选的第二资源分配占比；检测是否存在与第二资源分配占比匹配的第一资源分配占比；当存在与第二资源分配占比匹配的第一资源分配占比时，获取第一资源分配占比对应的数据查找模型；获取数据查找模型中的模型数据块大小，根据模型数据块大小对目标数据集合进行划分，并对划分后的目标数据集合进行数据筛选。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当不存在与第二资源分配占比匹配的第一资源分配占比时，将目标数据集合划分得到第三数据块，对第三数据块进行数据筛选得到第三筛选时长；将目标数据集合划分得到第四数据块，对第四数据块进行数据筛选得到第四筛选时长；根据第三筛选时长、第四筛选时长、第三数据块以及第四数据块得到筛选时长与数据块大小的第二对应逻辑，并根据第二对应逻辑得到当前数据块的大小；将目标数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第二对应逻辑；当当前筛选时长与当前数据块符合第二对应逻辑时，则根据第二对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将目标数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第二对应逻辑时，将当前数据块的前一数据块大小作为模型数据块大小建立目标数据查找模型；保存目标数据查找模型与第二资源分配占比的对应关系。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取初始数据集合；将初始数据集合划分得到第一数据块，对第一数据块进行数据筛选得到第一筛选时长；将初始数据集合划分得到第二数据块，对第二数据块进行数据筛选得到第二筛选时长；根据第一筛选时长、第二筛选时长、第一数据块以及第二数据块得到筛选时长与数据块大小的第一对应逻辑，并根据第一对应逻辑确定当前数据块的数据量；将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第一对应逻辑；当当前筛选时长与当前数据块符合第一对应逻辑时，则根据第一对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将初始数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第一对应逻辑时，将当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当当前筛选时长与当前数据块不符合第一对应逻辑时，则获取第一筛选时长、第二筛选时长以及当前筛选时长中最短筛选时长对应的数据块；通过最短筛选时长对应的数据块建立数据查找模型。

在一个实施例中，计算机程序被处理器执行时所实现的直至当前筛选时长与当前数据块不符合第一对应逻辑之后，还可以包括：获取当前数据块的前一数据块，将初始数据集合划分得到当前数据块的前一数据块后进行数据筛选若干次，存储若干次的筛选时长；通过当前数据块的前一数据块大小建立数据查找模型，包括：计算所存储的筛选时长的平均时长；获取历史筛选时长，判断平均时长是否小于历史筛选时长；当平均时长小于历史筛选时长时，通过当前数据块的前一数据块大小建立数据查找模型。

在一个实施例中，计算机程序被处理器执行时所实现的计算所存储的筛选时长的平均时长之前，还可以包括：检测所存储的筛选时长中是否包括与平均时长差值大于预设值的异常筛选时长；当所存储的筛选时长中包含异常筛选时长时，删除异常筛选时长；计算所存储的筛选时长的平均时长，包括：计算删除异常筛选时长后的所存储的筛选时长的平均时长。

在一个实施例中，计算机程序被处理器执行时所实现的通过当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型之后，还可以包括：获取用于对初始数据集合进行数据筛选的第一资源分配占比，关联存储数据查找模型与第一资源分配占比。

在一个实施例中，计算机程序被处理器执行时所实现的通过当前数据块的前一数据块大小作为模型数据块大小建立数据查找模型之后，还可以包括：接收数据筛选请求，数据筛选请求携带有目标数据集合；获取当前资源环境中用于数据筛选的第二资源分配占比；检测是否存在与第二资源分配占比匹配的第一资源分配占比；当存在与第二资源分配占比匹配的第一资源分配占比时，获取第一资源分配占比对应的数据查找模型；获取数据查找模型中的模型数据块大小，根据模型数据块大小对目标数据集合进行划分，并对划分后的目标数据集合进行数据筛选。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当不存在与第二资源分配占比匹配的第一资源分配占比时，将目标数据集合划分得到第三数据块，对第三数据块进行数据筛选得到第三筛选时长；将目标数据集合划分得到第四数据块，对第四数据块进行数据筛选得到第四筛选时长；根据第三筛选时长、第四筛选时长、第三数据块以及第四数据块得到筛选时长与数据块大小的第二对应逻辑，并根据第二对应逻辑得到当前数据块的大小；将目标数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，并判断当前筛选时长与当前数据块是否符合第二对应逻辑；当当前筛选时长与当前数据块符合第二对应逻辑时，则根据第二对应逻辑得到下一数据块的大小作为当前数据块的大小，并继续将目标数据集合划分得到当前数据块后进行数据筛选得到当前筛选时长，直至当前筛选时长与当前数据块不符合第二对应逻辑时，将当前数据块的前一数据块大小作为模型数据块大小建立目标数据查找模型；保存目标数据查找模型与第二资源分配占比的对应关系。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任龙伟
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。