一种基于Flink框架的数据去重方法及装置与流程

文档序号：23539682发布日期：2021-01-05 20:46阅读：95来源：国知局

本申请智慧交通技术领域，尤其是涉及一种基于flink框架的数据去重方法及装置。

背景技术：

随着技术的进步和发展，为了防止违法的事件发生，会在各个区域设置抓拍设备，包括在各个道路、各个小区、各个路口等位置设置前端摄像头，以使得抓拍设备能够采集各个区域的信息，从而根据各个抓拍设备采集到的信息得到违法的数据，但由于抓拍设备的数量较多，导致得到的数据量数以亿计，而在对抓拍设备采集到的信息进行处理得到违法数据时，需要对每个数据进行处理，但在采集到的信息中会存在相同或者相似的数据，导致对数据的处理过程耗时较长，导致对数据的处理效率较低。

所以，现有的数据处理过程中，存在由于数据中存在重复数据导致数据处理效率较低的技术问题。

技术实现要素：

本申请实施例提供一种基于flink框架的数据去重方法，用以解决现有的数据处理过程中，存在由于数据中存在重复数据导致数据处理效率较低的技术问题。

本申请实施例提供一种基于flink框架的数据去重方法，该基于flink框架的数据去重方法包括：

获取携带数据执行标识的数据执行请求；

根据所述数据执行标识，获取所述flink框架中与所述数据执行标识对应的数据处理模型；

根据所述数据处理模型，判断所述数据执行请求携带的各视频数据中是否存在相同的车辆视频片段，并在各视频数据中存在相同的车辆视频片段时，对所述视频数据进行去重，得到所述去重视频数据。

同时，本申请实施例提供一种基于flink框架的数据去重装置，该基于flink框架的数据去重装置包括：

第一获取模块，用于获取携带数据执行标识的数据执行请求；

第二获取模块，用于根据所述数据执行标识，获取所述flink框架中与所述数据执行标识对应的数据处理模型；

去重模块，用于根据所述数据处理模型，判断所述数据执行请求携带的各视频数据中是否存在相同的车辆视频片段，并在各视频数据中存在相同的车辆视频片段时，对所述视频数据进行去重，得到所述去重视频数据。

同时，本申请实施例提供一种服务器，所述服务器包括存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行程序时实现上述基于flink框架的数据去重方法中的步骤。

同时，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有多条指令，指令适于处理器进行加载，以执行上述基于flink框架的数据去重方法中的步骤。

有益效果：本申请实施例提供一种基于flink框架的数据去重方法及装置，该基于flink框架的数据去重方法在获取携带数据执行标识的数据执行请求后，根据数据执行标识，获取flink框架中与数据执行标识对应的数据处理模型；然后根据数据处理模型，判断数据执行请求携带的各视频数据中是否存在相同的车辆视频片段，并在各视频数据中存在相同的车辆视频片段时，对视频数据进行去重，得到去重视频数据；本申请实施例通过在接收到数据执行请求时，采用数据处理模型对各视频数据进行处理，并判断各视频数据中是否存在相同的车辆视频片段，在各视频数据中存在相同的车辆视频片段时，去除相同的车辆视频片段，得到去重视频数据，从而使得在对前端设备采集到的视频数据进行处理时，可以先去除视频数据中的重复数据，从而降低待处理数据量，提高了数据处理的效率。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其它有益效果显而易见。

图1为本申请实施例提供的智慧交通系统的场景示意图。

图2为本申请实施例提供的基于flink框架的数据去重方法的流程示意图。

图3为本申请实施例提供的基于flink框架的数据去重方法中的车辆行驶过程的第一示意图。

图4为本申请实施例提供的基于flink框架的数据去重方法中的视频数据的处理方式的示意图。

图5为本申请实施例提供的基于flink框架的数据去重方法中的车辆行驶过程的第二示意图。

图6为本申请实施例提供的基于flink框架的数据去重装置的结构示意图。

图7为本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参与图1，图1为本申请实施例提供的智慧交通系统的场景示意图，该系统可以包括设备和服务器、服务器和服务器之间通过各种网关组成的互联网等方式连接通信，不再赘述，其中，设备包括前端设备11等，服务器包括存储服务器12、处理服务器13以及通信服务器，图1未示出通信服务器等，其中：

前端设备11包括但不局限于嵌入式高清摄像机、工控机、高清相机等，用于对通过前端设备的车辆、行人进行数据采集，数据采集包括但不局限于对车辆的车牌号码(号码可以是假牌或者套牌)、车牌类型(私家车的蓝底车牌、货车的黄底车牌等)、行人的违法行为。

服务器包括本地服务器和/或远程服务器等。存储服务器12、处理服务器13以及通信服务器都可以部署在本地服务器，也可以部分或者全部部署在远程服务器上。

处理服务器13可以获取携带数据执行标识的数据执行请求；根据所述数据执行标识，获取所述flink框架中与所述数据执行标识对应的数据处理模型；根据所述数据处理模型，判断所述数据执行请求携带的各视频数据中是否存在相同的车辆视频片段，并在各视频数据中存在相同的车辆视频片段时，对所述视频数据进行去重，得到所述去重视频数据。

需要说明的是，图1所示的系统场景示意图是一个示例，本申请实施例描述的服务器以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

图2为本申请实施例提供的基于filnk框架的数据去重方法的流程示意图，请参阅图2，该基于flink框架的数据去重方法包括以下步骤：

201：获取携带数据执行标识的数据执行请求。

在一种实施例中，在获取携带数据执行标识的数据执行请求时，需要获取到数据执行请求携带的视频数据，该视频数据为服务器在从前端设备中获取到实时监控视频流后，处理实时监控视频流得到的视频数据，考虑到数据分析为了尽量保持实时性，获取到的视频数据可以是一天前的视频数据，但在对视频数据进行去重时，还可以是先存储多天的视频数据，然后对多天的视频数据进行去重处理，在获取到视频数据时，可以是存储服务器先接收到前端设备发送的实时监控视频流，然后直接将该实时监控视频流存储在存储服务器中，或者对实时监控视频流进行处理后得到视频数据存储在存储服务器中，然后处理服务器会接收携带数据执行标识的数据执行请求，以进行去重处理，在该过程中，可以是存储服务器向处理服务器发送数据执行请求，还可以是在设置服务器时，在存储服务器存储有视频数据时，会自动向处理服务器发送数据执行请求，使得每个获取到的实时监控视频流都能去除重复数据。

在一种实施例中，在对实时监控视频流进行处理得到视频数据时，可以直接将实时监控视频流作为视频数据，还可以是通过对实时监控视频流进行相应的解码和编码得到视频数据，以使得能够对视频数据进行去重处理。

在一种实施例中，实时监控视频流包括前端设备、例如高清摄像机拍摄的视频，该实时监控视频流包括对通过前端设备的车辆的实时监控、对通过前端设备的行人的实时监控，同时，在实时监控视频流中，可以记录对应的时间、对应前端设备的地址的信息，便于在实时监控视频流中出现违法行为时，可以对违法行为发生的时间、地址进行对应的记录，以便于后续处理违法行为时可以依据对应的记录进行处理。

在一种实施例中，数据执行标识指数据执行请求的标识，在对数据进行处理时，需要确定数据执行标识，才能根据数据执行标识确定需要处理的过程，以及采用相应的处理方式进行处理，例如去重，且可以通过数据执行标识查找到数据执行请求携带的视频数据，从而使得在得到数据执行标识后，根据数据执行标识进行相应的处理过程。

202：根据数据执行标识，获取flink框架中与数据执行标识对应的数据处理模型。

在一种实施例中，flink框架是分布式处理引擎，可以对有界流和无界流进行处理，有界流指离线数据，无界流指实时数据，flink框架具有低延迟、高吞吐量、实时性高、分析精度准确等优点，因此在对数据进行去重时可以提高去重效率，从而提高数据处理效率。

在一种实施例中，flink框架中存在多个模型，该模型包括各类型数据处理模型、数据分析模型，则在对视频数据进行去重时，需要根据数据执行标识确定对应的数据处理模型，即可以使得数据执行标识中携带数据执行类型，从而使得根据数据执行标识能够确定对应类型的数据处理模型，然后从对应类型的数据处理模型中选择确定的数据处理模型，对视频数据进行去重。

在一种实施例中，在根据数据执行标识确定flink框架中对应的数据处理模型时，可以通过数据执行标识确定flink框架对应的flink标识，然后根据flink标识从flink框架中获取到对应的数据处理模型，此步骤包括：根据所述数据执行标识，获取所述flink框架与所述数据执行标识对应的flink标识；根据所述flink标识，从所述flink框架中获取所述数据处理模型。

在一种实施例中，flink标识指对应每个或者每一类模型，会为每个或者每一类模型设定对应的flink标识，使得在调用模型时，可以根据数据执行标识查找到对应的flink标识，然后可以根据flink标识查找到对应的数据处理模型。

在一种实施例中，在获取到数据处理模型前，需要对数据处理模型进行训练，使得数据处理模型的处理结果较为准确，可以先设置一个初始的数据处理模型，然后采用视频数据对初始数据处理模型进行训练，得到训练后的数据处理模型，使得训练后的数据处理模型能较为准确的对视频数据进行去重，此步骤包括：设定初始数据处理模型；获取测试视频数据、各测试视频数据对应的测试视频片段、以及各测试视频数据对应的测试去重视频片段；采用初始数据处理模型处理各测试视频数据对应的测试视频片段，得到模型去重视频片段；根据所述测试去重视频片段和模型去重视频片段，修正所述初始数据处理模型，得到数据处理模型；具体的，在获取测试视频数据时，该测试视频数据可以是获取到的历史视频数据，且该测试视频数据通过其他方式或者人工处理得到了对应的测试视频片段和测试去重视频片段，从而可以将该视频数据作为测试视频数据，同时，在得到测试视频数据后，可以采用初始数据处理模型对测试视频数据进行处理，从而得到初始数据处理模型处理得到的模型去重视频片段，假设通过人工或者其他方式得到的测试去重视频片段和模型去重视频片段存在差异，则对初始数据处理模型进行修正，然后再次采用测试视频数据对初始数据处理模型进行训练，直至初始数据处理模型处理得到的模型去重视频片段与测试去重视频片段相同，则表示训练完成，得到数据处理模型。

在一种实施例中，在对初始数据处理模型进行训练时，考虑到训练后的数据处理模型的去重准确率可能无法达到完全准确，因此，在对初始数据处理模型进行训练时，可以设置预设去重准确率，在初始数据处理模型达到预设去重准确率后，将初始数据处理模型确定为数据处理模型，例如可以设置预设去重准确率达到95％即可，假设多个视频数据中存在100组重复的视频片段，但初始数据处理模型仅找出98组重复的视频片段，则此时也可以确定初始数据处理模型的去重准确率高于95％，可以将初始数据处理模型作为数据处理模型。

在一种实施例中，在训练得到数据处理模型后，会采用数据处理模型对视频数据进行去重，在此过程中，考虑到数据处理模型仍然会存在未完全找出重复的视频片段的问题，在数据处理模型处理视频数据得到去重视频数据后，假设仍然在去重视频数据中查找到重复视频片段，可以采用该数据继续对数据处理模型进行训练，即保持对数据处理模型的训练，使得数据处理模型的去重准确率提高。

203：根据数据处理模型，判断数据执行请求携带的各视频数据中同一时间是否存在相同的车辆视频片段，并在各视频数据中同一时间存在相同的车辆视频片段时，对视频数据进行去重，得到去重视频数据。

在一种实施例中，在对视频数据进行去重时，是对同一时间出现的相同的车辆视频片段进行去重，而在不同时间出现的相同的车辆视频片段是作为车辆的轨迹，因此，在判断视频数据中是否存在重复数据时，首先需要确定车辆视频片段是同一时间段的，如果车辆视频片段不是同一时间的，则不属于重复数据，在下述实施例中，判断车辆视频片段是否为相同车辆视频片段时，均认为是同一时间的各个车辆视频片段，不再赘述。

在一种实施例中，同一时间可以是指某一时刻，也可以是指某一时间段，例如同一时间可以是20：00：00这一时刻，也可以是20：00：00至20：01：00这一时间段，例如某一时间段中仅有一辆车的行驶过程，则无需将视频数据分为每一时刻，对每一时刻的视频数据进行去重，降低数据处理量。

在一种实施例中，在对视频数据进行去重时，需要先将视频数据划分为多个车辆视频片段，从而使得可以根据时间将视频数据进行分组，使得对各个组内的视频数据进行去重，从而去除重复数据，此步骤包括：按照时间顺序，处理各视频数据，得到各时间间隔中各视频数据中的车辆视频片段；根据各视频数据中的车辆视频片段，判断同一时间间隔中各视频数据中是否存在相同的车辆视频片段；在同一时间间隔中各视频数据中存在相同的车辆视频片段时，删除相同的车辆视频片段中的重复车辆视频片段，得到去重视频数据；具体的，如图3所示，假设某一车辆32行驶在双向六车道的城市道路上，图3中仅示出单向三车道，在该车辆32经过某一路口时，该车辆行驶在三车道中的中间车道，在该路口对应三个车道上依次设有第一前端摄像头311、第二前端摄像头312、第三前端摄像头313，在车辆32经过该路口时，第一前端摄像头311、第二前端摄像头312、第三前端摄像头313均为拍摄车辆32的行驶过程，但在同一时间拍摄时，位于左侧的第一前端摄像头311会拍摄到该车辆32的车牌信息、车辆颜色信息、以及车辆左侧侧面信息，第二前端摄像头312会拍摄到车牌信息、车辆颜色信息、以及车辆正面信息，第三前端摄像头313会拍摄到车牌信息、车辆颜色信息、以及车辆右侧侧面信息，考虑到一般车辆的侧面不会具有车辆的关键信息，因此，能够从三个前端摄像头的视频数据中获取到的车辆信息可以认定为相同，此时，需要去除重复数据，如图4所示，假设视频数据411、视频数据412、视频数据413分别是第一前端摄像头311、第二前端摄像头412、第三前端摄像头413拍摄的视频数据，在视频数据411中包括从20：00：00的第一摄像信息3111至21：00：00的第一摄像信息3112，在视频数据412中包括从20：00：00的第二摄像信息3121至21：00：00的第二摄像信息3122，在视频数据413中包括从20：00：00的第三摄像信息3131至21：00：00的第三摄像信息3132，则在获取到各视频数据后，需要按照时间顺序将视频数据划分为多个视频片段，图4中以时间点将视频数据划分为车辆视频片段，但也可以采用时间间隔将视频数据划分为车辆视频片段，在将各个视频数据划分为视频片段后，可以将同一时间间隔或者同一时间点的视频片段放置在同一组别内，例如图4中在将视频数据划分为车辆视频片段后，会将同一时间间隔或者同一时间点的车辆视频片段，即20：00：00的第一摄像信息3111、20：00：00的第二摄像信息3121、20：00：00的第三摄像信息3131放置在第一组别414中，将21：00：00的第一摄像信息3112、21：00：00的第二摄像信息3122、21：00：00的第三摄像信息3132放置在第二组别415中，则可以对同一时间间隔的各车辆视频片段进行判断，判断同一时间间隔中各视频数据中是否存在相同的车辆视频片段，例如在第一组别414中判断20：00：00的第一摄像信息3111、20：00：00的第二摄像信息3121、20：00：00的第三摄像信息3131三个车辆视频片段是否相同，如果相同，则删除相同的车辆视频片段，得到去重视频数据，例如20：00：00的第一摄像信息3111与20：00：00的第二摄像信息3121相同，则删除两者中的一个，从而去除了重复车辆视频片段，得到去重视频数据。

需要说明的是，在图4中，以时间点来划分视频数据，得到的车辆视频片段为固定画面，但也可以以时间间隔来划分视频数据，使得车辆视频片段为连贯的画面，图4中将视频数据划分为各个画面并不代表视频数据被划分后为固定画面，视频数据可以被划分为多个连贯的车辆视频片段。

在一种实施例中，在判断同一时间间隔中各视频数据中是否存在相同的车辆视频片段时，在同一时间间隔中各视频数据中不存在相同的车辆视频片段时，保留各个车辆视频片段。

在一种实施例中，在判断同一时间间隔中各视频数据中是否存在相同的车辆视频片段时，还可以通过先在每一视频数据中提取到车辆的信息，然后在其他的视频数据中查找是否存在该车辆的信息，并判断两个车辆信息的相似度是否大于预设相似度，如果两个车辆信息的相似度大于预设相似度，则可以判断具有两个车辆信息的两个车辆视频片段为相同的车辆视频片段，此步骤包括：根据各视频数据中的车辆视频片段，获取一视频数据中的车辆视频片段中的第一车辆信息；根据所述第一车辆信息，查找位于其他车辆视频片段中的第二车辆信息；根据所述第一车辆信息、所述第二车辆信息，判断所述第一车辆信息与所述第二车辆信息的相似度是否大于预设相似度，在所述第一车辆信息与所述第二车辆信息的相似度大于预设相似度时，确定包含所述第一车辆信息的车辆视频片段与包含所述第二车辆信息的车辆视频片段为相同的车辆视频片段；具体的，如图5所示，假设在双向四车道的城市道路中，车辆在车道一和车道二上的行驶方向为从上到下，车辆在车道三和车道四上的行驶方向为从下到上，在每个车道上设有一组前端摄像头，前端摄像头仅向一个方向拍摄，例如车道一上具有前端摄像头一521、前端摄像头五525，车道二上具有前端摄像头二522、前端摄像头六526，车道三上具有前端摄像头三523、前端摄像头七527，车道四上具有前端摄像头四524、前端摄像头八528，前端摄像头一521至前端摄像头四524从上向下拍摄，前端摄像头五525至前端摄像头528从下向上拍摄，则在车道一至车道四上分别行驶有车辆一511、车辆二512、车辆三513、车辆四514时，各个摄像头会记录车辆一511至车辆四514的行驶过程，例如车辆一511还未通过路口，在车辆一511达到路口时，前端摄像头525至前端摄像头八528会拍摄车辆一511的车头信息或者侧面信息，在车辆一511通过路口时，前端摄像头一521至前端摄像头524会拍摄车辆一511的车尾信息或者侧面信息，相应的，根据车辆行驶的方向和前端摄像头拍摄的方向，会采集车辆一511至车辆四514的信息，且每个前端摄像头会采集得到不同的视频数据，此时，在将视频数据拆解为车辆视频片段后，可以先获取到每一视频数据中的车辆视频片段中的第一车辆信息，例如前端摄像头一521的视频数据中的车辆视频片段包括车辆一511至车辆四514的各个车辆的车辆信息，则可以将车辆一511在前端摄像头一521中的信息作为第一车辆信息，然后查找其他车辆视频片段中车辆一511的第二车辆信息，例如前端摄像头二522中也存在车辆一511的信息，则此时判断第一车辆信息和第二车辆信息的相似度是否大于预设相似度，例如第一车辆信息中包含车辆一511的车牌号，车辆一511的行驶速度、车辆一511的颜色、车辆511是否压线的结果等；第二车辆信息中包括车辆一511的车牌号、车辆一511的行驶速度、车辆一511的颜色、车辆511侧面图像，此时判断第一车辆信息与第二车辆信息的相似度是否大于预设相似度，例如设置预设相似度为90％，此时第一车辆信息与第二车辆信息的相似度大于90％，则此时判断包含第一车辆信息的车辆视频片段和包含第二车辆信息的车辆视频片段为相同的车辆视频片段。

需要说明的是，在采用数据处理模型进行去重时，会训练数据处理模型对车辆信息的相似度的判断，例如输入多个车辆视频片段，使得数据处理模型判断多个车辆视频片段中的车辆信息的相似度，并判断车辆视频片段是否相同，从而使得可以在判断车辆信息的相似度时，较为准确的判断车辆信息的相似度，同时，预设相似度可以根据需求设定。

在一种实施例中，在判断第一车辆信息与所述第二车辆信息的相似度是否大于预设相似度时，考虑到一个车辆视频片段中会存在多个车辆的车辆信息，假设两个车辆视频片段中的一个车辆的车辆信息的相似度大于预设相似度，另一个车辆的车辆信息的相似度不大于预设相似度，则此时可以从其中一个视频片段中获取到不同的车辆信息，然后合并两个车辆视频片段的车辆信息，得到不具有重复车辆信息的车辆视频片段以及车辆信息，例如图5中的前端摄像头一521和前端摄像头二522的车辆视频片段中均包括车辆一511和车辆二512的车辆信息，前端摄像头一521和前端摄像头二522的车辆视频片段的车辆一511的相似度大于预设相似度，但前端摄像头一521和前端摄像头二522的车辆视频片段的车辆二512的相似度不大于预设相似度，则此时可以删除前端摄像头二522中的车辆视频片段，并记录前端摄像头一521的车辆视频片段、以及前端摄像头二522中的车辆视频片段中车辆二512与前端摄像头一521的车辆视频片段中车辆二512的不同信息，从而使得能够去除重复的车辆信息；或者通过将各个车辆划分到不同的视频片段，从而使得可以对各个视频片段进行判断，进而去除重复视频片段。

在一种实施例中，在判断第一车辆信息和第二车辆信息的相似度是否大于预设相似度时，考虑到即使第一车辆信息与第二车辆信息的相似度大于预设相似度，但第一车辆信息和第二车辆信息中不存在车辆关键信息时，为避免删除车辆关键信息，不能将具有第一车辆信息和第二车辆信息的车辆视频片段作为相同的车辆视频片段，而在第一车辆信息和第二车辆信息具有车辆关键信息时，将具有第一车辆信息和第二车辆信息的车辆视频片段作为相同的车辆视频片段，此步骤包括：在所述第一车辆信息与所述第二车辆信息的相似度大于预设相似度时，判断所述第一车辆信息和第二车辆信息中是否存在车辆关键信息；在所述第一车辆信息和第二车辆信息中不存在车辆关键信息时，确定包括所述第一车辆信息的车辆视频片段与包含所述第二车辆信息的车辆视频片段为不同的车辆视频片段，在所述第一车辆信息和第二车辆信息中存在车辆关键信息时，确定包含所述第一车辆信息的车辆视频片段与包含所述第二车辆信息的车辆视频片段为相同的车辆视频片段；具体的，假设第一车辆信息和第二车辆信息均不包括车辆关键信息，例如第一车辆信息中包括车辆的颜色、车辆的划痕、车辆的压线行为、车辆的超速行为，第二车辆信息中包括车辆的颜色、车辆的划痕、车辆的压线行为、车辆的超速行为，第一车辆信息和第二车辆信息的相似度大于预设相似度，但由于不能确定第一车辆信息和第二车辆信息是否为同一车辆的信息，此时，无法将具有第一车辆信息和第二车辆信息的车辆视频片段作为相同的车辆视频片段，但考虑到某一时间段会出现仅有该车辆的行驶记录，因此，也可以在第一车辆信息和第二车辆信息中加入该车辆的车辆关键信息，然后判断具有第一车辆信息和第二车辆信息的车辆视频片段是否为相同的车辆视频片段；假设第一车辆信息包括车辆关键信息、第二车辆信息不包括车辆关键信息，此时也不能将具有第一车辆信息和第二车辆信息的车辆视频片段作为相同的车辆视频片段，除非出现某一时间段仅出现该车辆的情况，或者其他的所有的车辆信息均相同，此时可以根据实际需求考虑将具有第一车辆信息和第二车辆信息的车辆视频片段确定为相同的车辆视频片段。

需要说明的是，车辆关键信息指能够确定唯一车辆的车辆信息，例如车辆的车牌，考虑到会出现套牌的情况，虽然无法通过套牌查找到唯一车辆，但在查看视频数据时，套牌也是对应该时间段使用该套牌的唯一车辆，因此，在进行去重时，出现套牌时，也可以将套牌作为车辆关键信息。

在一种实施例中，在确定同一时间间隔中存在相同的车辆视频片段时，需要从相同的车辆视频片段中确定需要删除的重复车辆视频片段，此时可以根据各车辆视频片段中的有效数据量来确定需要删除的车辆视频片段，即考虑到保留的车辆视频片段的有效数据量最大，则将其他的车辆视频片段删除，此步骤包括：获取相同的车辆视频片段中的各车辆视频片段的有效数据量；根据各车辆视频片段的有效数据量，确定有效数据量最大的车辆视频片段；保留有效数据量最大的车辆视频片段，并删除其他车辆视频片段，得到去重视频数据；具体的，例如相同的车辆视频片段中的一个车辆视频片段包括车辆的车牌号、车辆的前端凹陷、车辆的侧面划痕、车辆的类型、车辆内人员的状态(例如是否系安全带、是否打电话等)、车辆的速度；另一个车辆视频片段中包括车辆的车牌、车辆的前端凹陷、车辆内人员的状态、车辆的速度、车辆的颜色，则考虑到车辆的侧面划痕和车辆的类型的重要性大于车辆的颜色，将具有车辆的侧面划痕和车辆的类型的车辆视频片段作为有效数据量最大的车辆视频片段，然后删除其他车辆视频片段，从而得到去重视频数据。

在一种实施例中，考虑到观看的车辆视频片段需要有较高的清晰度，从而能够确定车辆信息以及便于观看，因此，在相同的车辆视频片段中，根据车辆视频片段的清晰度来确定需要删除的车辆视频片段，此步骤包括：获取相同的车辆视频片段中的各车辆视频片段的清晰度；根据各车辆视频片段的清晰度，确定清晰度最大的车辆视频片段；保留清晰度最大的车辆视频片段，并删除其他车辆视频片段，得到去重视频数据；具体的，例如两相同的车辆视频片段中均具有车辆的车牌号、车辆的前端凹陷、车辆的速度、车辆的侧面画面，但其中一个车辆视频片段中车辆的侧面画面较为模糊，清晰度较低，而另一个车辆视频片段的车辆的侧面画面较为清晰，清晰度较高，则将清晰度较低的车辆视频数据删除，保留清晰度最大的车辆视频片段，得到去重视频数据。

在一种实施例中，在将重复视频片段去除后，考虑到在后续会需要对去重的视频数据进行核查，避免去重时出现删除车辆关键信息，可以将去重视频数据和去除的重复视频数据进行存储，从而便于后续查看去重视频数据和重复视频数据，此步骤包括：获取所述去重视频数据、以及所述去重视频数据对应的重复视频数据；根据所述去重视频数据、以及所述重复视频数据，赋予所述去重视频数据和所述重复视频数据相同的数据对应标识；根据所述数据对应标识，将所述去重视频数据和所述重复视频数据存储在hbase系统中。

需要说明的是，hbase系统是一种列式存储的系统，在存储数据时，仅需要将需要的列取出，不需要将整行数据取出，从而降低了需要的存储空间，使得相同的存储空间能够存储更多的数据，而在采用hbase系统存储数据时，例如在存储时，一种方案中会按照20个字段存储，即使20个字段中存在无法读取或者空的部分，会在空的部分和无法读取的部分存0，使得即使数据没有20个字段也会存储20个字段，占用了不必要的空间，而采用hbase系统存储数据时，假设20个字段中存在空的部分或者无法读取的部分，例如仅有14个字段正常，则hbase系统仅会存储14个字段，从而降低了需要的存储空间，在相同的存储空间下，存储的数据量更大。

本申请实施例提供一种基于flink框架的数据去重方法，该基于flink框架的数据去重方法通过对个车辆视频片段中的车辆信息进行判断，从而确定各车辆视频片段是否相同，在存在相同的车辆视频片段时，根据车辆视频片段的有效数据量或者清晰度来删除车辆视频片段，得到去重视频数据，且可以将去重视频数据和重复视频数据进行存储，从而去除了视频数据中的重复数据，降低了待处理数据量，提高了数据处理的效率，且可以查看存储的去重视频数据和重复视频数据，从而便于后续核查去重视频数据的准确性。

相应的，图6为本申请实施例提供的基于flink框架的数据去重装置的结构示意图；请参阅图6，该基于flink框架的数据去重装置包括以下模块：

第一获取模块601，用于获取携带数据执行标识的数据执行请求；

第二获取模块602，用于根据所述数据执行标识，获取所述flink框架中与所述数据执行标识对应的数据处理模型；

去重模块603，用于根据所述数据处理模型，判断所述数据执行请求携带的各视频数据中同一时间是否存在相同的车辆视频片段，并在各视频数据中同一时间存在相同的车辆视频片段时，对所述视频数据进行去重，得到所述去重视频数据。

在一种实施例中，去重模块603用于按照时间顺序，处理各视频数据，得到各时间间隔中各视频数据中的车辆视频片段；根据各视频数据中的车辆视频片段，判断同一时间间隔中各视频数据中是否存在相同的车辆视频片段；在同一时间间隔中各视频数据中存在相同的车辆视频片段时，删除相同的车辆视频片段中的重复车辆视频片段，得到去重视频数据。

在一种实施例中，去重模块603用于根据各视频数据中的车辆视频片段，获取一视频数据中的车辆视频片段中的第一车辆信息；根据所述第一车辆信息，查找位于其他车辆视频片段中的第二车辆信息；根据所述第一车辆信息、所述第二车辆信息，判断所述第一车辆信息与所述第二车辆信息的相似度是否大于预设相似度；在所述第一车辆信息与所述第二车辆信息的相似度大于预设相似度时，确定包含所述第一车辆信息的车辆视频片段与包含所述第二车辆信息的车辆视频片段为相同的车辆视频片段。

在一种实施例中，去重模块603用于在所述第一车辆信息与所述第二车辆信息的相似度大于预设相似度时，判断所述第一车辆信息和第二车辆信息中是否存在车辆关键信息；在所述第一车辆信息和第二车辆信息中不存在车辆关键信息时，确定包含所述第一车辆信息的车辆视频片段与包含所述第二车辆信息的车辆视频片段为不同的车辆视频片段；在所述第一车辆信息和第二车辆信息中存在车辆关键信息时，确定包含所述第一车辆信息的车辆视频片段与包含所述第二车辆信息的车辆视频片段为相同的车辆视频片段。

在一种实施例中，去重模块603用于获取相同的车辆视频片段中的各车辆视频片段的有效数据量；根据各车辆视频片段的有效数据量，确定有效数据量最大的车辆视频片段；保留有效数据量最大的车辆视频片段，并删除其他车辆视频片段，得到去重视频数据。

在一种实施例中，去重模块603用于获取相同的车辆视频片段中的各车辆视频片段的清晰度；根据各车辆视频片段的清晰度，确定清晰度最大的车辆视频片段；保留清晰度最大的车辆视频片段，并删除其他车辆视频片段，得到去重视频数据。

在一种实施例中，去重模块603用于获取所述去重视频数据、以及所述去重视频数据对应的重复视频数据；根据所述去重视频数据、以及所述重复视频数据，赋予所述去重视频数据和所述重复视频数据相同的数据对应标识；根据所述数据对应标识，将所述去重视频数据和所述重复视频数据存储在hbase系统中。

在一种实施例中，第二获取模块602用于根据所述数据执行标识，获取所述flink框架与所述数据执行标识对应的flink标识；根据所述flink标识，从所述flink框架中获取所述数据处理模型。

在一种实施例中，第二获取模块602用于设定初始数据处理模型；获取测试视频数据、各测试视频数据对应的测试视频片段、以及各测试视频数据对应的测试去重视频片段；采用初始数据处理模型处理各测试视频数据对应的测试视频片段，得到模型去重视频片段；根据所述测试去重视频片段和模型去重视频片段，修正所述初始数据处理模型，得到数据处理模型。

相应的，本申请实施例还提供一种服务器，如图7所示，该服务器可以包括射频(rf，radiofrequency)电路701、包括有一个或一个以上计算机可读存储介质的存储器702、输入单元703、显示单元704、传感器705、音频电路706、无线保真(wifi，wirelessfidelity)模块707、包括有一个或者一个以上处理核心的处理器708、以及电源709等部件。本领域技术人员可以理解，图7中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部分，或者不同的部件布置。其中：

rf电路701可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器708处理；另外，将涉及上行的数据发送给基站。存储器702可用于存储软件程序以及模块，处理器708通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。输入单元703可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

显示单元704可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

服务器还可包括至少一种传感器705，比如光传感器、运动传感器以及其他传感器。音频电路706包括扬声器，扬声器可提供用户与服务器之间的音频接口。

wifi属于短距离无线传输技术，服务器通过wifi模块707可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了wifi模块707，但是可以理解的是，其并不属于服务器的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器708是服务器的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行服务器的各种功能和处理数据，从而对手机进行整体监控。

服务器还包括给各个部件供电的电源709(比如电池)，优选的，电源可以通过电源管理系统与处理器708逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，服务器还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，服务器中的处理器708会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器708来运行存储在存储器702中的应用程序，从而实现以下功能：

获取携带数据执行标识的数据执行请求；根据所述数据执行标识，获取所述flink框架中与所述数据执行标识对应的数据处理模型；根据所述数据处理模型，判断所述数据执行请求携带的各视频数据中同一时间是否存在相同的车辆视频片段，并在各视频数据中同一时间存在相同的车辆视频片段时，对所述视频数据进行去重，得到所述去重视频数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文的详细描述，此处不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以实现以下功能：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取记忆体(ram，randomaccessmemory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种方法中的步骤，因此，可以实现本申请实施例所提供的任一种方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上对本申请实施例所提供的一种基于flink框架的数据去重方法及装置、服务器及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想；本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕泽
技术所有人：武汉中科通达高新技术股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。