
1.本技术涉及视频跟踪技术领域,具体而言,涉及一种自动视频生成方法、装置及电子设备和芯片系统。
背景技术:2.随着全民健身的理念日益普及,人们参加体育活动的热情日益高涨。人们在参加体育活动享受运动带来的乐趣的同时,也希望将自己在活动过程中的精彩瞬间记录下来,从而上传到社交网站与朋友分享,或者保存为美好的回忆。
3.事实上,不止参加体育活动,很多场景下都有生成个性化视频的需求,例如参观旅游景区、博物馆、展馆等场所的活动或视频监控领域。基于旅游景区、博物馆、展馆等安装的视频采集设备会记录每个用户的视频信息,甚至还能记录部分音频信息。如果能将采集到的视频按照用户、家庭或团队等组织进行自动记录、剪辑、选取背景音乐、转场渲染并最终提供给用户生成好的视频内容,就可以大大方便用户记录参观的美好内容,同时可以方便地携带。
4.传统的视频生产方法,常见的有两种:一种是通过人工来识别并进行打点标注,然后将视频素材和标注信息送入视频生产模块中渲染出所需的视频结果,这种方法需要多人多天的工作量才能完成识别,生产效率低,成本高。
5.另一种结合深度学习的自动视频生成的方法,需要先通过摄像头拍摄画面,再依赖人脸识别技术,通过识别人脸,并提取对应人脸所在视频片段完成最终合成。然而,这种视频采集方式可以应用的场景有限,特别是在不能通过人脸识别提取人脸素材的使用场景下,难以自动生成视频。
6.特别是对于例如在用户带着安全帽、护目镜滑雪时,在用户带头盔开卡丁车时,在用户高速漂流时,在用户参与马拉松赛跑时,不光人脸很难捕捉,常见的字符识别对号牌等识别的正确率也比较低,特别是光照不足、存在阴影、出现褶皱以及遮挡等等缘故,现在还没有特别好的办法提高这些场景下的识别效果。如果为了降低识别错误率,将识别正确率阈值设置得过高,常常无法检索到任何结果,降低了检出率,因此检出率和正确率常常是一对矛盾,难以同时满足。
7.这里,检出率的计算方法是在例如100个参与者中检出50个参与者,则检出率是50/100=50%。而正确率是指在检出结果中识别结果正确的为30人,则正确率是30/100=30%。
8.因此,在这样的识别条件下,如何能够在提高检出率的同时,提高识别正确率,自动捕捉并检索得到该参与者的视频,这是现有技术需要解决的难题。
技术实现要素:9.本技术旨在提供一种视频生成方法,可自动检出并识别出现在摄像头布设场景中的每一个检测对象的“键值-视频帧数据”,以便根据客户需求生成特定的特定检测对象的
个性化短视频,同时满足检出率要求和正确率要求。
10.根据本发明的视频生成方法,其包括:获取视频流,并且在所述视频流中确定多个检测帧;对每一检测帧进行多对象检测,得到多个检测框;对所述多个检测框进行跟踪匹配,得到对应于检测对象的彼此关联的检测框数据;对彼此关联的检测框进行特征识别,得到表征检测对象的目标键值及相应的视频数据;以及利用所述目标键值和所述视频数据,生成与特定识别对象对应的视频。
11.根据本发明的一实施例,所述“对每一检测帧进行多对象检测,得到多个检测框”包括:对每一检测帧进行多对象检测,得到分别对应于多个检测对象的多个第一数据序列,每个第一数据序列包括与检测对象的至少一个识别目标分别对应的至少一个检测框,所述至少一个检测框包括第一检测框。
12.根据本发明的一实施例,所述“对所述多个检测框进行跟踪匹配,得到对应于检测对象的彼此关联的检测框数据”,包括:对检测帧的每个第一数据序列的所述第一检测框进行跟踪匹配,得到多个第二数据序列,每一个第二数据序列包括彼此关联的至少第一检测框数据。
13.根据本发明的一实施例,所述“对彼此关联的检测框进行特征识别,得到表征检测对象的目标键值及相应的视频数据”,包括:针对每一个第二数据序列中的检测框数据进行特征识别,并且通过优势判断规则,得到表征检测对象的目标键值,生成第三数据序列,每一个第三数据序列包括所述目标键值和对应的视频数据。
14.根据本发明的一实施例,所述第一数据序列包括:帧号、第一检测框序号、以及至少第一检测框的四个角的位置数据和类别。
15.根据本发明的一实施例,所述第二数据序列包括帧号和识别对象序号,以便根据帧号和识别对象序号去引用相应的第一数据序列,获得帧数据。
16.根据本发明的一实施例,所述第三数据序列包括表征识别对象特征的多个键值、以及与之对应的视频流的开始位置和视频流的结束位置。
17.根据本发明的一实施例,所述“对每一检测帧进行多对象检测”,包括:利用深度神经网络对每一检测帧进行多对象检测。
18.根据本发明的一实施例,所述“对检测帧的每个第一数据序列的所述第一检测框进行跟踪匹配”,包括:利用卡尔曼滤波得到当前检测帧的所述第一检测框在后一检测帧中的预测位置;基于所述预测位置对所述后一检测帧的所有第一检测框进行过滤;以及将过滤得到的所述后一检测帧的第一检测框与所述当前检测帧的所述第一检测框进行匹配,从而得到所述彼此关联的第一检测框数据。
19.根据本发明的一实施例,所述卡尔曼滤波的状态向量包括跳帧参数,用于表征检测帧之间的间隔帧数量。
20.根据本发明的一实施例,若所述检测对象为人物对象,则所述第一检测框为人体对象框;若所述检测对象为车辆对象,则所述第一检测框为车体对象框。
21.根据本发明的一实施例,所述“对检测帧的每个第一数据序列的所述第一检测框进行跟踪匹配,得到多个第二数据序列”包括:将相邻帧中运动方向、距离和第一检测框的外形尺寸落入预定范围内的第一检测框关联起来,由此得到多个第二数据序列。
22.根据本发明的一实施例,所述至少一个检测框还包括:对应检测对象的其他识别
目标的其他检测框,所述其他检测框位于所述第一检测框范围内。
23.根据本发明的一实施例,所述其他检测框包括字符框或编码框。
24.根据本发明的一实施例,所述第一检测框为人体对象框,并且所述“针对每一个第二数据序列中的检测框数据进行特征识别,并且通过优势判断规则,得到表征检测对象的目标键值,生成第三数据序列”包括:利用深度神经网络识别第一检测框的局部特征id;和将图像质量评分排序中前k个局部特征id设定为所述目标键值。
25.根据本发明的一实施例,所述局部特征id为头肩id。
26.根据本发明的一实施例,所述检测框还包括字符框或编码框,“针对每一个第二数据序列中的检测框数据进行特征识别,并且通过优势判断规则,得到表征检测对象的目标键值,生成第三数据序列”包括:针对每一个第二数据序列中的字符框或编码框数据进行特征识别,并且通过优势判断规则,将置信度大于阈值的识别结果通过投票机制确定的字符序列作为表征检测对象的目标键值,生成第三数据序列。
27.根据本发明的一实施例,所述“利用所述目标键值和所述视频数据,生成与特定识别对象对应的视频”包括:响应于视频生成指令,获取表征检索对象的检索键值;将所述检索键值与所述第三数据序列中的键值进行匹配,得到相似度最大的匹配键值;和利用所述匹配键值检索相应的视频片段。
28.根据本发明的一实施例,若输入检索要求是用户拍摄的检测对象的图像,则所述检索键值是对所述图像计算得到的图像键值,若输入检索要求是号牌字符或者编码字符,则所述检索键值是号牌或编码的字符数据。
29.根据本发明的一实施例,在多个摄像头采集图像的情况下,各摄像头数据分开处理或集合处理。
30.本发明还提供一种视频生成装置,包括:视频获取单元,用于获取视频流,并且在所述视频流中确定多个检测帧;多对象检测单元,用于对每一检测帧进行多对象检测,得到分别对应于多个检测对象的多个第一数据序列,每个第一数据序列包括与检测对象的至少一个识别目标分别对应的至少一个检测框,所述至少一个检测框包括第一检测框;跟踪匹配单元,用于对检测帧的每个第一数据序列的所述第一检测框进行跟踪匹配,得到多个第二数据序列,每一个第二数据序列包括彼此关联的至少第一检测框数据;特征识别单元,用于针对每一个第二数据序列中的检测框数据进行特征识别,并且通过优势判断规则,得到表征检测对象的目标键值,生成第三数据序列,每一个第三数据序列包括所述目标键值和对应的视频数据;和 视频生成单元,用于利用所述目标键值和所述视频数据,生成与特定识别对象对应的视频。
31.本发明还提供一种电子设备,其包括处理器和存储器,其中,所述存储器用于存储信息发送程序代码,所述处理器用于调用所述程序代码来执行权利要求1-20任一项所述的方法。
32.本发明还提供一种芯片系统,所述芯片系统包括至少一个处理器,存储器和接口电路,所述存储器、所述接口电路和所述至少一个处理器通过线路互联,所述至少一个存储器中存储有指令;所述指令被所述处理器执行时,权利要求1-20中任意一项所述的方法得以实现。
33.本发明还提供一种计算机程序,所述计算机程序包括指令,当所述计算机程序被
计算机执行时,使得所述计算机执行如权利要求1-20中任意一项所述的方法。
34.根据本技术的上述实施例,在图像识别之前,采用跟踪的方式对数据进行多帧关联,并且这种关联的逻辑并非基于对字符内容的准确确认或者人脸的准确识别,而主要是对可以识别的对象框(人体框或者车体框)的外形尺寸匹配、以及物理移动方向和距离的合理性范围内的关联,如此尽可能多地将相似可能性高的数据在处理初期就彼此绑定。另外,在后期通过投票机制再确定图像键值、号牌或者编码字符信息,提供多种检索手段。由此,本发明的技术方案可有效提升对特定对象识别的准确性和泛化能力,例如可有效地解决由于个人体貌特征、头盔或号牌穿戴习惯和复杂人群背景影响所导致的错误率高的问题,还能够提高检索准确度和效率。
35.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本技术。
附图说明
36.通过参照附图详细描述其示例实施例,本技术的上述和其它目标、特征及优点将变得更加显而易见。
37.图1a-图1c是根据本发明一实施例的马拉松比赛的场景图以及参与者号牌的视频截图。
38.图2是根据本发明一实施例的自动场景视频生成系统的结构图。
39.图3根据本发明另一实施例的自动场景视频生成方法的流程图。
40.图4是根据本发明另一实施例的视频预处理模块生成人物-视频标注数据的流程示意图。
41.图5是根据本发明另一实施例的跟踪框和检测框的关联方法示意图。
42.图6是根据本发明另一实施例的系统架构图。
具体实施方式
43.本发明涉及视频制作领域,尤其涉及一种自动场景视频生成的方法及系统,可自动检出并识别出现在摄像头布设场景中的每一个检测对象的“键值-视频帧数据”,以便根据客户需求生成特定的某个或某几个检测对象的个性化短视频,同时满足检出率要求和正确率要求。
44.这里,检测对象可以是人,例如马拉松比赛中的参赛者(参见图1a-1c),也可以是物,例如赛车比赛中的参赛车辆等。
45.根据一些实施例,本发明的自动场景视频生成方法及系统可在多个摄像头中出现的多个检测对象中区分并获取得到各个检测对象实际出现的视频片段,进而,针对每个检测对象汇总并得到该检测对象在多个摄像头的各个视频片段,然后响应于客户要求检索找到特定检测对象,并按照模板的预设规则组织成个性化视频。这里,所述预设规则可以为按照各个视频片段的时间先后顺序,或者也可以为按照团队成员顺序等等,当然还可以具有其他的形式,本技术并不限定。
46.一、系统结构如图2所示,在本技术的一实施例中,自动场景视频生成系统包括:第一输入装置
10、处理装置20和第二输入装置30。
47.第一输入装置10包括若干摄像头,摄像头用于拍摄视频、生成视频数据并将其传输至处理装置20,例如通过5g网络传输至处理装置20。
48.处理装置20包括:视频预处理模块21、模板编辑模块22、信息收集模块23和视频生成模块24。
49.视频预处理模块21用于接收若干摄像头拍摄的视频流数据,对摄像头布设场景中出现的每一个检测对象的检测目标进行特征检测、跟踪匹配、以及特征识别和提取,此检测目标可以包括检测对象的整体图像、号牌信息、编码信息(例如贴在胸前、躯干上、头盔上的二维码或其他形式的编码信息)或其他能够区分特定检测对象的检测目标。
50.具体地,视频预处理模块21对单帧视频图像进行特征检测,获得所有出现的检测对象的一个或多个检测目标的检测框,再对每一个关联检测框数据进行跟踪,即根据物理距离、方向、相似度等等标准,将多帧图像的对应于同一个检测对象或目标的尽可能多的检测框数据关联起来,再对每一组关联起来的检测框数据进行特征识别和键值设定,生成对应于该检测对象的“键值-视频帧数据”,存储在视频素材库k1中,供视频生成模块24调用。
51.模板编辑模块22用于编辑模板,生成特定场景适用的模板,并存储在模板资料库k2中,供视频生成模块24调用。模板资料库k2包括各种素材与特效,包括但不限于旅游景区、博物馆、展馆、运动项目等的介绍、宣传、景观资料等等,可以是文字形式、图片形式、音频形式、视频形式、预制特效。特效包括但不限于去掉人群、放大特写、拖尾特效等。
52.信息收集模块23接收来自于第二输入装置30的任务信息,并将其存储在视频生成任务库k3,并向视频生成模块24发送视频生成任务。该任务信息包括:检索目标是检测对象的整体图像信息、号牌信息还是扫描的编码信息,用户基础信息,以及模板选择等等。这里检索目标如果是检测对象的整体图像信息,信息收集模块23会通过神经网络算法对该图像计算出一个图像键值作为待检索键值来存储,如果检索目标是号牌或者编码字符,就按照字符信息作为待检索键值来存储。
53.第二输入装置30获得用户的输入信息,包括但不限于:通过摄像头31拍摄的检测对象的整体图像、输入的号牌字符、扫描的编码字符或其他用户信息等等,以及选择的模板信息,并将这些任务信息发送至信息收集模块23。
54.二、视频生成模块的工作步骤视频生成模块24包括以下三个工作步骤:接收视频生成任务,视频获取和模板调用。
55.第一步,根据接收的视频生成任务,在视频生成任务库k3中获取任务信息,若输入检索要求是用户拍摄的检测对象的整体图像,则计算图像键值,若输入检索要求是号牌字符或者编码字符,则获取号牌或编码的字符数据;第二步,根据上一步获取的图像键值和/或字符数据,在视频素材库k1中查询并匹配“键值-视频帧数据”中的键值,这里的匹配只要满足图像键值和/或字符数据中的任一者与对应类型的键值的相似度大于预定阈值的条件即可,如果有多个键值,只要单个匹配成功就可以,如此获得与该键值关联的多个视频帧数据;和第三步,从模板资料库k2调取并获得相应的模板,并将上一步骤获得的视频帧数据根据预设的剪辑规则进行视频切分、片段排序、添加特效和添加音乐等处理后置入模板,
从而生成用户专属集锦视频数据。
56.如图6所示,用户可以通过手机app和/或网络客户端等进行终端访问或者编辑。相应地,视频预处理模块21、模板编辑模块22、信息收集模块23和视频生成模块24可以为用于实现上述方法实施例中所介绍的相应功能的计算设备,或是在计算设备中实现的硬件或软件模块。所述计算设备可以为服务器,例如物理服务器或虚拟服务器,所述计算设备还可以为应用于云环境中的计算设备,即云端设备(如云服务器或远程服务器)。当计算设备应用在云环境中时,允许其存在部分或全部的虚拟化。本技术实施例对计算设备或服务器的具体形态不作限定。整个系统的处理均可在云端完成。
57.通过对视频素材进行剪辑、智能特效处理以及合成等,本系统可以自动生成个性化的视频,并且生成后,根据用户的需求,通过短信、公众号等方式将视频分发到用户,个人可以播放、下载、转发等。
58.三、视频预处理模块的工作步骤如图3、图4和图5所示,视频预处理模块21生成“键值-视频帧数据”的方法包括特征检测、特征跟踪、以及特征识别和提取。
59.第一步特征检测视频预处理模块21获取视频流数据,并将所述数据按时序拆帧得到的检测帧图像依序放入检测队列中。这里可以根据应用场景设置间隔多帧作为检测帧,但本技术对此没有限制。在本发明实施例中,获取所述视频流数据的方式可以是通过手机、摄像头、摄影仪器等具有影像拍摄和数据存储的装置,将数据采集后传输方式给视频预处理模块21。如此,检测步骤随着视频流的采集循环进行。
60.视频预处理模块21从检测队列中获取一视频帧,作为当前视频帧,对于检测帧,利用训练好的检测网络(例如yolov5、faster r-cnn、ssd等检测网络)进行特征检测,得到各个检测框。按照目标的类型可将检测框划分为对象框、字符框、编码框等。如此,获得至少包括检测框位置和检测框类别的第一数据序列。对于符合置信度要求的,在视频素材库k1中保存该第一数据序列,如下表。
61.表1 第一数据序列
帧号识别对象序号对象框字符框(如有)二维框(如有)数字数字四个角的位置数据等四个角的位置数据等四个角的位置数据等
这里,检测框位置是指对象框、字符框、编码框在帧图像平面上对应的四个角的坐标信息,特别是对象框,长宽比的形状具有一定的特征度。根据将检测框的四个角的坐标信息可以换算得到检测框中心的横坐标、检测框中心的纵坐标、检测框的大小和长宽比等等数据,在后续步骤中使用。
62.另外,优选地,为了尽早关联各项数据,可以通过合适的物理间距范围判断,将对象框与字符框、编码框之间关联起来,比如在人体胸部位置贴有号牌,这样的话,可以根据预设间距来关联代表人体位置的对象框和代表号牌位置的字符框。
63.第二步特征跟踪视频预处理模块21从视频素材库k1中获取连续两个帧,作为第一和第二检测帧,利用跟踪算法对第一和第二检测帧的所有第一数据序列逐个进行跟踪匹配。
64.根据一实施例,对于马拉松比赛,运动者的运动方向和速度可预期性高,因此可以
仅仅使用连续的两帧,减少计算量,也可使用更多帧。
65.具体地,在对第二检测帧进行跟踪时,首先根据第一检测帧中各检测目标的检测框及其类别,以及第二检测帧中的各检测框及其对应的类别,确定第二检测帧中的哪一个检测框对应于第一检测帧中的哪一个检测框,然后对两者进行关联,获得了多段数据序列,均指向同一检测对象。
66.例如,在特征检测阶段,对第一检测帧获得m个第一类别的检测框,对第二检测帧获得n个第一类别的检测框,在跟踪匹配阶段,将所述m个检测框与所述n个检测框进行匹配,得到的p个匹配对,作为p个关联数据跟踪序列,进行编号,这里p≤m、n。
67.跟踪方法如下:如图5所示,首先,当跟踪时,在提前预设的运动方向上和预设轨迹边界内,基于第一检测帧中的任一检测框k0进行位置预测,预测得到预测框k1,即图中虚线框所示。
68.接下来,根据预测结果中的各个预测框k1,与第二检测帧的各个检测框进行匹配。如图5所示,通过将不同运动方向的、距离远的、不相似的检测框筛除掉,并通过匹配运算留下了相同运动方向上、最接近的、轮廓最相似的一个检测框k2,如此在第二检测帧中得到了该检测目标匹配结果。根据一些实施例,可采用iou匹配方法。根据本发明另一些实施例,匹配时,每一条件都要满足,如此才能匹配起来。例如,如果检测框的轮廓最相似,这时候位置信息就起决定作用。
69.在预测过程中,多出了一个长宽比的变化率,这样充分考虑了物体在视频中的检测框的长宽比不是固定的情况。另外,根据本发明,在deepsort的基础上,引入了一个新的参数n,其表示接下来最多可以跳多少帧,同时保证目标不丢失。这一设计,不仅大大提高视频检测的效率,而且保证跟踪的有效性,同时还减少大量的计算成本。这个跳帧设置的参数可以根据每个摄像头、目标速度、密集程度等等及场景的不同来确定。
70.在上面的说明中,检测框是根据类别分别进行跟踪的,然而对于已经在特征检测步骤中多项关联起来对象框、字符框、编码框等的情况,可无需重复跟踪。例如,在特征检测阶段,对第一检测帧获得m个第一类别的检测框以及与之关联的a个其他类别的检测框,对第二检测帧获得n个第一类别的检测框以及与之关联的b个其他类别的检测框,在跟踪匹配阶段,将所述m个检测框与所述n个检测框进行匹配就可以,得到的p个匹配对,作为p个关联数据跟踪序列,进行编号,这里p≤m、n。
71.这一跟踪过程随着视频流的特征检测循环进行。经过跟踪,多帧的关联数据对应并关联起来,获得了彼此关联且彼此时序相连的多段关联数据序列,即第二数据序列,如下表2所示。第二数据序列只需要存储帧号和识别对象序号,便可以在必要时根据帧号和识别对象序号去引用已经存储的第一数据序列,获得帧数据。
72.表2 第二数据序列记录序号帧号1识别对象序号1帧号2识别对象序号2
…
数字数字数字数字数字
…
为了提高准确度,跟踪步骤仅基于识别对象的物理形状和位置进行初步筛选,以实现基础的数据匹配和关联,并不去做内容识别,特别是号牌信息等数字信息。这是因为在运动过程中,存在错误识别的可能性,例如号牌数字如果有1和7、或者8和9等等,因此并不一开始就用号牌的文本内容进行筛选,而是在跟踪之后,再进行各个关联数据具体内容的
识别筛选,这样本发明可以很好地适用于比较复杂的应用环境,特别是例如长跑或者滑雪等人脸识别和字符识别准确度不高的场合,避免过于强调准确率而牺牲了检出率。
73.跟踪匹配算法可包括例如卡尔曼滤波和匈牙利算法。匈牙利算法(hungarian algorithm)是种寻找二分图的最大匹配的算法,在多目标跟踪问题中为寻找前后两帧的若干目标的匹配最优解的算法。
74.第三步特征识别和键值设定下面对每一个第二数据序列进行特征识别和键值设定,以便用若干键值来表示对应于同一个检测对象的关键图像特征、号牌特征和编码特征,作为后续视频制作的检索查找依据。
75.识别时,首先获得每一个第二数据序列所指向的多帧图像,其包括例如l1个对象框图像、l2个字符框图像、以及l3个编码图像,这些特征都应对应同一个检测对象l0。此时,将所有的对象框图像仅截取关键的部分图像(根据本实施例,截取的是头肩部分)。通过神经网络算法计算出该截取的部分图像的键值,将所有字符框以及编码框图像识别成为字符信息,并给出置信度参数。置信度低的数据直接过滤掉。然后,进行键值设定,以便用若干目标键值表示该检测对象的关键图像特征、号牌特征和编码特征。
76.这里要说明的是,根据本发明的一实施例,在特征检测和跟踪匹配阶段,使用的是整个对象框,而在特征识别阶段,使用的是对象框中的一部分,根据本实施例,截取的是头肩部分,即人体的头部、肩膀部分,不含肩膀以下,例如腰部。但这也并非限制性的,使用包括腰部的上半身的关键图像也是可以的。使用头肩框可以更准确地对检测对象进行特征识别,解决图像中检测对象拥挤相互遮挡造成的无法准确识别目标的情况。
77.具体地,本发明采用优势判断规则设置目标键值:l 关键图像特征:通过选取整体图像质量评分在前(如图像面积最大、根据眼睛和嘴巴判断为正面等最清晰图像)的一个或多个对象框中的关键图像(根据本实施例,关键图像是头肩部分),将这些关键图像的图像键值设定为目标键值。如此,该第二数据序列的检测对象的关键图像特征由预定数量的图像键值表征。根据一实施例,上述预定数量为3个。
78.l 字符和/或编码特征:通过投票机制来设定字符或编码键值。例如,多个字符框图像的识别结果包括a个001,b个061,c个087,则以每个识别结果的置信度为权重,分别计算各个结果的权重值总和,通过投票,将获得最多票数的001作为优势结果,设定为键值,表征该第二数据序列的号牌特征。编码特征也是如此。
79.最终结果保存在视频素材库k1中,成为特有的“键值-视频帧数据”,包括例如3个头肩键值、1个号牌键值、1个编码键值、摄像头序号、开始帧时间、结束帧时间等,如下表3所示,即第三数据序列。
80.表3
ꢀ“
键值-视频帧数据”——第三数据序列
记录序号头肩键值-1头肩键值-2头肩键值-3号牌键值编码键值摄像头序号起始帧时间结束帧时间
…
数字256维向量256维向量256维向量字符串字符串字符串毫秒毫秒
…
考虑实际情况,键值个数可以有一个或多个。另外,第三数据序列可以仅记录起始帧和结束帧的时间,具体可以根据不同应用场景设置。例如,对于马拉松这种运动,参与者理论上只可能在摄像头出现一次,不会返回,这里,图像的断续仅意味着检测目标被遮挡,而非检测目标的消失,因此断续的帧也可以被算入。例如轨迹相同并且相似度高的一段关联数据序列,开始帧为第3帧而结束帧为第15帧,而另一段关联数据序列的开始帧为第18帧
而结束帧为第29帧,此时这里将起始帧按照第3帧,结束帧为第29帧计算,含入被遮挡的16-17帧也是可以接受的。
81.在多个摄像头采集图像的情况下,对数据的处理遵循各摄像头图像逐一进行处理的原则,当然也可以对全部摄像头的数据集合在一起进行处理的方式,关联匹配方式是相同的。
82.四、自动视频生成过程自动视频生成过程如下:第二输入装置30响应于用户请求,将输入的任务信息(通过用户摄像头31拍摄的检测对象的整体图像图像、输入的号牌字符、扫描的编码字符或其他用户信息以及模板信息等等)发送至信息收集模块23;信息收集模块23整理并将数据存储在视频生成任务库k3;视频生成模块24在视频生成任务库k3中获取视频生成任务,根据待检索的键值进行检索:l 字符信息检索:若待检索的键值是号牌或者编码字符信息,在视频素材库k1的“键值-视频帧数据”中查询并匹配号牌键值或编码键值,这里的匹配是指字符信息与键值一致;l 图像信息检索:若待检索的键值是图像键值,在视频素材库k1的“键值-视频帧数据”中查询并匹配例如头肩键值,这时只要该待检索的键值能够与三个头肩键值中的一个匹配成功就可以,这样大大提高了检出率,这里的匹配是指图像键值与键值相似度/距离度量在预设阈值范围内。
83.l 双键值校验:为了避免类似001和007这样的号牌混淆或者号牌识别结果置信度低造成错误率高的情况,一般提供两种待检索键值,即除了用号牌或者编码字符信息进行查询和匹配,还用例如头肩键值进行校验,以置信度高的为准,进行两次筛选,排除可能错误识别号牌的情况,提高识别正确率。
84.l 二次检索:为了更好地匹配数据,可以在根据待检索的键值进行一次检索之后,选择检索结果中的最优数据的键值,再进行二次检索,这样能够大大提高检索结果的准确性。
85.此时根据匹配成功的键值以及“键值-视频帧数据”在视频素材库k1中调取对应的视频,结合从模板资料库k2调取并获得相应的模板,将视频经过处理按照时间顺序置入模板,从而生成用户专属视频数据。
86.根据本发明的技术方案,优点在于下面例举的一项或多项:1. 视频数据预处理操作,即在图像识别之前,采用跟踪的方式对数据进行多帧关联。这种关联的逻辑并非基于对字符内容的准确确认或者人脸的准确识别,而主要是对可以识别的对象框的外形尺寸匹配、以及物理移动方向和距离的合理性范围内的关联,如此尽可能多地将相似可能性高的数据彼此绑定。这里对象框是用大的人体框或者车体框,如此有效跟踪定位,可以更好地对应关联。
87.2. 后期通过优势判断规则再确定小的关键图像的图像键值、号牌或者编码字符信息,由此有效提升图像识别的准确性和泛化能力,并有效地解决了由于个人体貌特征、头盔或号牌穿戴习惯和复杂人群背景影响所导致的错误率高的问题,还能够提高识别效率,同时也能提供人脸、号牌、编码等多种检索方式。
88.相比而言,常规的视频生成技术都是先识别人脸或者号牌,再根据准确的识别结
果进行跟踪,适用于识别正确率较高的场景,这样很难在复杂的户外或者运动条件下达到好的检出率和正确率。
89.另外,本发明中应用的跟踪方法与常规跟踪方法看起来相似,但实质不同。常规跟踪主要应用于判断人流方向、判断车辆是否压线等场合,侧重于识别对象的大概轨迹的分析。相比,本发明主要解决的技术问题是复杂识别环境下无法准确识别人脸或者号牌编码的情况。例如,在马拉松比赛中,参与人员被拍摄截取到的角度各式各样,而如果仅仅用正面人脸检测的正确率就很低,在通过跟踪的方式进行多个角度的匹配,就能大大提高正确率。而且,经过跟踪,以及以号牌信息、编码信息、检测对象的整体图像信息作为基础和/或辅助识别特征,大大地提高了识别的准确度。
90.就拿马拉松比赛为例,从图1a-图1c可以看出,马拉松比赛因参与者员众多,每个镜头可能有几十个人,人脸处于各种角度,人像距离也比较远,因此产生的识别误差很大。特别是,在各种身体或者物品遮挡的情况下,号牌也是软质的材料,贴在人体的位置高低不同,大部分识别出来都是带有褶皱,有变形,有歪斜,很容易误认,如图1c所示。例如,在图1a和图1b中,身穿绿色衣服的女子,头戴遮阳帽,一直低头向前,人脸完全无法识别,而号牌又贴在人下半身上,位置偏低而且歪斜,摄像头很难拍全图像,号牌也很难识别完整。因此,该女子所代表的就是属于在常规正面拍照或者号牌识别的条件下非常难以检出并识别的情况,然而采用根据本发明的技术方案就可以截取到该女子的视频。也就是说,这种多帧关联对非正面拍摄人脸的情况有很高的容错度,而且能够有效过滤掉字符混淆的情况,具有更强的鲁棒性,可有效地消除模糊人脸带来的噪音或缺失的影响,同时降低了计算量,综合平衡了检出率、正确率以及效率等各方面的要求。
91.综合上述内容可知,本发明的技术方案可以有效解决各种场合的个性化视频内容的专业生产,具有如下优点中的一项或多项:1. 正确率高:本系统自动进行视频数据采集,并且通过跟踪、检测并识别,实现了极高的检出率与识别正确率。在马拉松比赛的实践中,一般系统的检出识别正确率只有参数人数的70%左右,而根据本发明的系统的检出识别正确率达到了参赛人数的96%,基本上所有的参与者都可以检索到自己的个人视频集锦。
92.2. 效率高:本系统涉及海量多路实时数据的处理,通过在云端进行分布式生产的管理调度以及分发,充分利用了云系统与5g的成本低、效率高的优势,可以自动生产出大量视频集锦。在实践中,参与者在马拉松比赛之后半个小时就能收到属于自己的个性化视频。
93.3. 个性化:本系统根据对采集的马拉松视频进行自动检测的数据,根据检测对象的整体图像、号牌、编码等,将不同机位、不同角度、不同时段的个人视频根据预定模板要求与场景进行拼接。
94.为了方便描述,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。也就是说,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
95.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。
96.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中,包括若干指令用以使得一台计算机设备(可以为个人计算机、服务端或者网络设备等,具体可以是计算机设备中的处理器)执行本技术各个实施例上述方法的全部或部分步骤。其中,而前述的存储介质可包括u盘、移动硬盘、磁碟、光盘、只读存储器(rom)或者随机存取存储器(ram)等各种可以存储程序代码的介质。
97.以上具体地示出和描述了本技术的示例性实施例。应可理解的是,本技术不限于这里描述的详细结构、设置方式或实现方法;相反,本技术意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。