基于深度学习的座位检测与识别系统

文档序号:32798677发布日期:2023-01-03 23:03阅读:43来源:国知局
基于深度学习的座位检测与识别系统

1.本发明涉及图像识别的技术领域,尤其是指一种基于深度学习的座位检测与识别系统。


背景技术:

2.图像识别技术是以图像的主要特征为基础的识别技术。每个图像都有它的特征,对图像识别时眼动的研究表明,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方,这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。由此可见,在图像识别过程中,知觉机制必须排除输入的多余信息,抽出关键的信息。同时,在大脑里必定有一个负责整合信息的机制,它能把分阶段获得的信息整理成一个完整的知觉映象。
3.在人类图像识别系统中,对复杂图像的识别往往要通过不同层次的信息加工才能实现。对于熟悉的图形,由于掌握了它的主要特征,就会把它当作一个单元来识别,而不再注意它的细节了。这种由孤立的单元材料组成的整体单位叫做组块,每一个组块是同时被感知的。在文字材料的识别中,人们不仅可以把一个汉字的笔划或偏旁等单元组成一个组块,而且能把经常在一起出现的字或词组成组块单位来加以识别。
4.图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。文字识别的研究是从1950年开始的,一般是识别字母、数字和符号,从印刷文字识别到手写文字识别,应用非常广泛。
5.数字图像处理和识别的研究很早,至今也有近50年历史。数字图像与模拟图像相比具有存储,传输方便可压缩、传输过程中不易失真、处理方便等巨大优势,这些都为图像识别技术的发展提供了强大的动力。
6.物体的识别主要指的是对三维世界的客体及环境的感知和认识,属于高级的计算机视觉范畴。它是以数字图像处理与识别为基础的结合人工智能、系统学等学科的研究方向,其研究成果被广泛应用在各种工业及探测机器人上。现代图像识别技术的一个不足就是自适应性能差,一旦目标图像被较强的噪声污染或是目标图像有较大残缺往往就得不出理想的结果。
7.图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前,在图像识别的发展中,主要有三种识别方法:统计模式识别、结构模式识别、模糊模式识别。图像分割是图像处理中的一项关键技术,自20世纪70年代,其研究已经有几十年的历史,一直都受到人们的高度重视,至今借助于各种理论提出了数以千计的分割算法,而且这方面的研究仍然在积极地进行着。
8.由于时代的发展以及人们对于自身的要求逐渐提高,加之竞争越来越激烈,内卷现象越来越严重,导致同学们对于专注学习的热情逐步提升,对提供专注的学习环境的呼声越来越高。加之同学们在追求自身提升与发展的过程中,对于考公考研的热情逐渐提高,导致考公考研数量激增,这也带来自习需求增加。数量的增加加之竞争的激烈导致图书馆
的座位常常供不应求,许多同学因为种种原因不能整日待在图书馆,又为了防止自己本来学习的座位被别人占据,导致占座行为频发,大规模图书馆占座现象严重。
9.在自习需求激增,自习热情高涨的情况下,自习产业正在悄然出现,一些app帮助同学限制手机使用频率提高自习效率,一些商家开办付费自习室提供良好环境等等。这些无一不说明学校图书馆没有办法满足许多同学的自习需求,现有的图书馆自习管理系统也不完善不健全,因此开发一款图书馆座位监管系统以提高座位利用率,促进座位流通势在必行。
10.图书馆占座现象严重,导致座位利用率不高,许多真正想学习的人因为他人占座而要找很久位置,耽误时间;一些没有在自习的同学长时间霸占座位,不利于座位流通的同时大大降低每个座位带给同学的自习收益。
11.图书馆场景大,楼层多且结构复杂,管理员监控难以顾及这么大的范围。学校的图书馆监管系统并没有对占座行为进行明确限制规定,仅靠标语等软措施很难真正将占座问题解决,也很难给占座同学以警示。新来的学生找位置困难,明明有大片空座位,却因为占座而没法自习,时间成本增加,自习同学心情变差。
12.数据显示,只有少部分同学经常使用座位管理系统,超过9成的同学偶尔使用或不使用,系统使用率低;大部分同学对于座位管理系统的评价是满意的,并且认为该系统有助于学校图书馆座位管理。并且高校座位系统在功能配备上较完备,但仍可以进一步改善提升。近三成同学认为无需使用座位管理系统;对于有需求的同学来说,如果推行座位管理系统,他们愿意使用,同时也希望该系统在功能上更加完整。


技术实现要素:

13.本发明的目的在于克服现有技术的不足与缺点,提出了一种基于深度学习的座位检测与识别系统,解决目前图书馆占座现象导致的座位流通差等问题。
14.为实现上述目的,本发明所提供的技术方案为:基于深度学习的座位检测与识别系统,包括:
15.图像采集传输模块,用于将摄像头采集到的图像信息传输给服务器,服务器对摄像头采集到的座位的实时视频图像后,截取其中的部分图像帧,经过抗畸变处理之后作为图像特征传递给座位检测模块;
16.座位检测模块,采用预训练的深度学习检测模型对图像特征进行检测并分割出每个座位;其中,所述深度学习检测模型集成了cascade-rcnn、fpn和resnest网络;
17.座位识别模块,采用预训练的resnet101网络实时识别每个分割出来的座位的当前状态;
18.用户界面模块,用于可视化地展示当前场景内的座位情况,通过可视化的楼层与区域显示,将接收到的座位识别模块传入的座位信息实时传递给用户。
19.进一步,所述图像采集传输模块通过ov2640广角镜头,以60帧率采集图像数据并通过串口向wifi模块传送,所述wifi模块接入onenet协议完成网络配置,设置协议模式实现对视频数据的保护工作,局域网内工作传输时,作为tcp client向服务器进程tcp server发送视频流,最后在服务器端根据广角镜头提前测定的畸变参数,采用矩阵变换的方法对畸变进行矫正。
20.进一步,所述座位检测模块采用了集成cascade-rcnn、fpn、resnest网络的深度学习检测模型,其中,cascade-rcnn网络使用resnest作为多通道注意力的骨架网络处理输入图像,resnest网络是基于注意力的resnet最新改进模型,resnest网络在sk-net的通道间注意力的基础上进行改进,增设了多个cardinal组即基数组,进行组内的通道注意力融合后,又将全局不同基数组的特征进行拼接,大幅增加了下层的特征丰富性,cascade-rcnn网络输出特征后,再使用多个不同iou值的检测框detector进行级联,逐步对低iou值的框进行优化,每个detector的rpn检测框模块都使用fpn特征金字塔结构,对输入特征进行多尺度处理,增强不同尺度的检测能力。
21.进一步,所述座位识别模块采用resnet101网络作为座位状态分类的骨干网络,该resnet101网络采用“预训练-微调”的框架进行训练,并采用微软公司公布的基于imagenet数据集的预训练权重进行初始化,充分利用先验知识,降低对座位状态数据集的采集量,降低工作难度,最后,通过设计简易的判断逻辑,即根据resnet101网络对当前座位状态的判断并结合座位在过去若干个时刻的状态,决定当前座位的最终状态。
22.进一步,所述用户界面模块为包含楼层与区域显示、座位筛选、座位状态监视功能的管理端界面,其还能显示座位状态更详细的信息,包括禁用、占座、有人、无人以及用户端显示为“不可用”的座位的实际状态是“正常使用中”或“被占座”,其采用scroll-view来实现楼层单元的滑动以及座位地图的拖动,完成楼层与区域显示的功能,座位信息通过基于django框架搭建的mysql数据库存储,完成座位状态监视的功能,并根据监视结果实现座位筛选功能。
23.本发明与现有技术相比,具有如下优点与有益效果:
24.1、检测与识别分离,通过复用一次检测结果并进行多次识别,来实现高频率的实时座位状态检测。
25.2、系统具有高精确度,高实时性,全自动检测,自动定位、编号、识别座位,无需人工操作。
26.3、利用无监督学习,能够利用很少的数据量自适应不同的场地与环境,做到简单部署高效部署。
附图说明
27.图1为系统架构图。
28.图2为座位状态判断的流程图。
29.图3为检测运行流程图。
30.图4为小程序读取数据流程图。
具体实施方式
31.下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
32.本实施例提供了一种基于深度学习的座位检测与识别系统,具体是结合了计算机视觉、深度学习技术,通过摄像头拍摄座位状态信息,再利用图像分割与识别算法对座位状态进行判断。得到座位具体状态后,再通过小程序将状态显示给用户。具体流程如图1所示,
首先采用多个摄像头采集图书馆内座位的实时图像信息。每天一次定期对采集到的图像中的座位做检测分割,以便定位当天各个摄像头视野中的座位具体位置坐标。定位之后再将当天座位的在图像视野内的位置情况和编号发送到后续的小程序端和分类端。在图书馆开馆之后,摄像头会实时采集图像,并通过局域网ip点对点传输,将当前帧传至服务器进行识别。服务器通过分类算法判断每个对应编号座位的当前状态(有人、无人、占座、禁用),并通过确认逻辑来对座位状态做最终判断,再将逻辑结果发给小程序端。小程序端根据收到的对应座位编号当前的逻辑状态,在小程序界面上进行可视化展示,把图书馆的状态传递给用户。
33.具体地,该系统包括以下功能模块:
34.座位检测模块,在数据集处理上,对于采集到的多角度座位图片进行了标注,总共采用了26个不同视角,进行了468个座位分割。将其中的22个视角作为训练集,4个视角作为验证集。
35.采用预训练的深度学习检测模型对图像特征进行检测并分割出每个座位;其中,所述深度学习检测模型集成了cascade-rcnn、fpn和resnest网络,其中,cascade-rcnn网络使用resnest作为多通道注意力的骨架网络处理输入图像,resnest网络是基于注意力的resnet最新改进模型,resnest网络在sk-net的通道间注意力的基础上进行改进,增设了多个cardinal(基数)组,进行组内的通道注意力融合后,又将全局不同基数组的特征进行拼接,大幅增加了下层的特征丰富性,采用resnest作为骨架网络对于目标检测分割效果有巨大的提升,而cascade-rcnn网络则是对于faster-rcnn的改进,相比于faster-rcnn只采用单一的iou值作为检测框的判定标准,cascade-rcnn网络输出特征后,再使用多个不同iou值的检测框detector进行级联,逐步对低iou值的框进行优化,也起到了很好的防止过拟合和避免trainer detector iou mismatch的问题,每个detector的rpn检测框模块都使用fpn特征金字塔结构,对输入特征进行多尺度处理,增强不同尺度的检测能力,fpn特征金字塔结构大大加强了检测过程中对于多尺度目标的准确率和灵敏度。
36.座位识别模块,判断逻辑的流程如图2所示,实际的判断逻辑对某些状态进行了简并,得到最终的流程图。利用座位坐标对图片进行切割,得到座位图片后进行去重,防止训练集和测试集中出现过于相似的图片,造成数据污染。对数据进行了标注,得到共834张带标注的图片,分为“有人“、”无人“和”占座“三种状态。将数据集按4:1的比例划分为训练集和验证集。将带标签的数据送入resnet101网络中进行训练。具体流程如图3所示。
37.利用基于此次收集的数据得到的网络对上次用利用手机收集的数据进行验证,准确率为100%,数据分布漂移并不会对网络表现造成影响。
38.座位识别模块采用resnet101网络作为座位状态分类的骨干网络,该resnet101网络采用“预训练-微调”的框架进行训练,并采用微软公司公布的基于imagenet数据集的预训练权重进行初始化,充分利用先验知识,降低对座位状态数据集的采集量,降低工作难度,最后,通过设计简易的判断逻辑,即根据resnet101网络对当前座位状态的判断并结合座位在过去若干个时刻的状态,决定当前座位的最终状态;
39.图像采集传输模块,用于将摄像头采集到的图像信息传输给服务器,服务器对摄像头采集到的座位的实时视频图像后,截取其中的部分图像帧,经过抗畸变处理之后作为图像特征传递给座位检测模块。硬件部分摄像头将处理芯片电路置于背面,加入散热板以
避免芯片工作过热,将电源固定在模块上部,通过数据线实现摄像头数据传输至pcb板,一定长度的数据线有利于摄像头的灵活部署。天线也通过可拆卸方式与pcb板连接,实现在网络较差情形下数据的传输。摄像头方向与位置可以随意改变再进行固定以方便测试工作的进行。ov2640以60帧率采集图像数据并通过串口向wifi模块传送。较大的视野范围以及可靠的清晰度是后续处理工作的保障。灵活的部署方式使得后续的采集数据工作更加方便。
40.采用基于wifi模块的无线摄像头,wifi模块的传输速率决定了最后能得到的视频清晰度和视频帧率。选择具有较好性能的wifi模块,有效提高整体性能。广域网内工作传输时,将wifi模块接入onenet协议完成网络配置,设置协议模式实现对视频数据的保护工作,局域网内工作传输时,作为tcp client向服务器进程tcp server发送视频流。
41.130度广角摄像头存在较大程度的畸变,这对后续处理会产生十分不利的影响。成像过程中空间中的一点由世界坐标系最后转换到图像平面(图像像素坐标系)。在此过程中由于图像平面是标准矩形,而世界坐标系则是三维的半球形,使得转换过程产生畸变。通过对摄像头自身畸变参数的测试,通过矩阵变化可以有效消除畸变
42.畸变参数的测量通过标准标定图片在标定板在不同位置、不同角度、不同姿态下拍摄。之后手动校准棋盘格节点坐标位置消除畸变。使用autocad设计摄像头外壳,并自己设计3d打印方案,进行打印。
43.用户界面模块(即前述的小程序端),包含楼层与区域显示、座位筛选、座位状态监视功能的管理端界面,其还能显示座位状态更详细的信息,包括禁用、占座、有人、无人以及用户端显示为“不可用”的座位的实际状态是“正常使用中”或“被占座”。小程序部分用scroll-view来实现楼层单元的滑动以及座位地图的拖动。在ui视图编写中出现设计稿像素大小与实际模拟机型不符的问题,通过单位换算方法将各模块元素由pt换算成rpx,在针对具体问题细微调整,最终得到视觉观感较好的ui界面。
44.小程序包含如下功能:座位筛选、楼层与区域显示、座位状态显示以及简易管理端雏形。座位筛选功能在实现方面首先对作为进行分类,储存为不同的class,而后在wxml界面为座位类别的按钮添加bindtap函数,再通过添加选择逻辑达到实现座位筛选的功能。楼层与区域显示方面,采用scroll-view容器制作楼层选择滑块,为相应区域与楼层添加bindtap函数与navigator导航,以达到点击后跳转页面的目的。座位状态显示通过每隔一段时间的数据请求实时读取到小程序中,并通过生命周期函数实现跳转到该界面时显示当前座位状态并实时更新。管理端在用户端的基础上去掉座位筛选功能,添加更丰富的状态信息包括禁用、占座、有人、无人等,便于管理员实时管理监控座位状态。
45.整体上,根据设计模板与素材实现一个小程序端的demo,拥有一个楼层一个区域的12个可用座位。
46.基于django框架搭建mysql数据库,用来存放座位信息。mysql服务所在主机ip为localhost,存放在本地中。数据库中设有sit这一app,sit下存放着用来储存座位信息的表。读取数据时用python panda与timer定时器定时读取输出的座位文件result.csv,将其储存在表中,小程序通过接口访问数据库,每5s将当前数据写入nowsit表中,小程序前端通过接口从nowsit表中读取座位状态变量condition。在前端中的onshow函数与逻辑判断函数支持下将结果显示在小程序中。具体流程如图4所示。
47.上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的
限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1