一种基于OCR的证件失物招领系统及招领方法

文档序号:32068592发布日期:2022-11-05 01:33阅读:208来源:国知局
一种基于OCR的证件失物招领系统及招领方法
一种基于ocr的证件失物招领系统及招领方法
技术领域
1.本发明属于智能招领系统,尤其涉及一种基于ocr的证件失物招领系统及招领方法。


背景技术:

2.在大学校园中,证件物品的丢失是一件普遍存在的现象,以学校的一卡通为例,一卡通作为学生频繁使用的证件,在进出校门或图书馆时都会使用,容易丢失。由于校园人员密集,且学生的活动范围较广,这导致遗失的物品难以找回,对日常生活造成麻烦。
3.常见的找回失物方式是通过学校qq群、校内bbs发布失物信息或是向图书馆、食堂等场所的服务台询问,这些找回方式有以下几个弊端,首先失物上一般没有失主的联系方式,这导致即使失物被捡到且放在了服务台上,工作人员也不知道如何才能联系到失主,当失主放弃找回后失物就堆积在各种服务台上;其次失物招领平台较多,失主需要在多个平台进行查询,耗费时间长而且不稳定,找回失物的概率较低,造成了大量证件堆积在失物招领点未被失主领取的现状。
4.针对上述问题,中国海洋大学2018年上线了校园智能卡招领平台,他们通过设置丢失校园卡回收箱,派专人取回这些丢失卡片后,再人工录入到学校的企业微信号,再给失主发送短信微信通知。这过程包含了很多人工处理过程,需要有专人处理,不能够自动识别文本,需要手动输入证件号手动填写表单,同时对敏感信息不具有打码功能。
5.《一种基于r-cnn的智能失物招领系统(cn113256471a)》专利申请,根据r-cnn识别图像中的物品,自动发现失物并发送信息。但实际上其不具备可实施性的,主要因为:第一无法判断检测到的物品是失物还是有主物品,第二失物上通常没有联系方式,无法向失主发送通知消息。


技术实现要素:

6.为了克服上述现有技术的不足,本发明的目的在于提出一种基于ocr的证件失物招领系统及招领方法,通过ocr文本识别技术实现自动提取证件号和姓名等关键信息单,根据文本识别的关键信息结果自动化填写失物表单,减少上传者的工作量;能够对证件上的证件照片和证件号等敏感信息进行打码处理,保护失主的隐私;与特定单位数据库对接,能够对单位内失主发送失物微信/短信通知,使失物招领方案具有即时性。
7.为了实现上述目的,本发明采用的技术方案如下:
8.一种基于ocr的证件失物招领系统,包括登录模块、发布模块、检索模块和个人中心模块:
9.登录模块:用户在网页端使用统一身份认证进行登录或者在微信小程序端使用微信账户;对于微信小程序用户,系统将在用户第一次授权注册之后获取包括用户手机号、微信头像、微信昵称字段;
10.发布模块:提供用户在登录系统后发布失物招领信息,上传图片,填写内容、位置
和联系方式后进行发布;
11.对已经发布的失物招领信息,发布人能够随时修改或者删除;
12.对用户上传的证件,系统能够根据证件类型,自动调用ocr识别接口、二维码识别接口或人脸识别接口,提取图片上的文字信息并且自动完成表单的填写;
13.对识别图片中的敏感信息进行打码处理,避免出现信息安全问题;
14.对用户发布的证件失物招领信息,系统使用证件号在单位人员数据库中进行查询匹配,如果在数据库查询到该失主的手机号和微信号,就通过发送手机短信和微信消息的方式通知失主来认领失物;
15.设置奖励打赏机制,接受失主的打赏并将其用于对上传者奖励;
16.检索模块:提供用户浏览已经发布在系统内的所有的信息,包括分类检索及关键词检索,用户能够通过输入关键词来搜索失物招领信息;
17.个人中心模块:提供用户在个人中心查看或修改个人信息,查看管理已发布的信息,管理员用户也可以通过该模块进入后台管理页面进行管理。
18.基于ocr的证件失物招领系统的失物招领方法,具体包括以下步骤:
19.步骤1:失物招领系统获取上传图片与图像预处理;
20.步骤2:对步骤1预处理后的图片进行多种方式识别失主信息;
21.步骤3:提取步骤2的文本识别结果中的关键信息,进行项目匹配与图片打码;
22.步骤4:失物招领系统对经步骤2的识别成功的结果自动补全表单并给失主发送短信/微信通知;
23.步骤5:失物招领系统具有奖励与打赏机制,可对上传失物信息的用户奖励,并通过失主为失物招领系统打赏的方式回收运行经费。
24.所述步骤1具体方法为:
25.1)当用户使用失物招领系统发布信息并上传失物图片的时候,图片文件经由网页端或小程序端上传到服务器图片存储目录下,并根据时间戳进行命名,失物招领系统自动启动预处理部分代码对该图像文件进行处理;
26.2)当用户上传的证件图片存在包括卡面倾斜、卡面磨损、印刷错位、背景文本干扰、卡面信息不全、拍摄模糊的问题,对系统无法提取有效信息的,提示需要用户自己进行信息输入;对属于背景文本干扰或是卡面倾斜的图片,直接进行ocr文本识别的准确率很低,先进行图片预处理,提高文本识别的准确率。
27.所述预处理的过程为:失物招领系统从图片中证件的边缘位置对卡片进行裁剪,去除无用的背景部分,只留下证件卡面部分。
28.所述步骤2具体方法为:
29.通过ocr文本识别证件图片上的信息,失物招领系统根据步骤1预处理后的图片,调用后端已封装好的ocr文本识别接口进行文本识别,对上传图片进行包括降噪、字符区域检测、字符切割、字符识别的操作;
30.ocr文本识别模型分为检测与识别两个阶段,分别对检测阶段与识别阶段所需要的模型进行训练,将训练完成的检测模型与识别模型进行封装,仅对外暴露ocr识别接口;通过传入图片位置参数,调用ocr识别接口对图片进行ocr处理,进行文本检测和文本识别工作,并返回识别出的文本信息以及该信息所在的相对位置和方向,帮助系统准确匹配到
证件版面项目及帮助系统进行之后的打码处理。
31.二维码识别功能:如果证件图片没有证件号信息,而是有与失主相关的二维码,那么失物招领系统自动调用二维码识别程序对图片二维码进行信息提取;
32.人脸识别功能:当ocr文本识别无法提取证件失物有效信息,则通过人脸识别功能对证件失物上的人像进行识别,并在人脸识别数据库中匹配失主信息。
33.所述步骤3具体方法为:
34.根据证件本身的特征,根据项目位置设置模板,来提取步骤2的文本识别结果中的关键信息,并根据识别出的文本的位置信息来判定该文本与模板上的哪个项目相匹配,对于匹配后的结果,失物招领系统使用正则规则提取关键字来进行二次检查,保证匹配的准确性;
35.同时,当用户上传图片被系统识别后,失物招领系统在发布的时候会对图片进行处理,根据版面项目匹配的结果对证件上的人像和证件号等敏感信息打码,并使用处理过的图片来替换掉原图片进行显示。
36.所述步骤4具体方法为:
37.1)对经步骤2的识别后成功识别的结果,系统将会根据失物类型设定物品类型,并根据已成功识别到的内容进行补全,并对其中的敏感信息屏蔽一部分进行脱敏处理;系统会在自动补全完成后提示用户已完成识别,请检查输入信息是否正确;用户把失物和识别结果进行对比,查看是否会因为图片不清晰等原因造成识别错误;
38.2)当用户完成发布信息流程后,系统会根据之前ocr文本识别中获取到的姓名与证件号在数据库中进行匹配,找出失主的可用联系信息并通知用户:
39.2.1)系统调用的统一短信通信接口来去通知用户,该接口链接到的数据库可以查询到所覆盖用户的手机号和邮箱,失物招领系统可以借由该接口发送短信和邮件;
40.2.2)对于微信通知,系统调用单位企业微信通知接口,该接口可以通知到单位内的用户,用户能够收到该微信通知提示或者手动在微信号的消息服务功能中查看通知;
41.3)当用户发布的内容成功匹配到失主并调用短信和微信通知接口成功后,该发布内容会转为“已短信/微信通知用户”状态,该状态在网页端和微信小程序端的查看发布内容界面显示;
42.4)失主通过在收到短信和微信通知中点击链接,选择确认失物来通知发布人,给予发布人和系统以反馈,发布人会收到失主确认通知,而系统则会将此条失物信息进行屏蔽以防止个人信息外泄。
43.所述步骤5具体方法为:
44.系统具有奖励与打赏机制,当用户上传一条失物信息时,系统会通过话费充值接口为上传用户充值少量话费作为鼓励,在失主确认认领失物之后,会收到微信打赏的链接通知,用户自行选择是否对系统进行打赏。
45.本发明与现有技术相比,具有如下优点:
46.(1)本发明通过ocr文本识别等技术实现自动提取证件号和姓名等关键信息,根据文本识别的关键信息结果自动化填写失物表单,减少上传者的工作量。
47.(2)本发明根据提取到的人像和证件号等位置信息,对证件上的证件照片和证件号等敏感信息进行打码处理,保护失主的隐私。
48.(3)本发明实现系统与数据库对接,自动查询失主的联系方式,给失主发送微信/短信通知,使证件招领方案具有即时性。
49.(4)本发明实现了奖励与打赏的机制。用户上传一条失物信息可获得一元话费奖励,失主确认认领失物后可以选择向本系统打赏。奖励机制可以提高上传者的积极性,打赏机制可以让打赏的钱用于奖励上传者,让失物招领形成可持续的良性循环。
50.(5)本发明实现了多样的失物招领方法,如手动查找数据库输入联系方式通知,能够通过自动识别二维码获得信息,若文字磨损严重,可通过人脸识别功能获得失主信息,可以对多种类型的失物进行处理。
51.(6)本发明对前一天未认领的证件失主会进行二次通知,提高24小时内的认领率。
附图说明
52.图1为本发明系统模块设计图;
53.图2为本发明系统流程设计图;
54.图3为本发明图片上传遇到的问题演示图;
55.图4为ocr文本识别逻辑设计图;
56.图5为失物类型数据统计图;
57.图6为本发明的卡片自动打码前后对比图;
58.图7为本发明的短信和微信通知实例图,其中,图(a)为微信通知示例图,图(b)为短信通知示例图;
59.图8为奖励机制统计图;
60.图9为打赏机制统计图。
具体实施方式
61.以下结合附图和具体实施例,对本发明作进一步详细的描述。
62.所述步骤1的具体方法为:
63.1)当用户使用失物招领系统发布信息并上传失物图片的时候,图片文件经由网页端或小程序端上传到服务器图片存储目录下,并根据时间戳进行命名,失物招领系统自动启动预处理部分代码对该图像文件进行处理。
64.在失物招领系统的实际运行过程中,用户上传的证件图片出现了各种问题,包括卡面倾斜、卡面磨损、印刷错位、背景文本干扰、卡面信息不全、拍摄模糊等问题,如图3所示。一些已经严重磨损或是拍摄非常模糊的卡片可能导致无法提取出有效信息,需要用户自己进行信息输入。还有一些图片属于背景文本干扰或是卡面倾斜,这类图片直接进行ocr文本识别的准确率很低,所以需要先进行图片预处理,提高文本识别的准确率。
65.直接进行ocr文本识别并不会使系统优先识别卡面上的文本,如果拍摄的时候背景也有文本,就可能对识别结果造成额外的干扰,所以在调用通用ocr文本识别接口前,需要先对图片进行预处理,以排除干扰和增加识别的准确率,提高用户的使用体验。
66.失物招领系统从图片中证件的边缘位置对卡片进行裁剪,去除无用的背景部分,只留下证件卡面部分。这样可以减少背景中文本对识别结果的干扰,提高文本识别的准确率,也方便之后对文本识别结果和卡面上的项目进行匹配,提高用户的使用体验。
67.步骤2:多种方式识别失主信息
68.(1)通过ocr文本识别证件上的信息,逻辑设计图如图4所示。预处理后的图片,失物招领系统会调用后端已封装好的ocr文本识别接口进行文本识别,该接口会对上传图片进行降噪、字符区域检测、字符切割、字符识别等操作。训练模型所使用的训练集与测试集是使用以往学生遗失的一卡通照片与身份证照片。ocr文本识别模型分为检测与识别两个阶段,训练检测阶段所使用的预训练模型为db算法,resnet50_vd骨干网络,训练识别阶段所使用的预训练模型为crnn算法,resnet34_vd骨干网络。接下来将训练完成的检测模型与识别模型用于对证件图片的ocr识别,对两阶段模型进行了封装,通过传入图片位置参数,调用python脚本中的paddleocr的api对图片进行ocr处理,进行文本检测、文本识别和文本方向分类工作,并返回识别出的文本信息以及该信息所在的相对位置和方向,这些信息除了能帮助系统准确匹配到证件版面项目外,还可以帮助系统进行之后的打码处理。
69.二维码识别功能:如果证件图片没有证件号信息,而是有与失主相关的二维码,那么失物招领系统自动调用二维码识别程序对图片二维码进行信息提取;
70.人脸识别功能:当ocr文本识别无法提取证件失物有效信息,则通过人脸识别功能对证件失物上的人像进行识别,并在人脸识别数据库中匹配失主信息。
71.经过多种方式识别失主信息,失物招领系统现在可以对各式各样的失物进行通知失主的操作。失物类型与统计数据如图5所示。
72.步骤3:版面项目匹配与图片打码
73.由于失物招领系统需要处理各种类型的证件,其中大部分证件都属于学校自己进行印刷发行的证件,市面上无法找到,所以系统无法直接使用市面上的证件文本识别服务对图片进行处理,而是要根据证件本身的特征来设置模板来提取文本识别结果中的关键信息。例如在文本识别后,系统得到的文本还没有和卡证版面的项目进行匹配,例如失物招领系统通过文本识别得到了一串数字字符,而卡证版面上有联系电话和学号两个项目,则无法准确判断这串数字字符是与哪个项目进行匹配。
74.失物招领系统需要借助不同卡证的模板来对版面项目进行匹配,对于某一类型的证件,其版面的内容格式一般是固定的。这里以需要处理的学校一卡通为例,一卡通版面包含的内容包括姓名、学院、班级、学号、学生照片、学校标志等项目。对于一卡通这种类型的证件来讲,所有一卡通都具有同样的版面项目,且项目的具体位置相对卡片也保持不变。
75.因此可以根据一卡通上的项目位置设置模板。当对一张一卡通图像进行文本识别时,就可以根据识别出的文本的位置信息来判定该文本与模板上的哪个项目相匹配。对于匹配后的结果,失物招领系统还会使用正则规则提取关键字来进行二次检查,保证匹配的准确性。失物招领系统其余的卡片也都设计了和一卡通类似的项目位置模板,让系统能够自动化将识别到的文本分配到不同的项目中,完成版面项目匹配。
76.因为失物信息在发布出来后,所有人都可以对该信息进行浏览。当用户上传的失物为身份证等比较敏感的失物时,如果直接将卡片图片公开,很可能会导致这些信息泄露。所以当用户上传图片被系统识别为证件卡片后,失物招领系统在发布的时候会对图片进行处理,根据版面项目匹配的结果对提取出的重要信息打码,并使用处理过的图片来替换掉原图片进行显示,以防止出现信息安全问题。如图6所示。
77.步骤4:自动补全表单与短信微信通知
78.识别到证件卡片内容后,系统将会根据卡片类型设定物品类型,并根据已成功识别到的内容进行补全。包括标题的“捡到【姓名】的【卡片类型】,请及时领取并点确认!”和详细描述中的卡片信息,并对其中的敏感信息屏蔽一部分进行脱敏处理。系统会在自动补全完成后提示用户已完成证件识别,请检查输入信息是否正确。用户可以把失物卡片和识别结果进行人工对比,查看是否会因为图片不清晰等原因造成识别错误。
79.当用户完成发布信息流程后,系统会根据之前ocr文本识别中获取到的姓名与证件号在数据库中进行匹配,找出失主的可用联系信息并通知用户。
80.对于短信通知,系统会调用的统一通信接口来去通知用户,该接口链接到的数据库可以查询到西电师生的手机号和邮箱,失物招领系统可以借由该接口发送短信和邮件。
81.对于微信通知,系统调用单位企业微信通知接口,该接口可以通知到单位内的用户,用户能够收到该微信通知提示或者手动在微信号的消息服务功能中查看通知。
82.当用户发布的内容成功匹配到失主并调用短信和微信通知接口成功后,该发布内容会转为“已短信/微信通知用户”状态,该状态在网页端和微信小程序端的查看发布内容界面都可以看到。
83.此时失主会收到短信和微信通知,如图7所示。失主可以在收到的短信或微信中点击链接,选择确认失物来通知发布人,给予发布人和系统以反馈。发布人会收到失主确认通知,而系统则会将此条失物信息进行屏蔽以防止个人信息外泄。
84.步骤5:奖励与打赏机制
85.当用户上传一条失物信息时,失物招领系统便会自动奖励该用户一元话费奖励,该激励措施对提高用户上传信息的积极性有很大帮助。如图8所示,2020年10月份奖励机制正式上线,可以看到之后的每月上传失物的数量提升到500个以上,到2021年11月由于运营商话费充值服务出现故障后,每月上传失物的数量开始逐渐下降,直到2022年5月话费充值奖励机制恢复,每月上传失物的数量正在慢慢回升。
86.为了失物招领系统能够可持续的运营,本系统又实现了打赏机制。在失主确认认领失物之后,会收到微信打赏的链接地址,用户可自行选择是否对系统进行打赏。本系统将收到的打赏又投入到对上传者的奖励中,让失物招领形成一个可持续的良性循环。图9是打赏统计图。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1