本发明涉及食品安全、大数据分析技术领域,更具体地说,它涉及一种用于实时分析网络餐饮店铺风险的识别方法及系统。
背景技术:
随着移动互联网迅速发展,点外卖已成为日常行为。而网餐商家套证、假证等资质问题屡见不鲜,超范围经营频频发生;不少网络餐饮商家卫生状况堪忧,网民评价低,存在食源性隐患;餐饮环节动态变化,风险难以把控。餐饮商家规模不一,量大而广;人工全面核查商家资质难以实现。现有技术无法做到实时采集数据并进行分析和处理,最终客观呈现网络餐饮店铺存在的风险。
因此,如何研究设计一种用于实时分析网络餐饮店铺风险的识别方法及系统是我们目前迫切需要解决的问题。
技术实现要素:
本发明的目的是提供一种用于实时分析网络餐饮店铺风险的识别方法,该方法运用大数据流式计算、ai图像识别、自然语言处理(nlp)等技术针对新兴网络餐饮业态进行智慧监管,计算速度快、准确性高,能够为监管人员提供有效的执法依据。
本发明的上述技术目的是通过以下技术方案得以实现的:一种用于实时分析网络餐饮店铺风险的识别方法,包括以下步骤:
s1:采集网络平台的餐饮数据,并进行数据处理,餐饮数据包括主体公示信息、评论信息以及地址信息;
s2:根据所述主体公示信息在fda许可证数据库中进行匹配、识别与判断,并结合预设的公示信息分类权重计算匹配识别与判断结果的风险值以及对各个风险类型的风险值求和得到公示风险值;
s3:根据风险关键词对所述评论信息进行风险判断,并根据店铺规模和风险评论条数计算得到评论风险值;
s4:在s2中所述主体公示信息匹配成功后,在所述fda许可证数据库中匹配所述地址信息,并根据匹配结果计算得到地址风险值;
s5:根据风险值权重对所述公示风险值、评论风险值、地址风险值进行权重计算后得到相应的单平台风险指数;
s6:根据时间、地区维度对风险指数进行统计与输出。
优选的,步骤s1所述餐饮数据的数据处理包括过滤、清洗、融合以及经纬度解析;
过滤:定义店铺名称、商品名称关键字,若店铺不匹配关键字,则过滤;
清洗:业态清洗过程,定义业态关键字,若店铺名称满足关键字,则设置为对应业态;名称和地址清洗过程,过滤掉特殊符号;
融合:通过评论所属店铺的唯一标志查找所属店铺,并合并到店铺评论信息中;
经纬度分析:通过地图api“地址逆向解析接口”对店铺地址进行解析,解析出城市、区县、经纬度。
优选的,在步骤s2中,采用cbam算法分类所述主体公示信息中的店铺证照图片,分类类别包括营业执照、食品流通许可证、餐饮服务许可证、食品经营许可证、三小备案以及其它证件。
优选的,所述风险类型包括证件模糊、假证、一证多用、超经营范围、证件超期;
通过调用百度ocr识别算法对证件图片的人眼模糊进行识别,判断是否属于证件模糊;
采用目标检测算法检测图片上的二维码,解码二维码后提取出证照编号、营业期限、经营范围,并根据证照编号、营业期限、经营范围在证照库中匹配;若不匹配,则判断为相应的假证、超经营范围、证件超期;
通过搜索不同店铺是否存在相同编号的证照,判断相应店铺是否存在一证多用。
优选的,所述地址匹配具体为:将地址信息以行政级别划分进行分解,获取相同的行政级别后组成最长公共子序列,并根据最长公共子序列进行识别判断。
优选的,所述单平台风险指数的计算公式具体为:
rn=bn×40%+cn×40%+an×20%
其中,rn为单平台风险指数,bn为公示风险值,cn为评论风险值,an为地址风险值。
优选的,当目标店铺存在多个网络平台时,对多个所述单平台风险指数进行计算得到多平台综合评估风险指数,多平台综合评估风险指数计算公式具体为:
(1)平台变异系数vn:
(2)全平台变异系数vs:
(3)平台风险权重wn:
(4)多平台综合评估风险指数rs:
本发明的另一目的是提供一种用于实时分析网络餐饮店铺风险的识别系统,包括fda许可证数据库、数据采集模块、公示风险评估模块、评论风险评估模块、地址风险评估模块、风险指数计算模块以及显示模块;
所述fda许可证数据库,存储有店铺网络经营的食品生产经营许可备案数据;
所述数据采集模块,用于采集网络平台的餐饮数据,并进行数据处理,餐饮数据包括主体公示信息、评论信息以及地址信息;
所述公示风险评估模块,用于根据所述主体公示信息在fda许可证数据库中进行匹配、识别与判断,并结合预设的公示信息分类权重对匹配、识别与判断结果的风险值进行计算,以及对各个风险类型的风险值求和得到公示风险值;
所述评论风险评估模块,用于根据风险关键词对所述评论信息进行风险判断,并根据店铺规模和风险评论条数计算得到评论风险值;
所述地址风险评估模块,用于在所述主体公示信息匹配成功后,在所述fda许可证数据库中对所述地址信息进行匹配,并根据匹配结果计算得到地址风险值;
所述风险指数计算模块,用于根据风险值权重对所述公示风险值、评论风险值、地址风险值进行权重计算后得到相应的单平台风险指数;
所述显示模块,根据时间、地区维度对风险指数进行统计与输出。
优选的,所述数据采集模块包括采集单元、过滤单元、清洗单元、融合单元以及经纬度分析单元;
所述采集单元,用于采集网络平台的餐饮数据;
所述过滤单元,定义店铺名称、商品名称关键字,若判断店铺不匹配关键字,则过滤;
所述清洗单元,用于进行业态清洗过程,定义业态关键字,若店铺名称满足关键字,则设置为对应业态;以及,用于进行名称和地址清洗过程,过滤掉特殊符号;
所述融合单元,用于通过评论所属店铺的唯一标志查找所属店铺,并合并到店铺评论信息中;
所述经纬度分析单元,用于通过地图api“地址逆向解析接口”对店铺地址进行解析,解析出城市、区县、经纬度。
与现有技术相比,本发明具有以下有益效果:
1、通过流式分析地理区域的网络餐饮店铺风险指数,计算速度快且准确度高,能够为监管人员提供有效的执法依据;
2、解决了有效监管资源和多元复杂的监管对象之间的矛盾,实现高效的靶向性抽检工作;
3、显著提高靶向抽检有效率,辅助监管及时发现存在假证、一证多用、食品安全等网络餐饮经营问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1中的流程图;
图2是本发明实施例1公示风险值计算模型图;
图3是本发明实施例1主体公示信息判定流程图;
图4是本发明实施例1评论风险值计算模型图;
图5是本发明实施例2的整体结构框图。
图中:1、数据采集模块;11、采集单元;12、过滤单元;13、清洗单元;14、融合单元;15、经纬度分析单元;2、fda许可证数据库;3、公示风险评估模块;4、评论风险评估模块;5、地址风险评估模块;6、风险指数计算模块;7、显示模块。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图1-5及实施例1-2,对本发明进行进一步详细说明。
在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例1:一种用于实时分析网络餐饮店铺风险的识别方法
一、数据采集与处理
如图1所示,采集网络平台的餐饮数据,并进行数据处理,餐饮数据包括主体公示信息、评论信息以及地址信息。其中,主体公示信息包括但不限于店铺基础信息、店铺证照照片、店铺主题信息、店铺售卖产品信息,店铺售卖产品信息包括但不限于产品名称、产品照片、产品描述、产品价格。
餐饮数据的数据处理包括过滤、清洗、融合以及经纬度解析。其中,过滤为:定义店铺名称、商品名称关键字,若店铺不匹配关键字,则过滤。清洗为:业态清洗过程,定义业态关键字,若店铺名称满足关键字,则设置为对应业态;以及名称和地址清洗过程,过滤掉特殊符号。融合为:通过评论所属店铺的唯一标志查找所属店铺,并合并到店铺评论信息中。经纬度分析为:通过高德地图api“地址逆向解析接口”对店铺地址进行解析,解析出城市、区县、经纬度。
二、主体公示信息风险判定
如图1所示,根据主体公示信息在fda许可证数据库中进行匹配、识别与判断,并结合预设的公示信息分类权重对匹配、识别与判断结果的风险值进行计算,以及对各个风险类型的风险值求和得到公示风险值。
如图2与图3所示,在本实施例中,采用cbam算法对主体公示信息中的店铺证照图片进行分类,分类类别包括营业执照、食品流通许可证、餐饮服务许可证、食品经营许可证、三小备案以及其它证件。
风险类型包括证件模糊、假证、一证多用、超经营范围、证件超期。通过调用百度ocr识别算法对证件图片的人眼模糊进行识别,判断是否属于证件模糊。采用目标检测算法检测图片上的二维码,对二维码解码后提取出证照编号、营业期限、经营范围,并根据证照编号、营业期限、经营范围在证照库中进行匹配;若不匹配,则判断为相应的假证、超经营范围、证件超期。通过搜索不同店铺是否存在相同编号的证照,判断相应店铺是否存在一证多用。
如图3搜索,在本市实例中,风险类型判断流程如下:(1)对于新上商家依次判断是否有照片、照片分类、是否有许可证、证件是否模糊、是否能深度识别、二维码是否能识别、对比fda数据库是否匹配(完整匹配)、一证多用、对比经营范围与菜品信息、超出有效期。其中,一证多用、对比经营范围与菜品信息、超出有效期是在对比fda数据库是否匹配(完整匹配)成功判定证件为真后同级进行。(2)对于复查商家依次判断是否有照片、照片是否更新;若更新,则采用新上商家规则分类后判断;若未更新,则采用新上商家规则直接开始判断是否有许可证。
在本市实例中,公示信息风险总分值为40。若店铺未公示任何主体信息,则得分40。公示许可信息的总分值为40,包括证件模糊、疑似假证、一证多用、超经营范围、证件超期;其中,证件模糊为:(1-识别值/阈值)×证件模糊权重。公示非许可信息分值为30,包括食品流通许可证、营业证照、地方政策性非许可证证件以及其他,计算方法为:30×(1-非许可信息类别的权重之和)。
三、评论信息风险判定
如图1与图4所示,根据风险关键词对评论信息进行风险判断,并根据店铺规模和风险评论条数计算得到评论风险值。
在本市实例中,店铺规模分为小型评论商家、中型评论商家以及大型评论商家。其中,小型评论商家为10-30分值,若总评论数中的风险评论条数为0条,则分值为10;若总评论数全是风险评论,则分值为30。中型评论商家分值为5-35分值,若总评论数中的风险评论条数为0条,则分值为5;若总评论数全是风险评论,则分值为35。大型评论商家分值为0-40分值,若总评论数中的风险评论条数为0条,则分值为0;若总评论数全是风险评论,则分值为40。风险计算模型输出为0到100的评估风险值,具体计算为:以实际得分值与评论风险总分值的比值乘以100作为评估风险值。在本市实例中,评论风险总分值为40。
四、地址信息风险判定
在主体公示信息匹配成功后,在fda许可证数据库中对地址信息进行匹配,并根据匹配结果计算得到地址风险值。
地址匹配具体为:将地址信息以行政级别划分进行分解,获取相同的行政级别后组成最长公共子序列,并根据最长公共子序列进行识别判断。
五、平台风险指数计算
如图1所示,根据风险值权重对公示风险值、评论风险值、地址风险值进行权重计算后得到相应的单平台风险指数。
单平台风险指数的计算公式具体为:
rn=bn×40%+cn×40%+an×20%
其中,rn为单平台风险指数,bn为公示风险值,cn为评论风险值,an为地址风险值。
六、多平台综合评估风险指数计算
当目标店铺存在多个网络平台时,对多个单平台风险指数进行计算得到多平台综合评估风险指数,多平台综合评估风险指数计算公式具体为:
(1)平台变异系数vn:
(2)全平台变异系数vs:
(3)平台风险权重wn:
(4)多平台综合评估风险指数rs:
需要注意的是:店铺未入驻一个平台和在一个平台上入驻风险指数为0,意义不同。店铺在一个平台入驻,综合评估风险指标等于单平台风险指数。店铺在两个及以上平台入驻,变异系数总和等于两个及以上平台的变异系数相加,再计算权重。
通过对店铺风险评分、相同店铺风险评分、平台整体风险评分,按照时间、地区维度对风险指数进行统计,可输出作为餐饮监管人员市场监控管理的参考数据。
实施例2:一种用于实时分析网络餐饮店铺风险的识别系统,如图5所示,包括数据采集模块1、公示风险评估模块3、评论风险评估模块4、地址风险评估模块5、风险指数计算模块6以及显示模块7。
数据采集模块1,用于采集网络平台的餐饮数据,并进行数据处理,餐饮数据包括主体公示信息、评论信息以及地址信息。
公示风险评估模块3,用于根据主体公示信息在fda许可证数据库2中进行匹配、识别与判断,并结合预设的公示信息分类权重对匹配、识别与判断结果的风险值进行计算,以及对各个风险类型的风险值求和得到公示风险值。
评论风险评估模块4,用于根据风险关键词对评论信息进行风险判断,并根据店铺规模和风险评论条数计算得到评论风险值。
地址风险评估模块5,用于在主体公示信息匹配成功后,在fda许可证数据库2中对地址信息进行匹配,并根据匹配结果计算得到地址风险值。
风险指数计算模块6,用于根据风险值权重对公示风险值、评论风险值、地址风险值进行权重计算后得到相应的单平台风险指数。
显示模块7,根据时间、地区维度对风险指数进行统计与输出。
作为优选的一种实施方式,如图5所示,数据采集模块1包括采集单元11、过滤单元12、清洗单元13、融合单元14以及经纬度分析单元15。
采集单元11用于采集网络平台的餐饮数据。
过滤单元12,先定义店铺名称、商品名称关键字,若判断店铺不匹配关键字,则过滤。
清洗单元13用于进行业态清洗过程,定义业态关键字,若店铺名称满足关键字,则设置为对应业态;以及,用于进行名称和地址清洗过程,过滤掉特殊符号。
融合单元14用于通过评论所属店铺的唯一标志查找所属店铺,并合并到店铺评论信息中。
经纬度分析单元15用于通过地图api“地址逆向解析接口”对店铺地址进行解析,解析出城市、区县、经纬度。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。