一种基于隐马尔可夫模型的食品安全溯源系统的制作方法

文档序号:9305027阅读:485来源:国知局
一种基于隐马尔可夫模型的食品安全溯源系统的制作方法
【技术领域】
[0001] 本发明涉及到食品安全领域,具体的说是一种基于隐马尔可夫模型的食品安全溯 源系统。
【背景技术】
[0002] 食品安全溯源系统最早是1997年欧盟为应对"疯牛病"问题而逐步建立并完善起 来。它强调产品的唯一标识和过程追踪,在产品的生产、运输、存储、销售等各个环节,实行 IS09001等质量控制方法进行跟踪与追溯,一旦发生食品安全问题,可以有效地追踪到食品 的源头,及时召回不合格产品,将损失降到最低。
[0003] 现有的食品安全溯源系统功能单一,食品溯源应用只能完成对食品及其原料本身 相关数据的收集,以及一些直观的简单追溯和信息统计等应用。例如,一块市场出售的牛肉 发现了微生物污染或重金属超标,现有的追溯系统可以追查出该块牛肉来自哪里,但并不 能解释微生物污染或重金属超标的原因,不能针对出现的问题做出深入分析并为决策部门 提供相应建议。因为在生牛长达几个月的生长过程以及屠宰、运输、销售过程中,水质、饲料 成分、周边环境都可能随着时间变化,现有系统无法将大量的离散数据进行有效挖掘,更不 能挖掘出食品存在的潜在危害。
[0004] 食品在成产加工、运输、存储、销售、消费的流通过程中产生了大量的和时间紧密 相关的数据,我们称之为时序数据。然而,若要从这些时序数据中分析预测出食品的潜在危 害和安全走势却不是一件容易的事。
[0005] 聚类是对食品时序数据分析的一种很重要的方法,是利用食品信息之间的相似性 对食品信息进行分组,并以此提取食品安全信息。同一类食品信息具有相似的功能,并随时 间发生某些细微的变化,聚类可以通过描述食品的质量随时间变化的情况,来预测食品的 质量变化趋势。
[0006] 早期对食品信息数据的聚类多采用基于距离的方法,如k-means聚类、层次聚类、 基于函数模型的聚类等方法。这些聚类方法在一定程度上反映了食品信息的某些特征,然 而,对于在不同时间点采样所得到的食品信息数据,它们采用的距离准则往往过度强调非 关键的信号变化而忽视了食品信息数据各时间点之间的依赖关系。但能够带来高质量聚类 结果的恰恰是这种时间点之间的依赖。

【发明内容】

[0007] 为了克服上述食品安全信息数据不能有效利用时间点之间依赖性的问题,一种基 于隐马尔可夫模型的食品安全溯源系统,该溯源系统用隐马尔可夫模型描述食品信息数据 的时间依赖特性,然后用层次聚类策略对建好的模型聚类,从而对食品的生产、运输、存储、 销售等各个环节产生的时序数据进行智能分析、评估、挖掘,以获取深层次的、隐藏的、不明 确的食品安全隐患信息,为消费者食品安全提供更高层次的保障。
[0008] 本发明为解决上述技术问题所采用的技术方案为:一种基于隐马尔可夫模型的食 品安全溯源系统,通过对食品的生产、运输、储存和销售环节进行监控并采集数据,将采集 的数据经处理建立隐马尔可夫模型,然后对建立的隐马尔可夫模型进行聚类分析,根据聚 类分析的结果采取相应措施来确保食品的安全,包括如下步骤: 1)分别采集食品在生产、运输、储存和销售环节中的各项时序数据:IfI: ,其中%表示某种条件,t表示在条件31下检测的值,然后将这 些时序数据进行标准化处理,并用离散符号来对标准化处理之后的时序数据进行离散化处 理; #二奮矣1lt所表示的含义为:假设有两种条件感和秦:,感表示微生物,乘 表示温度,那么就表示某种微生物:i在某个温度::釔下检测的数据的集合;当 讀等于P,等于q时,表示第P种微生物在温度q下的检测值; 2 )将步骤1)经离散化的时序数据转换成符号序列集,并根据符号序列集建立隐马尔可 夫模型,形成表示某个时序数据的模型空间,然后在所有时序数据的模型空间中对模型进 行聚类; 3)根据步骤2)聚类的结果分析食品发生污染的源头,以采取针对性措施进行改善。
[0009] 所述步骤1)中时序数据的标准化处理和离散化处理的具体操作为: @将时序数据定义为一个矩阵3/ = &'〗,6 = !&丄乂4,3'久丄.5、:; 其中,行集合G表某一食品的检测对象,列集合S代表不同的检测环境条件,矩阵中每 一个元素M:,:是检测对象G在检测条件ift::下的真实表达水平值; ② 将步骤①中的时序数据离散化为2.-,I- 2-IX0IX乂 2-U- k取奇数; ③ 将步骤②中离散化的时序数据转换成符号序列集4\丨,即完成对时序数据 的标准化、离散化处理。
[0010] 所述步骤2)中根据符号序列集建立隐马尔可夫模型的步骤如下: ⑴将时序数据定义为符号序列集丨〇.込,然后建立泛的隐马尔可夫模型:i:, 并将:議作为::悉所表示的类錢的成员:%择:議I; ⑵计算:議的-输出概率,gp 痕]:,若丨!M__寫: 加新的成员ii:: i__,用新产生的:_重新训练模型^,否则为ii:建立新的隐马尔 可夫模型:為:,同时增加与模型相应的类别_,并将&作为_的成员寒藝I; ⑶对于序列_,设定其建立k个模型:_,它们表示的类为:
找出使2X(丨=u,l為取最大值的模型尾:,在編中找出人..输出概率最大的序 列 如果丨涵 建立g:的隐马尔可夫模型::彳_,同时设置模型所表示的类别,并将@祚为的成员: 磁; ⑷重复步骤(3)直至所有序列都已分类; (5)对所有建立的表示各个类别的隐马尔可夫模型进行层次聚类:从所有的模型中选 出模型间距离最小的两个模型4:和将r=必gL名:和鸟:上屬J合 并为、CQ9J〇、',然后用I#中的序列重新训练&得到新的模型 、,并将:_作为其表示的类,重复以上过程,直到只有一个模型为止,即完成隐马尔可夫模 型的建立。
[0011] 所述是小于〇. 05的正数,模型%:和A之间的距离按以下公式计算:
其中n、m分别为秦、,所表示的类今、.中所含序列数; 根据对称性算法用以下公式计算模型间的距离:
[0012] 所述步骤3)中对聚类结果的分析是指:通过MATLAB仿真,从而得到聚类结果的拟 合曲线图,观察图中曲线,即可分析食品被污染发生的时间、导致污染的环境因素以及主要 污染源;通过观察聚类树图,从而判断出被污染食品的异常,进而找出异常原因。
[0013] 本发明中,对任意两个Markov链,当它们具有相同的动态特征时,它们之间的距 离为零。它们之间的动态特征差异越大,距离值就越大,这样就能够得到任意两个训练序列 之间的距离。聚类的过程就是以距离为度量方式,将相似度较高的对象合并到同一个簇中。 在聚簇的过程中应当使得到的结果簇尽可能地紧凑和独立,达到最佳的聚簇效果,而对不 同的应用数据,其聚簇方法的选择,聚簇算法的选择及改进是达到最佳聚簇效果的关键。基 于以上分析,即可利用聚类的方法将训练数据集聚成几个类,通过调节距离的门槛值,可控 制得到的聚类个数。
[0014] 有益效果:本发明通过采集食品从生产到最终销售过程中各环节的时序数据,然 后利用数据建立隐马尔可夫模型,并对建立的隐马尔可夫模型进行聚类分析,当食品出现 安全问题时,可以根据聚类分析的结果得出具体是在哪一环节、什么原因导致的,从而可以 采取相应措施来确保食品的安全,如,政府相关部门可以根据食品安全数据分析的结果,采 取相应的对策进行预防和控制;企业可以根据分析结果调整生产战略,为企业创造更大的 利润;消费者可以根据分析结果调整自己的饮食规律等。
【附图说明】
[0015]图1为本发明中层次聚类算法的流程图。
【具体实施方式】
[0016]如图1所示,一种基于隐马尔可夫模型的食品安全溯源系统,通过对食品的生产、 运输、储存和销售环节进行监控并采集数据,将采集的数据经处理建立隐马尔可夫模型,然 后对建立的隐马尔可夫模型进行聚类分析,根据聚类分析的结果采取相应措施来确保食品 的安全,具体步骤如下: 1、 数据处理 在建立食品信息时序数据的HMM模型之前要对其进行预处理。首先进行数据的标准 化,然后用离散符号表示标准化后的数据,将离散符号作为模型的状态观测值。将给定的食 品信息时序数据统一成标准格式,例如,冷鲜牛肉细菌指数、屠宰车间环境指数、运输车辆 温度以及位置数据、市场接触面菌落指数等,将这些数值都转换为一些固定的格式,这样便 于分析和处理,然后对这些标准化后的数据进行离散化处理; 上述"数据的标准化"中,数据指的正是食品领域中检测所得的数据,下面以牛肉为例 只是对"数据标准化"做进一步的解释,旨在将数据标准化的含义具体化便于理解。后文聚 类过程中提到的数据都是指食品领域中的数据,不单指牛肉检测数据。在"3、聚类结果分析 和应用"中以牛肉为例,只是为了更清晰的说明本发明的用法,并不是只用在对牛肉数据的 分析。
[0017] 本发明采用Odibat等人提出的基于K-means的方法
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1