基于大数据分析的结核病流行趋势预测系统的制作方法

文档序号:37299251发布日期:2024-03-13 20:47阅读:42来源:国知局
基于大数据分析的结核病流行趋势预测系统的制作方法

本发明涉及数据处理,尤其涉及一种基于大数据分析的结核病流行趋势预测系统。


背景技术:

1、基于大数据分析的结核病流行趋势预测系统的重要性在于,传统监测手段难以应对结核病复杂的传播模式和多变的影响因素。通过整合大规模的医疗数据、人口统计信息和环境因素等多源数据,可以更全面、准确地了解结核病的流行状况,能够有效提高结核病防控的精准性和效率,有助于采取更有针对性的干预措施。然而,传统的结核病流行趋势预测是基于统计模型进行分析,导致预测结果的精准度较低,并且未考虑结核病不同类型的相互之间转化的关联信息,以及缺乏根据实时的结核病相关数据对结核病预测趋势进行实时更新,使得预测效果较差。


技术实现思路

1、基于此,本发明提供一种基于大数据分析的结核病流行趋势预测系统,以解决至少一个上述技术问题。

2、为实现上述目的,一种基于大数据分析的结核病流行趋势预测系统,包括:

3、结核病数据采集模块,用于利用预设的网络爬虫程序对互联网上的结核病数据进行采集,以获得结核病数据;对结核病数据进行预处理,生成标准结核病数据;

4、结核病预测模型构建模块,用于根据标准结核病数据进行结核病数据的分布分析,生成结核病分布数据;基于决策树算法以及结核病分布数据进行结核病趋势预测的关系模型建立,以生成结核病预测模型;

5、结核病转移概率预测模型构建模块,用于根据结核病分布数据进行结核病转移概率的矩阵映射,生成结核病转移概率矩阵;基于马尔可夫链算法以及结核病转移概率矩阵进行结核病转移概率预测的关系模型建立,以生成结核病转移概率预测模型;

6、结核病趋势预测模块,用于获取结核病预测时间区间;根据结核病预测模型以及转移概率分析模型构建多级结核病转移概率预测模型;将结核病预测时间区间传输至多级结核病预测模型进行结核病预测处理,生成结核病预测数据;根据结核病预测数据以及结核病类型进行各结核病类型的流行趋势可视化展示。

7、本发明通过自动化网络爬虫程序,能够从互联网上高效地收集大量和多样化的结核病相关数据,提高了数据集的代表性和覆盖范围,确保了分析和预测的基础更为全面和准确。其次,预处理环节,包括数据的清洗、标准化和异常值处理,保证了数据的质量和一致性,确保了数据处理的准确性。通过对标准化数据的分布分析,揭示人群中结核病的不同类型的分布特征,为理解结核病的传播模式和影响因素提供了基础,利用决策树算法构建的预测模型,通过分类能力以及决策过程,能够有效预测结核病的未来趋势,增强了对结核病流行动态的理解,也极大提高了疾病趋势预测的准确性和实用性。通过创建结核病转移概率矩阵,能够捕捉结核病在不同区域和人群中转移的概率,提供了对疾病传播模式更深入的理解,适合于分析和预测那些时间上动态变化的疾病传播情况。基于马尔可夫链算法的预测模型因其考虑了事件发生的时间序列特性,预测未来一段时间内疾病类型传播的概率,增强了对结核病流行趋势的预测能力。确定预测时间区间确保了模型的预测结果与实际需求紧密相关,增强了预测的实用性和针对性,通过结合结核病预测模型和转移概率分析模型,构建的多级预测模型可以更全面和精确地分析结核病的传播趋势。这种多级模型结合了不同方法和算法的优点,能够提供更综合的疾病动态分析。将预测结果以可视化的形式展现出来,使得复杂的数据分析更加易于理解和应用,有助于快速、有效地把握疾病的发展态势,不仅提高了结核病流行趋势预测的信息传达的效率和效果,对于指导公共卫生策略和应对措施制定具有重要价值。

8、优选地,所述结核病数据采集模块包括:

9、数据采集子模块,用于利用预设的网络爬虫程序对互联网上的结核病数据进行采集,以获得结核病数据;

10、数据解析子模块,用于对结核病数据进行数据解析,生成解析数据;

11、解析数据检测子模块,用于根据解析数据进行解析异常数据检测,生成异常解析数据;

12、异常数据处理子模块,用于根据异常解析数据对结核病数据进行异常数据剔除,以筛选出有效结核病数据;

13、数据标准化处理子模块,用于根据预设的数据格式对有效结核病数据进行数据标准化处理,生成标准结核病数据。

14、本发明通过预设的网络爬虫程序自动采集互联网上的结核病数据,这不仅提高了数据收集的效率,还保证了收集到的数据范围广泛和多元化。对收集到的结核病数据进行解析,有助于将原始数据转换成更易于处理和分析的格式,如数据头、元数据、控制信息等,为后续数据异常分析提供数据基础。对解析后的数据进行异常检测,能有效识别和分离出可能的错误或不一致数据,对于保证数据集的准确性和可靠性至关重要。通过移除异常解析数据,进一步确保了数据集的质量,减少了后续分析中可能出现的误差,提高了预测模型的准确性。标准化处理使得数据符合预定的格式和标准,不仅有助于统一数据结构,也使得数据集更易于与其他数据集进行整合和比较。

15、优选地,所述结核病预测模型构建模块包括:

16、结核病类型提取子模块,用于根据标准结核病数据进行结核病类型提取,生成结核病类型数据,其中所述结核病类型数据包括常规类型、易感类型、暴露类型、感染类型、康复类型;

17、特征提取模块子模块,用于利用信息熵增益法对标准结核病数据进行特征提取,生成结核病特征数据;

18、数据分布分析子模块,用于根据结核病类型数据以及结核病特征数据进行结核病数据的分布分析,生成结核病分布数据;

19、预测模型构建子模块,用于根据决策树算法对结核病分布数据进行结核病类型趋势预测的树节点映射关系建立,以生成结核病树节点预测模型,对结核病树节点预测模型进行模型集成,以生成初始结核病预测模型;

20、预测模型训练子模块,用于将初始结核病预测模型传输至结核病预测模型进行模型训练,以生成结核病预测模型。

21、本发明通过对结核病数据进行分类,识别出不同类型的结核病,如常规类型、易感类型等,有助于更细致地理解疾病的多样性,为定制化的预测模型提供基础。利用信息熵增益法进行特征提取,可以有效地从大量数据中识别出对预测最有用的特征,提高模型的准确性和效率,信息熵增益法是适用于决策树算法的数据特征提取算法,筛选出更具特征的数据使得数据冗余程度下降,提高模型的泛化能力。结合结核病类型和特征数据进行细致的分布分析,有助于揭示疾病在不同群体和地理位置的分布模式,为精确预测提供重要依据。通过决策树算法建立的树节点映射关系和模型集成,不仅增加了预测模型的维度和复杂性,还提高了模型对未知数据的泛化能力。将结核病分布数据传输至结核病预测模型进行训练,进一步增强了预测模型的拟合能力的稳定性,尤其是在处理结核病数据的大规模和复杂数据集时。

22、优选地,所述结核病转移概率预测模型构建模块包括:

23、状态空间定义子模块,用于根据结核病类型数据进行结核病类型差异的状态空间定义,以获得结核病状态空间;

24、分布数据映射子模块,用于根据结核病状态空间对结核病分布数据进行数据映射,以获得结核病分布矩阵;

25、转移概率计算子模块,用于结核病分布矩阵进行结核病转移概率计算,生成结核病转移概率矩阵;

26、转移概率模型参数设计子模块,用于马尔可夫链算法以及结核病转移概率矩阵进行关系模型参数设计,以生成模型参数;

27、转移概率模型构建子模块,用于利用结核病转移概率矩阵以及模型参数进行结核病转移概率预测的关系模型建立,以生成结核病转移概率预测模型。

28、本发明对不同结核病类型定义状态空间,允许对疾病的多种表现形式进行详细分类,这种分类有助于理解和追踪疾病的不同阶段。例如,将结核病分为易感类型、暴露类型等,可以更精准地模拟病情发展和传播过程。将结核病数据映射到由状态空间定义的矩阵中,有效地组织和结构化了复杂的流行病学数据,这种结构化处理为后续的模型建立提供了坚实基础。通过时间序列分析计算结核病的转移概率,为理解疾病如何随时间演变提供了关键信息,如分析不同时刻的结核病类型的转移概率,使得结核病预测结果精度更高。基于马尔可夫链算法的参数设计,进一步提升了模型的精度和适用性。通过考虑历史数据中的时间依赖性,马尔可夫链模型能够准确捕捉疾病状态之间的转移规律,提高预测结核病趋势的数据精度。利用转移概率矩阵和模型参数构建的预测模型,能够综合考虑历史数据中的复杂关系,并准确预测未来的流行趋势。这种模型不仅在统计上具有较强的鲁棒性,能够适应不同疾病类型的疾病传播特征。

29、优选地,所述转移概率模型构建子模块包括:

30、转移概率模型构建单元,用于基于模型参数进行结核病转移概率预测的映射关系建立,生成初始结核病转移概率预测模型;

31、模型参数迭代优化单元,用于为结核病转移概率矩阵添加时间戳,以获得时序结核病转移概率矩阵;基于模型迭代优化计算公式对时序结核病转移概率矩阵进行模型迭代优化参数计算,生成模型迭代参数;

32、模型优化单元,用于基于模型迭代参数对初始结核病转移预测模型进行模型参数优化调节,以生成结核病转移概率预测模型。

33、本发明依据已定义的模型参数,建立了初始的结核病转移概率预测模型,为疾病转移概率的精确预测提供了一个基础框架。为转移概率矩阵添加时间戳,引入了时间维度,使模型能够考虑结核病状态随时间的变化,时序化处理使模型更贴合真实的疾病状态的动态变化,提高了模型的预测准确性。利用特定的计算公式进行模型迭代优化,根据历史数据了解结核病状态变化的迭代关系,有助于更好地适应数据中的复杂模式和变化趋势,从而用于优化初始结核病转移概率预测模型。基于迭代优化后的参数对模型进行最终调整,进一步细化模型,确保预测模型能够准确反映结核病状态之间的转移规律。

34、优选地,所述模型参数迭代优化单元中的模型迭代优化计算公式如下所示:

35、;

36、表示为模型迭代参数,表示为模型参数,表示为时序结核病转移概率矩阵的矩阵节点对应的起始时间,表示为时序结核病转移概率矩阵的矩阵节点对应的结束时间,表示为矩阵节点的状态数量,表示为矩阵节点的第个状态的转移率参数,表示为自然常数,表示为时序结核病转移概率矩阵的矩阵节点对应的时间区间,表示为矩阵节点的第个状态的转移率参数,表示为是时间时刻的模型参数向量,表示为正则化参数,表示为迭代次数,表示为第次迭代的模型参数。

37、本发明利用一种模型迭代优化计算公式,该计算公式中是模型优化的目标函数,此函数用于量化模型参数集在给定时间区间内的表现;包含了所有影响模型预测的变量;以及作为积分的下限以及上限,表示观察或预测结核病趋势的时间范围;反映了不同结核病类型在矩阵中的数量;表示从状态转移到其他状态的速率;用于反映模型迭代参数计算的时间区间;表示从状态转移到其他状态的速率,是与状态关联的状态;反映在时间时刻,模型的参数状态;用于控制模型复杂度,避免过度拟合;反映优化过程中的迭代总数;反映了第迭代时模型参数的值。积分用于在指定的时间区间以及内累积或整合模型表现,意味着模型在整个时间区间内的表现都被考虑到,而不只是在单个时间点上。这是考虑时间动态性的关键方面。用于计算不同状态下的总和,用于累加矩阵节点的所有可能状态。这确保了模型考虑了所有可能的状态变化,指数函数在此用于表示状态的转移率随时间的变化。乘积用于计算除了当前状态之外的所有状态的转移率参数之间的关系,有助于建立状态之间的相对差异和相互作用。用于防止模型过度拟合。通过添加模型参数的平方和,乘以一个正则化参数,可以控制模型的复杂度,确保其不仅仅适应训练数据,而且具有良好的泛化能力,并且考虑历史的模型参数,使得模型迭代参数考虑时序性的变化。

38、优选地,所述结核病趋势预测模块包括:

39、预测区间获取子模块,用于获取结核病预测时间区间;

40、预测时间节点分析子模块,用于根据时序结核病转移概率矩阵的时间戳的时间间隔对预测时间区间进行时间节点划分,生成预测时间节点数据;

41、多级预测模型构建子模块,用于根据结核病预测模型以及结核病转移概率预测模型建立多级结核病预测模型;

42、结核病预测子模块,用于将预测时间节点数据传输至多级结核病预测模型进行结核病数据预测处理,生成结核病预测数据;

43、结核病趋势可视化子模块,用于根据结核病预测数据以及结核病类型进行各结核病类型的流行趋势可视化展示。

44、本发明确定结核病预测的具体时间区间,帮助聚焦于特定时期的疾病动态。根据时间戳对预测时间区间进行细致的时间节点划分,允许模型捕捉到疾病发展过程中的细微变化,时间节点的划分提供了对疾病动态变化更为精确的时间分辨率,有助于捕获和预测疾病的短期和长期趋势。多级结合结核病预测模型和转移概率预测模型构建的多级预测模型,使得结核病的趋势分析更为精准,不仅能够考虑疾病的历史数据,还能够预测疾病传播在未来的可能走向。通过将预测时间节点数据传输至多级预测模型,并进行数据处理和分析,能够生成具体的结核病预测数据,能够综合历史趋势和当前数据,为制定防控措施和资源分配提供有力依据。根据预测数据及结核病类型进行的可视化展示使得复杂的预测结果更易于理解,提高了信息传递的效率,有助于快速做出基于数据的决策。

45、优选地,所述结核病预测子模块包括:

46、初始结核病预测单元,用于将预测时间节点数据传输至多级结核病预测模型中的结核病预测模型进行结核病数据的初步预测,生成初始结核病预测数据;

47、转移概率预测单元,用于根据初始结核病预测数据传输至多级结核病预测模型中的结核病转移概率预测模型进行结核病转移概率预测,生成结核病预测转移概率;

48、预测数据校正单元,用于根据结核病预测转移概率对初始结核病预测数据进行结核病预测数据的校正调节,以生成结核病预测数据。

49、本发明将预测时间节点数据输入到多级结核病预测模型的第一个环节,即输入到结核病预测模型中,生成初始的结核病预测数据,提供了通过历史结核病数据了解结核病的的大致变化趋势。转移概率预测单元根据初始预测数据,进一步利用转移概率预测模型对结核病的转移概率进行预测,提高了预测的深度,因为它考虑了疾病状态间的转移可能性,这种转移概率预测可以揭示疾病发展的内在规律,如某种结核病状态转变为另一状态的概率。根据预测出的转移概率,对初始预测数据进行校正和调整。这个过程是提高预测准确性的关键。通过这种校正,预测模型能够综合初始预测与转移概率的信息,更准确地反映未来疾病流行的趋势。

50、本说明书中提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的基于大数据分析的结核病流行趋势预测系统。

51、本技术有益效果在于,本发明基于大数据分析的结核病流行趋势预测系统是基于多层的非线性数学模型进行分析,以分析结核病的大致趋势与结核病类型转变概率,使得结核病流行预测趋势更为精准,并且通过考虑结核病不同类型的相互之间转化的关联信息,以及能够根据实时的结核病相关数据对结核病预测趋势进行实时更新,使得预测的结核病趋势效果跟好。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1