使用开源数据的疾病预测系统的制作方法

文档序号:10663613阅读:664来源:国知局
使用开源数据的疾病预测系统的制作方法
【专利摘要】描述了一种使用开源数据的疾病预测系统。该系统包括预处理模块、学习模块和预测模块。所述预处理模块接收与疾病事件相关的N个趋势结果的数据集并且生成与所述疾病事件相关的增强滤波信号EFS曲线。所述学习模块接收所述EFS曲线并且生成所述疾病事件的病例的预测数量,并且使用多种机器学习方法,生成所述疾病事件将在未来时段内发生的多个预测。所述预测模块针对所述多个预测中的每一个确定查准率和查全率,并且基于所述查准率和查全率提供所述疾病事件将发生的可能性。
【专利说明】
使用开源数据的疾病预测系统
[0001 ] 政府权利
[0002] 本发明按照美国政府合同IARPA 0SI-D12PC00285在政府支持下进行。政府具有本 发明中的某些权利。
[0003] 相关申请的交叉引用
[0004] 本发明是要求2014年2月19日提交的、发明名称为"Predict Rare Disease Using Open Source Data"的美国临时申请No · 61 /941,920的优先权的非临时专利申请。
技术领域
[0005] 本发明涉及预测系统,并且更具体地,涉及使用开源数据预测疾病的系统。
【背景技术】
[0006] 预防传染病和及时的健康威胁检测是全球健康优先任务。当在疾病活动的早期检 测后进行快速响应时,能够减小疾病的社会影响和医学影响,因此保卫传染病防线非常重 要。但是,传统监测系统(例如,疾病控制与预防中心(CDC))依赖临床数据。CDC在流行病爆 发几周后公布监测结果,因此需要一种能够在疾病的广泛传播之前告知疾病的爆发的早期 报警系统。
[0007] 存在对疾病传播的动态机构提供深入了解的许多衍生方法。这些模型捕获以不同 水平传播的疾病的方面:从具有和不具有免疫响应的宿主体内(细胞内)流感动态(参见合 并的参考文献列表,参考文献14)到人类行为(宿主间动态)(参见参考文献15)。这些模型基 于对具有不同动力参数的常微分方程的求解。更复杂的模型包括人口规模并且考虑空间信 息。一些模型倾向于将不同规模的模型与历史数据进行联合(参见参考文献3)。在参考文献 16中能够找到对现有方法的良好回顾。统计模型例如与季节性天气变化或其它环境因素与 疾病活动的相关性最相关(参见参考文献17-19)。
[0008] 对早期报警和疾病治疗检测的需要导致流行病情报工作的发展(参见参考文献 20)(普美邮件(ProMED-mail)是这种系统的第一个示例)。流行病情报工作包括特别(ad hoc)检测以及互联网中可用的非结构化信息的解释。该信息由官方和非正式类型的源生 成,并且可以包括来自媒体的谣言或来自官方源或传统的流行病学监测系统的更可靠的信 息。流行病情报是包括针对事件选择的正式协议、报道事件的真实性的验证、补充可靠信息 的搜索、分析和通信的复杂过程。
[0009] 基于网络搜索量的监测成为提供关于疾病爆发的及时报警的另一有前景的工具。 基于网络搜索查询的成功的流感样病例(ILI)预测的生动例证是谷歌流感趋势;这种应用 的途径、方法和示例在参考文献1中提出。大量论文描述了用于监测ILI活动的水平的谷歌 流感趋势的成功应用,这在官方报道的统计数字之前提供了疾病水平的趋势估计(参见参 考文献2、4、21-23)。
[0010] 在文献中提出的预测方法将网络搜索查询与在疾病活动水平的官方报告中可获 得的统计数字相关联。该模型的参数通常基于训练数据来估计,并且用于预测这些参数的 值中随时间或在感兴趣时段期间假设的缓慢变化。
[0011] 从网络搜索趋势提取的信号存在两种类型:一种通过搜索量的时间序列形成(参 见参考文献6、8和12),另一种是每天或每周进行的搜索的总数中的疾病相关搜索的一部分 (参见参考文献1和5)。第一种数据与确认的疾病情况的数量相关,而第二种数据与看医生 有关的疾病的一部分、由疾病引起的死亡率等相关。
[0012] 网络搜索词通常包括名称、病因、症状、诊断方法、治疗和相关疾病(例如,参见参 考文献12)。疾病相关词的单独网络搜索查询与发病趋势的高线性相关性被观察并且被许 多研究人员直接用于预测(例如,参见参考文献6和24)。这种数据通常被流感样疾病的研究 人员使用,这可以由倾向于得流感的大部分人口来解释。在参考文献1和11中作者使用了与 正在研究的疾病相关的查询的部分和官方记录的部分的效用函数(对数-奇数)之间的线性 拟合。在参考文献1中,例如,作者提出了在50,000个词当中选择具有最高相关性的时间序 列并且加上热搜词以实现更好的预测结果的系统。另选地且如在参考文献11中描述地那 样,作者调查了在英国监测猩红热的可能性并且示出了感兴趣的时间序列的伽马变换与罗 杰特变换相比表现出更好的预测,特别是针对与疾病水平弱相关的查询。
[0013] 具有较少感染和研究的大多数可更改传染病在疾病趋势和相关搜索量趋势之间 不具有高相关性(例如,参见参考文献12)。在这种情况下,采用诸如隐马尔可夫模型(HMM) 的其它方法(例如,参见参考文献7和12)以进行肺结核和肝炎研究;采用决策树(参见参考 文献10)和支持向量机(参见参考文献8)的其它方法以进行登革热监测。
[0014] 因此,对高效且有效地预测疾病(其中,疾病趋势与相关搜索量趋势之间存在低相 关性)以提供在疾病传播之前告知疾病爆发的早期报警系统的系统存在持续的需求。

【发明内容】

[0015] 本发明涉及一种使用开源数据预测疾病的系统。该系统包括预处理模块,所述预 处理模块用于接收与疾病事件相关的N个趋势结果的数据集并且生成与所述疾病事件相关 的增强滤波信号(EFS)曲线。还包括学习模块,所述学习模块用于接收所述EFS曲线并且生 成所述疾病事件的病例的预测数量,并且使用多种机器学习方法,生成所述疾病事件将在 未来时段内发生的多个预测。另外,该系统包括预测模块,所述预测模块用于针对所述多个 预测中的每一个确定查准率(precision)和查全率(recall),并且基于所述查准率和查全 率提供所述疾病事件将发生的可能性。
[0016] 在另一方面,在生成所述EFS曲线中,所述预处理模块还对所述数据集执行去趋势 (detrending)、标准化(scaling)以及滤波的操作以去除与被搜索疾病事件的发生无关的 信号。
[0017] 在又一方面,在对所述数据集进行滤波中,利用皮尔逊系数的阈值对所述数据集 进行滤波。
[0018] 另外,在对所述数据集进行滤波中,所述预处理模块通过执行以下操作来确定所 述皮尔逊系数的阈值:生成与所述N个趋势结果的数据集中相同数量的随机时间序列;如果 所述N个趋势结果的数据集包含Μ个点,则在从0至100的范围中随机挑选数字Μ次,使得每个 时间序列的长度相同;计算基本事实与每个随机趋势之间的最大皮尔逊相关系数R;重复生 成、随机挑选以及计算的操作预定次数;以及对所述Ν个趋势结果的数据集进行滤波,使得R 的分布的平均值是用于数据集滤波的阈值Tr,从而只将具有R>Tr的时间序列一起求和并且 形成所述EFS。
[0019] 在另一方面,在提供所述疾病事件将发生的可能性中,选择所述多个预测中的提 供最佳查准率/查全率对的预测作为所述疾病事件将发生的可能性。
[0020] 在又一方面,生成所述疾病事件的病例的预测数量还包括利用提前预定时段被调 节的滑动窗对所述EFS曲线执行线性回归的操作。
[0021] 在另一方面,生成所述疾病事件将在未来时段内发生的多个预测还包括以下操 作:使用逻辑回归、自适应增强、决策树和支持向量机来生成四种预测,然后执行贝叶斯模 型平均以组合所述四种预测。
[0022] 最后,本发明还包括方法和计算机程序产品。所述方法包括使一个或更多个处理 器执行本文列出的操作的动作,而所述计算机程序产品例如是非瞬态计算机可读介质,该 非瞬态计算机可读介质在其上编码有指令以使一个或更多个处理器执行本文描述的操作。
【附图说明】
[0023]本发明的目的、特征和优点将从以下结合附图的本发明的各方面的详细说明变得 更明显,在附图中:
[0024] 图1是描绘根据本发明的原理的预测系统的部件的框图;
[0025] 图2是根据本发明的原理的计算机程序产品的图;
[0026]图3是提供根据本发明的原理用于预测汉坦病毒发生的处理流的图;
[0027] 图4是例示历史汉坦病毒活动水平的图表,例如,每个月(5周)的事件率对比汉坦 病毒疾病计数;
[0028] 图5是描绘针对N个谷歌趋势(GT)的数据集和时间序列(TS)的增强滤波信号(EFS) 计算的处理的流程图;
[0029] 图6是比较GT网络搜索与随机生成的时间序列之间的皮尔逊相关系数的表;
[0030] 图7是例示EFS和疾病发生率的图表;
[0031] 图8是例示作为关于汉坦病毒发生率的具有52周滑动窗的EFS的回归结果而获得 的预测率(提前一周)的图表;
[0032] 图9是提供与汉坦病毒相关的网络搜索词的相关系数的表;
[0033] 图10是提供针对随机森林重要性(RFI)、秩相关和信息增益的受试者操作特征 (R0C)曲线的图;
[0034] 图11是描绘与真实事件相比预测的疾病事件的可能性的图;以及 [0035]图12是例示根据本发明原理的实时预测结果的表。
【具体实施方式】
[0036]本发明涉及预测系统,并且更具体地,涉及使用开源数据预测疾病的系统。提出下 面的说明以使本领域技术人员能够制造和使用本发明并且在特定应用的情况下将本发明 合并。不同应用中的各种修改以及多种用途对本领域技术人员来说将是显而易见的,并且 在本文种限定的一般原理可以应用于大范围的实施方式。因此,本发明不意在被限于提出 的实施方式,而是要符合与本文公开的原理和新的特征一致的最大范围。
[0037]在下面的详细描述中,阐述了许多具体细节以便提供本发明的更透彻理解。然而, 对于本领域技术人员而言明显的是,可以实施本发明而没有必要限于这些具体细节。在其 它实例中,为了避免模糊本发明,公知的结构和设备以框图的形式被示出,而非详细示出。 [0038]读者的注意力致力于与本说明书同时提交且和本说明书开放给公众查阅的所有 论文和文献,所有这样的论文和文献的内容合并于此以供参考。除非有明确说明,否则本说 明书公开的所有特征(包括任何所附权利要求、摘要和附图)可以由用于相同、等同或类似 目的另选特征来代替。因此,除非有明确说明,否则公开的每个特征仅是通用系列的等同或 类似特征的一个示例。
[0039]此外,如在35U. S. C.第112条第6款中规定的,没有明确说明用于执行特定功能的 "装置"或用于执行特定功能的"步骤"的权利要求中的任何元素,不应理解为"装置"或"步 骤"条款。具体地,本文权利要求中使用"步骤"或"动作"并不意味着调用(inv 〇ke)35U.S.C. 第112条第6款的规定。
[0040] 在详细描述本发明之前,首先给出引用的参考文献的列表。然后,提供在说明书和 权利要求书中使用的词表。然后,提供本发明的多个主要方面的描述。随后,概述向读者提 供对本发明的整体理解。最后,提供本发明的具体细节以便给出特定方面的理解。
[0041] (1)合并的参考文献的列表
[0042] 下面的参考文献在本申请中自始至终被引用。为了清楚和方便起见,参考文献在 此列出作为读者的中心资源。以下参考文献通过引用并入本文,如同在此完全阐述。本申请 中的参考文献通过相应的参考文献编号来引用。
[0043] 1 .Ginsberg,J等人,Detecting influenza epidemics using search engine query data.Nature,2009.457(7232):p.1012-U4.
[0044] 2.Carneiro,H.A和E.Mylonakis,Google Trends:A Web-Based Tool for Real-Time Surveillance of Disease Outbreaks.Clinical Infectious Diseases,2009.49 (10):p.1557-1564.
[0045] 3 · Nsoesie,E · 0等人,A Simulation Optimization Approach to Epidemic Forecasting.Plos One,2013.8(6).
[0046] 4 · Pervaiz,F等人,FluBreaks : Early Epidemic Detection from Google Flu Trends.Journal of Medical Internet Research,2012.14(5).
[0047] 5.Polgreen,P.M 等人,Using Internet Searches for Influenza Surveillance.Clinical Infectious Diseases,2008.47(11):p.1443-1448.
[0048] 6.Wilson,K和J.S.Brownstein,Early detection of disease outbreaks using the Internet.Canadian Medical Association Journal,2009.180(8):p.829-831.
[0049] 7.Zhou,X.,J.Ye和Y.Feng,Tuberculosis Surveillance by Analyzing Google Trends.Ieee Transactions on Biomedical Engineering,2011.58(8).
[0050] 8.Althouse,B.M.,Y.Y.Ng和D.A.T.Cummings,Prediction of Dengue Incidence Using Search Query Surveillance.Plos Neglected Tropical Diseases,2011.5(8): p. el258.
[0051] 9.Chan,E.H 等人,Using Web Search Query Data to Monitor Dengue Epidemics: A New Model for Neglected Tropical Disease Surveillance.Plos Neglected Tropical Diseases,2011.5(5):p.el206.
[0052] 10 · Tanner,L等人,Decision Tree Algorithms Predict the Diagnosis and Outcome of Dengue Fever in the Early Phase of Illness.Plos Neglected Tropical Diseases,2008.2(3).
[0053] 11·Samaras,L·,E.Garcia-Barriocanal 和M.-A.Sicilia,Syndromic surveillance models using Web data: The case of scarlet fever in the UK.Informatics for Health&Social Care,2012.37(2):p.106-124.
[0054] 12.Zhou,X等人,Monitoring Epidemic Alert Levels by Analyzing Internet Search Volume.Ieee Transactions on Biomedical Engineering,2013.60(2):p.446-452.
[0055] 13·Markey,P·M和C·N·Markey,Annual variation in Internet keyword searches: Linking dieting interest to obesity and negative health outcomes.Journal of Health Psychology,2013.18(7):p.875-886.
[0056] 14·Beauchemin,C·A和A·Hande1,A review of mathematical models of influenza A infections within a host or cell culture: lessons learned and challenges ahead BMC Public Health,2011·ll(suppl 1):p.S7.
[0057] 15.Funk,S.,M.Salathe和V.A.A.Jansen,Modelling the influence of human behaviour on the spread of infectious diseases:a review.2010.7:p.1247-1256.
[0058] 16.Murillo,L.N.,M.S.Murillo和A.S.Perelson,Towards multiscale modeling of influenza infection.Journal of Theoretical Biology,2013.332:p.267-290.
[0059] 17 · Lipp,E · K ·,A · Huq和R · R · Colwe 11,Ef f ect s of global c 1 imate on infectious disease : the cholera model. Clinical Microbiology Reviews ,2002.15 (4):ρ·757.
[0060] 18.McMichael,A.J. ,R.E.Woodruff和S.Hales,Climate change and human health:present and future risks.Lancet,2006.367(9513):p.859-869.
[0061] 19 · Pat z,J · A等人,Impac t of regional climate change on human health.Nature,2005.438(7066):p.310-317.
[0062] 20 · Barboza,P 等人,Evaluation of Epidemic Intelligence Systems Integrated in the Early Alerting and Reporting Project for the Detection of A/H5NlInfluenza Events.Plos One,2013.8(3).
[0063] 21.Dugas,A.F., Influenza Forecasting with Google Flu Trends.
[0064] 22.Kang,M等人,Using Google Trends for Influenza Surveillance in South China.Plos One,2013.8(1).
[0065] 23.Malik,M.T等人,"Google Flu Trends',and Emergency Department Triage Data Predicted the 2009Pandemic HlNlffaves in Manitoba.Canadian Journal of Public Health,2011.102(4):p.294-297.
[0066] 24.Hulth,A和G.Rydevik,GET WELL:an automated surveillance system for gaining new epidemiological knowledge.Bmc Public Health,2011.11.
[0067] (2)主要方面
[0068] 本发明具有三个"主要方面"。第一个主要方面是疾病预测系统。该系统通常是计 算机系统操作软件的形式或者是"硬编码"指令集的形式。该系统可并入到提供不同功能的 多种设备中。第二个主要方面是通常是软件形式并且使用数据处理系统(计算机)来操作的 一种方法。第三个主要方面是一种计算机程序产品。该计算机程序产品通常代表存储在非 瞬时计算机可读介质(例如,诸如紧凑盘(CD)或数字多功能光盘(DVD)的光学存储设备,或 诸如软盘或磁带的磁存储装置)上的计算机可读指令。另外,计算机可读介质的其它的非限 制性示例包括硬盘、只读存储器(ROM)以及闪存类型的存储器。这些方面将在下面更详细地 描述。
[0069] 图1中提供描述本发明的系统(即,计算机系统100)的示例的框图。计算机系统100 被配置为执行与程序或算法相关联的计算、处理、操作和/或功能。在一方面,本文讨论的特 定处理和步骤被实现为驻留在计算机可读存储单元内且由计算机系统100的一个或更多个 处理器执行的一系列指令(例如,软件程序)。当所述指令被执行时,指令使计算机系统100 执行特定动作,并表现出如本文所述的特定行为。
[0070] 计算机系统100可包括配置为传输信息的地址/数据总线102。另外,一个或更多个 数据处理单元(例如,一个处理器1〇4(或多个处理器))与地址/数据总线102联接。处理器 104被配置为处理信息和指令。在一方面,处理器104是微处理器。另选地,处理器104可以是 不同类型的处理器,例如并行处理器或现场可编程门阵列。
[0071] 计算机系统100被配置为利用一个或更多个数据存储单元。计算机系统100可以包 括与地址/数据总线102联接的一个易失性存储单元106(例如,随机存取存储器("RAM")、静 态RAM、动态RAM等),其中,易失性存储单元106被配置成存储用于处理器104的信息和指令。 计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如,只 读存储器("ROM")、可编程R0M( "PR0M")、可擦除可编程ROM( "EPROM")、电可擦除可编程ROM ("EEPR0M")、闪存等),其中,非易失性存储单元108被配置为存储用于处理器104的静态信 息和指令。另选地,计算机系统100可以例如在"云"计算中执行从在线数据存储单元检索到 的指令。在一方面,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接 口(例如,接口 110)。一个或更多个接口被配置为使计算机系统100与其它电子设备和计算 机系统交互。由所述一个或更多个接口实现的通信接口可以包括有线(例如,串行电缆,调 制解调器,网络适配器等)和/或无线(例如,无线调制解调器,无线网络适配器等)通信技 术。
[0072] 在一方面,计算机系统100可以包括与地址/数据总线102联接的输入设备112,其 中,输入设备112被配置成向处理器100传送信息和命令选择。根据一方面,输入设备112是 可包括字母数字和/或功能键的字母数字输入设备(例如键盘)。另选地,输入设备112可以 是除了字母数字输入设备之外的输入设备。在一方面,计算机系统100可以包括与地址/数 据总线102联接的光标控制设备114,其中,所述光标控制设备114被配置成向处理器100传 送用户输入信息和/或命令选择。在一方面,使用例如鼠标、跟踪球、跟踪垫、光学跟踪设备 或触摸屏来实现所述光标控制设备114。尽管前述如此,在一方面,例如响应于与输入设备 112相关的特定键和键序列命令的使用,经由来自输入设备112的输入来指导和/或激活光 标控制设备114。在另选方面,光标控制设备114被配置成通过语音命令而被指导或引导。
[0073] 在一方面,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个 可选的计算机可用的数据存储设备(例如,存储设备116)。存储设备116被配置成存储信息 和/或计算机可执行指令。在一方面,存储设备116是诸如磁盘或光盘驱动器(例如,硬盘驱 动器("HDD")、软盘、紧凑盘只读存储器("CD-ROM")、数字多功能盘("DVD"))的存储设备。按 照一方面,显示设备118与地址/数据总线102联接,其中,显示设备118被配置为显示视频 和/或图形。在一方面,显示设备118可以包括阴极射线管("CRT")、液晶显示器("LCD")、场 发射显示器("FED")、等离子显示器、或适合于显示用户可识别的视频和/或图形图像和字 母数字字符的任何其它显示装置。
[0074] 这里所呈现的计算机系统100是根据一方面的示例计算环境。但是,计算机系统 100的非限制性示例不是严格限定为计算机系统。例如,一方面提供了计算机系统100表示 用于根据本文描述的多方面的一种数据处理分析。并且,也可以实现其它计算系统。事实 上,本技术的精神和范围不限于任何单一的数据处理环境。因此,在一方面,本技术的多个 方面的一个或更多个操作通过使用由计算机执行的诸如程序模块的计算机可执行指令来 控制或实现。在一个实现中,这样的程序模块包括被配置为执行特定任务或实现特定抽象 数据类型的例程、程序、对象、组件和/或数据结构。此外,一方面提供了本技术的一个或更 多个方面通过利用一个或更多个分布式计算环境来实现,例如特定任务由通过通信网络链 接的远程处理设备来执行,或者例如各种程序模块位于包括存储器存储设备的本地和远程 计算机存储介质二者。
[0075] 图2中描述了实施本发明的一个方面的计算机程序产品(即,存储设备)的示图。所 述计算机程序产品被描述为软盘200或诸如CD或DVD的光盘202。但是,如前所述,该计算机 程序产品通常表示存储在任何兼容的非瞬时计算机可读介质上的计算机可读指令。针对本 发明使用的术语"指令"通常表示要在计算机上执行的一组操作,并且可以表示整个程序的 多个片段或单独的、可分离的、软件模块。"指令"的非限制示例包括计算机程序代码(源代 码或目标代码)和"硬编码"电子(即编码到计算机芯片中的计算机操作)。"指令"可以被存 储在计算机存储器中或诸如软盘、CD-ROM以及闪存驱动器的计算机可读介质上。在上述任 何一种情况下,指令被编码在非瞬时计算机可读介质上。
[0076] (3)介绍
[0077] 描述了一种用于基于从搜索引擎(例如,谷歌)搜索量(例如,谷歌趋势(GT))提取 的关键词时间序列来预测诸如汉坦病毒的罕见疾病的发病的系统和方法。该方法的独特方 面在于:1)来自社交媒体源(例如,GT)的增强滤波信号(EFS)的结构,2)将该信号包括在机 器学习(ML)中进一步使用的数据集中,以及3)应用整个流水线(pipeline)来预测疾病(例 如,汉坦病毒)发生。已经证明,谷歌中的搜索活动反应了疾病活动的水平并且能够用来预 测罕见的疾病事件。例如对从卫生部网站获得的汉坦病毒发病的统计数字执行系统的训 练。
[0078] 用于汉坦病毒预测的流水线被设计为与具有低信噪比(SNR)的数据集一起工作; 换句话说,与汉坦病毒发病率趋势相关的信号基本上被噪声污染。如上所述,流水线包括基 于线性相关(皮尔逊相关)和机器学习技术的贝叶斯模型平均(BMA)的增强滤波的信号。这 些处理能够捕获发病率趋势和疾病相关词的网络搜索查询之间相关性的不同性质,在这种 意义上,这些处理是互补的。
[0079] 增强滤波信号(EFS)是基于通过所选搜索趋势的求和的信号放大的想法。谷歌流 感趋势(参见参考文献1)的开发人员利用了这个概念,但是在与本申请提出的环境不同的 环境下。他们(即,谷歌流感趋势的开发人员)选择要包括多少个趋势来进行预测的标准依 赖于测试数据的去一样本(one-sample-out)交叉验证的结果,并且他们具有与ILI疾病水 平高相关(最大R~0.95)的多个搜索时间序列。但是,他们不实施针对疾病预测的机器学习 方法。
[0080]本系统解决了监控和监测诸如汉坦的病毒的流行与传播的需求。本系统通过用作 传统监测系统的补充,给卫生部和其它卫生决策者提供了在官方统计公布之前提供及时预 测并反映疾病传播的当前状态的重要工具。本系统还可以用来预测登革热,因为该病原体 的发病在某些设置中可以改变一个数量级。总之,本系统提供了描绘人类行为特性的信号 间的相关性分析,这得到未来重要事件的预测(例如疾病预测)。值得注意的是,本系统提供 了对现有技术的显著技术改进在于,即使在疾病趋势与相关的搜索量趋势之间存在低相关 性时,本系统也能基于网络搜索词有效地预测疾病事件。下面提供具体细节。
[0081 ] (4)本发明的具体方面
[0082] 图3提供了用于预测疾病(例如,汉坦病毒爆发)的系统的系统图。如图所示,整个 流水线可以被划分成三个主要模块:预处理模块300、学习模块302和预测模块304。预处理 模块300提供了谷歌趋势306的滤波和标准化。预处理模块300还包括通过将时间序列307与 相关系数的最大绝对值相加而获得的EFS信号308的计算。给具有高负相关性的时间序列 307添加负号。学习模块302包括回归310和机器学习(ML)312,其中,基于拟合来预测对疾病 发生的时间序列和活动水平回归的EFS时间序列。EFS信号308被添加至谷歌趋势时间序列 306的数据集并且关于基本事实(ground truch)被训练;使用贝叶斯模型平均来联合通过 ML 312处理(例如,四种ML方法)的预测。根据回归模块310计算的活动水平与来自ML 312的 预测相结合。简要地说,如果疾病发生量足够大(例如,大于5或任何其它期望的预定阈值 数),则使用回归310;另选地,如果发生量为小(例如,小于5或任何其它期望的预定阈值 数),则使用机器学习(MLUWiFS信号308提供从回归310切换到ML 312的阈值。下面将提 供关于这些模块和处理中的每一个的具体细节。
[0083] 应当理解,虽然下文关于汉坦病毒描述了本系统,但是本系统不限于此,因为本系 统能出于预测目的应用于任何疾病。话虽如此并且出于例示的目的,本系统针对在智利的 汉坦病毒预测进行了试验。每周使用API下载疾病相关词的谷歌趋势,并且该疾病相关词的 谷歌趋势是国家特定的。词与汉坦病毒和其它疾病的名称、治疗、症状相关。确认病例的官 方统计数字从卫生部网站获得,针对智利在epi.minsal. cl/informe-situacion-epidemiologica-hantavirus-3/可以找到;该网站的公告每周更新且没有延迟。由于官方 报道开始于2008年,因此通报数据分析开始于2008年。
[0084] (4.1)预处理模块-增强滤波信号(EFS)
[0085]如上所述,本系统包括提供谷歌趋势的滤波和标准化的预处理模块,该预处理模 块用于生成EFS信号。在谷歌趋势中反应了针对事件的社会兴趣和社会反应。该性质用来构 建用于监测社会生活的不同方面(包括疾病)的监测系统。谷歌趋势的信息是受许多方面和 因素影响的复杂处理。一般来说,感兴趣的趋势可以使用事件的时间序列和一些社会响应 函数的卷积表示如下:
[0086] GT丨',-E'ts?(/)、,
[0087] 其中,GTe是感兴趣的趋势,Ets是相关事件,并且奶是社会响应函数,该社会响应函 数可以被表示为具有与事件的存在期成比例的标准偏差的高斯函数(非对称或对称)。
[0088] 在病例确认前可以在新的社交媒体源(例如,谷歌趋势)中讨论事件中的一些(诸 如,汉坦病毒发病),并且事件中的一些根据该事件对社会的影响还可以具有后历史。因为 社会响应函数(<|> s)是未知的且非常难估计,因此利用表示事件率(被计算为具有五周时间 窗的移动平均数)的曲线来代替该社会响应函数,所述曲线向后偏移两周以避免延迟(如图 4所示)。图4例如提供了例示汉坦活动水平的曲线,该曲线示出了每个月的事件率对比汉坦 病毒疾病计数。事件率是每时段的疾病发生量(N/t);在这种情况下每个月的疾病计数量 (发生)。因此,根据本发明的原理的系统不使用谷歌趋势与事件本身的相关性,而使用针对 相关性的事件率曲线来进行分析。如在图6中提供的表中所示,疾病相关趋势示出了与事件 率而不是与事件发生(即,计数)更高的相关性。
[0089] 在图5中例示了由预处理模块实现的(用于确定EFS308)处理。具体地,图5是例示 针对N谷歌趋势(GT)的数据集306和时间序列(TS)的数据集307的EFS308计算处理的流程 图。系统以疾病相关词的N谷歌趋势的数据集306开始。谷歌趋势是Google Inc.的基于谷歌 搜索的公共网络附加功能,其示出了在世界各个区域中,相对于总搜索量,多久输入一次特 定搜索词。应注意,仅出于例示性目的使用谷歌趋势,因为本发明不意在被限于此,并且可 以使用登记搜索词使用和搜索词量(一般称为"趋势结果")的任何服务来操作。因此,执行 去趋势和标准化500。换句话说,由于互联网使用数量的增多而去除了趋势,且然后数据被 重新标准化为在〇至100的范围中。当谷歌趋势用于疾病跟踪和预测时,由于更多的互联网 使用而去趋势例如通过研究人员被常规完成(参见参考文献1、2、5、6、7和11)。在该非限制 性示例中,利用快速傅里叶变换(FFT)完成去趋势,因此从初始时间序列去除0频率。之后, 执行从0至1的数据标准化。
[0090] 系统然后执行数据集滤波502以去除与被搜索事件(例如,汉坦病毒感染)的发生 无关的信号。为了去除这种无关信号,系统首先通过执行以下步骤来确定皮尔逊相关系数 的阈值504: (1)生成与GT数据集中相同数量的随机时间序列;(2)如果GT数据集包含Μ个点, 则在从0至100的范围中随机挑选数字Μ次,因此,每个时间序列的长度与原始集中相同;(3) 计算基本事实与随机趋势中的每一个之间的最大皮尔逊相关系数R; (4)重复步骤(1)、(2) 和(3)足够大数量的次数(例如,100次);(5)对数据集进行滤波使得获得的R的分布的平均 值是用于数据集滤波的阈值T r:其中,只有具有R>Tr的时间序列被加在一起并且形成EFS。在 本研究论文中,例如,T r = 0.14。
[0091] 出于例示性目的,图7提供了针对智利的网络搜索计算的EFS信号的图(R=0.62)。 汉坦病毒的发病率的动态具有季节周期,且具有两个峰值:较弱的峰值在冬季,较强的峰值 在夏季,达到每周5至6个确认病例。汉坦病毒相关搜索示出了与发病率趋势的高相关性。 [0092] (4.2)学习模块-对汉坦病毒发病的时间序列的EFS回归和汉坦病毒发病的时间序 列上的谷歌趋势时间序列的机器学习
[0093]如上所述,系统包括提供回归和机器学习(ML)的学习模块。采用多种分类的学习 技术以预测是否要发生汉坦病毒发病(例如,是否将在下周内发生发病)。如上所述,与其它 疾病相比,汉坦病毒计数相对低;因此,利用EFS曲线预测疾病活动水平允许系统近似预测 病例的平均数量,而ML方法确定事件是否将(例如,在下周)发生。
[0094] EFS回归允许系统准确地预测下周将发生多少事件。例如,图8是示出具有52周滑 动窗的关于事件率的曲线的线性回归的曲线图。具体地,图8描绘了作为对具有52周滑动窗 的汉坦病毒发病率的EFS的回归结果的提前一周(或任何其它预定时段)调节的事件率(粗 线)的预测。
[0095] 应注意到什么查询与汉坦病毒活动最相关。例如,图9是针对智利具有最尚相关系 数的值的网络搜索词的表。正如预料的那样,汉坦病毒的名称及其症状在最高相关查询当 中,而针对其它疾病的查询具有大的负相关性。一般来说,皮尔逊系数的值远小于由研究人 员针对诸如流感或登革热的其它疾病而展示的那些,这可以通过已经患有这种病的相对小 数量的人来解释;因此,网络搜索噪声更多。
[0096] 如上所述,ML方法确定事件是否将(例如,在下周)发生。历史数据集用于分析和训 练。作为非限制性示例并且针对本文描述的结果,分析了从2010年1月至2013年10月的数 据,且训练周期是2010年1月至2012年10月。使用了四种ML技术,这四种ML技术对于本领域 技术人员来说全部是已知的,这四种ML技术包括逻辑回归(LR)、自适应增强(AB)、决策树 (DT)和支持向量机(SVM)。然后,使用贝叶斯模型平均(BMA)来结合这四种预测。使用R包 (package) ( "glm"、"ada"、"rpart"、"svm"和"bms")来进行分析。如本领域技术人员理解的 那样,上述包通常理解为包的名称R,而在本情况下,用作ML。
[0097] 以下特征构成了分析的数据集:
[0098] a.收集并滤波与汉坦病毒相关的词的网络搜索查询以解释增大的互联网用户数 量;
[0099] b.EFS曲线被添加至数据集;
[0100] C.时间序列向前偏移一周以解释之前的信息;以及
[0101] d.生成时间序列的动量(原始的、偏移的和EFS)。动量是时间序列中用来解释关键 词计数变化的两个连续点之间的差。
[0102] 可应用多个特征选择标准以便去除噪声和不相关特征。这些特征选择标准的非限 制性示例包括如在"FSelector"包(R)中实施的线性相关、秩相关、基于信息的标准和随机 森林重要性(RFI)标准。针对每个特征选择标准,利用不同数量的选择特征(从~150至2)执 行ML分析,然后执行针对降维的主成分分析(PCA)。为了展示性能,图10中示出了针对训练 数据集获得的最佳R0C曲线,且每个模型的参数针对训练数据集被估计。所有技术在精确性 和其它性能评估指标方面示出了类似的表现。如果在应用随机森林重要性(RFI)滤波之后 只留下了四至五个特征,则观察到最佳性能。
[0103] 应注意,在该示例中,使用RFI标准计算在所有特征当中具有最高分数的EFS曲线。
[0104] (4.3)预测模块-针对智利的汉坦病毒发病的实时预测
[0105] 如上面所注意到的,系统并入了预测模块,该预测模块生成在未来时段(例如,下 周)内将发生疾病事件的可能性或概率。在图11中,在真实事件旁例示了通过四种ML技术和 BMA估计的事件将发生的概率(即,预测)。换句话说,如果发生真正的事件(即,真实事件), 则历史概率为1,而如果没有发生真正的事件,则历史概率为0。如所示,BMA曲线与真实事件 的序列具有相当高的相关性。能够估计具有最佳性能的概率值的阈值;该阈值例如大约是 0.6,且查全率(recall)大约是0.72,并且查准率大约是0.87。应注意到,在许多实例中,BMA 曲线的预测峰值与真实事件曲线的峰值共现。人们可以针对不同概率值画出一条线并且计 算两条曲线的峰值共现几次。之后,计算查准率和查全率。针对不同的概率值自动完成查准 率和查全率的计算。然后,选择具有最佳对查准率/查全率的概率值以提供预测结果。
[0106] 本文描述的系统用于智利的汉坦病例的实时预测。该系统每周运行以估计下周将 发生事件的概率;每次系统运行,提供之前的50周作为测试时段以基于最佳性能标准来估 计概率阈值。结果呈现在图12中所示的表中(针对从2013年6月直到2013年10月初的时段)。 病例确认的日期被视为事件日期。最早报道的日期(ERD)是由智利卫生部公布公告的日期 (智利卫生部每周公布病例的公告)。时间窗是进行预测的日期(即,表中的运行日期)到事 件日期之间的天数。即使事件日期被视为病例确认的日期,一个特定疾病历史的发展也花 很长时间:这些病例通常在农村地区发生并且第一个症状能在官方确认之前的两至四周出 现。鉴于此,时间窗可以针对预测而增大(例如,多达14天)以被标注为正确。只有在ERD前至 少一天被预测且在时间窗(例如,14天时间窗)内发生的病例被视为有效预测。列"N天"示出 对要发生的事件数量的估计(即,基于EFS曲线的回归根据活动水平分析进行的预测)。例 如,如果在最近四周中只发生了两个事件并且存在对一个事件的活动水平的预测,则这意 味着将发生三个事件(活动水平被计算为5周中的事件数量)。如表所示,发生了 7个事件并 且系统正确地预测出了它们中的五个("丢了"2个)。进行了9个预测;因此,在该示例中的查 全率是0.71并且查准率是0.56。运行日期到事件日期(提前时间)之间的天数构成平均6.6 天,且时间窗平均是4.8天。
[0107] (4.4)结论
[0108] 总之,描述了独特的疾病预测系统,该系统对现有技术的显著技术改进在于,即使 在疾病趋势与相关搜索量趋势之间存在低相关性时(与要求高相关性的现有技术相反),该 系统也能基于网络搜索词有效地预测疾病事件。如上所述的系统需要用于EFS计算和ML分 析的方法和技术的详细序列,这允许汉坦病毒发病率的预报和实时预测。基于对含有感兴 趣的信号的时间序列的求和来生成EFS曲线以增加信噪比(SNR)。该曲线对事件率曲线的回 归用于活动水平的估计。使用BMA结合的机器学习技术的预报是下周将发生/不发生/事件 的概率。如果ML预测超过阈值,则基于使用EFS曲线获得的活动水平来估计将发生多少事件 并且发布预报。整个系统在智利进行了预测汉坦病毒发病率的实时测试,该系统展示了可 接受的性能水平,查全率为〇. 71且查准率为0.56。
【主权项】
1. 一种使用开源数据的疾病预测系统,该系统包括: 预处理模块,所述预处理模块用于接收与疾病事件相关的N个趋势结果的数据集并且 生成与所述疾病事件相关的增强滤波信号EFS曲线; 学习模块,所述学习模块接收所述EFS曲线,生成所述疾病事件的病例的预测数量,并 且使用多种机器学习方法生成所述疾病事件将在未来时段内发生的多个预测;以及 预测模块,所述预测模块针对所述多个预测中的每一个确定查准率和查全率,并且基 于所述查准率和所述查全率提供所述疾病事件将发生的可能性。2. 根据权利要求1所述的系统,其中,在生成所述EFS曲线中,所述预处理模块还对所述 数据集执行去趋势、标准化以及滤波的操作以去除与搜索的疾病事件的发生无关的信号。3. 根据权利要求2所述的系统,其中,在对所述数据集进行滤波中,利用皮尔逊系数的 阈值对所述数据集进行滤波。4. 根据权利要求3所述的系统,其中,在对所述数据集进行滤波中,所述预处理模块通 过执行以下操作来确定皮尔逊系数的阈值: 生成与所述N个趋势结果的数据集中相同数量的随机时间序列; 如果所述N个趋势结果的数据集包含Μ个点,则在从0至100的范围中随机挑选数字Μ次, 使得每个时间序列的长度相同; 计算基本事实与每个随机趋势之间的最大皮尔逊相关系数R; 重复生成、随机挑选以及计算的操作预定次数;以及 对所述Ν个趋势结果的数据集进行滤波,使得R的分布的均值是用于数据集滤波的阈值 Tr,从而只将具有R>Tr的时间序列一起求和并且形成所述EFS。5. 根据权利要求4所述的系统,其中,在提供所述疾病事件将发生的可能性中,选择所 述多个预测中的提供最佳查准率/查全率对的预测作为所述疾病事件将发生的可能性。6. 根据权利要求5所述的系统,其中,生成所述疾病事件的病例的预测数量还包括以下 操作:利用提前预定时段被调节的滑动窗对所述EFS曲线执行线性回归。7. 根据权利要求6所述的系统,其中,生成所述疾病事件将在未来时段内发生的多个预 测还包括以下操作:使用逻辑回归、自适应增强、决策树和支持向量机来生成四种预测,然 后执行贝叶斯模型平均以组合所述四种预测。8. -种使用开源数据进行疾病预测的方法,所述方法包括以下动作: 使一个或更多个处理器执行存储在非瞬态计算机可读介质上的代码,使得在执行时, 所述一个或更多个处理器执行以下操作: 在预处理模块中接收与疾病事件相关的N个趋势结果的数据集并且生成与所述疾病事 件相关的增强滤波信号EFS曲线; 在学习模块中接收所述EFS曲线,生成所述疾病事件的病例的预测数量,并且使用多种 机器学习方法生成所述疾病事件将在未来时段内发生的多个预测;以及 利用预测模块针对所述多个预测中的每一个确定查准率和查全率,并且基于所述查准 率和所述查全率提供所述疾病事件将发生的可能性。9. 根据权利要求8所述的方法,其中,在生成所述EFS曲线中,所述预处理模块还对所述 数据集执行去趋势、标准化以及滤波的操作,以去除与搜索的疾病事件的发生无关的信号。10. 根据权利要求9所述的方法,其中,在对所述数据集进行滤波中,利用皮尔逊系数的 阈值对所述数据集进行滤波。11. 根据权利要求10所述的方法,其中,在对所述数据集进行滤波中,所述预处理模块 通过执行以下操作来确定皮尔逊系数的阈值: 生成与所述N个趋势结果的数据集中相同数量的随机时间序列; 如果所述N个趋势结果的数据集包含Μ个点,则在从0至100的范围中随机挑选数字Μ次, 使得每个时间序列的长度相同; 计算基本事实与每个随机趋势之间的最大皮尔逊相关系数R; 重复生成、随机挑选以及计算的操作预定次数;以及 对所述Ν个趋势结果的数据集进行滤波,使得R的分布的平均值是用于数据集滤波的阈 值Tr,从而只将具有R>Tr的时间序列一起求和并且形成所述EFS。12. 根据权利要求11所述的方法,其中,在提供所述疾病事件将发生的可能性中,选择 所述多个预测中的提供最佳查准率/查全率对的预测作为所述疾病事件将发生的可能性。13. 根据权利要求12所述的方法,其中,生成所述疾病事件的病例的预测数量还包括以 下操作:利用提前预定时段被调节的滑动窗对所述EFS曲线执行线性回归。14. 根据权利要求13所述的方法,其中,生成所述疾病事件将在未来时段内发生的多个 预测还包括以下操作:使用逻辑回归、自适应增强、决策树和支持向量机来生成四种预测, 然后执行贝叶斯模型平均以组合所述四种预测。15. -种使用开源数据进行疾病预测的计算机程序产品,所述计算机程序产品包括: 非瞬态计算机可读介质,所述非瞬态计算机可读介质在其上编码有可执行指令,使得 当由一个或更多个处理器执行所述指令时,所述一个或更多个处理器执行以下操作: 在预处理模块中接收与疾病事件相关的N个趋势结果的数据集并且生成与所述疾病事 件相关的增强滤波信号EFS曲线; 在学习模块中接收所述EFS曲线,生成所述疾病事件的病例的预测数量,并且使用多种 机器学习方法生成所述疾病事件将在未来时段内发生的多个预测;以及 利用预测模块针对所述多个预测中的每一个确定查准率和查全率,并且基于所述查准 率和所述查全率提供所述疾病事件将发生的可能性。16. 根据权利要求15所述的计算机程序产品,其中,在生成所述EFS曲线中,所述预处理 模块还对所述数据集执行去趋势、标准化以及滤波的操作,以去除与搜索的疾病事件的发 生无关的信号。17. 根据权利要求16所述的计算机程序产品,其中,在对所述数据集进行滤波中,利用 皮尔逊系数的阈值对所述数据集进行滤波。18. 根据权利要求17所述的计算机程序产品,其中,在对所述数据集进行滤波中,所述 预处理模块通过执行以下操作来确定皮尔逊系数的阈值: 生成与所述N个趋势结果的数据集中相同数量的随机时间序列; 如果所述N个趋势结果的数据集包含Μ个点,则在从0至100的范围中随机挑选数字Μ次, 使得每个时间序列的长度相同; 计算基本事实与每个随机趋势之间的最大皮尔逊相关系数R; 重复生成、随机挑选以及计算的操作预定次数;以及 对所述Ν个趋势结果的数据集进行滤波,使得R的分布的平均值是用于数据集滤波的阈 值Tr,从而只将具有R>Tr的时间序列一起求和并且形成所述EFS。19. 根据权利要求18所述的计算机程序产品,其中,在提供所述疾病事件将发生的可能 性中,选择所述多个预测中的提供最佳查准率/查全率对的预测作为所述疾病事件将发生 的可能性。20. 根据权利要求19所述的计算机程序产品,其中,生成所述疾病事件的病例的预测数 量还包括以下操作:利用提前预定时段被调节的滑动窗对所述EFS曲线执行线性回归。21. 根据权利要求20所述的计算机程序产品,其中,生成所述疾病事件将在未来时段内 发生的多个预测还包括以下操作:使用逻辑回归、自适应增强、决策树和支持向量机来生成 四种预测,然后执行贝叶斯模型平均以组合所述四种预测。
【文档编号】G06F19/00GK106030589SQ201580009030
【公开日】2016年10月12日
【申请日】2015年2月19日
【发明人】S·阿普列勒瓦, T-C·卢
【申请人】赫尔实验室有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1