基于手机数据的呼吸道传染病密切接触者识别方法与流程

文档序号:21840245发布日期:2020-08-14 16:27阅读:193来源:国知局
基于手机数据的呼吸道传染病密切接触者识别方法与流程

本发明涉及一种呼吸道传染病密切接触者识别方法,尤其涉及一种基于手机数据的呼吸道传染病密切接触者识别方法,属于信息技术服务领域。



背景技术:

流行病的爆发会给人类健康、社会经济等带来重大影响。而对于常见的呼吸道传染病来说,如何快速、准确、全面地识别出已确诊病例的密切接触者,对其进行必要的隔离和筛查,对于阻断病毒传播、控制疫情发展等具有重要意义。

目前对于密切接触者的识别主要采用流行病学调查的方式,需要调查人员近距离接触病例,询问其近期的活动轨迹以及密切接触人员。这种方式耗时耗力,还存在调查人员被感染的风险。同时,病例有时会对自己的活动轨迹及接触人员有所保留,或者出现回忆偏倚、错乱、不完整等情况。例如,病例通常只能回忆起近期与自己有过接触的熟人,而对于有过接触但是不认识的人(如售货员、同乘人员等),则无法确定。

手机作为现代人随身携带的通信设备,其完整的记录了用户的历史位置信息及社交信息,这为确诊病例的密切接触者识别提供了新的手段。但是,目前相关研究还较为薄弱。有研究提出可以由用户使用微信小程序或app记录自己的gps活动轨迹,然后通过与病患活动轨迹进行时空邻近性对比来评估其感染风险,但是这种方法一方面需要用户自行采集gps轨迹数据,时效性差且缺少历史轨迹信息;另一方面由于只考虑时空邻近关系,很容易将时空邻近但是未发生密切接触的人群判断为密切接触者。



技术实现要素:

为了解决上述技术所存在的不足之处,本发明提供了一种基于手机数据的呼吸道传染病密切接触者识别方法。

为了解决以上技术问题,本发明采用的技术方案是:一种基于手机数据的呼吸道传染病密切接触者识别方法,包括以下步骤:

步骤ⅰ、根据呼吸道传染病的确诊病例用户及非确诊病例用户的手机信令数据和手机历史话单数据,提取移动轨迹和通话关系;

步骤ⅱ、根据移动轨迹分析非确诊病例用户与确诊病例用户之间的时空共现关系,判断潜在密切接触者;根据通话关系构建包括通话频次参数和通话时长参数的通话网络;

步骤ⅲ、结合呼吸道传染病传染机制,提取潜在密切接触者与确诊病例用户之间的时空共现特征及通话网络特征;

步骤ⅳ、利用已有的密切接触者数据,提取其与对应确诊病例用户之间的时空共现特征及通话网络特征,然后输入到机器学习模型,进行模型的训练及优化;

步骤ⅴ、将潜在密切接触者与确诊病例用户之间的时空共现特征和通话网络特征输入到步骤ⅳ训练好的机器学习模型中,判断密切接触者和接触类型,并输出相应风险等级。

进一步地,步骤ⅰ中,对于呼吸道传染病的确诊病例用户来说,首先确定其传染期,然后获取其在传染期内的移动轨迹;对于非确诊病例用户来说,获取其自疾病爆发以来的移动轨迹;

对于潜伏期内就具有传染性的疾病来说,以发病时间减去最大潜伏期起,至确诊时间止,期间为传染期;

对于潜伏期内不具有传染性的疾病来说,以发病时间起,至确诊时间止,期间为传染期。

进一步地,应用移动轨迹序列来表示移动轨迹以便于后续计算;将手机信令数据根据时间进行排序形成移动轨迹序列,移动轨迹序列如公式①所示:

tramove={(x1,y1,t1),(x2,y2,t2),…,(xi,yi,ti)},公式①

其中,xi和yi表示该用户在ti时刻的位置坐标。

进一步地,步骤ⅲ中时空共现特征包括:共现强度相关特征、共现位置相关特征以及共现时间相关特征;通话网络特征包括:通话强度相关特征、通话时间相关特征以及通话网络相关特征。

进一步地,共现强度相关特征包括共现点个数、共现总时长、出行共现时长以及停留共现时长;

共现位置相关特征包括共现点周围人口密度、共现点周围环境因素以及共现点疫情风险指数;

共现时间相关特征包括工作时段共现时长、夜间共现时长、工作日共现时长以及非工作日共现时长;

通话强度相关特征包括通话次数、通话总时长以及平均通话时长;

通话时间相关特征包括工作时段通话时长、夜间通话时长、工作日通话时长以及非工作日通话时长;

通话网络相关特征包括与共现确诊病例之间的网络最短路径。

进一步地,步骤ⅳ中机器学习模型为随机森林模型或神经网络模型。

本发明具有的有益效果为:

(1)基于低成本但是信息全的手机大数据进行呼吸道传染病密切接触者的识别,解决了传统流行病学调查方法耗时耗力、信息获取不完整的问题;

(2)利用手机大数据还原确诊病例历史出行轨迹及活动场所,避免了流行病学调查人员与病例的近距离接触,可以降低调查人员被感染的风险;

(3)在时空共现分析的基础上,结合呼吸道传染病传染机制,提取潜在密切接触者与病例间的时空共现特征和通话网络特征,然后采用多特征融合的机器学习模型对其做进一步的判别,因此识别结果更加准确;

(4)在判断是否密切接触的同时,还可以输出密切接触类别及风险等级,有助于对其采取不同的防控措施;

(5)模型具有较高的灵活性,可以随着数据样本的积累不断进行训练学习、参数调优,从而不断提高识别精度。

附图说明

图1为本发明的总体流程示意图。

图2为时空共现分析示意图。

图3为通话网络构建示意图。

图4为密切接触判别具体流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示的一种基于手机数据的呼吸道传染病密切接触者识别方法,包括以下步骤:

步骤ⅰ:用户移动轨迹及通话关系提取:

该步骤的目的是为了基于手机大数据(信令数据+话单数据),提取手机用户移动轨迹及用户间通话关系。

对于呼吸道传染病确诊病例用户来说,首先确定其可能具有传染性的时间段,即传染期。根据流行病传染机制,有些疾病在潜伏期内就具有传染性,而有些疾病在病例发病之后才具有传染性。因此,对于潜伏期内就具有传染性的疾病来说,以发病时间减去最大潜伏期起,至确诊时间止,期间为传染期:

传染期=(发病时间-最大潜伏期,确诊时间)

对于潜伏期内不具有传染性的疾病来说,以发病时间起,至确诊时间止,期间为传染期:

传染期=(发病时间,确诊时间)

接下来,获取确诊病例用户在传染期内的手机信令数据,并根据时间进行排序,形成病例用户的移动轨迹序列,可表示为公式①:

tramove={(x1,y1,t1),(x2,y2,t2),…,(xi,yi,ti)},公式①

其中,xi和yi表示该病例在ti时刻的位置坐标。

对于非确诊病例用户,获取其自疾病爆发以来的手机信令数据,并根据时间进行排序,形成非确诊病例用户的移动轨迹序列,具体形式与确诊病例用户相同。

同时,基于手机的历史话单数据,提取用户之间的通话关系。

步骤ⅱ:时空共现分析及通话网络构建:

该步骤的目的是基于移动轨迹,分析非确诊病例用户与确诊病例用户之间的时空共现关系(即是否相同时间在相同地点出现),因为时空共现是确诊病例与非确诊病例之间发生密切接触的前提条件,若存在共现,则有可能发生密切接触,为潜在密切接触者,不存在共现则不是密切接触者。同时,基于用户间通话关系,构建包括通话频次参数和通话时长参数的用户通话网络,反映用户在社交空间的联系程度。

如图2所示,从三维时空立方体的角度来看,时空共现包含三种情况:偶遇、同行和共处。例如,用户1和用户2在t1时刻相遇后分开(偶遇),在t4时刻再次相遇并同行直至t5(同行),而用户1和用户3在t2~t3时间段内停留在同一地点(共处)。因此,用户1和用户2可能发生密切接触,用户1和用户3也可能发生密切接触,若用户1为确诊病例,则用户2和用户3均为潜在密切接触者。

如图3所示,基于通话关系,可以构建出用户之间的通话网络,其中节点1表示确诊病例用户,其他节点表示非确诊病例用户,节点之间的线条表示通话关系,并包含通话频次、通话时长等属性。若某用户和确诊病例之间存在时空共现,并且通话联系也较为密切,则其很有可能为密切接触者。例如,由图2可知用户1和用户2和3均有可能发生密切接触,但是从图3所示的通话网络中可知用户1和用户2存在通话关系而用户1和用户3没有通话关系,因此,若用户1为确诊病例,则用户2比用户3更有可能为密切接触者。

步骤ⅲ:时空共现及通话网络特征提取:

该步骤的目的是在时空共现分析和通话网络构建的基础上,进一步提取步骤ⅱ中找出的潜在密切接触者和确诊病例之间的时空共现特征和通话网络特征,为下一步利用机器学习模型识别真正的密切接触者并判别接触类型做准备。

在与确诊病例存在时空共现的非确诊病例用户(潜在密切接触者)中,有一部分可能只是在一个或多个地点与确诊病例有过共现但并未发生密切接触的人群(数量取决于信令数据的定位精度),而只有小部分用户为真正的密切接触者。因此,为了找出真正的密切接触者,本发明进一步结合流行病传染机制,提取其与共现确诊病例之间的时空共现特征和通话网络特征。

根据流行病传染机制,呼吸道传染病病毒主要依赖于飞沫传播,即感染者通过咳嗽、喷嚏、谈话排出的分泌物和飞沫,由被感染者吸入。这种传播通常需要近距离接触才能发生,因此多发于熟人之间、室内密闭空间、以及一些拥挤的公共场所如车站、学校、医院等。基于此,我们提取的时空共现特征具体包括以下三个方面:

(1)共现强度相关特征,如共现点个数、共现总时长、出行共现时长、停留共现时长等,通常来说,共现强度越大,越有可能发生密切接触;

(2)共现位置相关特征,如共现点周围人口密度(人口密度越高,密切接触的可能性越大)、共现点周围环境因素(结合poi数据、建筑物数据等判断共现发生在室内还是室外,通常室内密闭空间发生密切接触的可能性更高)、共现点疫情风险指数(疫情风险越高的区域,越容易被病例传染,如商场、车站、医院等聚集性感染易发场所)等;

(3)共现时间相关特征,如工作时段(09:00-12:00和14:00-17:00)共现时长、夜间(20:00-06:00)共现时长、工作日共现时长、非工作日共现时长等,这些特征可以在区分是否密切接触的同时反映接触类型,例如家人、朋友一般在夜间和非工作日共现时间较长,而同事一般在工作日和工作时段共现时间较长。

通话网络特征具体包括以下三个方面:

(1)通话强度相关特征,如通话次数、通话时长、平均通话时长等,通常与确诊病例之间通话强度越大同时共现强度越大,越有可能为密切接触者;

(2)通话时间相关特征,如工作时段(09:00-12:00和14:00-17:00)通话时长、夜间(22:00-06:00)通话时长、工作日通话时长、非工作日通话时长等,这些特征同样可以在区分是否密切接触的同时反映接触类型。

(3)通话网络相关特征,如与共现确诊病例之间的网络最短路径,可以反映没有直接通话关系的两用户之间的联系程度,例如某用户与确诊病例之间无直接通话,但是两者网络最短路径很小,且时空共现强度很高,其也可能是密切接触者。

步骤ⅳ:机器学习模型训练与参数调优:

该步骤的目的是通过已有的确诊病例用户和密切接触者的数据,训练机器学习模型,从而实现基于步骤ⅲ提取的时空共现特征和通话网络特征,进行是否为密切接触者以及密切接触类型的判断。本发明中机器学习模型可为任意一种监督分类模型,本实施例优选为随机森林模型。

根据已有的确诊病例和密切接触者的数据,构建一个包含n个训练样本的训练数据集,如公式②所示:

t={(xi,yi)|i=1,2,…,n},公式②

其中,xi=(xi1,xi2,…,xid)为第i个用户的输入特征,输入特征包含了用户与确诊病例之间的时空共现特征和通话网络特征,yi表示该用户是否为密切接触者以及密切接触的类型,其中密切接触者及类型分为5类:非密切接触者(0),密切接触家人(1),密切接触同事(2),密切接触朋友(3),密切接触陌生人(4)。而机器学习模型则是通过一系列的学习算法,找到一个分类函数f,使得:

f(xi)=yi,公式③

如公式③所示,即找到特征向量(x)与是否为密切接触者以及密切接触类型(y)之间的函数映射关系。该模型可以随着训练数据集的积累,不断迭代学习和更新,从而提高判别精度。

在实际情况中,密切接触者的数量要远小于非密切接触者的数量,即存在样本不均衡的情况,而随机森林模型作为一种灵活的机器学习算法,采用集成学习的思想将多颗决策树的判别结果汇总后得到最终结果,相比于其它机器学习算法对非平衡数据更为稳健,因此这里本发明选择随机森林模型进行训练,如公式④所示:

其中,rf(x)为最终判别结果,fi(x)为第i棵决策树的判别结果,ntree和mtry为模型参数,分别表示随机森林中决策树的个数和每个决策树随机选择特征的个数。

步骤ⅴ:密切接触判别及风险等级输出:

基于步骤ⅳ训练得到的机器学习模型,便可以对步骤ⅱ中找出的潜在密切接触者进一步判别其是否为密切接触者,同时对于密切接触者,判断其可能的接触类别(如家人、同事、朋友、陌生人),并输出对应风险等级:家人(1级)>同事(2级)>朋友(3级)>陌生人(4级)。

本发明判断密切接触者的具体流程如图4所示,给定非确诊病例用户手机信令数据及话单数据,首先通过步骤ⅰ提取其移动轨迹及与其他用户通话关系;然后通过步骤ⅱ判断其是否与确诊病例有时空共现,若有则为潜在密切接触者,若没有则为非密切接触者;对于潜在密切接触者,进一步通过步骤ⅲ提取其与确诊病例之间的时空共现特征和通话网络特征;最后通过步骤ⅳ训练好的机器学习模型判断其是否为密切接触者,如果是密切接触者,同时输出接触类型及对应风险等级。

上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1