概率预测模型的训练及预测方法、系统、设备及介质与流程

文档序号:33624166发布日期:2023-03-25 14:28阅读:57来源:国知局
概率预测模型的训练及预测方法、系统、设备及介质与流程

1.本发明涉及流行病检测领域,更具体地,涉及概率预测模型的训练及预测方法、系统、设备及介质。


背景技术:

2.流行病爆发期间,最重要的工作之一是对第一人员进行人工流行病学调查,目前最常见的流行病学调查的方式是人工筛查,但该方式主要有以下两点缺点:
3.人工成本高:需要流行病学调查人员对每个第二人员都做详细的调查,得到第二人员近两周的行程轨迹,并手工录入信息;得到行程轨迹后需要多部门配合调取信息,将形程与患者有重合的人员列为第一人员。
4.及时性不足:在出现第二人员后,流行病学调查人员对第二人员进行流行病学调查的时间需要花去数个小时,且花费的时间会随着第二人员行程的复杂程度增加而增加。
5.现有技术针对以上的问题,提出了可以利用语音转文字技术将流行病学调查录音转成文字,利用关键信息提取技术自动从文本中提取诸如人名、时间、地点等流行病学调查关键信息,并开发自动问答机器人,使用电话进行自动提问并记录信息等等,期望用这些技术解决人工成本高与及时性不足两个问题。但这些信息化、智能化手段还不够成熟可靠,只能缓解而不能从根本上解决上述两个问题,而且还会引入一个新的问题:系统复杂度过高。第一人员的判定依赖于第二人员的行程轨迹信息的准确性,如果采用信息提取技术自动从流行病学调查对话中提取形程信息,那么行程轨迹信息的准确性就高度依赖于信息提取模型的性能,而信息提取模型的性能又会受到标注质量以及语音转文本的质量的影响,语音转文本的准确性又会受到方言、对话环境的影响等等。即利用现有技术中提出结合前述若干个技术的自动流行病学调查系统中依赖链条过多,导致复杂性过高。一旦某个环节出了问题,整个系统的准确性就受到影响。
6.其次,现有技术还提出利用非中心化设备来记录接触信息,利用分布式设备记录人与人之间的接触信息,从而在一个第二人员首次病原体检出时能够迅速通过该人员的接触信息确定第一人员,但该方式要求人员需要佩戴或随身携带分布式设备,且分布式设备需要打开蓝牙或其他软件以持续获取邻近人员的接触信息,该方式不仅不方便,且涉及到个人隐私曝光的问题。


技术实现要素:

7.本发明旨在克服上述现有技术的至少一种缺陷,提供第一人员感染概率预测模型的训练及预测方法、系统、设备及介质,用于解决非人工的自动流行病学调查技术中多项技术依赖链过多引致检测准确性不稳定,或需要用户随身携带分布式设备引致的不方便和曝光隐私等的问题。
8.本发明采用的技术方案包括:
9.第一方面,本发明提供一种第一人员感染概率预测模型的训练方法,包括:针对每
个第二人员执行以下操作:获取第二人员的信令数据列表;所述第二人员的信令数据列表包括生成于第一时间段内的若干个对应于第二人员的信令数据;获取所述第二人员对应的若干个第一人员的信令数据列表;所述第一人员的信令数据列表包括生成于第二时间段内的若干个对应于第一人员的信令数据;根据所述第二人员的信令数据列表和所述第一人员的信令数据列表,确定两个信令数据列表之间的偏移距离向量作为第二人员与第一人员之间的距离向量;在针对每个第二人员完成以上操作后,初始化神经网络模型;将每个第一人员对应的距离向量和每个第一人员的感染类型输入所述神经网络模型进行训练,得到第一人员感染概率预测模型;所述第一时间段与所述第二时间段存在重合部分;所述第一人员的感染类型包括被所述第二人员感染以及未感染。
10.本发明提供的第一人员感染概率预测模型的训练方法,将运营商基站提供的信令数据作为可以体现人员流动轨迹的基础数据,从而进行训练样本的构建。具体是针对每一个第二人员,获取第一时间段内第二人员的信令数据列表,以及与第一时间段有重合部分的第二时间段内第一人员的信令数据列表,并对两个数据列表进行比对,计算得到两者之间的偏移距离向量以表示第二人员和第一人员之间流动数据的重合程度,将每个第一人员对应的距离向量和感染类型输入预测模型进行训练。输入该模型进行训练的数据无需经过预处理或转换,由基站直接获取得到,极大地降低了预处理或转换过程中产生误差的可能性,且预测模型通过学习样本数据,即每个第一人员对应的距离向量和其对应的感染类型,使训练后得到的模型能够基于信令数据列表之间的差异确定第一人员是否被感染或确定感染的概率,所确定的感染概率是基于制作好的样本数据,客观性较强,避免了以往流行病学调查过程中对于第一人员是否被感染的主观判断。
11.进一步,所述第二时间段的长度大于所述第一时间段的长度;根据所述第二人员的信令数据列表和所述第一人员的信令数据列表,针对每个第一人员,确定所述第二人员的信令数据列表与第一人员的信令数据列表之间的偏移距离向量作为第二人员与第一人员之间的距离向量,具体包括:针对每个第一人员执行以下操作:截取第一人员的信令数据列表中与第二人员的信令数据列表长度相同的若干个部分作为若干个子信令数据列表;分别确定第二人员的信令数据列表与每个子信令数据列表之间的距离所述第二人员的信令数据列表与第一人员的信令数据列表之间的偏移距离向量,作为第一人员与第二人员之间的距离向量。
12.在流行病学调查的过程中需要将可能被第二人员感染的时段延长,使第二时间段的长度大于第一时间段的长度,则第一人员的信令数据列表的长度大于第二人员的信令数据列表长度,在确定两个不等长的数据列表之间的距离时,本技术提出可以通过在第一人员的信令数据列表中截取与第二人员的数据列表相同长度的部分,并计算截取的部分与第二人员的信令数据列表之间的距离,作为其中一个可以代表两个数据列表之间重合程度的数据,对每个截取部分执行相同操作后,再将所有截取部分对应的距离共同组成两个不等长的数据列表之间的偏移距离向量,有效并准确地表示了第二人员与第一人员之间的距离向量。
13.进一步,所述第二时间段包含所述第一时间段;截取第一人员的信令数据列表中与第二人员的信令数据列表长度相同的若干个部分作为若干个子信令数据列表,具体包括:将第二人员的信令数据列表的与第一人员的信令数据列表从两个列表的起点对齐;判
断两个列表对齐的点至第一人员的信令数据列表的终点之间的长度是否大于或等于第二人员的信令数据列表的长度,如是,执行一次截取操作,后执行一次移位操作;所述截取操作包括,从所对齐的点开始,截取第一人员的信令数据列表中与第二人员的信令数据列表的长度相同的部分作为一个子信令数据列表;所述移位操作包括,向远离所述起点的方向移动第二人员的信令数据列表,使其与第一人员的信令数据列表对齐的点与所述起点相隔n个信令数据的位置,继续判断从两个列表对齐的点至第一人员的信令数据列表的终点之间的长度是否大于或等于第二人员的信令数据列表的长度;所述n≥1。
14.所获取到第一人员的信令数据必须包含有第一时间段内的信令数据,第一人员与第二人员在第一时间段内的信令数据之间的比较最为关键。在截取第一人员的信令数据列表时以第一时间段的起点或更早的时间点进行对齐开始首次截取,并采取逐步移位的方式进行后续的截取,每次移位至少移动一个信令数据的位置,直至第二人员的信令数据列表被移位至与第一人员的信令数据列表没有重合的部分,则可以基于第二人员信令数据列表与所截取到的若干个与其长度相同的子信令数据列表进行距离计算,从而组成第二人员和被第二人员之间的距离。逐步移位的方式使距离的计算更有规律,若干个子信令数据列表对应的距离能够更有效表示两个不等长数据列表之间的重合程度。
15.进一步,所述方法还包括:确定第二人员的首次病原体检出时间,选取比所述首次病原体检出时间早的第一时间点作为第一时间段的最早时间点,将所述首次病原体检出时间作为第一时间段的最晚时间点。
16.确定第二人员在被首次病原体检出之前可以追溯到的最早的时间点,作为第一时间段的最早时间点——第一时间点,而第二人员在被首次病原体检出后将会被转移至特定场所进行治疗,因此首次病原体检出时间可以看作是第二人员可以传播病原体的终点,作为第一时间段的终点。输入预测模型进行训练后,预测模型能够基于所输入的两个信令数据列表之间的距离预测出第一人员是否感染。
17.进一步,所述方法还包括:将所述第一时间点作为第二时间段的最早时间点,选取比所述首次病原体检出时间晚的第二时间点作为第二时间段的最晚时间点。
18.第一时间点为可追溯到的第二人员可传播病原体的最早时间点,也应该是第一人员可能被感染病原体的最早时间点,因此将其同样作为第二时间段的最早时间点。由于存在传播链传播病原体的可能性,第一人员可能感染流行病病原体的时间段需往后延长,因此可基于流行病病原体传播的基本知识,选取比首次病原体检出时间晚的第二时间点作为第二时间段的最晚时间点,在该时间点之后的信令数据不再对判断第一人员是否感染产生影响,由此确定的第二时间段可保证所获取到的该时间段内对应第一人员的信令数据与第一人员是否感染存在强关联性。
19.进一步,选取比所述首次病原体检出时间早的第一时间点作为第一时间段的最早时间点,具体包括:根据第二人员的信令数据的生成时间间隔选取比所述首次病原体检出时间早的第一时间点,以使所述第一时间段能够整除第二人员的信令数据的生成时间间隔;选取比所述首次病原体检出时间晚的第二时间点作为第二时间段的最晚时间点,具体包括:根据第一人员的信令数据的生成时间间隔选取比所述首次病原体检出时间晚的第二时间点,以使所述第二时间段能够整除第一人员的信令数据的生成时间间隔。
20.基站生成信令数据的时间间隔是已经确定且不变的时间段,第二人员的首次病原
体检出时间是已经确定且不变的时间点,则在确定第一时间段和第二时间段时,应考虑到是否能够获取到完整信令数据的问题,因此选取的第一时间点和第二时间点需要使第一时间段和第二时间段能够整除对应信令数据的生成时间间隔,保证能够获取到的每个信令数据都为完整的数据。
21.第二方面,本发明提供一种第一人员感染概率预测方法,包括:针对每个第二人员执行以下操作:获取第二人员的信令数据列表;所述第二人员的信令数据列表包括生成于第一时间段内的若干个对应于第二人员的信令数据;获取若干个对应所述第二人员的被筛查者的信令数据列表;所述被筛查者的信令数据列表包括生成于第二时间段内的若干个对应于被筛查者的信令数据;根据所述第二人员的信令数据列表和所述被筛查者的信令数据列表,确定两个信令数据列表之间的偏移距离向量作为第二人员与被筛查者之间的距离向量;将每个被筛查者对应的距离向量输入上述的训练方法训练得到的第一人员感染概率预测模型,得到所述被筛查者被感染的概率,将所得到的概率与预设的感染概率阈值比较,根据所比较的结果确定所述被筛查者是否为第一人员。
22.本发明提供的第一人员感染概率预测方法根据第二人员的信令数据列表和被筛查者的信令数据列表确定两个列表之间的距离,并输入根据上述训练方法训练得到的预测模型,从而得到被筛查者的感染概率,基于与预设的感染概率阈值比较,可确定被筛查者是否被感染。由于预测模型是基于第一人员对应的距离和第一人员的感染类型的客观数据训练得到的,因此其预测的过程相比现有的流行病学调查中对于感染的判断具备更强的客观性,且判断的精准度更高。
23.第三方面,本发明提供一种第一人员感染概率预测模型的训练系统,包括:信令数据获取模块,用于获取每个第二人员的信令数据列表;所述第二人员的信令数据列表包括生成于第一时间段内的若干个对应于第二人员的信令数据;还用于获取每个第二人员对应的若干个第一人员的信令数据列表;所述第一人员的信令数据列表包括生成于第二时间段内的若干个对应于第一人员的信令数据;数据列表距离确定模块,用于根据每个第二人员的信令数据列表和每个第二人员对应的第一人员的信令数据列表,确定每个第二人员的信令数据列表与每个第二人员对应的每个第一人员的信令数据列表之间的偏移距离向量作为每个第二人员与每个第二人员对应的每个第一人员之间的距离向量;模型训练模块,用于初始化神经网络模型;将每个第一人员对应的距离向量和每个第一人员的感染类型输入所述神经网络模型进行训练,得到第一人员感染概率预测模型;所述第一时间段为预先确定的所述第二人员可以传播流行病病原体的时间段;所述第二时间段为预先确定的所述第一人员可能感染流行病病原体的时间段;所述第一人员的感染类型包括被所述第二人员感染以及未感染。
24.第四方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的第一人员感染概率预测模型的训练方法,和/或上述的第一人员感染概率预测方法。
25.第五方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的第一人员感染概率预测模型的训练方法,和/或上述的第一人员感染概率预测方法。
26.与现有技术相比,本发明的有益效果为:
27.本发明提供的第一人员感染概率预测模型的训练方法直接获取特定时间段内第二人员和第一人员的信令数据作为后续步骤的基础数据,无需对获取到的数据进行预处理或转换,降低了误差产生的可能性。进一步确定第二人员的信令数据列表和第一人员的信令数据列表之间的偏移距离向量,以表征第二人员和第一人员之间流动数据的重合程度。将第一人员对应的距离向量和第一人员的感染类型输入预测模型进行训练,在数据的驱动下,训练得到的预测模型能够自动提取出有效的特征,可基于人员的信令数据列表之间的差异客观预测人员是否被感染或预测人员被感染的概率,有效避免以往的流行病学调查中对于人员是否被感染的主观判断。在该方法中无需人员佩戴或随身携带任何分布式设备,只要人员通过运营商进行信息交互,就能够对其信令数据进行距离计算,有效解决以分布式设备获取流动数据时所产生的不方便和隐私曝光的问题。
附图说明
28.图1为本发明实施例1中的方法步骤s110~s150的流程示意图。
29.图2为本发明实施例1中的方法步骤s131~s132的流程示意图。
30.图3为本发明实施例1中的方法步骤s1311~s132的流程示意图。
31.图4为本发明实施例1中两个列表在列表起点对齐时的位置示意图。
32.图5为本发明实施例1中在执行两次移位操作后两个列表的位置示意图。
33.图6为本发明实施例2中的方法步骤s210~s250的流程示意图。
34.图7为本发明实施例3中训练系统的模块组成示意图。
具体实施方式
35.本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
36.实施例1
37.本实施例提供一种第一人员感染概率预测模型的训练方法,应用于流行病的流行病学调查,当有第二人员被首次病原体检出感染流行病时,需要及时对第二人员的流动轨迹进行调查,并基于流动轨迹确定可能被第二人员感染流行病原体的第一人员,才能够进一步对第一人员进行是否感染流行病的筛查。本实施例提供的训练方法用于训练一种能够预测第一人员感染流行病病原体概率的预测模型,其能够提供客观且有效的预测结果,有利于高效完成所有第二人员的流行病学调查。
38.如图1所示,针对每一个被首次病原体检出的第二人员,该方法包括执行以下步骤s110~s130:
39.s110、获取第二人员的信令数据列表;
40.在本步骤中,第二人员的信令数据列表包括生成于第一时间段内的若干个对应于第二人员的信令数据。
41.信令数据一般是指手机或移动设备的信令数据,以手机作为示例,信令数据是由手机用户在发生通话、发短信或移动位置等事件时,被运营商部署的通信基站捕获并记录同一用户信令轨迹所产生的,信令轨迹是指一个手机用户事件发生的移动轨迹。用户的信
令数据一般包含时间和空间位置的信息,通过信令数据可以反推出用户的移动/出行轨迹,因此在本方法中是体现第二人员流动轨迹的基础数据,则在本步骤中是通过向运营商所部署的基站获取第二人员的信令数据列表,且获取的是在第一时间段内所生成的所有对应第二人员的信令数据。在具体的实施方式中,为了保护人员的隐私,所获取的信令数据是经过脱密和脱敏后的数据。
42.第一时间段是指第二人员可以传播流行病病原体的时间段,也可以说是第二人员从感染流行病病原体开始至被转移至医疗机构进行治疗的时间段。这一时间段内的信令数据反映第二人员在携带病原体的时间段的流动轨迹,也可以基于这一流动轨迹确定第一人员人群。
43.具体地,假设第二人员在首次病原体检出感染流行病时,会被转移至特定场所进行治疗,即不再存在传播流行病病原体的可能性,则可以在确定第二人员的首次病原体检出时间t后,将首次病原体检出时间t作为第一时间段的终点,并根据流行病病原体传播的基本知识,选取比首次病原体检出时间更早的第一时间点t
begin
,并确保在第一时间点t
begin
之前,第二人员不会传播流行病病原体,将第一时间点t
begin
作为第一时间段的最早时间点,第一时间段可表示为[t
begin
,t]。优选地,在选取第一时间点t
begin
时,应考虑到生成对应第二人员的信令数据的基站产生一个信令数据的时间间隔δt,并确保第一时间段[t
begin
,t]能够整除该时间间隔δt,则获取到的第一时间段的信令数据的长度为可记作la,第二人员的信令数据列表可以记为a,信令数据列表a中包含的若干个信令数据为信令数据列表a中的元素,第i个元素可以记为ai。
[0044]
s120、获取第二人员对应的若干个第一人员的信令数据列表;
[0045]
在本步骤中,第二人员对应的第一人员是指已经确定属于第二人员可以传播流行病病原体范围内的流动人员,第一人员一定存在被第二人员传播的流行病病原体感染的可能性,但不一定被感染,因此每个第一人员标记有感染类型,包括被第二人员感染和未感染,均在实际确定后对第一人员进行标记的。
[0046]
每个第一人员的信令数据列表包括生成于第二时间段内的若干个对应第一人员的信令数据。第二时间段是指第一人员可能感染流行病病原体的时间段,第二时间段内的信令数据能够反映第一人员的流动轨迹。第二时间段与第一时间段存在重合部分,例如,已知第二人员在某时间段内一直居家隔离没有出门,则第二时间段与第一时间段重合的部分不包括第二人员居家隔离的时间段,但第二人员可以传播流行病病原体的时间范围仍然包括第二人员居家隔离的时间段。因此,第二时间段与第一时间段之间存在的重合部分可根据实际情况而定。
[0047]
优选地,第二时间段包含第一时间段,不仅能适用于所有第二人员的流行病学调查,还能保证获取到所有与第一人员是否被感染存在关联性的信令数据。
[0048]
具体地,选取相同的第一时间点t
begin
,作为第二时间段的最早时间点。由于流行病病原体存在传播链的问题,因此根据流行病病原体传播的基本知识,选取一个比首次病原体检出时间t晚的第二时间点t
end
,并确保在第二时间点t
end
之后不会再有人员会被同一第二人员传播的流行病病原体感染到。第二时间段可表示为[t
begin
,t
end
]。优选地,在选取第二时间点t
end
时,应考虑到生成对应第一人员的信令数据的基站产生一个信令数据的时间间
隔δt,并确保第一时间段[t
begin
,t]能够整除该时间间隔δt,则获取到的第一时间段的信令数据的长度为可记作lh,多个第一人员的信令数据列表可以记为h1,h2……hn
,每个信令数据列表h中包含的若干个信令数据为信令数据列表h中的元素,第i个元素可以记为hi。因为t
end
>t,即第二时间段的长度大于第一时间段的长度,所以第一人员的信令数据列表h的长度lh大于第二人员的信令数据列表a的长度la。
[0049]
在执行步骤s120后,针对每个第一人员执行步骤s130:
[0050]
s130、根据第二人员的信令数据列表和第一人员的信令数据列表,确定两个信令数据列表之间的距离作为第二人员与第一人员之间的距离;
[0051]
由于第二人员的信令数据列表表示其在可以传播流行病病原体的时间段内的流动轨迹,第一人员的信令数据列表表示其在可能感染流行病病原体的时间段内的流动轨迹,针对每一个第一人员,通过其信令数据列表与第二人员的信令数据列表之间的距离,可表征第二人员和第一人员之间流动轨迹的重合程度。
[0052]
在具体的实施方式中,由于第二人员的信令数据列表a和第一人员的信令数据列表h之间长度不相同,针对不等长的数据列表的距离计算,如图2所示,步骤s130具体包括以下步骤:
[0053]
s13l、截取第一人员的信令数据列表中与第二人员的信令数据列表长度相同的若干个部分作为若干个子信令数据列表;
[0054]
由于第二人员的信令数据列表a的长度la较短,因此是在长度较长的第一人员的信令数据列表h中截取与长度la相同的部分,截取的次数为若干次,截取得到的若干个部分之间可以有重合的部分,也可以完全不重合,但不完全重合。每个截取得到的部分可以作为一个子信令数据列表。
[0055]
为了使若干次截取更加具有规律性,如图3所示,步骤s131的具体包括以下步骤:
[0056]
s1311、将第二人员的信令数据列表的与第一人员的信令数据列表从两个列表的起点对齐;
[0057]
如图4所示,将两个信令数据列表从列表的起点对齐,对齐的点位于两个列表的起点。由于第二人员的信令数据列表a和第一人员的信令数据列表h之间存在相同时间段生成的信令数据,该相同时间段内生成的信令数据最具有比较意义,第一时间段为[t
begin
,t],第二时间段为[t
begin
,t
end
],因此首次截取的部分应从相同的时间点t
begin
开始,也就是两个列表的起点。
[0058]
s1312、判断两个列表对齐的点至第一人员的信令数据列表的终点之间的长度是否大于或等于第二人员的信令数据列表的长度,如是,执行一次截取操作,后执行一次移位操作;如否,执行步骤s132;
[0059]
如两个列表对齐的点至第一人员的信令数据列表的终点之间的长度大于或等于第二人员的信令数据列表的长度,表示可以执行一次截取操作,包括:从所对齐的点开始,截取第一人员的信令数据列表中与第二人员的信令数据列表的长度相同的部分作为一个子信令数据列表。
[0060]
在执行一次截取操作后,执行一次移位操作,包括:向远离起点的方向移动第二人员的信令数据列表,使其与第一人员的信令数据列表对齐的点与起点相隔1个信令数据的位置,重复执行本步骤进行判断。
[0061]
作为示例说明,如图5(a)~(b)所示分别为执行了一次和两次移位操作后的第二人员的信令数据列表a和第一人员的信令数据列表h之间的位置关系。
[0062]
在每次截取操作完成后完成一次移位操作,实现逐步移位并逐步截取,从而获取到若干个与第二人员的信令数据列表a相同长度的子信令数据列表,直至第二人员的信令数据列表的最后一个信令数据与与第一人员的信令数据列表的最后一个信令数据重合。逐步移位并截取的方式使所截取得到的子信令数据列表更具有规律性,基于该子信令数据列表得到的距离数据能更有效表征第一人员与第二人员之间的距离。
[0063]
s132、分别确定第二人员的信令数据列表与每个子信令数据列表之间的距离,将第二人员的信令数据列表与每个子信令数据列表之间的距离组成第二人员的信令数据列表与第一人员的信令数据列表之间的偏移距离向量,作为第一人员与第二人员之间的距离向量;
[0064]
第一人员与第二人员之间的偏移距离向量由第二人员的信令数据列表分别与若干个子信令数据列表之间的距离组成,长度为l
h-la。每个距离表示为distance
bias
(a,h),也是距离向量中一个元素bi,例如执行一次移位操作后的距离表示为distance1(a,h),执行两次移位操作后的距离为distance2(a,h),如此类推。
[0065]
在具体的实施方式中,在本步骤中计算的距离可以是任何适用于表示两个字符串之间相似度的距离,但由于在前述步骤中已经根据逐步截取的方式截取到了与第二人员信令数据列表a相同长度的若干个子信令数据列表,即子信令数据列表与第二人员信令数据列表a之间长度相等,现有技术中常用的汉明距离用于计算长度相同的两个字符串的相似度,因此在本实施例中计算距离时优选以计算汉明距离的方式进行计算,如有其他能够用于计算长度相同的两个字符串的相似度的距离同样适用于本实施例提供的方法。
[0066]
在针对每个第二人员以及每个第二人员对应的第一人员执行完成步骤s110~s130后,执行步骤s140。
[0067]
s140、初始化神经网络模型;
[0068]
初始化神经网络模型是指初始化神经网络模型的各项参数,并按照各项参数构建一个神经网络模型,以将前述处理好的数据输入其中进行训练。在具体的实施方式中,初始化神经网络模型的具体过程为:设计一个神经网络f,设定该神经网络的输入有两部分,一为第一人员与第二人员之间的距离向量以及每个距离向量所对应的第一人员的感染类型。在第一部分的具体输入时,距离向量作为一个样本,且其对应的感染类型对应为其数值化标签y,y的值为1时表示该第一人员被第二人员感染,y的值为0时表示该第一人员未被感染。第二个输入部分是神经网络中可训练的参数w。设定神经网络的输出为输入样本的被感染概率。用数学语言形式化可将该神经网络表示为p=f(b,w),其中b为所输入的距离向量,p为输入样本的被感染概率。
[0069]
在具体的实施方式中,神经网络模型的结构可以是全连接神经网络、卷积神经网络、循环神经网络等等。
[0070]
s150、将每个第一人员对应的距离向量和每个第一人员的感染类型输入神经网络模型进行训练,得到第一人员感染概率预测模型。
[0071]
具体地,本步骤是将每个第一人员对应的距离向量和每个第一人员的感染类型对应作为一个样本输入神经网络模型进行训练,训练过程中,损失函数可以选用交叉熵损失
函数,每个样本的损失为lossi=ce(yi,pi)=ce(yi,f(bi,w)),总损失函数为,w)),总损失函数为在训练过程中,采用梯度下降法持续更新神经网络中的参数w,得到参数最优解w
*
,保存训练得到的神经网络模型以及模型参数w
*
,作为第一人员感染概率预测模型。
[0072]
本实施例提供的第一人员感染概率预测模型的训练方法,基于直接获取到的人员的信令数据列表计算得到两个数据列表之间的偏移距离向量,在计算过程中,由于流行病学调查会将第一人员可能感染流行病病毒的时间延长,导致两个信令数据列表的长度不等,而针对两个长度不相等的信令数据列表,本实施例首创性提出了利用逐步移位的方式截取长度较长的数据列表的若干个部分作为子信令列表,将各个子信令列表与第二人员的信令数据列表的距离组成两个信令数据列表之间的偏移距离向量,从而表示若干组第二人员和第一人员在流动数据上的重合程度,以距离向量表示。利用该距离向量以及第一人员的感染类型作为样本输入神经网络模型进行训练,在数据的驱动下,训练完成的预测模型可自动提取有用特征,准确且客观地预测出待筛查者的被感染概率或预测出其是否被感染,整个过程无需人工干预,节省人力成本的同时也减少了人工干预所带来的主观性。
[0073]
实施例2
[0074]
与实施例1基于同一构思,本实施例提供一种第一人员感染概率预测方法,用于利用实施例1提供的训练方法训练得到的预测模型进行第一人员感染概率的预测。
[0075]
该方法应用的场景是当有第二人员被首次病原体检出时,经过初步的粗略筛查一批待筛查人群,下一步需要在待筛查人群中进一步筛选出第一人员人群。
[0076]
如图6所示,该方法针对每个首次病原体检出后的第二人员执行以下步骤:
[0077]
s210、获取第二人员的信令数据列表;
[0078]
第二人员的信令数据列表包括生成于第一时间段内的若干个对应于第二人员的信令数据。
[0079]
s220、获取若干个对应第二人员的被筛查者的信令数据列表;
[0080]
被筛查者为经过初步粗略筛查后,确定可能会被第二人员传染流行病的人群,数量较大。被筛查者的信令数据列表包括生成于第二时间段内的若干个对应于被筛查者的信令数据。
[0081]
在执行步骤s220后,对每个被筛查者执行步骤s230:
[0082]
s230、根据第二人员的信令数据列表和被筛查者的信令数据列表,确定两个信令数据列表之间的偏移距离向量作为第二人员与被筛查者之间的距离向量;
[0083]
具体地,步骤s230包括以下步骤:
[0084]
s231、截取被筛查者的信令数据列表中与第二人员的信令数据列表长度相同的若干个部分作为若干个子信令数据列表;
[0085]
具体地,步骤s231具体包括以下步骤:
[0086]
s2311、将第二人员的信令数据列表的与被筛查者的信令数据列表从两个列表的起点对齐;
[0087]
s2312、判断两个列表对齐的点至被筛查者的信令数据列表的终点之间的长度是
否大于或等于第二人员的信令数据列表的长度,如是,执行一次截取操作,后执行一次移位操作;如否,执行步骤s232;
[0088]
如两个列表对齐的点至被筛查者的信令数据列表的终点之间的长度大于或等于第二人员的信令数据列表的长度,表示可以执行一次截取操作,包括:从所对齐的点开始,截取被筛查者的信令数据列表中与第二人员的信令数据列表的长度相同的部分作为一个子信令数据列表。
[0089]
在执行一次截取操作后,执行一次移位操作,包括:向远离起点的方向移动第二人员的信令数据列表,使其与被筛查者的信令数据列表对齐的点与所述起点相隔1个信令数据的位置,重复执行本步骤进行判断。
[0090]
s232、分别确定第二人员的信令数据列表与每个子信令数据列表之间的距离,将第二人员的信令数据列表与每个子信令数据列表之间的距离组成第二人员的信令数据列表与第一人员的信令数据列表之间的偏移距离向量,作为被筛查者与第二人员之间的距离向量;
[0091]
在对每个第二人员对应的被筛查者执行完成步骤s210~s230后,执行步骤s240;
[0092]
s240、将每个被筛查者对应的距离向量输入实施例1中训练得到的第一人员感染概率预测模型,得到被筛查者被感染的概率;
[0093]
s250、将所得到的概率与预设的感染概率阈值比较,根据所比较的结果确定被筛查者是否为第一人员。
[0094]
在本步骤中,感染概率阈值是预先设定的值,是用于判断预测模型输出的被筛查者被感染的概率是否达到第一人员被感染概率的标准。具体地,如预测模型输出的被筛查者被感染的概率超过感染概率阈值,则可确定被筛查者为第一人员,如预测模型输出的被筛查者被感染的概率未超过感染概率阈值,则可确定被筛查者不是第一人员。
[0095]
本实施例提供的第一人员感染概率预测方法,为了精准确定感染传染病概率较高的人群,利用相同的方式计算得到被筛查者与第二人员之间的距离向量,并输入前述实施例训练得到的预测模型,利用预测模型自动提取距离中的有效特征并输出被筛查者的被感染概率,基于模型输出的客观且有效的结果,再与预设的感染概率阈值比较,从而确定被筛查者是否为第一人员,基于预测模型得到的结果具备深度学习的优点,所输出的结果更有可信度以及更加客观。
[0096]
实施例3
[0097]
基于与实施例1相同的构思,本实施例提供一种第一人员感染概率预测模型的训练系统,如图7所示,包括:
[0098]
信令数据获取模块310,用于获取每个第二人员的信令数据列表,还用于获取每个第二人员对应的若干个第一人员的信令数据列表。
[0099]
第二人员的信令数据列表包括生成于第一时间段内的若干个对应于第二人员的信令数据;
[0100]
第一时间段是指第二人员可以传播流行病病原体的时间段,这一时间段内的信令数据反映第二人员在能够传播流行病病原体的时间段的流动轨迹,也可以基于这一流动轨
迹确定可能被第二人员感染流行病病原体的第一人员人群。具体地,在确定第二人员的首次病原体检出时间t后,将首次病原体检出时间t作为第一时间段的终点,并根据流行病病原体传播的基本知识,选取比首次病原体检出时间更早的第一时间点t
begin
,并确保在第一时间点t
begin
之前,第二人员不会传播流行病病原体,将第一时间点t
begin
作为第一时间段的最早时间点,第一时间段可表示为[t
begin
,t]。优选地,在选取第一时间点t
begin
时,应考虑到生成对应第二人员的信令数据的基站产生一个信令数据的时间间隔δt,并确保第一时间段[t
begin
,t]能够整除该时间间隔δt,则获取到的第一时间段的信令数据的长度为可记作la,第二人员的信令数据列表可以记为a,信令数据列表a中包含的若干个信令数据为信令数据列表a中的元素,第i个元素可以记为ai。
[0101]
第一人员的信令数据列表包括生成于第二时间段内的若干个对应于第一人员的信令数据。
[0102]
第二时间段是指第一人员可能感染流行病病原体的时间段,第二时间段内的信令数据能够反映第一人员的流动轨迹。第二时间段与第一时间段存在重合部分,优选地,第二时间段包含第一时间段。具体地,选取相同的第一时间点t
begin
,作为第二时间段的最早时间点。由于流行病病原体存在传播链的问题,因此根据流行病病原体传播的基本知识,选取一个比确诊时间t晚的第二时间点t
end
,并确保在第二时间点t
end
之后不会再有人员会被同一第二人员传播的流行病病原体感染到。第二时间段可表示为[t
begin
,t
end
]。优选地,在选取第二时间点t
end
时,应考虑到生成对应第一人员的信令数据的基站产生一个信令数据的时间间隔δt,并确保第一时间段[t
begin
,t]能够整除该时间间隔δt,则获取到的第一时间段的信令数据的长度为可记作lh,多个第一人员的信令数据列表可以记为h1,h2……hn
,每个信令数据列表h中包含的若干个信令数据为信令数据列表h中的元素,第i个元素可以记为hi。由此可见,第二时间段的长度大于第一时间段的长度,因此第一人员的信令数据列表h的长度lh大于第二人员的信令数据列表a的长度la。
[0103]
数据列表距离确定模块320,用于根据每个第二人员的信令数据列表和每个第二人员对应的第一人员的信令数据列表,确定每个第二人员的信令数据列表与每个第二人员对应的每个第一人员的信令数据列表之间的偏移距离向量作为每个第二人员与每个第二人员对应的每个第一人员之间的距离向量。
[0104]
具体地,数据列表距离确定模块320包括:
[0105]
数据列表截取模块321,用于截取第一人员的信令数据列表中与第二人员的信令数据列表长度相同的若干个部分作为若干个子信令数据列表。
[0106]
数据列表截取模块321具体包括:
[0107]
对齐模块3211,用于将第二人员的信令数据列表的与被筛查者的信令数据列表从两个列表的起点对齐。
[0108]
判断模块3212,用于判断两个列表对齐的点至被筛查者的信令数据列表的终点之间的长度是否大于或等于第二人员的信令数据列表的长度。
[0109]
截取模块3213,用于在所述判断模块3212判定满足判断条件时,执行一次截取操作。
[0110]
截取操作包括从所对齐的点开始,截取被筛查者的信令数据列表中与第二人员的信令数据列表的长度相同的部分作为一个子信令数据列表。
[0111]
移位模块3214,用于在所述截取模块3213执行一次截取操作,后执行一次移位操作。
[0112]
移位操作包括向远离起点的方向移动第二人员的信令数据列表,使其与被筛查者的信令数据列表对齐的点与所述起点相隔1个信令数据的位置。
[0113]
判断模块3212还用于在移位模块3214执行一次移位操作后重新执行一次判断,直至不满足判断条件。
[0114]
距离确定模块322,用于分别确定第二人员的信令数据列表与每个子信令数据列表之间的距离,将第二人员的信令数据列表与每个子信令数据列表之间的距离组成第一人员与第二人员之间的距离。
[0115]
模型训练模块330,用于初始化神经网络模型;将每个第一人员对应的距离和每个第一人员的感染类型输入所述神经网络模型进行训练,得到第一人员感染概率预测模型。
[0116]
其中,第一人员的感染类型包括被第二人员感染以及未感染。
[0117]
本实施例与实施例1基于相同的构思,在本实施例中出现的与实施例1相同的步骤、执行过程以及名词的相关说明,包括定义、原理、具体及优选的实施方式,以及所带来的有益效果均可参考实施例1中对应的内容说明,在此不再赘述。
[0118]
实施例4
[0119]
本实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现实施例1~2任一实施例所提供的方法。
[0120]
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现实施例1~2任一实施例所提供的方法。
[0121]
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1