您好, 访客   登录/注册

基于深度学习的新型冠状病毒肺炎趋势预测研究综述

来源:用户上传      作者:王灵钰 刘子昂 朱兴杰 苏翀

摘要:新型冠状病毒肺炎(COVID-19)自2020年在世界范围内迅速传播,致死率极高,时至今日,一些国家的疫情仍无法得以有效控制,因此,新型冠状病毒肺炎趋势预测成为一大研究焦点。目前传统的趋势预测方法主要包括运用传统传染病预测模型。但是,传统传染病模型趋势预测方法缺少对实际情况防控传染病措施的考虑,模型建立不够完善等缺点。同时,随着机器学习热潮的到来,科研人员在此基础上构建了基于深度学习的COVID-19趋势预测模型,这些模型有效地辅助了医学专家、科研机构等对COVID-19的高效预测。首先,全面调研了目前主流的用于COVID-19趋势预测的相关评价指标;接着,对基于深度学习的新冠肺炎发展趋势预测模型进行了详细介绍,并对模型性能进行了比较分析。最后,对该领域的未来发展趋势进行了探讨分析。

关键词:深度学习;新冠肺炎;趋势预测;神经网络

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2021)23-0106-04

2020年初,新型冠状病毒肺炎疫情席卷全球,各地死亡人数不断激增,这一突发公共卫生事件对各地区经济、社会、政治等造成了不同程度的破坏。为尽可能减少疫情所带来的负面影响,赶在疫情发展前及时遏制病毒源的传播,及时疏散和管控可能接触病毒源的周边人员,防止疫情的二次爆发。许多学者利用深度学习理论,搭建模型分析不同情境下,对疫情发展趋势进行预测。本文收集并对比了2020年以来部分基于深度学习的新冠肺炎疫情传播趋势的预测模型,制定评价指标进行分析讨论,列举了国内外相关领域研究趋势和方向,希望为后续相关领域的研究提供有力参考。

1 概述

新型冠状病毒肺炎(COVID-19)是一种由新型冠状病毒感染引起的以肺部病变为主的新型传染病[1],世界卫生组织宣布,截至今年1月底,已核实的COVID-19感染人数为1亿,COVID-19感染率为75:1,死亡人数超过200万[2]。新发传染病在全球范围不断出现[3];特别是SARS(严重急性呼吸综合征,2003年)、H1N1(甲型流感,2009年)、MERS(中东呼吸综合征,2012)、寨卡病毒(2015年)以及2019-nCoV(新型冠状病毒肺炎,2019年)均严重影响了人类健康程度、全球政治和经济的发展。目前来看,这让全球遭受新发传染病的控制编程我们必须要解决的重大公共卫生问题[4-5]。新冠肺炎确诊人数还在不断激增,了解未来疫情发展趋势也是防疫工作的重要一环。

深度学习是一个由多个隐藏层组成的深层非线性网络,它可以通过将特征抽象为更抽象的特征或者更高的类别,从而让机器系统能够学习像人类一样分析。深度学习是机器学习包含的新领域,近年来已经在分类、检测、识别、预测等多项任务中取得了前所未有的成就,受到了各界的广泛关注。在深度学习的过程中,我们可以解决海量数据中存在的高维、冗杂等传统机器学习难以解决的问题。所以在全球疫情危机爆发的背景下,人们大量的利用深度学习,以达到帮助我们快速准确地预测出新冠肺炎患者病情危重的概率、对疫情进行动态监测及疫情未来发展趋势的预测等目的。

目前,SIR模型是传染病模型预测中最经典的模型,而COVID-19具有广泛的传染性,可以通过在所有其他传染病中使用不同的感染病例来建立COVID-19的传播方式[7]。但相对于传统的SIR模型而言,由于新冠肺炎的特殊性,如:不存在封闭情况,考虑开放体系;病人确诊后立即隔离,不会作为新的感染源等[8],还需对SIR模型进行适当的修改,考虑更多的因素,再通过实时数据拟合得到模型的参数,从而达到预测不同阶段疫情趋势变化的效果。

人工神经网络是通过连接权重结构配合激活函数模仿人脑做着类似的工作,其在传染病预测的应用越来越广泛。循环神经网络其实是一类递归神经网络,它将输入的序列沿着其发展方向递归,其后的结点均以链式的结构出现,用于输出计算。它具有处理时间序列数据的能力,尤其广泛应用在语音处理、自然语言处理等前沿领域[12]。

本文的主要贡献如下:

(1)对相关算法的评价指标进行了讨论和总结。

(2)对基于机器学习和深度学习的COVID-19趋势预测模型进行了全面系统的描述和总结。

(3)对前述代表性的COVID-19趨势预测模型依次进行讨论总结,探讨了基于深度学习的COVID-19趋势预测模型的未来研究方向。

2 国内外研究情况

机器学习领域有关传播性疾病的预测方法繁多,依据各方法假设,可将其分为定性与定量预测,当然也有一些方法综合使用了两种方法进行综合预测。

本文所列举的定性预测方法,是通过对某一地区传染病传播过程及特征等相关因素的预测,从而对病毒的进一步扩散提出建议数据支撑。常见的方法有流行比数图法、控制图法、Delphi法、“Z-D”现象、等。控制图法适用于分布性传染病,能够较好预测季节性、周期性传染病的传播趋势,简单易懂。目前,控制图法已被广泛应用与疾病检测及预警预测的实践中(例如麻疹、细菌性痢疾等疾病的预测)[13-14]。比数图法适用于发病数呈现正态分布的传播性疾病,其原理是通过比数(R)与其可信区间来判断某传染病是否传播趋势[15]。

本文所讨论的定量预测方法,是指利用数学模型,预测某种传播性疾病传播的发病数和发病率。常见的模型类型包括:基于动力学的微分方程模型、时间序列模型、多元回归分析和人工神经网络模型等。一般基于动力学的微分方程模型大多没有将人为因素纳入考量,描述的是疾病自然传播的过程预测结果,其模型与现实存在较大差距;时间序列模型适用于无法确定传染途径及方式的传播性疾病的预测,需要提供详尽的发病率数据,可行性较高,是目前使用频率较高的一种方法;多元回归常用于分析多因素影响分析,分析传染病流行的复杂特征,预测准确度高,但在实践中需要依据实际调整地区、病种等数据,因此限制了此类方法的推广。

3 评价指标

基于深度学习的COVID-19趋势指标预测属于典型的机器学习回归预测问题。对于预测,深度学习神经网络需要根据选择输出层的激活函数(如Sigmoid函数、tanh函数、ReLU函数、ELU函数等)与用于监督的数据值和用于回归的损失函数(如MSE)来进行回归预测的确定。

回归预测任务涉及常用的三种指标,包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)[16]。

均方误差、均方根误差和平均绝对误差分别如下所示:

MSE是指参数估计值与参数真实值之差的平方,MSE可以评估数据变化的程度。通过平方的形式便于求导,所以常被用作线性回归的损失函数。MSE的值越小,说明预测模型描述实验数据具有更好的精确度。换成更直接的表达式:

均方根误差是均方误差的算术平方根,预测值与实际值之间的偏差往往被用作机器学习模型产出的衡量标准。换成更直接的表达式:

MAE是平均绝对误差,实际上是更加一般化的平均误差,它更好地反映了预测误差的真实映像。换成更直接的表达式:

平均绝对百分比误差存在一个和原始数据相比较的过程。换成更直接的表达式:

4 基于深度学习的新冠肺炎趋势预测模型

文献[17]一文中,通过2020年1月20日到2月25日在中国的传播情况进行分析,利用LSTM模型,预测了后一周COVID-19确诊人数。其研究面向疫情常态化管理过程中,大量疫情相关信息流出,这些信息不仅有益于疫情防控宣传,且具备了巨大的挖掘价值,人们可以从信息中分析出新冠肺炎的传染性和破坏力,也可从中体现出防控措施的实施效果。该模型分为输入与输出两层,输入层神经元128个,激活函数选用Relu函数,其后在Dense层输出后一天确诊人数,并进行数千次迭代,拟合数据预测出了较为准确的疫情的发展趋势。针对预测结果,他提出在复工复产期间应严格落实疫情常态化,尤其防范反复出现的疫情拐点。

文献[18]一文中以小学生作为训练样本和测试样本,针对小学生缺乏疾病预警能力和消杀清洁能力的情况下,学生可能感染新冠肺炎的可能趋势,为学校疫情管理提供参考。利用ANN,采用三层前馈神经网络,输入层包含45个节点,采用一个含有10个节点的隐含层的BP网络,输出节点为1。learning rate为0.01,迭代了1000次,Batch为128,并通过Matplotlib将结果可视化。依据较高的拟合精度结果和较低的损失值(0.2492),认为该模型可以预测学校的生病人数及变化趋势,从而让学校能够提前做好防疫工作。但文中值列举出了10个外部因素变量,对环境变量和生病人数激增可能对模型预测结果造成的影响未能考虑入内。

文献[19]建立支持向量回归构建非线性组合動态传播率模型分别对九个省市(湖北、安徽、湖南、四川、广东、江苏、海南、上海、北京)、全国除湖北(中国除湖北外的其他省份)和全国COVID-19疫情进)、除湖北外全国其他省份及全国范围内的新冠肺炎疫情进行分析预测。结果显示,不同地区的预测情况差异明显,其中,指数函数模型对湖北疫情预测相对于其他三种单一模型的误差较小;多项式函数模型对安徽疫情预测的准确度较高;幂函数模型适用于四川、广东、海南和全国除湖北的疫情预测;相对于其他三种单一模型,双曲函数模型对各地区疫情预测均具有较好的鲁棒性。文末作者阐明了未来研究方向主要包括三点:1)构造对新冠肺炎疫情传播趋势能有效拟合的函数;2)研究优化模型,从支持向量回归参数入手;3)探索除支持向量回归模型以外的其他更为有效的非线性回归模型。

文献[20]中谈到了境外输入病例对国家疫情防控的影响,提出一国输入的病例数与该国入境旅客人数和确诊病例数成正比。文章中强调了时间对外部因素的影响,疾病在一个国家内的迅速传播会立即增加其他国家的大流行风险,同时也会减少与感染风险成比例的国家间互动。与此同时,一个国家倾向于与同一大陆的邻近国家交往,而不是与其他大陆的遥远国家交往。因此,作者提出了包含这种复杂的时空关系的预测模型——Hi-COVIDNet模型,该模型基于国外疫情趋势和感染风险,有效地利用了深度神经网络的力量,用于评估境外流入的新冠肺炎病例。通过一个循环神经网络,然后从每个国家纳入风险因素和交互信息。此外,新冠肺炎疫情通过将每个大洲的外国聚集起来反映了空间环境的层次。Hi-COVIDNet了解各国COVID-19感染的时间依赖性以及各国之间的相互作用,随后纳入了各大洲的地理层次。通过韩国的一个案例研究,展示了Hi-COVIDNet的实用性和有效性。Hi-COVIDNet对未来输入的新冠肺炎病例数的预测比基线更准确。

限制性措施会严重损害经济。相反,一个放松的国家可能会使很大一部分人口处于危险之中。文献[21]该方法可以与GA或DQL一起实施,以优化政府可以采取的行动,在不危及经济的情况下保护公众健康。建立SEIR(Susceptible易感, Exposed暴露, Infectious传染, Recovered康复)流行病学模型,结合深度Q学习和遗传算法预测新冠肺炎病毒在人群中的演变。根据奖励系统评估行动的顺序分为:禁闭、自我隔离、两米距离或不采取限制,该系统着眼于满足以下两个目标:首先,让很少的人被感染,这样医院就不会人潮汹涌;其次,避免采取可能对经济造成严重损害的严厉措施。实验证明,DQL方法在三个实验中提供了更好的解决方案。此外,奖励系统中包含的条件越多,DQL的绩效就越高,奖励系统是各国政府通过优化阶段规划来减少大流行负面影响的有效工具,可以很容易地推广到其他传染病。同时实验结果显示,基于深度Q-Learning的方法优于基于遗传算法的方法。同时研究者提出,从经济角度对大流行的后果进行更深入的研究将成为未来研究的一个方向。可以尝试使用不同的方法来找出最佳参数,以提高不同算法的性能,例如随机搜索、贝叶斯优化或BOHB等。

文献[22]也利用了SEIR模型结合Regression模型预测新冠肺炎疾病传播的变化,以印度门户网站政府和美国约翰霍普金斯大学提供的时间序列数据为实验数据,研究人员分析了印度在疫情前期新冠肺炎病例控制在百万分之一情况的原因。印度于2020年1月30日报告了首例COVID-19病例。在2月份,报告的病例数为3例,并在整个月份保持不变。该疾病传播的主要上升始于2020年3月。3月份的数据显示,这种疾病的传播发生了重大变化。因此,研究人员使用2020年5月5日的数据作为我们的培训数据,进行分析,得出了较为合理的预测模型,并指出如果政府不采取严格的控制措施,目前的研究结果可能会呈指数增长。建议印度政府继续以非常快的速度进行医院供应和醫疗设施改进工作,以便使国家为指数级增长做好准备。

5 各模型性能对比分析及未来研究方向

5.1 各模型性能分析总结

对于LSTM长短期记忆模型预测效果较佳。尽管动态追踪使模型得到每天更新的信息输入,并且已经预测到指标感染人数增长幅度正在下降,后续的动态预测依靠模型强大的拟合能力仍然能缩小预测正负差[17],然而,一些潜在的因素,例如预防和控制措施,无法通过数据来表达,导致模型中预期的正负差值增加。

BP神经网络从结果数据最终损失值看表明该神经网络的训练比较成功,但中间因学校举办足球联赛天气炎热导致生病人数异常、6月正值期末复习等使得预测值与实际值发生较大偏差[18]。可以看出模型在训练数据的过程中其本身的复杂多样性将对模型训练效果产生较大影响,模型需要较大的改善(如引入LSTM、采用迁徙学习方式等)才可进一步提高神经网络预测精确度。

非线性组合动态传播率模型与单一模型对比其预测精度更高且具鲁棒性,对长期预测的拟合优度均大于95%,[19]进一步验证新模型的高精度预测。但缺乏能对COVID-19疫情传播趋势进行有效拟合的函数,以及需要优化改进支持向量回归参数的选取。

SEIR深度强化学习模型中GA通过纯粹的组合而进步,但却没有看到行动背后的大局和逻辑。这使得遗传算法很容易陷入局部最小值。此外,在第一个实验中,DQL网络有点不稳定,执行期间性能变化很大[20]。虽然三种试验的最佳结果都是DQL。DQL比GA更好地优化了这个问题,可能是因为由于Bellman方程,DQL能够理解一种状态与其他状态的关系。Wu(2020)根据2019年12月1日至2020年1月25日武汉向中国大陆以外城市出口的人数数量以及病患数量,使用最大似然估计、马尔科夫链和吉布斯采样,推断出传染基本再生指数R0,[21]再使用SEIR模型对武汉、北京、上海、广州、重庆、深圳等城市的疫情进行预测。模拟结果表明:由于从武汉输入的病例数量巨大,中国多个主要城市的当地流行病可能已经呈指数级增长;其他国家存在2020年上半年经历2019-nCoV疫情的风险[22]。

对于Hi-COVIDNet模型,无论预测持续时间如何,Hi-COVIDNet的均方根误差最低[23]。Hi-COVIDNet的预测趋势紧跟真实趋势。证明了新型冠状病毒分级体系的优越性和实用性。

SEIR模型的优点在于,它不随时间呈指数增长,而是随时间使用一些干预方法。为了干预,使用了一个山丘衰减模型。在回归模型的情况下,特征如恢复率,增长率的下降可以用于衰减[24]。回归线的增长仍然是个问题。对于一个回归模型,总是需要在一段时间后用数据趋势的变化来训练模型。

5.2 未来研究方向

目前较多基于深度学习的COVID-19趋势预测模型都是基于小样本数据集进行训练,训练结果经常会出现过拟合。因此,COVID-19数据集的质量和数量的进一步提高是提高模型训练性能,更好辅助趋势去测的关键。详细来说,要在数量方面突破,联合权威的研究机构,实现动态跟进资源、资源共享用于扩大样本量是必不可少的。其次要在质量方面突破,需要对数据进行初步的预处理更是对于质量的一项保证。此外,目前大多数模型无法突破的另一大原因是部分地区的防控措施动态变化会使得训练效果受到很大的影响,因此基于这方面的突破,选取更合适的优化参数,建立更合适的模型是未来在预测算法上的主要研究方向。

6 结束语

本文从基于深度学习的新冠肺炎发展趋势预测模型的研究现状出发,查阅了国内外较为权威的模型分析资料,并进行整理和评估,对模型性能集中在不同角度进行分析。随着世界范围内新冠肺炎疫情的变化发展,效果显著的模型被陆续提出并被成功应用到一些地区的疫情防控实践中,这对抑制新冠肺炎疫情大流行具有重大意义。同时,针对该研究领域常用评价指标以及代表性趋势预测模型等内容,对于国家未来疫情常态化管理具有重要的参考价值。

参考文献:

[1] Huang C, Wang Y,Li X,et al.Clinical features of patients infected with 2019 novel coronavirus in Wuhan,China[J].Lancet,2020,395:497-506.

[2] 郭光文.莫把“低风险”当作“无风险”[N].湘声报,2021-02-26(A03).

[3] Mukherjee S.Emerging infectious diseases:epidemiological perspective[J].Indian Journal of Dermatology,2017,62(5):459-467.

[4] Fauci A S,Touchette N A,Folkers G K.Emerging infectious diseases:a 10-year perspective from the National Institute of Allergy and Infectious Diseases[J].Emerging Infectious Diseases,2005,11(4):519-525.

[5] McCloskey B,Dar O,Zumla A,et al.Emerging infectious diseases and pandemic potential:status quo and reducing risk of global spread[J].The Lancet Infectious Diseases,2014,14(10):1001-1010.

[6] 韦坚,刘爱娟,唐剑文.基于深度学习神经网络技术的数字电视监测平台告警模型的研究[J].有线电视技术,2017,24(7):78-82.

[7] 尹楠.基于SIR模型的有限区域内新冠肺炎疫情传播仿真模拟[J].統计与决策,2020,36(5):15-20.

[8] 喻孜,张贵清,刘庆珍,等.基于时变参数-SIR模型的COVID-19疫情评估和预测[J].电子科技大学学报,2020,49(3):357-361.

[9] 徐学琴,孙宁,徐玉芳.基于BP神经网络的河南省甲乙类法定报告传染病预测研究[J].中华疾病控制杂志,2014,18(6):561-563.

[10] 刘天,姚梦雷,黄继贵,等.BP神经网络在传染病时间序列预测中的应用及其MATLAB实现[J].预防医学情报杂志,2019,35(8):812-816,821.

[11] Goodfellow I., Bengio Y., Courville A..Deep learning:Cambridge:MIT Press,2016(1):367-415.

[12] 张荣,李伟平,莫同.深度学习研究综述[J].信息与控制,2018,47(4):385-397,410.

[13] Miller J C.Spread of infectious disease through clustered populations[J].Journal of the Royal Society,Interface,2009,6(41):1121-1134.

[14] 林玫,李永红,董柏青.传染病预测预警方法在我国的应用现状[J].中国热带医学,2010,10(3):308-309,348.

[15] 尹志英,方春福.传染病预警预测方法探讨[J].中国卫生统计,2010,27(2):218-220.

[16] 谢晓金,罗康洋,张怡,等.非线性组合动态传播率模型与我国COVID-19疫情分析和预测[J].运筹学学报,2021,25(1):17-30.

[17] 赵行健.基于深度学习的新型冠状病毒肺炎疫情的动态监测研究[J].现代商贸工业,2020,41(20):156-157.

[18] 赵荟宇,王琦,崔占.数据驱动的学校疫情预测模型的构建研究[J].中国信息技术教育,2020(24):77-80.

[19] 谢晓金,罗康洋,张怡,等.非线性组合动态传播率模型与我国COVID-19疫情分析和预测[J].运筹学学报,2021,25(1):17-30.

[20] Kim M,Kang J,Kim D,et al.Hi-COVIDNet:deep learning approach to predict inbound COVID-19 patients and case study in south Korea[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.Virtual Event CA USA.New York,NY,USA:ACM,2020.

[21] Miralles-Pechuán L,Jiménez F,Ponce H,et al.A methodology based on deep Q-learning/genetic algorithms for optimizing COVID-19 pandemic government actions[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management.Virtual Event Ireland.New York,NY,USA:ACM,2020.

[22] Gupta R,Pandey G,Chaudhary P,et al.Machine learning models for government to predict COVID-19 outbreak[J].Digital Government:Research and Practice,2020,1(4):1-6.

[23] Hébert-Dufresne L,Althouse B M,Scarpino S V,et al.Beyond R0:the importance of contact tracing when predicting epidemics[J].medRxiv,2020, DOI:10.1101/2020.02.10.20021725.

[24] Wu J T,Leung K,Leung G M.Nowcasting and forecasting the potential domestic and international spread of the 2019-nCoV outbreak originating in Wuhan,China:a modelling study[J].The Lancet,2020,395(10225):689-697.

【通联编辑:唐一东】


转载注明来源:https://www.xzbu.com/8/view-15416942.htm

相关文章