AAAI 2021:一种跨城市迁移的新冠肺炎高危社区发现框架
新冠肺炎已经在世界范围内广泛传播,严重影响着人们的日常生活。面对新冠肺炎,人为干预的空间隔离手段(如限制出行或集中隔离)已经被证明其有效性。但是,确诊病例的统计往往是滞后且粗粒度的,比如对于尚未确诊的患者他们的传染过程并没有被考虑,因此直接通过各区域的确诊病例建立时空预测模型的方法效果不佳。基于此,研究人员提出了一种跨城市迁移的新冠肺炎高危社区发现框架,该框架能够从人类移动数据与区域特征对地块的隐式传播性进行建模,并能够将在疫情爆发的源城市中学习到的知识迁移到疫情未爆发目标城市,用于当地高危社区的检测。经过大量的实验证实,该框架在城市高危风险社区早期检测问题上非常有效。
论文题目:C-Watcher: A Framework for Early Detection of High-Risk Neighborhoods Ahead of COVID-19 Outbreak 隔离能够有效阻断新冠病毒感染者的空间活动,以此限制新冠病毒的传播,该方法已经被广泛证实有效。一般地,当地政府根据各社区感染者的数量与传播模式,将潜在风险地区设为隔离社区。但是该方法往往是低效的,原因有三:1)确诊病例的统计滞后,导致尚未确诊的病例,如长期潜伏感染者和无症状感染者没有被纳入监管;2)确诊病例的详细出行历史并不能总是被清楚地调查到,通常会通过更粗粒度空间(如区县粒度)进行隔离,带来不必要的经济损失;3)现有方法通过已知现有病例分析预测未来趋势依赖于本地的数据积累,爆发初期并不适用。 为了解决这些问题,本文提出了一种支持跨城市迁移的新冠肺炎高危社区检测框架,通过建模各社区的移动模式与传染病传播的关系来评估社区是否高危。其中,作者设计了一个基于对抗表示学习的模型实现知识的跨域迁移。 给定疫情爆发的源城市各个小区的特征,标签和疫情未爆发的目标城市各个小区的特征,计算对应小区的标签,标签为二分类,该小区为高风险区域,则y为1,反之同理。问题形式化表示为: 文中选择三组特征用于建模社区的模式,包括POI信息,该社区画像与出行相关的特征。 对于POI信息,直觉上,作者认为社区周围的基本生活设施可能与居民感染新冠存在相关性。比如,一个缺乏基础生活设施的社区可能面临高风险,因为居民为了生活可能需要走更远,面临更大的感染风险。此外,基础设施较差的社区往往缺乏良好的物业管理,这也可能导致较高的感染风险。为了描述这些生活设施相关特征,作者构建了15个POI半径特征。每个特征表示为当前社区到最近种类的POI的距离。并且,利用一组二元特征来描述社区一公里内是否包含所有必要的基础设施(如医院,公交站等)。通过统计在武汉收集的数据显示,如图1(a),不同的二元特征下高低风险社区的比例存在显著差异。 对于社区画像,鉴于新冠的传播方式,人口密度将是一个描述风险的重要指标。从图1(b)可以看出,武汉市平均高危社区的人口密度确实高于低风险社区。此外,每个社区的平均通勤距离,不同的居民群体都暗示了不同的风险水平。例如,老年人和儿童更容易被感染。受教育程度高的居民可能更重视科学预防。因此,根据社区居民的属性,文中构建了13个社区画像特征,11个用户属性特征,2个社区统计特征。 图1 特征分布 出行相关的特征考虑 T (transportation)、OD (origin & destination venues)和OTD (origin-transportation-destination pattern)三种。T表示出行方式,如私家车、公交车等。OD指出发地与目的地的类型与距离。OTD指特定出行方式下的OD对,作者选择所有城市最经常出现的20类OTD作为基准,按照各类的频率作为特征。 如图2,展示了C-Watcher中跨城市迁移学习模型的网络结构。一般地,不同城市的社区模式不同,为了使知识能够从源域迁移到目标域,跨城市迁移学习模型被设计用于学习源域与目标域的不变知识,而不是那些源城市特有的特征。模型输入源城市与目标城市的社区特征,图中、和分别代表源城市的POI特征、社区画像特征与转移特征。 图2 算法框架 模型采用编码器解码器结构,通过对抗的方式训练。为了学习城市间的不变性,作者利用对抗性学习,通过判别器来识别编码器的输出是否属于目标城市。同时,为了限制模型的表示空间对目标任务(高危社区识别)的适应性,作者引入了重构结构进行约束。 考虑图2中编码器到判别器这一支路。编码器对输入的社区特征分布和进行空间变换,分别得到和,和是不同城市的不同分布,为了缩小分布之间的差异,我们采用对抗的方式对模型进行训练。对应图中的difference loss 和 cheat loss。形式化表示为: 注意,这里的对抗是传统GAN的一个引申,不同域类比传统GAN中的真实数据与生成数据。cheat loss是对抗损失,用于引导编码器把不同域的所有特征聚集到一起让判别器无法辨别,从形式上表示两个域上分布的熵,想令熵减,即结果分布更稳定。difference loss是一个二分类交叉熵,用于判别输入判别器的特征是来源于源城市还是目的城市。两个loss虽然被形式化表现到一起,但是实际上训练时是交替训练的,当我们训练编码器时,整个支路使用cheat loss,反之同理。在这样的迭代中,编码器试图学习到城市不变性(共有的模式)阻碍鉴别器区分。这种对抗性过程最终会达到一种平衡状态,即鉴别器不能再区分编码的表示是来自源城市还是目标城市,由此编码器能够从原始输入和中提取城市的不变性。 考虑图2中编码器到解码器这两条支路。城市不变性表示学习的一个问题在于,如果没有规定和限制编码器的嵌入空间,源城市的表示和目标城市的编码表示可能只是分布相似但没有保留与任务相关的特征。作者采用多任务学习的策略解决了该问题,通过增加重构网络和感染风险预测组件来对模型的优化方向进行约束。重构损失和最终预测损失形式化表示如下: 最后框架总的损失函数为上述各损失的加权和: C-Watcher的另一个问题是如何选择最佳的超参数来训练模型。这里作者构建了一个参考城市验证机制来调整超参数。如图3所示,作者在源城市集合上训练C-Watcher模型,并使用参考城市的真实值作为验证数据来选择超参数。参考城市可以是源城市,也可以是一些疫情暴发但没有源城市严重的城市。最后作者在地理位置上选择与参考城市相近的目标城市评估预测性能。这样可以确保模型在目标城市中以最佳超参数工作,而不需要任何确诊病例和传播趋势相关的先验信息。 图3 参考城市验证机制 五、实验结果 论文以中国的新冠感染者统计数据作为数据集,详情如表1所示。 表1 数据集 其中,中心城市数据集以武汉为基础构建的。深圳、长沙、成都、上海和郑州作为各自省份的重点城市作为参考城市。对于每个参考城市,作者分别选择了地理上接近的两个城市构建测试数据集。 实验采用AUC作为评估指标,并通过基线与C-Watcher之间的两两t检验计算p值,展示结果的统计学显著性。由于新冠肺炎高危社区检测的相关工作较少,作者对比了SVM,XGB, Lasso-R 与 MLP四种baseline。实验结果如表2,可以看到在CWatcher在多个城市上取得了最好的结果,相较于基线有较大提升。 表2 模型性能对比 此外,作者分析了20个对模型预测性能影响最大的20个特征,结果如图4所示。对于POI特征,除了社区周边基础设施是否完善的影响,P:RTS的系数表明距离火车站较远可以降低社区的风险。在社区画像特征上,除了人口密度高外,较长的平均通勤距离(D:ACD)也增加了社区的风险。关于出行相关的特征,作者发现步行出行的百分比(T:TW)可以很大程度上降低社区的风险。 图4 特征对性能的影响 同时,作者还比较了不同组特征对结果的影响,结果如表3: 表3 不同组对性能的影响 本文研究了社区新冠肺炎感染风险预测问题。首先,作者构建了一组包含人类流动性的特征,以描述人类活动和居住社区的空间相互作用,然后提出了一种跨城市的新冠肺炎高危社区发现框架C-Watcher,以在当地疫情爆发前早期检测城市中的高风险社区。为了提高目标城市的感染风险识别性能,C-Watcher采用对抗学习的思路,学习城市不变性,并将其泛华到目标城市上。最后,作者使用真实数据进行了大量实验,结果展示C-Watcher在城市早期检测高风险社区方面的优势。文中对于地块移动性的建模与对跨域数据的迁移应用具有指导意义。 关注公众号,回复AAAI2021CWatcher,下载论文一、背景介绍
二、问题定义
三、特征构造
四、算法框架
城市不变性表示学习
约束嵌入空间
参考城市验证机制
六、结论
0 条评论