新冠大流行重创许多中低收入国家,导致普遍粮食不安全和生活水平急剧下降。为应对这场危机,世界各国政府和人道主义组织向超过15亿人分发了社会援助。但他们面临着一个关键挑战:鉴于现有数据,快速识别最需要帮助的人仍然是一项艰巨的任务。美国加州大学伯克利分校、德国曼海姆大学和美国西北大学的研究人员在最近发表在《自然》杂志上的一篇论文《Machine Learning and Phone Data can Improve Targeting of Humanitarian Aid》表明,使用手机网络的数据可以提高人道主义援助的针对性宽慰。他们使用传统的调查数据来训练机器学习算法来识别用户手机数据中的贫困状况。然后,经过训练的算法可以优先为最需要帮助的手机用户提供援助。论文地址:https://www.nature.com/articles/s41586-022-04484-9研究人员通过研究西非国家多哥(Togo)的旗舰紧急现金转移项目(Novissi)对该方法进行了评估,该项目该计划使用一种算法来分配价值数百万美元的新冠救助金。在他们的分析中,他们比较了不同目标机制下的结果,包括排除错误(真正的穷人被错误地认为不符合条件)、整体社会福利和公平措施。与多哥政府使用的地理定位定位方法相比,研究人员使用机器学习方法将排除错误减少了4-21%。与需要完整社会登记的方法(根据一个假设,多哥不存在这种登记)相比,机器学习方法将排除错误增加了9–35%。这些结果强调了新数据源如何补充传统方法来识别人道主义援助,尤其是在传统数据缺失或过时的危机环境中。研究背景让我们从多哥的旗舰紧急现金转移计划Novissi开始。在第一例COVID-19病例出现后不久,多哥政府于2020年4月启动了该项目。由于经济限制令,许多多哥人被关闭,这引发了广泛的粮食安全问题。Novissi项目旨在为受影响最严重的人提供生存现金援助。项目地址:https://publicadministration.un.org/zh/Themes/Digital-Government/Good-Practices-for-Digital-Government/Compendium/CompendiumID/472然而,在多哥政府首次启动Novissi项目时,有没有可用于评估援助资格的传统社会登记处在COVID-19大流行期间没有时间或资源来建立此类登记处。最近一次于2011年完成的人口普查并未包括有关家庭财富或贫困的信息。最近的全国生活水平调查只涵盖了一小部分家庭。在这种情况下,Novissi计划的援助资格是根据国家选民登记系统中包含的数据确定的,该系统已于2019年底更新。不幸的是,这种方法不包括Novissi项目覆盖范围内的多哥最贫困家庭。该研究旨在帮助多哥政府将Novissi项目的覆盖范围从首都洛美的非正规工人扩大到农村地区的贫困人口,同时实现多哥政府的两个既定政策目标:针对该国最贫困的地理区域国家;优先向这些地区最贫困的移动电话用户提供援助。基于此,研究人员使用机器学习算法分析从卫星到手机网络的非传统数据,最终改进了对最贫困手机用户群体的定位。手机用户调查以确定用户财富和消费水平第一步是将机器学习算法应用于高分辨率卫星图像,以获取多哥每2.4平方公里乘以2.4平方公里区域的微观财富估计。这些估计提供了每个小网格单元中所有家庭的相对财富,然后对其进行平均人口加权,得出多哥最小行政单位的财富估计值。第二步,通过机器学习算法对多哥两家手机运营商提供的手机元数据进行处理,以估算每个手机用户的平均每日消费量。具体而言,该研究从多哥的两家移动网络运营商处获得了2018年至2021年特定时间段内的手机元数据(通话详细记录(CDR))。研究重点关注三个分段的移动网络数据切片:2018年10月-12月、2019年4月-6月和2020年3月-9月。CDR数据包含以下信息。通话:主叫方电话号码、接收方电话号码、通话日期和时间、通话时长、拨打电话的基站ID;SMS消息:发送者电话号码、接收者电话号码、消息的日期和时间、发送消息的天线ID;移动数据使用:电话号码、交易日期和时间、数据消耗(上传和下载合并);移动货币交易:发送方电话号码、接收方电话号码(如果是点对点)、交易日期和时间、交易金额以及交易类型的大类(现金、现金、点对点或账单支付)。该研究调查了手机用户的代表性样本,并使用这些调查来衡量每个用户的财富或消费,然后将基于调查的估计与每个用户手机使用历史的详细元数据进行匹配,使用受监督的机器学习算法进行训练基于样本数据,通过手机使用预测用户财富和消费水平。第二步类似于传统的代理均值测试(PMT),但有两个主要区别:该研究使用手机特征的高维向量而不是资产的低维向量来估计财富;该研究使用旨在最大化样本外预测能力的机器学习算法,而不是最大化样本内拟合优度的传统线性回归。大家比较关心数据隐私问题。为了保护所获得数据的机密性,该研究在分析之前通过将每个电话号码散列为唯一ID来为CDR取别名。此数据存储在大学服务器上,设置了访问权限。在将CDR记录与调查响应进行匹配之前,在电话调查中获得了所有研究对象的知情同意。准确评估该研究对机器学习和手机数据的这种结合的评估称为基于手机的方法。通过比较该方法下的定位误差与反事实方法:ageolocationmethodpilotedbygovernmentinsummer-2020(Togoadmin-2poles,Togocounties,40counties),poorstates(Togoadmin-level3,397个州);基于职业的定位(包括Novissi最初针对非正规工人的定位方法,以及针对该国最贫困职业类别的最佳方法)。为了帮助100个最贫困州的最贫困人口,该研究发现,相对于多哥政府可用的其他定位方法,基于电话的定位方法显着减少了包含错误。)(非贫困人口被误认为符合条件),如图1a和表1所示。使用PMT作为衡量真实贫困状况的指标,基于电话的定位(曲线下面积(AUC)=0.70)优于诺维西农村援助的其他可行方法(例如,地理范围定位的AUC=0.59-0.64)。图1:Novissi目标与替代目标的比较表1。请阅读原始论文以了解更多详细信息。
