曾经写过一篇文章《和Wall-E一起仰望星空》,介绍了机器学习在大数据天体物理时代的应用。它的高效、自动化、准确给人们留下了深刻的印象。看来人工智能或许能够帮助天文学家有效解决大数据天体物理时代面临的问题。然而,人工智能真的万能吗?本文将从目前机器学习的局限性出发,探讨机器学习在天体物理学中的应用范围。01刚需:大数据天体物理时代来临随着观测技术的发展,天文数据呈指数级增长。例如,著名的斯隆数字巡天[1]始于2000年,观测了约300万个天体,数据量约40TB。目前正在进行的暗能量调查(TheDarkEnergySurvey)[2]的数据量至少是斯隆巡天的100倍。未来,欧洲的欧几里德巡天(Euclid)[3]和美国的大场时空巡天(LSST)[4]将把数据量推向惊人的50PB和200PB(1PB=1024TB).可观测星系中仅一种类型天体的样本数量将达到数十亿。因此,过去传统编程加上人工处理的效率已经不足以应对如此庞大的数据量。例如,根据哈勃星系图(图1)对数百亿个星系进行分类的工作量大得惊人,这只是天体物理学研究的一个基本操作。也就是说,高效的自动化数据处理将成为刚需。值得庆幸的是,人工智能技术在过去的十年里有了突飞猛进的发展。例如,模式识别技术可以对网上的图片进行快速分类。受此启发,天文学家开始将人工智能领域的相关技术应用到天文数据的自动处理中。图1.哈勃星系分类图,最左边的分支(E)是椭圆星系,椭圆率从左到右逐渐增加。S0代表椭圆星系和螺旋星系之间的临界点。Sa、b、c分支代表常规旋涡星系,旋臂在星系光度中的比例从a到b越来越大。SB支代表棒状结构的旋涡星系,从a到b的顺序不仅要考虑光度比,还要考虑悬臂的开度。图片来源:https://en.wikipedia.org/wiki/Hubble_sequence02Applications:Classification,RegressionandGeneration机器学习的定义是——“机器学习是计算机程序通过摄取数据来提高性能的过程”。机器学习与传统编程的根本区别在于编程逻辑:机器学习的概念是归纳的,而传统编程更倾向于演绎。例如,如果我们想用传统的编程方法对星系的形状进行分类,我们需要先测量星系的形状参数,然后设置阈值,然后根据形状参数与星系的关系对星系进行分类。门槛;而机器学习的逻辑是:首先建立一个不提供特定参数或阈值的通用模型,只输入星系图像和分类标签,这个模型会根据输入的数据进行自我调整,从而演化成一个可以用于星系形状分类。图2说明了传统程序和机器学习程序的工作流程差异。图2.传统编程和机器学习编程逻辑的区别。图片来源:https://www.futurice.com/blog/differences-between-machine-learning-and-software-engineering/目前,天文学家主要应用机器学习来解决分类、回归和生成均分等问题。成功案例包括星系形状的分类和特定物体的识别(图3),天体物理现象的快速和自动化建模(图5),以及模拟图像的生成(图6)。总体而言,机器学习在解决天体物理问题方面具有以下优势:1)覆盖面广,普适性好;2)数据驱动,上限明显高于传统方法;3)开发难度越来越低,移植性好。这些优势使得机器学习方法在天体物理学尤其是大数据时代的天体物理学中越来越受欢迎,几乎在天体物理学的每一个领域乃至科学的每一个领域都可以看到它的身影。图3.使用有监督和无监督学习的星系形状分类示例。上图是监督学习分类结果的例子[5],下图是无监督学习星系分类结果的例子[6]。这两种方法都可以根据星系的形状更好地对星系进行分类。如果您对更多细节感兴趣,请访问图片来源链接中的论文(参考文献在文末,下同)。图4.将机器学习应用于“回归问题”的示例。左图是宇宙物质分布的投影示意图,右图是基于宇宙物质分布投影的机器学习方法预测的宇宙学参数[7]。这个应用的基本思路是通过机器学习算法,建立左图和图中宇宙学参数的对应关系,这样以后有新的物质分布数据的时候,只要输入进入训练好的模型,可以快速返回相应的宇宙学参数。图5.机器学习算法生成的模拟星系图像与真实图像的比较[8]。左图是机器学习生成的无噪声螺旋星系,中图是加入噪声后的模拟图,右图是哈勃望远镜观测到的图像。生成尽可能真实的数值模拟图像有助于天文学家测试和校准数据处理和科学建模软件。03短板:门槛、数据和黑盒然而,机器学习并不是万能的。首先,其超高的计算量和特殊的硬件要求使得入门门槛高于传统方法。此外,模型设计非常复杂,开发新的算法和模型需要耗费大量的人力、物力和时间,而且大多数人只能使用已有的模型。而且,机器学习是一个随机过程,结果的统计是自洽的,但不可能实现个体结果的多次完美复现。例如,在应用机器学习实现分类操作时,少量目标天体的分类结果每次都会不同;在应用机器学习实现回归计算时,虽然不确定性非常大,但每次预测的参数都不是可重复的固定值。小的。因此,在应用机器学习研究天体物理问题时,具有明确一对一关系的物理过程(如星系动力学模拟和引力透镜光线追踪模拟等)仍然需要通过传统方法来实现。其次,机器学习是数据驱动的,对于缺乏数据的科学问题要慎用这种方法,尤其是当参数空间中的数据覆盖不完整时,机器学习会给出有偏差的结果。当然,可以通过数值模拟来提高数据的完整性和多样性,但这导致机器学习给出的结果强烈依赖于模拟数据的生成模型。因此,在应用机器学习解决此类问题时,需要详尽地设计仿真过程,以创建合理的训练样本。另一方面,当数据量满足条件时,缺乏高质量数据的科学问题不适合机器学习,因为大量的低质量数据会导致机器学习模型产生噪声(不是真正的高质量数据)。质量数据)。反应,对错误的结果给予高度的信心。在解决此类问题时,需要对数据进行仔细的预筛选和后筛选,尽可能避免“垃圾输入,垃圾输出”现象。最后,也是最重要的:机器学习算法的不可解释性是最受诟病的缺点,所以机器学习一直被比作一个黑盒子,形象地描述了机器学习算法对相关性敏感,却极度缺乏因果性解释。到目前为止,机器学习(尤其是深度学习)唯一真正的成功是能够在给定大量人工标注数据的情况下使用连续几何变换将空间X映射到空间Y。不过,至于为什么从X到Y的映射还需要科学家自己去把控。此外,从X到Y映射的具体细节也需要更深入的研究。相关研究[9]曾尝试使用谷歌的Deep-Dream[10]工具包研究星系团大规模重建过程中对特定数据点的敏感性(图6),微软的InterpretML[11]工具包侧重于神经网络的网络模型中各部分的逻辑关系和数据流向(图7)。这两次尝试可以看作是“照亮黑匣子”,帮助人们更好地理解其工作原理。当然,目前的结果还很初步,离完全理解“黑匣子”还有很长的路要走。希望随着对机器学习工作逻辑的深入研究,人类最终能够打开黑匣子,让机器学习帮助科学家更好地探索宇宙。图6.在利用深度学习算法基于星系团光度信息重建星系团总质量分布的过程中,数据点对星系团光度场的贡献权重图重建结果。左侧是星系团的广度分布(恒星粒子分布)[9],其中黑圈圈出星系团中心星系的位置,红圈圈出星系团的成员星系;右侧展示了Deep-Dream[10]处理后的结果,黄色区域代表对结果贡献较大的数据点。图7.机器学习模型解释软件InterpretML简介[11]。04总结:有效的、有选择性的,在未来大数据天体物理时代,机器学习可以有效帮助天文学家完成海量数据的挖掘。但机器学习不是万能的,不能一味地应用机器学习来解决所有的天文问题,尤其是在问题范围不明确、数据量不足、数据质量不高的情况下。另外,不可解释性是目前机器学习方法最大的短板,所以根据机器学习结果得出因果结论时要特别谨慎。已经有一些开创性的工作试图解释机器学习结果与数据之间的因果关系以及机器学习模型内部的逻辑关系。希望随着此类研究的深入,人类最终可以打开黑匣子,让机器学习从事推理和抽象相关的研究工作。不过话又说回来,天文学家到时候会扮演什么角色呢?会失业吗?欢迎留下你的看法。参考文献:[1]https://www.sdss.org/[2]https://www.darkenysurvey.org/[3]https://www.euclid-ec.org/[4]https://www.lsst.org/[5]Dieleman,S.等人,用于星系形态学预测的旋转不变卷积神经网络,2015年,MNRAS,卷。450,第2期,p.1141-1459[6]Hocking,A.等人,使用无监督机器学习的星系形态学自动分类法,2018年,MNRAS,卷。473,第1期,p.1108-1129[7]Fluri,J.等人,通过深度学习从噪声收敛图获得的宇宙学约束,2018年,PhysicalReviewD,Vol.98,Issue12,id.123518[8]Ravanbakhsh,S.etal.,EnablingDarkEnergySciencewithDeepGenerativeModelsofGalaxyImages,2017,AAAI-2017,Proceedings,id.14765[9]Yan,Z.等人al,GalaxyClusterMassEstimationwithDeepLearningandHydrodynamicalSimulations,2020,MNRAS,Vol.499,Issue3,pp.3445-3458[10]https://github.com/google/deepdream[11]https://github.com/interpretml/interpret作者简介李楠2013年在中国科学院大获得博士学位本学年天体物理学专业,现为中国科学院国家天文台副研究员。主要研究方向为机器学习在天体物理学中的应用和引力透镜在星系和宇宙学研究中的应用[责任编辑:庞桂玉电话:(010)68476606]
