数十年的数学难题,被谷歌研究人员意外破解!我差点被导师赶出去,因为我不想搞数学自学编程。困扰学术界几十年的汇编问题,居然一个月就被外人解决了???是的,你没有看错。当事人JustinGilmer已经毕业7年,目前是谷歌的研究员。他在数学界的知名度并不高,就连他的导师也不看好他的研究,以至于在成果发表之后——一位牛津、普林斯顿等高等学府的数学家看到这个名字的时候,大家都好奇:这个人是谁?不仅是他的身份让人好奇,而且他解决问题的方式也不遵循圈子里的常规方法。灵感来源于通信之父香农的信息论。这一开创性的成果和幕后过程刚刚被一些媒体介绍,就在Reddit和HackerNews上吸引了众多网友的讨论。有网友表示:看到信息论在意想不到的领域的应用,真的很酷。有网友就该话题展示了自己用信息论解决问题的经验。那么,这位远离纯数学学术研究的大哥解决了什么问题呢?一个月怎么可能搞定?向下看。这个猜想到底是什么?这个谷歌研究员突破的问题叫做union-closedsetsconjecture(和闭集猜想)。该猜想认为,对于包含至少2个集合且对并集运算封闭的集合的有限族,至少存在一个元素使得它出现在至少一半的集合中。让我们了解一下这个猜想说的是什么。首先,集合是包含一系列元素的集合,其中元素可以是数字或变量。比如这是一个普通的数集,它是有限的(只包含3个元素):(至于无限数集,就像是一个由自然数集、有理数集、整数等无限元素组成的集合set)当然,集合也有集合,组合起来就可以称为集合族。比如下图中的F就是一个集合族:在这些集合族中,有一类特殊的集合族,它对并集运算是封闭的。对于集合族中的集合,并集运算就是求两个集合的并集;至于闭并运算,是指对任意两个集合进行并运算后,结果仍然在这个集合族中。以下面的集合族为例:无论是{1}、{1,2}的并集,还是{2,3,4}、{1}的并集,还是{1,2}的并集,{2,3,4}求并...如果任意两个集合合并,结果都会在这个集合族中。因此,上述集合族满足非封闭集的要求,非封闭猜想据此提出。值得注意的是,这个猜想中的“一半”是紧凑的,毕竟对于任何集合的子集族,所有元素恰好出现在集合的一半中。它是由一位名叫彼得·弗兰克尔的数学家于1979年提出的,因此一度被称为弗兰克尔猜想。看似不难,但真正解决的时候,一群数学家发现并不简单。△彼得·温克勒达特茅斯学院数学教授彼得·温克勒曾在1987年对这个猜想作出尖锐的评价:闭集猜想确实很有名,除了它的起源和它的答案。△有同事说起源至少没有答案orz为了解决这个问题,数学家们尝试了很多方法。例如,有些人试图给猜想加上一些约束,使其在这些情况下成立。就像把它与图论中的二分图联系起来一样,证明了在这个猜想的条件下,具有其中一个性质的集合族是成立的。或者限制其中的元素,然后再去证明……BUT,不管用哪种方法,离真正需要证明的猜想还差得很远。哥伦比亚大学助理教授WillSawin对此评价:看起来并不难解??决,毕竟看起来很像那种“容易解决的问题”。但是,目前没有证据表明它真的可以处理它。问题进展缓慢,直到2022年秋天,谷歌研究员贾斯汀·吉尔默(JustinGilmer)趁着朋友结婚的机会回到了罗格斯大学校园。用信息论突破1%吉尔默将于2022年10月重返母校,此时距离他毕业离开数学学术圈已经7年了。多年来,他有意无意地专注于纯数学领域,转而自学编程,投身于IT行业。这次回到学校,他拜访了自己的导师萨克斯,四处走走。走着走着,他突然想起了在校园小道里闲逛的一道数学题,苦苦思索:是的,就是“并集闭集猜想”的证明。在攻读博士学位期间,吉尔默绞尽脑汁,花了一年时间毫无进展,只是弄清楚了为什么这个看似简单的问题如此难以解决。为此,他还去找了自己的导师萨克斯。但主管在这个问题上也停滞不前,所以他既不看好吉尔默的研究,也不愿意再触及这个领域。据吉尔默说,导师差点把他赶出房间。而现在,回到校园一段时间的吉尔默有了新的想法:利用信息论和相关原理来解决和关闭猜想问题。△信息论的创始人克劳德·香农,信息论起源于20世纪上半叶。他最著名的论文是1948年发表的香农的,提出用“消除不确定性”的多少来评价通信过程中的信息量。如何理解这种不确定性?以抛硬币游戏为例,假设我们需要抛硬币5次,然后输出一个结果序列,每个结果为1位。如果我们现在抛一枚普通硬币(正面和反面的概率为50%),那么我们至少需要5位来传输信息。但是如果我们对这枚硬币做点小动作(让它成为99%的正面朝上的概率),我们完全可以事先规定,当硬币正面朝上5次时,只用1位来传递信息。这样,用来衡量文字、图片等大小的比特,也可以成为描述事件不确定性的信息熵单位,信息论也成为现代通信的基础,构建今天的信息社会。受到信息论的启发,吉尔默决心再战。接下来的一个月里,他利用下班后的晚上和周末进行试探。有趣的是,由于长期接触理论,他一边学习一边拿着这本信息论教材,随时准备查阅。在研究过程中,吉尔默也发现自己研究的问题并非无人问津。事实上,几年前菲尔兹奖获得者蒂姆·高尔斯的博客中就有几位数学家讨论过这个问题。这给了他更多的信心。△TimGowers博客的相关研究内容Gilmer的想法是寻找反例。根据闭集猜想,在一个正常的闭集族中,至少有一个元素应该出现在超过一半的集合中。既然如此,只要我们想办法构造一个特殊的集合族,其中没有元素出现在超过1%的集合中,这个猜想就会被证伪。反之,如果不能构造,则猜想可能成立。现在,我们从信息论的角度来看这个猜想:通常情况下,如果从集合族中随机抽取两个集合,将这两个集合并集后,并集中的元素多于原来的两个集合,则information的熵应该比原来分开的两组要低。但是,如果基于“没有元素出现在超过1%的集合”的约束条件,对任意两个集合取并后,计算出的信息熵甚至比原来两个单独的集合还要高。这显然是不可能的,所以不存在这样一个特殊的集合族,也没有找到Glimer的反例。但这也意味着,在“和闭”的集合族中,至少有一个元素会出现在1%以上的集合中。2022年11月16日,吉尔默将这个想法写成论文,发表在arXiv上。当然,他的论文并不“完整”,也就是说,它并没有完全证明和关闭设定的猜想——毕竟至少只有1%,并不意味着至少有50%是原来的闭集猜想成立。但这个新想法足以震撼学术界。普林斯顿大学数学家RyanAlweiss评价“引入信息量”的操作:非常聪明。仅仅几天后,三个不同的数学研究小组就基于他的研究发表了研究论文,更多的研究人员跟进。他们的机构包括牛津、普林斯顿、哥伦比亚和布里斯托尔。等待。在后续研究中,将“并集闭集猜想”的概率值证明率提高到38%。让这些数学家好奇的是,根据吉尔默的研究,他自己将概率值推到38%并不难。对此,吉尔默表示,自己已经五年多没有接触数学了,实在不知道如何做分析工作才能进一步推进。但他也认为,正是因为对相关数学方法的不熟悉,才跳出常识,用圈外的方法实现突破。深度学习界的万隐领袖虽然之前在数学界没什么名气,但贾斯汀·吉尔默也不是普通人。他在谷歌大脑团队工作,在谷歌学术上被引用超过10,000次。主要研究方向为深度学习、组合、随机图论。从他的研究成果来看,JustinGilmer专注于图神经网络,他被高引用的论文涉及:消息传递神经网络(MPNN)、关系归纳偏差和图神经网络、显着图等领域。以上研究中,被引用次数最高的为4789,题目为:NeuralMessagePassingforQuantumChemistry。本文定义了一种基于图的监督学习框架,即消息传递神经网络(MPNN),并将其应用于分子特性预测。以量子化学为例,该框架根据原子性质(对应节点特征)和分子结构(对应边缘特征)预测了13种物理化学性质。这一成果在该领域具有深远的影响。腾讯AILab的云神知药平台其中一个框架也是基于MPNN的改进而开发的。另外值得一提的是,贾斯汀吉尔默也去过中国北京。2007年夏天,他在微软亚洲研究院短暂停留了3个月。根据他的LinkedIn账号,Gilmer以四人团队参与了一个SVM分类器的构建,该分类器用于识别句子中人名、地名和组织名称等命名实体之间的关系。
