ResNet之父何恺明加盟DeepMind,探寻通用智能的基石
发布时间:2025-06-26 17:50 浏览量:1
2025年6月26日,人工智能领域迎来一个标志性事件:深度学习革命的核心缔造者之一,何恺明,正式宣布以“杰出科学家”的身份,兼职加盟Google DeepMind。与此同时,他将保留麻省理工学院(MIT)电子工程与计算机科学系(EECS)的终身副教授职位。
这一消息的震撼力,远不止于一位顶级人才的流动。它象征着当代AI领域两种最强大力量的汇合:一方是致力于构建通用人工智能(AGI)、拥有全球最顶尖计算资源和工程实力的DeepMind;另一方则是以“第一性原理”思考著称,屡次用简洁而深刻的洞见重塑整个技术范式的顶尖学者。何恺明的加入,预示着AGI的探索之路,将注入一股前所未有的、源自底層架構創新的強大動力。
要理解何恺明加盟DeepMind的深远意义,必须首先回顾他如何一次次地为人工智能的发展铺设了不可或逾越的基石。他的贡献,远非发表几篇高引用论文所能概括,而是在关键时刻解决了领域发展的核心瓶颈,其思想的简洁与普适性至今仍在不断释放能量。
第一座丰碑:ResNet——驯服“深度”的优雅“捷径”
在2015年之前,深度学习领域普遍认为,神经网络越深,性能越好。然而,当网络堆叠到一定深度时,一个诡异的“退化”问题出现了:更深的网络在训练集上的表现反而变差。这并非源于过拟合,而是因为梯度在深层网络中难以有效传播,导致训练过程极其困难。整个领域似乎撞上了一堵无形的“深度之墙”。
何恺明和他当时在微软亚洲研究院的团队,用一个堪称“神来之笔”的构想——深度残差网络(ResNet)——彻底解决了这个问题。其核心是“快捷连接”(Shortcut Connection),它允许信息跨越多层网络直接传递。这个看似简单的“捷径”设计,使得网络可以轻松地学习“恒等映射”,即如果增加的层是多余的,网络可以通过快捷连接直接跳过它们,从而保证性能不会下降。
这一优雅的设计,瞬间打破了“深度之墙”。神经网络的深度从几十层骤然跃升至成百上千层,性能也随之实现了质的飞跃。ResNet不仅赢得了CVPR 2016的最佳论文奖,更重要的是,它成为了此后几乎所有计算机视觉任务,乃至自然语言处理、语音识别等领域模型的标准“主干架构”(backbone)。可以说,没有ResNet,就没有今天我们所熟知的绝大多数深度学习模型。
第二座丰碑:从Faster R-CNN到Mask R-CNN——定义现代计算机视觉
在解决了“深度”问题后,何恺明将目光投向了计算机视觉的核心任务:物体检测与分割。当时主流的检测方法流程复杂、速度缓慢。他与合作者共同提出的Faster R-CNN,通过引入“区域提议网络”(Region Proposal Network, RPN),将过去独立于主网络的候选框生成步骤,巧妙地融入到同一个神经网络中,实现了端到端的训练。这使得物体检测的速度和精度都达到了前所未有的水平,真正让实时高精度检测成为可能。
但他并未止步于此。在Faster R-CNN的基础上,他又提出了Mask R-CNN,通过增加一个微小的并行分支,在识别物体边界框的同时,还能对每个物体进行像素级的精确分割。Mask R-CNN凭借其出色的性能和灵活性,一举拿下了计算机视觉顶会ICCV 2017的最高荣誉——马尔奖(Marr Prize),并至今仍是实例分割领域最重要和应用最广泛的基准模型。
第三座丰碑:MAE——引领自监督学习的视觉革命
2021年,当学术界在Vision Transformer(ViT)的浪潮中探索如何高效训练这些庞大的视觉模型时,何恺明再次给出了颠覆性的答案——掩码自编码器(Masked Autoencoders, MAE)。受到自然语言处理领域BERT模型的启发,MAE的思路极为简洁:随机遮盖(mask)掉图像的大部分(如75%)图块,然后让模型仅根据剩余的少量可见图块,去重建被遮盖的原始像素。
这种“完形填空”式的自监督学习方式,迫使模型学习到了关于视觉世界更深层次、更具泛化能力的表征。其意义是革命性的:它证明了无需海量的标注数据,视觉模型同样可以从原始数据本身学到强大的能力。MAE不仅极大地提升了ViT的训练效率和性能,也为通向更通用的、能从无标签世界中自主学习的AI模型指明了方向。
纵观何恺明的职业生涯,从2003年广东高考状元,到清华大学、香港中文大学博士,再到微软亚洲研究院和Meta AI(FAIR),他始终选择在最具活力的学术与工业环境中淬炼思想。2024年,他选择全职加入MIT,被视为向学术界的一次回归。然而,仅仅一年后兼职加盟DeepMind,则更清晰地揭示了他的定位:一位致力于在学术自由与产业前沿之间架设桥梁的“双轨”学者。
他不是在两者之间摇摆,而是在构建一个能最大化其影响力的独特生态。在MIT,他可以心无旁骛地探索那些最根本、最长期的科学问题;在DeepMind,他能接触到最前沿的工程挑战和最大规模的计算资源,将其理论构想在通往AGI的真实场景中进行验证和迭代。这种模式,或许将成为未来顶尖AI人才的理想范本。
何恺明在DeepMind将从事什么研究?答案几乎可以肯定,将远超其传统的“计算机视觉”标签。他近年来的一系列工作,如无需归一化层的Transformer、分形生成模型(fractal generative models)、一步到位的生成框架MeanFlow等,无不指向一个核心:探索更高效、更稳定、更具扩展性的下一代AI模型基础架构。
这正是DeepMind在构建如Gemini等超大规模多模态模型时面临的核心挑战。当模型规模达到万亿参数级别,任何基础架构上的微小效率提升或稳定性改进,都将被无限放大。DeepMind需要的,不仅仅是更多的算力和数据,更需要像何恺明这样能够从第一性原理出发,设计出更优越、更简洁的底层“蓝图”的建筑师。
可以预见,他将把在ResNet、MAE中体现出的那种对“简洁”和“通用性”的极致追求,带入到DeepMind的AGI研发中。如果说DeepMind的宏伟目标是建造一座通往通用智能的摩天大楼,那么何恺明的任务,就是设计并打造出支撑这座大楼的、更坚固、更高效的钢筋骨架。
Demis Hassabis曾预言AGI可能在未来5-10年内实现。这一宏愿的实现,不仅依赖于顶层设计的远见,更取决于底层基石的牢固。何恺明的加盟,无疑是为DeepMind的AGI征程,加上了一块最坚实、最可靠的压舱石。
https://arxiv.org/abs/1512.03385 (Deep Residual Learning for Image Recognition)https://arxiv.org/abs/1506.01497 (Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks)https://arxiv.org/abs/1703.06870 (Mask R-CNN)https://arxiv.org/abs/2111.06377 (Masked Autoencoders Are Scalable Vision Learners)