Google DeepMind

AlphaGo的深远影响:一场棋局如何点燃现代AI革命

十年前,Google DeepMind的AlphaGo系统在围棋比赛中战胜了世界冠军李世石,这一壮举此前被认为机器不可能完成。正如Google DeepMind最近的一期播客所探讨的,这一关键事件标志着一个深刻的转折点,它证明了AI具备超越暴力计算的真正智能,并为当今该领域的快速发展奠定了基础。该期节目邀请了AlphaGo项目的核心架构师Thore Graepel和Pushmeet Kohli,他们回顾了该项目的挑战、突破和持久影响。

#Google DeepMind#AI Research#Machine Learning

本文涵盖了Google DeepMind的AlphaGo十年:AI的转折点 | Thore Graepel & Pushmeet Kohli视频中的主要观点。

新AI时代的曙光

Google DeepMind的播客强调了2016年3月在韩国首尔举行的那场历史性比赛,他们的AlphaGo系统以4-1击败了传奇的18次围棋世界冠军李世石。正如播客主持人Hannah Fry教授所强调的,这一事件不仅仅是一次技术上的胜利,更是人工智能领域的一个深刻“转折点”,可以说标志着现代AI革命的真正开端。Google DeepMind强调,这项成就发生在整整十年前,它为大型语言模型(large language models)、复杂的AI agents以及蛋白质折叠(protein folding)等科学重大挑战的解决方案等突破铺平了道路。

为何围棋是AI的终极挑战

Google DeepMind的杰出研究科学家、AlphaGo项目的核心架构师Thore Graepel表示,围棋被认为是AI的“完美挑战”。Google DeepMind解释说,尽管围棋的规则很简单,但在对弈中却产生了“难以想象的复杂性”,涉及错综复杂的战术、策略和模式。Graepel指出,在机器征服了国际象棋之后,围棋仍然是“开放的挑战”,被认为“比国际象棋复杂许多个数量级”,没有人预料到它会在短期内被掌握。领导Google DeepMind科学工作的Pushmeet Kohli进一步阐述了围棋的“极端复杂性”,将其归因于不仅是可能走法的广度,还有所需推理的巨大深度,远远超过国际象棋中典型的走法序列。

AlphaGo的混合方法:直觉与计算的结合

Google DeepMind透露,AlphaGo的核心创新在于它能够结合“快速思考和慢速思考”,这是一种模仿人类认知过程的混合方法。Thore Graepel解释说,人类围棋棋手在进行明确的、循序渐进的规划之前,会凭借直觉快速评估棋盘局势,判断其有利程度并识别有希望的走法。Google DeepMind指出,AlphaGo复制了这种双重方法:deep learning,一项自2012年以来已成熟可应用的技术,通过一个价值函数(评估棋盘局势)和一个策略网络(对走法进行排名)实现了“快速思考”。根据Graepel的说法,“慢速思考”则涉及成熟的博弈树搜索方法,这让人想起“老式AI”。这种直觉模式识别和细致计算的结合对于破解围棋的组合复杂性至关重要。

难忘的李世石之战

播客生动地回顾了与李世石那场意义重大的比赛的准备工作和具体事件。Thore Graepel分享说,早前AlphaGo在一次内部测试中以10-0击败了欧洲围棋冠军樊麾,这给团队带来了“巨大的信心”,尽管Graepel个人曾打赌AlphaGo不可能取得如此压倒性的胜利。Google DeepMind将李世石描述为“当时最好的棋手”,其才华可与罗杰·费德勒(Roger Federer)相媲美。虽然李世石根据AlphaGo过去的表现对胜利充满信心,但Google DeepMind指出他并不知道该系统通过训练和算法改进正在持续提升。

Pushmeet Kohli回忆说,他在西雅图观看了那场比赛,并注意到评论员和李世石本人都逐渐意识到AlphaGo确实强大得令人难以置信。Google DeepMind强调了第二局中现在著名的“第37手”,这一手最初让人类评论员,包括Michael Redmond在内,都感到困惑,他们认为这是一个错误。Thore Graepel解释说,这个“反直觉的走法”是五线上的肩冲,通常是人类棋手会避免的。然而,Google DeepMind澄清说,AlphaGo为了哪怕是半目的胜利而优化,经常表现出看似奇怪但战略上合理的行为,这表明它与人类棋手有着不同的优化目标。

AlphaGo的深远影响与AI的未来

Google DeepMind探讨了区分真正的AI洞察力与“幻觉”的关键问题。Pushmeet Kohli解释说,在大型语言模型(large language models)中,结合验证器的“agent harness”对于剔除无效或不正确的响应至关重要。Thore Graepel讨论了AI发展的演变,指出早期的LLM通过挖掘大量人类生成的数据(文本、图像、视频)利用了“通往智能的捷径”,但这种方法固有地将它们限制在现有的人类知识范围内。根据Google DeepMind的说法,社区现在正在重新审视DeepMind开创的方法,例如在环境中进行reinforcement learning,以使AI能够产生“新颖性”并“超越我们已知的知识”。

Pushmeet Kohli有力地总结道,AlphaGo是一个“转折点”,它明确无误地表明,在特定领域超越人类水平的智能已是即时现实,而非遥远的未来。Google DeepMind强调,这一认识促使人们进一步探索蛋白质结构预测(protein structure prediction)、聚变研究(fusion research)和材料科学(material science)等领域,强调AlphaGo比赛的遗产是当今AI进步的基石。

为了真正体会这些深刻见解和引人入胜的叙述,我们鼓励您观看原始视频:AlphaGo十年:AI的转折点 | Thore Graepel & Pushmeet Kohli


本文基于Google DeepMind的一段视频。 来源:AlphaGo十年:AI的转折点 | Thore Graepel & Pushmeet Kohli

External Intelligence

Google DeepMind

10 years of AlphaGo: The turning point for AI | Thore Graepel & Pushmeet Kohli

Watch on YouTube