深度|对话 DeepMind 核心架构师:AlphaGo 十年复盘, 凡是能被“游戏化”的现实难题,终将被AI碾压
Z Finance
03-22 20:21
围棋已死,科学方生

图片来源:Google DeepMind

2016年3月,首尔四季酒店。当李世石投子认输的那一刻,AI首次在"最接近人类直觉"的围棋领域展现出超越人类的可能性,开启了一个全新时代。

十年过去,AI浪潮已从AlphaGo扩展至重塑生物学的AlphaFold与提升基础数学效率的AlphaTensor。这场起源于棋盘的革命,正在深刻改变人类科学探索的基本范式。本期Google DeepMind播客由Hannah Fry教授主持,对话AlphaGo核心架构师Thore Graepel与科学研究负责人Pushmeet Kohli,揭示AI如何从"模仿人类"跃迁到"创造新知"。

技术突破:AI认知革命的六大关键逻辑

  • "快思考"与"慢思考"的融合:AlphaGo的突破在于策略网络提供人类般的直觉判断,价值网络结合博弈树进行深度推演,使AI能够处理围棋中10170种可能性的庞大空间。
  • Move 37的启示:对阵李世石时的那步"五线肩冲"曾被视为失误,却证明AI能产生超越人类数千年定式的原创洞见,成为知识边界的拓荒者。
  • 摆脱人类数据限制:AlphaZero通过纯自我对弈不仅重新发现人类知识,更迅速"抛弃"旧框架形成更优算法,揭示人类知识有时反成AI进化的阻碍。
  • 将科学问题"游戏化":AlphaFold搜索蛋白质折叠结构,AlphaTensor优化矩阵乘法路径,关键在于为现实问题设定明确奖励函数与验证器。
  • AI创新与幻觉的边界:在可验证领域(如代码或数学),AI产生的"荒谬"建议经验证后可转化为突破,体现了科学"猜想与证伪"的本质。
  • 人机协作新范式:当AI能提供人类无法理解但正确的结论时,科学家价值将体现在提出"值得解决的问题"及翻译AI洞见为人类可理解的理论。

AlphaGo早期版本:基于人类棋谱训练的初始对弈能力

Thore Graepel作为围棋高手解释了为何围棋被视为AI挑战:规则简单却带来极致复杂性。围棋复杂度远超国际象棋,当时被认为短期内无法被攻克。

Hannah Fry提及Thore加入DeepMind第一天就与早期AlphaGo对弈。Thore回忆道:"David Silver让我测试这个'婴儿版本',周围围满同事。我本想保守下棋确保不犯错,却正中其下怀——它在人类棋谱上训练,完全懂得如何应对常规走法。我微弱落败,成为'首个正式输给AlphaGo的人'。"

AlphaGo技术内核:直觉与推理的完美结合

Pushmeet Kohli指出AlphaGo核心创新在于融合"快思考"与"慢思考"。围棋每步选择有限,但全局状态呈指数级增长,AlphaGo成功应对了这一庞大搜索空间。

Thore补充:"这恰似人类下棋方式——我们先直觉筛选关键走法,再通过深度推理验证。AlphaGo的策略网络模拟人类直觉,价值网络实现深度计算,两者相辅相成。"

从10:0击败欧洲冠军到首尔巅峰对决

谈及测试环节,Thore回忆与欧洲冠军樊麾的十场测试:"我曾质疑AlphaGo能否击败职业棋手,与David Silver打赌'至少输一局',赌注是输者穿日本和服上班一整天。结果AlphaGo以10:0完胜。"

李世石作为当时最顶尖棋手之一,赛前确信AlphaGo难敌自己。但Thore透露:"他不清楚AlphaGo正通过训练持续进化。韩国现场媒体云集,围棋作为国民运动吸引了远超英国的关注度,让我们这群'极客'首次成为全球焦点。"

Move 37:AI突破人类认知边界的标志性时刻

解说员Micheal Redmond在放置Move37时的反应成为经典:"啊,这肯定是错了!"这步五线肩冲打破常规认知,在人类棋手中被认为是"失误",却被AlphaGo以万分之一概率选择。

Pushmeet解释其意义:"在某些局面中,AlphaGo展示了对'实地'与'势力'权衡的新理解。这不仅是围棋突破,更标志着AI拓展人类知识边界的时刻——起初被视为错误,后续却证明是胜利关键。"

人类反击:李世石Move 78与AI应对启示

李世石在第四局下出的"挖"棋(Move 78)令AlphaGo陷入困境。Thore表示:"当时我们担心若李世石连赢两局,将意味'人类已找到破解之道'。但他获胜后说'这或许是最后一次人类战胜机器的机会',展现了伟大棋手的格局。"

尽管总比分4:1落败,围棋界反应积极:关注人数反而上升,AlphaGo被广泛用于教学分析。Pushmeet指出:"在AlphaGo展示超越训练数据能力前,Machine Learning领域认为模型只能与数据分布保持一致。这次突破揭示了AI可真正超越人类知识并为世界所用。"

从AlphaZero到AlphaFold:AI科学探索的跃迁

Thore强调AlphaZero意义更大:"它仅凭游戏规则通过自我对弈从零开始,先发现人类知识,随即超越之。AlphaZero下棋风格近乎陌生,走法看似无序,三十步后却豁然开朗,展现出全新围棋逻辑。"

一段未公开的赛后录音揭示了AlphaGo胜利对后续发展的影响。Demis Hassabis说:"我们可以解决蛋白质折叠问题。现在我们绝对能做到。"Thore评价:"AlphaGo打开了大门——如果我们能在10170种可能性中有效搜索,同样可处理蛋白质折叠等复杂问题。"

AlphaGo方法在科学领域的广泛应用

Pushmeet阐释如何将AlphaGo思路延伸至科学研究:"蛋白质折叠是结构空间搜索,矩阵乘法则是算法空间搜索。AlphaTensor将矩阵相乘转化为游戏,50年来无人超越的Strassen算法被其打破。"

"现代AI模型核心是矩阵乘法,效率微小提升经全球规模应用将产生巨大影响。AlphaEvolve更将搜索扩展至所有算法空间,解决数据中心调度、网络数据传输等实际问题,持续拓展应用边界。"

AI创新与验证:区分突破与谬误的关键

面对"如何区分AI真创新与幻觉"的提问,Pushmeet指出关键在"验证器":"将大型语言模型与验证器结合,筛选错误见解。这类似卡尔·波普尔描述的科学过程——猜想(可能为幻觉)与证伪(筛选步骤)"。

Thore以AlphaGo收官为例:"人类追求优势最大化,AlphaGo只求赢半目。其'不最优'走法看似违和,实为优化胜率。科学不仅是发现真相,更在于'可交流性'——若新发现无法被理解,影响力将受限。"

AlphaGo的遗产:开启AI科学革命新时代

谈及AlphaGo历史意义,Pushmeet强调:"它证明特定领域超越人类智能已成现实。若围棋可以突破,蛋白质结构、材料科学、核聚变等领域同样可期。"Thore总结道:"AlphaGo展示游戏可作为现实世界缩影,而真正创新需要超越人类现有知识库。"

Hannah Fry在结尾指出:"AlphaGo不同于国际象棋——它首次展示出将直觉与计算结合的'真正智能'。十年间,其揭示的核心问题愈发关键:如何创造能超越人类知识的AI系统?又如何甄别真正洞见与错误信息?"

【声明】内容源于网络