알파고의 불멸의 유산: 한 게임이 어떻게 현대 AI 혁명을 촉발시켰는가

이 글은 Google DeepMind의 AlphaGo 10주년: AI의 전환점 | Thore Graepel & Pushmeet Kohli 영상에서 얻은 주요 통찰력을 다룹니다.

새로운 AI 시대의 여명

Google DeepMind의 팟캐스트는 2016년 3월 대한민국 서울에서 AlphaGo 시스템이 전설적인 18회 바둑 세계 챔피언 이세돌을 4-1로 꺾은 역사적인 대국을 조명합니다. 팟캐스트 진행자인 Hannah Fry 교수가 강조하듯이, 이 사건은 단순한 기술적 승리를 넘어 인공지능의 심오한 "전환점"이었으며, 현대 AI 혁명의 진정한 시작을 알렸다고 할 수 있습니다. Google DeepMind는 정확히 10년 전 발생한 이 성과가 LLM(large language models), 정교한 AI agent, 그리고 단백질 접힘(protein folding)과 같은 과학적 난제 해결을 위한 돌파구를 마련했다고 강조합니다.

바둑이 궁극적인 AI 도전 과제였던 이유

Google DeepMind의 저명한 연구 과학자이자 AlphaGo 프로젝트의 핵심 설계자인 Thore Graepel에 따르면, 바둑은 AI에게 "완벽한 도전 과제"로 인식되었습니다. Google DeepMind는 바둑의 규칙은 단순하지만, 복잡한 전술, 전략, 패턴을 포함하는 "상상할 수 없는 복잡성"을 게임 플레이에서 야기한다고 설명합니다. Graepel은 기계가 체스를 정복한 후에도 바둑은 "미해결 과제"로 남아 있었으며, "체스보다 훨씬 더 복잡하다"고 여러 차례 언급되었고, 누구도 바둑의 숙달이 곧 이루어질 것이라고 예상하지 못했다고 말합니다. Google DeepMind의 과학 연구를 이끄는 Pushmeet Kohli는 바둑의 "극도의 복잡성"에 대해 더 자세히 설명하며, 이는 가능한 수의 방대한 범위뿐만 아니라 체스의 일반적인 수순을 훨씬 뛰어넘는 엄청난 깊이의 추론이 필요하기 때문이라고 말합니다.

AlphaGo의 하이브리드 접근 방식: 직관과 계산의 만남

Google DeepMind는 AlphaGo의 핵심 혁신이 인간의 인지 과정을 반영하는 하이브리드 접근 방식인 "빠르게 생각하고 느리게 생각하는" 능력을 결합하는 데 있었다고 밝힙니다. Thore Graepel은 인간 바둑 기사들이 직관에 따라 판의 유리함을 평가하고 유망한 수를 식별한 다음, 명시적이고 단계적인 계획을 세운다고 설명합니다. Google DeepMind는 AlphaGo가 이러한 이중 접근 방식을 재현했다고 지적합니다. 2012년부터 적용하기에 적합했던 기술인 deep learning은 가치 함수(value function, 판의 위치 평가)와 정책 네트워크(policy network, 수의 순위 매기기)를 통해 "빠른 사고"를 가능하게 했습니다. Graepel에 따르면 "느린 사고"는 "오래된 AI"를 연상시키는 잘 확립된 게임 트리 검색(game tree search) 방법을 포함했습니다. 직관적인 패턴 인식과 세심한 계산의 이러한 통합은 바둑의 조합적 복잡성을 해결하는 데 결정적이었습니다.

잊을 수 없는 이세돌 대국

팟캐스트는 이세돌과의 중대한 대국 전의 상황과 사건들을 생생하게 이야기합니다. Thore Graepel은 AlphaGo가 유럽 바둑 챔피언 Fan Hui를 상대로 10-0으로 승리한 이전의 내부 테스트가 팀에 "엄청난 자신감"을 심어주었다고 말합니다. Graepel 자신은 그러한 완승에 반대하는 내기를 했음에도 불구하고 말입니다. Google DeepMind는 이세돌을 그의 탁월함으로 Roger Federer에 비유하며, "당시 최고의 선수"였다고 설명합니다. 이세돌은 AlphaGo의 과거 성과를 바탕으로 승리를 확신했지만, Google DeepMind는 그가 시스템의 훈련과 알고리즘 개선을 통한 지속적인 발전을 알지 못했다고 언급합니다.

Pushmeet Kohli는 시애틀에서 대국을 지켜보며 해설자들과 이세돌 본인 사이에서 AlphaGo가 진정으로 강력하다는 인식이 커지는 것을 회상합니다. Google DeepMind는 이제 유명해진 2국에서의 "37번째 수"를 강조하는데, 이는 처음에는 Michael Redmond를 포함한 인간 해설자들을 당황하게 했고, 그들은 이를 실수라고 생각했습니다. Thore Graepel은 이 "직관에 반하는 수"가 5선 어깨짚기였으며, 인간 기사들은 일반적으로 피하는 수라고 설명합니다. 그러나 Google DeepMind는 AlphaGo가 반집이라도 이기기 위해 최적화되었기 때문에, 이상하게 보이지만 전략적으로는 타당한 행동을 자주 보였으며, 이는 인간 기사들과는 다른 최적화 목표를 보여주었다고 설명합니다.

AlphaGo의 지속적인 유산과 AI의 미래

Google DeepMind는 진정한 AI 통찰력과 "환각(hallucinations)"을 구별하는 중요한 질문을 다룹니다. Pushmeet Kohli는 LLM(large language models)에서 유효하지 않거나 부정확한 응답을 걸러내기 위해 "agent harness"와 검증기(verifier)를 결합하는 것이 필수적이라고 설명합니다. Thore Graepel은 AI 개발의 진화를 논하며, 초기 LLM이 방대한 양의 인간 생성 데이터(텍스트, 이미지, 비디오)를 채굴하여 "지능으로 가는 지름길"을 활용했지만, 이 접근 방식은 본질적으로 기존 인간 지식에 한정되었다고 언급합니다. Google DeepMind에 따르면, 이제 커뮤니티는 AI가 "새로움"을 생성하고 "우리가 이미 알고 있는 것을 넘어서" 나아갈 수 있도록 환경에서의 reinforcement learning과 같이 DeepMind가 개척한 방법들을 재검토하고 있습니다.

Pushmeet Kohli는 AlphaGo가 특정 영역에서 인간 수준의 지능을 능가하는 것이 먼 미래가 아닌 즉각적인 현실임을 명확히 보여주는 "전환점" 역할을 했다고 강력하게 결론짓습니다. Google DeepMind는 이러한 인식이 단백질 구조 예측(protein structure prediction), 핵융합 연구(fusion research), 재료 과학(material science)과 같은 분야에 대한 추가 탐구를 촉발했으며, AlphaGo 대국의 유산이 오늘날 AI 발전의 기반임을 강조합니다.

이러한 통찰력의 깊이와 설득력 있는 이야기를 진정으로 이해하려면 원본 영상을 시청하시기를 권장합니다: AlphaGo 10주년: AI의 전환점 | Thore Graepel & Pushmeet Kohli.

이 글은 Google DeepMind의 영상을 기반으로 작성되었습니다. 출처: AlphaGo 10주년: AI의 전환점 | Thore Graepel & Pushmeet Kohli