Reiner Pope – LLM이 학습되고 서빙되는 방식의 수학

소수의 방정식과 칠판만 가지고도 연구소들이 무엇을 하고 있는지 얼마나 많이 추론해낼 수 있는지 충격적이다

Dwarkesh Patel 2026년 4월 30일

Reiner Pope와 매우 색다른 포맷으로 진행했다 — 그가 프론티어 LLM이 어떻게 학습되고 서빙되는지 칠판에 직접 풀어내는 강의 형식이었다.

소수의 방정식, 공개된 API 가격, 그리고 분필 몇 자루만 가지고도 연구소들이 무엇을 하고 있는지 얼마나 많이 추론해낼 수 있는지 충격적이다.

다소 기술적인 내용이지만, 끝까지 따라와 보길 권한다 — 정말 그만한 가치가 있다.

칩 설계부터 모델 아키텍처까지, AI의 풀 스택을 Reiner만큼 깊이 이해하는 사람은 전 세계에 손에 꼽을 정도다. 그에게서 배울 수 있어 정말 즐거웠다.

Reiner가 가르쳐준 내용을 내가 직접 머리에 새기기 위해 플래시카드와 연습 문제를 만들었다. 여러분에게도 도움이 되길 바란다!

Reiner는 신생 칩 스타트업 MatX의 CEO다 (전체 공시 — 나는 엔젤 투자자다). 이전에는 Google에서 소프트웨어 효율성, 컴파일러, TPU 아키텍처 분야에서 일했다.

그가 공저한 scaling book을 더 깊이 공부하고 싶은 분들께 강력히 추천한다.

칠판을 볼 수 있도록 이번 편은 YouTube로 시청하기를 권한다.

스폰서

Jane Street는 매우 낮은 레이턴시의 컴퓨트에 항상 접근해야 한다. 최근 그곳의 엔지니어인 Clark에게 그들이 이러한 요구를 어떻게 충족하는지 직접 설명을 들었다. FPGA에서 액체 냉각까지 다룬 우리의 대화는 Reiner와의 인터뷰를 준비하는 데 엄청난 도움이 되었다. 전체 토론을 보고 Jane Street의 채용 공고를 살펴보려면 janestreet.com/dwarkesh를 방문해 보시라.

Google의 Gemma 4는 인터넷을 끊고 완전히 단절된 "집중 머신"을 만들 수 있게 해준 최초의 오픈 모델이다. 이는 Gemma가 내 노트북에서 돌아갈 만큼 작으면서도 실제로 유용할 만큼 강력하기 때문이다. 그래서 이 인터뷰를 준비하기 위해 Reiner의 scaling book을 다운로드하고, 와이파이를 끊은 채 Gemma를 써서 자료를 분해해 봤다. goo.gle/Gemma4에서 확인해 보시라.

Cursor는 대규모 사전학습 중에 그래디언트가 어떻게 흐르는지에 대한 내 메모를 멋진 애니메이션으로 만드는 데 도움을 줬다. 처음에는 그 개념을 어떻게 시각화할지 확신이 없었지만, Cursor의 Composer 2 Fast 모델 덕분에 다양한 아이디어를 거의 즉각적으로 반복 시도해 볼 수 있었다. 최근 블로그 포스트에서 그 애니메이션을 확인할 수 있다. 직접 시각화하고 싶은 게 있다면, cursor.com/dwarkesh로 가 보시라.

타임스탬프

(00:00:00) – 배치 사이즈가 토큰 비용과 속도에 미치는 영향

(00:32:09) – MoE 모델이 GPU 랙에 어떻게 배치되는가

(00:47:12) – 파이프라인 병렬화가 모델 레이어를 랙 전체에 어떻게 분산시키는가