1. DeepSeek r1은 중요한 뉘앙스를 지닌 진짜다.
- 가장 중요한 점은 r1이 o1보다 훨씬 저렴하고 효율적으로 추론할 수 있다는 사실이다. 이는 600만 달러의 학습 비용 때문이 아니라, r1의 사용 비용이 o1에 비해 각 API당 93% 적게 든다는 점, 고사양 워크스테이션에서 로컬로 실행할 수 있다는 점, 그리고 속도 제한에 전혀 도달하지 않았다는 점에서 확인된다.
- 간단히 계산하면 활성 매개변수 10억 개당 FP8 기준 1GB RAM이 필요하므로, r1은 37GB RAM을 필요로 한다. 배치 처리가 비용을 크게 줄이고, 더 많은 컴퓨팅 리소스가 초당 토큰 수를 증가시키기 때문에 클라우드에서 추론하는 것이 여전히 유리하다. 또한 여기에는 진정한 지정학적 역학 관계가 작용하고 있으며, 'Stargate'직후에 이것이 나온 것이 우연이 아니라고 본다.
사실(Facts):
1. 관련 앱 스토어 카테고리에서 #1 다운로드였다. ChatGPT를 앞선 건 물론이고, 이는 Gemini나 Claude도 이루지 못한 일이다.
2. 품질 면에서 o1과 비교할 만하나 o3에는 뒤처진다.
3. 학습과 추론 모두에서 효율성을 크게 높이는 진정한 알고리즘적 돌파구가 있었다. FP8 학습, MLA, 다중 토큰 예측 등이 그 예다.
4. r1 학습이 600만 달러밖에 들지 않았다는 점은 쉽게 확인 가능하다. 이는 문자 그대로 사실이지만, 매우 오해를 불러일으킬 수 있다.
5. 심지어 하드웨어 아키텍처도 새롭다. PCI-Express를 확장에 활용한다는 점은 주목할 만하다.
뉘앙스(Nuances):
1. 600만 달러에는 “아키텍처, 알고리즘, 데이터에 대한 사전 연구 및 소거 실험 비용”이 포함되지 않는다고 기술 논문에서 명시하고 있다. “그것 말고는 어땠나요, 링컨 부인?” 이는 이미 수억 달러를 연구에 투자했고, 훨씬 큰 클러스터를 보유한 연구소라면 600만 달러로 r1 수준의 모델을 학습시킬 수 있다는 것을 의미한다. DeepSeek은 2048대의 H800을 훨씬 초과하는 리소스를 가지고 있음이 분명하다. 그들의 이전 논문 중 하나는 1만 대의 A100 클러스터를 언급한 바 있다. 동등한 수준의 팀이 단순히 2000 GPU 클러스터를 가동해 600만 달러로 r1을 처음부터 학습시키는 것은 불가능하다. Nvidia 매출의 약 20%는 싱가포르를 통해 발생한다. 하지만 Nvidia GPU의 20%가 싱가포르에 있는 것은 아닐 것이다.
2. 많은 양의 증류가 이루어졌다 - 즉, GPT-4o와 o1에 대한 방해 없는 접근 없이는 이것을 학습시킬 수 없었을 가능성이 높다.
어제 Brad Gerstner 가 지적했듯이, 최첨단 GPU에 대한 접근을 제한하면서도 중국이 최첨단 미국 모델을 증류할 수 있는 능력을 막지 않는 것이 꽤나 우스운 일이다. 분명 수출 제한의 목적을 무색하게 한다. 소를 살 필요가 없다면 공짜로 우유를 얻으면 되니까.
결론:
1. 학습 비용을 낮추는 것은 AI의 투자수익률(ROI)을 증가시킬 것이다.
2. 가까운 미래에 학습 자본 지출(CapEx)이나 '전력'테마에 긍정적인 영향을 미칠 가능성은 없다.
3. 기술, 산업, 유틸리티, 에너지 분야의 현재 'AI 인프라' 승자들에게 가장 큰 리스크는 r1의 증류 버전을 고사양 워크스테이션(예: Mac Studio Pro)에서 로컬로 실행할 수 있다는 점이다. 이는 유사한 모델이 약 2년 내에 슈퍼폰에서도 실행될 수 있음을 의미한다. 추론이 '충분히 좋다'는 이유로 엣지에서 이루어진다면, 우리는 완전히 다른 승자가 탄생하는 매우 다른 세계에 살게 될 것이다. 즉, PC와 스마트폰 업그레이드 사이클이 역대 최대 규모로 이루어질 가능성이 있다. 컴퓨팅은 오랫동안 중앙집중화와 분산화 사이를 오가고 있다.
4. 인공 일반 지능(ASI)은 정말, 정말 가까이에 와 있으며, 초지능의 경제적 수익이 어떨지 아무도 정확히 알지 못한다. 100k 이상의 블랙웰(Blackwell)을 학습한 1,000억 달러짜리 추론 모델(o5, Gemini 3, Grok 4 등)이 암을 치료하고 워프 드라이브를 발명한다면, ASI의 수익은 매우 높아질 것이며 학습 자본 지출과 전력 소비는 꾸준히 증가할 것이다. 다이슨 스피어(Dyson Sphere)가 페르미 역설(Fermi’s Paradox)에 대한 최선의 설명으로 다시 떠오를지도 모른다. 개인적으로 ASI의 수익이 높기를 바란다. 정말 멋질 테니까.
5. 이것은 AI를 활용하는 기업(소프트웨어, 인터넷 등)들에게 매우 긍정적이다.
6. 경제적 관점에서 보면, 이는 배포 및 고유 데이터(YouTube, Facebook, Instagram, X 등)의 가치를 대폭 증가시킨다.
7. 미국 연구소들은 r1에 매우 중요한 역할을 했던 증류를 방지하기 위해 최첨단 모델을 공개하는 일을 멈출 가능성이 높다. 하지만 이 분야에서는 이미 완전히 판도라의 상자가 열려버렸을지도 모른다. 즉, r1만으로도 r2를 학습시키기에 충분할 수 있다.
출처
12
1분 전