요즘 뜨고 있는 Deepseek 내러티브 정리
불과 몇일전에 중국의 유명 헤지펀드에서 퀀트 트레이딩을 위해서 쟁여둔 gpu가 남아돌자 헤지펀드 대표가 "취미생활"로 LLM 모델 트레이닝 사이드 프로젝트를 시작함. 중국에서 수학 컴공 제일 잘하는 수재들 모아서 AI 한번 시켜봄
그래서 탄생한 모델이름이 DeepSeek인데 현재 벤치마크 해보니 Chatgpt o1 급의 성능을 보여주고 일부 성능은 o1 이상급으로 나오는 것을 다수의 리서처들이 확인함. 중국발 뻥카 아님. 근데 이거 모델 훈련 비용이 56m정도. 샘 알트만이 700조짜리 스타게이트 펀드 만들겠다는 비전에 찬물 끼얹음.
몇년전만 해도 AI = GPU 좆망겜이라는 발견으로 대기업들이 너도나도 GPU를 사재기하여 알고리즘적인 해결책 보다는 돈 때려부어서 AI 섹터를 먹으려는 전략을 세움. 그래서 엔비디아 가격 폭등함
근데 이번에 똑똑한 소수의 두뇌가 미국의 자본력을 이길 수도 있다는 사실을 업계가 알게 되면서 데이터센터 옆에 원자력 발전소를 짓네마네하는 미국 빅테크 기업들에게 경각심을 심어줌.
NVDA 팔아요?
Deepseek모델이 처음부터 다 만든게 아니라 메타의 llama모델을 좀 더 효율적으로 보강한 느낌임. 미국에서 돈 쏟아부어서 데이터 모으고 GPU 때려붓고 하는 돈지x의 정당성이 아예 사라지진 않음. GPU 개수 = AI 모델 성능이라는 공식이 없어지진 않음. 단기적 퍼드로 끝날수도 있지만 대중의 인식이라는게 그렇지 않아서 어케될지 모르겠음