03. 딥시크 루머4+1, 진실은?

기획 포스트

추선우 iStaging Asia CEO

Insight

  • 딥시크는 정말 5만 개의 H100을 보유하고 있을까, 그리고 실제로 그들의 컴퓨팅 파워는 어느 정도일까?
  • 딥시크의 훈련 비용은 정말 600만 달러 수준일까, 아니면 숨겨진 인프라 및 인건비까지 포함하면 수십억 달러가 드는 걸까?
  • 딥시크의 데이터는 정말 훔쳐온 것일까, 그리고 AI 혁신에 대해 우리는 ‘미친 짓’이라 불리는 도전을 어떻게 바라봐야 할까?

1. 딥시크는 5만개의 H100을 가지고 있나?

이 루머(?)는 Scale AI의 CEO인 알렉산더 왕(Alexander Wang)이 CNBC와의 인터뷰에서 딥시크가 약 50,000개의 H100이 있지만 미국 수출 통제 때문에 딥시크는 이를 공개적으로 밝히지 못한다고 말한 것에서부터 시작됐다.

그 이유는 싱가포르에서 H100이 재판매가 됐는데 싱가포르의 엔비디아 글로벌 판매 점유율은 2023년까지 9%였다가 2023년 이후에는 22%까지 올라 싱가포르가 엔비디아의 두 번째 큰 고객이 된데서 그 이유를 찾을 수 있다고 했다. 즉 미국이 수출을 규제했지만 싱가포르를 통해서 불법으로 중국에 판매되어 그 점유율이 올랐다는 것이다.

그러나 첫째, 이 주장에는 근거가 없고, 소량의 H100은 암시장이 존재할 수 있지만 수만장의 H100의 암시장이 존재할 수가 없다는 것이다.

좀 더 신뢰할 수 있는 분석은 Semianalysis의 분석이다. Semianalysis는 딥시크가 A100, H800, H100 각각 10,000개, H20 30,000개를 포함해 총 60,000개의 컴퓨팅 파워가 있다고 분석했다.

H100을 기준으로 생각해 보자. 이 그의 컴퓨팅 파워가 100이라면, 다른 카드들의 컴퓨팅 파워는 얼마일까요? A100은 50정도가 된다. H800은 H100의 첫 번째 변형 버전으로, 컴퓨팅 파워가 60 정도라 볼 수 있다; 그리고 H20은 H100의 두 번째 변형 버전으로, 컴퓨팅 파워는 15에 불과하다. 두 가지 변형 버전이 있는 이유는 미국이 칩 사용을 금지했기 때문에 NVIDIA는 중국의 칩 사용 금지령에 협조하고 중국용으로 성능이 제한된 컴퓨팅 카드를 생산해야 했기 때문이다. H100이 50,000개 있었다면, 컴퓨팅 파워는 5백만 개였을 것이다. 그러나 현재 딥시크는 60,000개의 컴퓨팅 카드를 조합하여 총 컴퓨팅 파워가 255만 개다.

Semianalysis의 계산은 어떤 근거로 이루어졌는가? 네 가지 주요 부분이 있다.

  1. 엔비디아가 발표한 H800과 H20의 생산 능력 데이터, 그리고 미국 수출 통제 기록
  2. 서버 자본 지출 모델
  3. 리버스 엔지니어링을 통해 계산된 모델 요구 사항의 총 컴퓨팅 성능 딥시크의 기술 문서
  4. 딥시크의 모회사인 Magic Cube의 정량적 투자 추세를 이용한 투자 추세 추정 하드웨어 조달 능력

물론, 반도체 업계의 고위 간부이거나 반도체 분야 투자를 추적하는 전문 재무 분석가라면 Semianalysis가 글로벌 반도체 및 AI 산업에 대한 연구를 수행하는 세계 최고의 기관이라는 사실을 알고 있을 것이고 이들의 분석에 고개를 끄덕일 수 밖에 없을 것이다.

2. 딥시크의 훈련비용은 정말 600만달러밖에 안될까?

훈련용으로 간주되는 항목에 따라 다르다.

600만 달러라는 수치는 딥시크에서 발표한 V3 모델의 사전 교육 비용에서 나온 것이다. 여기에는 14.8T 토큰 데이터에 100 달러, H800 GPU 운영 비용에 460만 달러가 포함된다. 이 비용은 컴퓨팅 파워에 해당하는 GPU 시간을 시장에서 H800 GPU의 시간당 임대 비용으로 곱하여 계산된다. 이 두 가지를 합하면 560만 달러가 된다. 그러나 여기에 포함되지 않은 다른 비용이 있습니다. V3 기본 모델이 학습된 후 R1 모델로 미세 조정하는 데 추가로 1백만 달러가 소요된다. 따라서 기본 모델을 사전 훈련하고 R1 모델로 미세 조정하는 데 드는 전체 비용은 660만 달러이고, 미세 조정하지 않는 경우 560만 달러이다. 이것이 600만 달러의 훈련 비용의 출처다.

그러나 딥시크는 결국 모델을 구축하기 위해 컴퓨팅 파워를 임대하지 않고 자체 카드를 구입하고 자체 서버를 구축했으며, 연구와 훈련을 수행하기 위해 고액의 급여를 지급하는 자체 인력을 고용했다. 따라서 하드웨어 비용과 인건비가 비용에 포함되어야 하며, 이는 전체 비용의 대부분을 차지한다.

그러면 실제로 얼마의 비용이 들까? 다시 한 번 Semianalysis의 분석을 보자. GPU에 7억 달러, 서버, CPU, 스토리지 시스템, 다양한 운영 체제 소프트웨어, 냉각 시스템 구축에 필요한 기타 부품에 9억 달러, 그리고 4년 동안의 운영 비용에 9억 4,400만 달러가 들었습니다. 합하면 총 26억 달러가 들어야 한다.

물론, 이 경우 하드웨어는 앞으로도 계속해서 새로운 모델을 개발하는 데 사용될 것이기 때문에, 26억 달러는 R1 모델의 훈련 비용으로만 계산될 수 없고, 오히려 앞으로 수년 동안의 총 비용으로 간주해야 한다.

비용이 600만 달러에 불과하다고 말하면 일반인들은 대규모 언어 모델 개발의 문턱이 기술적 돌파구로 보인다고 생각하게 될 것이다다. 그러나 실제로 최고 수준의 대규모 모델을 개발하려면 수십억 달러를 준비해야 한다.

405B개의 파라미터를 가진 라마 3.1과 같은 비슷한 규모의 모델과 비교해 보면, 훈련 비용만 해도 약 6000만 달러에 달한다. 그리고 이 수치는 메타가 이전에 훈련에 지출한 수백억 달러보다 훨씬 적다.

그럼에도 불구하고, 딥시크 프리트레이닝 V3에 들어간 600만 달러는 여전히 라마 3.1의 훈련 비용보다 훨씬 적다.

그러나 이 감소는 최근 몇 년 동안 AI 산업의 일반적인 추세와도 일치한다는 점에 주목해야 한다. V3의 훈련 비용 감소에 대해 가장 적절하게 설명할 수 있는 방법은 딥시크가 훈련 및 추론 비용 절감 측면에서 업계 발전에 발맞추어 최초로 그 돌파구를 마련했다는 것에 있다.

Semianalysis는 최근 몇 년 동안 특정 성능 점수를 가진 대규모 언어 모델의 훈련 및 추론 비용 변화를 요약했다.

추론 비용은 2022년 1월부터 2025년 1월까지 단계적으로 6배 감소했다. 단계적이라고 하는 이유는 감소량이 1억 토큰당 100달러이고, 다음 단계는 20달러, 그다음은 2달러, 그리고 1달러, 0.3달러, 0.1달러, 0.05달러로 감소하는 방식이기 때문이다.

3. 딥시크의 데이터는 정말 GPT에서 훔쳐왔나??

우선, 데이터 도난에 대한 최초의 주장은 마이크로소프트에 의해 제기되었다.

2024년 가을, 마이크로소프트의 보안 담당자들은 딥시크와 관련이 있는 것으로 의심되는 개인들이 OpenAI의 API를 사용하여 대량의 데이터를 훔치는 것을 관찰했다고 했다.

데이터가 실제로 도난 당했는지 여부는 마이크로소프트에서 조사 중이므로, 적어도 지금은 딥시크가 데이터를 훔쳤다고 단정할 수 없다.

둘째, 최초의 개척자인 Open AI를 제외하고, 대규모 언어 모델을 훈련하는 모든 회사는 자체 데이터를 처리해야 한다. 나중에 합류한 회사의 경우, 데이터는 일반적으로 자체적으로 처리하지 않고 전문 데이터 회사로부터 구매한다.

예를 들어, 앞에서 딥시크가 50,000개의 H100이 있다고 언급한 왕 씨라는 중국계 미국인 남성은 데이터 판매를 하고 있다. 데이터의 정리는 이미 고도로 전문화된 산업이며, 오늘날에는 전문 회사에서 이를 처리하고 있다. 따라서 마이크로소프트는 “딥시크와 관련된 개인”이라고만 말할 수 있을 뿐, “딥시크”가 훔쳤다고 말할 수는 없다.

셋째, 상당수의 스타트업과 데이터 회사가 OpenAI를 활용하여 데이터를 얻고 있다.

사용되는 방법도 매우 일반적이다. 예를 들어, 오늘날 중국 사용자에게 GPT 서비스를 제공하는 회사가 많기 때문에 사용자는 벽을 넘거나 외국 신용카드 또는 외국 전화번호를 등록할 필요가 없다. 이 회사들은 API 인터페이스를 통해 사용자 질문을 수집하여 GPT에 제출한 다음, GPT의 답변을 기다린 후 사용자에게 전달한다. 중개자로서 그들은 질문과 답변을 원시 데이터로 보관할 수 있으며, 이를 필터링하고 정리하여 훈련 데이터로 만든 후 대규모 모델 개발자에게 판매할 수 있다.

딥시크가 OpenAI에게서 데이터를 훔친 데이터 회사로부터 데이터를 구입했는지에 대해서는 물론 가능성은 있지만, 최종 결과는 마이크로소프트가 어떤 증거를 제공하는가에 달려 있다.

간단히 말해서, 데이터 스크래핑은 업계에서 흔히 일어나는 현상이다. 출력 결과가 논리적이면 논리적이 될수록 품질이 좋아지고, 백만 토큰당 가격이 저렴할수록, 대상이 될 가능성이 높아진다. 현재 DeepSeek R1 모델의 성능과 수수료를 고려할 때, 현재 이 모델도 미친 듯이 스크래핑되고 있을 가능성이 높다.. 앞으로 자신이 딥시크라고 주장하는 대형 모델도 많이 보게 될 것이다.

4. 컴퓨터그래픽카드에 대한 수요가 정말 줄어들고 있는가?

아니, 오히려 증가했다.

사실, V3 버전이 출시된 후 H100의 가격이 갑자기 급격하게 상승했고, R1이 출시된 후 다시 상승했다.

많은 사람들이 물어볼 수 있다: H100 컴퓨팅 카드의 가격은 엔비디아가 결정하는 것이 아닌가? 왜 가격이 계속 오르락내리락하는가? 희소성 자원이기 때문에 거대 기업들이 원래 가격으로 구매하기가 어렵다. 중간에 있는 암표상들이 그것을 사재기 하기 때문에 가격이 오르락내리락한다.

그렇다면 가격이 오른 이유는 무엇일까? V3와 R1이 출시된 이후, 훈련과 추론 비용이 약 10분의 1 수준으로 떨어졌고, 더 많은 중소 규모의 참가자들이 수천, 수만 개의 카드를 놓고 경쟁에 참여하게 되었기 때문이다.

아이러니하게도, R1 모델이 출시된 이후, 시장에서는 “앞으로 그렇게 많은 컴퓨팅 카드가 필요하지 않을 것”이라는 주장과 “엔비디아의 주가가 떨어질 것”이라는 주장이 쇄도했다.

그러나 이런 비유를 들고 싶다.

어떤 공장은 한 달에 5,000대의 노트북을 생산할 수 있었지만, 기술 발전 덕분에 지금은 한 달에 100,000대를 생산할 수 있다. 그래서 그 공장은 단호하게 한 달에 반나절만 일하기로 결정하고, 나머지 20일 동안은 문을 닫기로 했습니다. 그러나 다른 공장들도 이러한 공공 기술 혁신을 이용하여 월 생산량을 100,000대 또는 200,000대로 늘려 시장을 장악하지 않을까?

+1. 딥시크에 대한 량원평의 평가는?

사람들은 딥시크를 여타 역사적인 사건들과 견줄 수 있는 역사적 사건이라고 한다. 정말 그런가?

량원평이 인터뷰에서 한 말을 살펴보자.

“우리의 결론은 혁신을 위해서는 가능한 한 간섭과 관리를 최소화해야 하며, 모든 사람이 자유롭게 실험할 수 있는 기회를 제공하고 실수를 할 수 있는 기회를 제공해야 한다는 것입니다. 혁신은 저절로 성장하며, 계획하거나 가르칠 수 없습니다. 혁신은 비용이 많이 들고 비효율적이며, 때로는 낭비를 동반하기도 합니다. 따라서 혁신은 일정 수준의 경제 발전 후에야 나타날 수 있습니다. 국가가 가난하거나 혁신을 주도하지 않는 산업에 종사하는 경우, 비용과 효율성이 중요합니다. OpenAI도 출시되기 전에 많은 돈을 태웠습니다.”

그리고 기자로부터 자신이 하는 일이 미친 짓이라고 생각하느냐는 질문을 받은 그는 이렇게 대답했다.

“우리가 하는 일이 미친 짓인지 아닌지는 모르겠지만, 이 세상에는 논리적으로 설명할 수 없는 것들이 많습니다. 오픈 소스 커뮤니티에 미친 듯이 기여하는 많은 프로그래머들이 하루 일과를 마치고 피곤해 하면서도 코드를 기여하고 싶어 하는 것처럼 말입니다. 이것에는 일종의 영적 보상이 있습니다. 50km를 하이킹한 후 몸은 완전히 녹초가 되었지만 정신은 만족스러운 상태와 비슷합니다. 평생 미친 짓을 할 수 있는 사람은 많지 않지만, 대부분의 사람들은 젊은 시절에 어떤 실용적인 목표 없이 무언가에 전념할 수 있습니다.”

딥시크 출시를 대단한 사건으로 보는것 까지는 좋지만, 이것을 AI 무기, 국가 간의 투쟁 도구로 보는 사람들에게 량원평의 대답은 본질에 집중하게 한다. 역시 위대함은 계획할 수 없다.

발행일2025.04.05

에디터추선우