Tech

[화웨이 AI 시스템 분석 3부] 숫자로 증명된 성능과 소프트웨어라는 거대한 산

임로켓 2025. 8. 4. 07:12
728x90

 

지난 1부와 2부를 통해 우리는 화웨이 '클라우드매트릭스 384'의 탄생 배경과 그 내부를 구성하는 하드웨어의 경이로움에 대해 살펴보았습니다. 지정학적 압박 속에서 '시스템 아키텍처'라는 새로운 카드를 꺼내든 화웨이의 전략적 선택, 그리고 '어센드 910C' 칩과 이를 묶는 '슈퍼노드'라는 강력한 하드웨어의 조합까지 확인했죠. 이제 시장이 가장 궁금해하는 질문에 답할 차례입니다. "그래서, 실제로 얼마나 빠른가?" 그리고 "이 강력한 하드웨어를 누구나 쉽게 사용할 수 있는가?"

 

이번 3부에서는 클라우드매트릭스 384의 성능을 경쟁 제품과 직접 비교하는 '벤치마크' 결과를 통해 그 강력함을 숫자로 증명하고, 동시에 화웨이가 넘어야 할 가장 거대하고 험준한 산, 바로 '소프트웨어 생태계'의 현실을 냉정하게 분석해 보겠습니다.

경쟁을 압도하는 숫자: 클라우드매트릭스 384 벤치마크 분석

하드웨어의 우수성은 결국 숫자로 증명됩니다. 각종 분석과 보고서를 통해 공개된 클라우드매트릭스 384의 성능 지표는 시장에 충격을 주기에 충분했으며, 일부 핵심 영역에서는 엔비디아의 최신 시스템을 능가하는 결과를 보여주었습니다.

  • AI 연산 능력, 성능의 제왕에 도전하다: 가장 주목받는 지표는 단연 부동소수점 연산(Floating-Point Operations per Second) 능력, 즉 '플롭스(FLOPS)'입니다. AI 모델 훈련의 핵심인 BF16(16비트 부동소수점) 연산 기준으로, 클라우드매트릭스 384 시스템은 약 300 페타플롭스(PFLOPs)의 성능을 기록한 것으로 알려졌습니다. 이는 엔비디아의 최신 시스템인 GB200 NVL72가 제공하는 약 180 페타플롭스를 60% 이상 상회하는 압도적인 수치입니다. 이론적으로 이는 특정 대규모 AI 모델 훈련에 있어 엔비디아보다 더 빠른 결과를 낼 수 있음을 의미하며, AI 성능의 왕좌를 직접 겨냥하고 있다는 명백한 증거입니다.
  • 거대 모델의 숨겨진 병목, 메모리 성능: AI, 특히 거대언어모델(LLM)의 세계에서는 순수한 연산 능력만큼이나 '메모리' 성능이 중요합니다. 수천억 개에 달하는 모델의 매개변수(parameter)를 담아두고, 이를 연산 코어에 지체 없이 공급해야 하기 때문입니다. 이 지점에서 클라우드매트릭스 384의 설계 사상이 빛을 발합니다. 이 시스템은 엔비디아 GB200 시스템 대비 약 3.6배 더 많은 총 HBM(고대역폭 메모리) 용량과 약 2.1배 더 넓은 메모리 대역폭을 제공합니다. 이는 한 번에 더 큰 모델을 메모리에 올릴 수 있고, 연산 유닛이 데이터 부족으로 멈춰서는 '유휴 상태'를 최소화할 수 있다는 뜻입니다. 이는 초대규모 AI 모델 경쟁에서 결정적인 우위를 점할 수 있는 매우 중요한 요소입니다.
  • 명확한 아킬레스건, 전력 효율성: 하지만 이처럼 압도적인 성능에는 명확한 대가가 따릅니다. 바로 '전력 효율성'입니다. 수백 개의 칩을 묶어 성능을 끌어올린 만큼, 시스템 전체가 소비하는 전력량 또한 막대합니다. 여러 분석에 따르면 클라우드매트릭스 384는 엔비디아 시스템 대비 플롭스 당 전력 소모가 2.3배 이상 높은 것으로 추정됩니다. 이는 데이터센터를 운영하는 기업 입장에서 무시할 수 없는 운영 비용(OPEX) 증가로 이어집니다. 다만, 미국의 제재 하에 있는 중국의 입장에서는 높은 전기 요금을 감수하더라도 자국 기술로 만든 고성능 컴퓨팅 자원을 확보하는 것이 국가적 최우선 과제일 수 있습니다. 그러나 향후 글로벌 시장으로 확장하고자 할 때, 이 낮은 전력 효율성은 분명한 약점으로 작용할 것입니다.

하드웨어보다 높은 산: 소프트웨어 생태계 '쿠다(CUDA)'의 벽

화웨이가 하드웨어에서 아무리 인상적인 성과를 거두었다고 해도, 그것만으로는 전쟁에서 승리할 수 없습니다. AI 세계에는 하드웨어보다 훨씬 더 높고 견고한 '쿠다(CUDA)'라는 이름의 거대한 산이 버티고 있기 때문입니다.

  • 엔비디아 제국의 해자(Moat), 쿠다 생태계: 쿠다는 단순히 칩을 구동하는 드라이버가 아닙니다. 지난 15년 이상 AI 개발자들이 쌓아 올린 라이브러리(cuDNN, cuBLAS 등), 컴파일러, 디버깅 도구, 그리고 수백만 명의 개발자 커뮤니티 전체를 아우르는 하나의 거대한 '생태계'입니다. 오늘날 거의 모든 AI 프레임워크(텐서플로우, 파이토치 등)는 쿠다 위에서 가장 잘 작동하도록 최적화되어 있습니다. 이는 마치 애플의 iOS와 같습니다. 아무리 뛰어난 하드웨어를 가진 새 스마트폰이 나와도, 쓸만한 앱이 없다면 무용지물이 되는 것과 같은 이치입니다. 개발자들은 쿠다라는 익숙하고 강력한 언어와 도구를 떠나 새로운 환경에 적응하는 것을 극도로 꺼립니다.
  • 화웨이의 도전, CANN과 마인드스포어: 물론 화웨이도 이 현실을 직시하고 있습니다. 이들은 쿠다에 대항하기 위한 독자적인 소프트웨어 스택을 구축하고 있습니다. 그 기반은 'CANN(Compute Architecture for Neural Networks)'이라는 이름의 컴퓨팅 아키텍처입니다. 이는 쿠다와 마찬가지로 개발자들이 어센드 칩의 성능을 최대한 활용할 수 있게 해주는 라이브러리와 드라이버의 집합입니다. 그리고 그 위에서 작동하는 자체 AI 프레임워크로 '마인드스포어(MindSpore)' 를 개발하여 생태계 확산을 꾀하고 있습니다.
  • 길고 험난한 여정: 하지만 새로운 소프트웨어 생태계를 구축하는 것은 하드웨어를 개발하는 것과는 차원이 다른, 지난한 시간과 노력이 필요한 일입니다. 기존 쿠다 기반으로 작성된 수많은 AI 모델 코드를 CANN과 마인드스포어 환경으로 옮기는 '포팅(porting)' 작업은 상당한 비용과 시간을 요구합니다. 개발자들은 새로운 API와 작동 방식에 익숙해져야 하며, 예기치 못한 버그와 불안정성에 직면할 수도 있습니다. 화웨이는 중국 내 대기업 및 대학과 협력하며 생태계 확장에 총력을 기울이고 있지만, 쿠다가 쌓아 올린 아성을 넘기까지는 최소 수년, 길게는 10년 이상이 걸릴 것이라는 게 중론입니다.

클라우드매트릭스 384는 하드웨어 성능 면에서 세계를 놀라게 한 '기술적 승리'를 거두었습니다.

 

특히 연산 능력과 메모리 성능에서 보여준 수치는 엔비디아를 긴장시키기에 충분합니다. 하지만 이 눈부신 성공 이면에는 '소프트웨어'라는 거대한 현실의 벽이 존재합니다. 화웨이는 세계 최고의 경기장(하드웨어)을 건설했지만, 이제 세계 최고의 선수들(개발자)이 그곳에서 경기를 뛰도록 설득해야 하는, 어쩌면 더 어려운 과제를 마주하고 있습니다.

 

이 하드웨어의 약진과 소프트웨어의 도전은 결코 기술적인 영역에만 머무르지 않습니다. 이는 글로벌 기술 패권과 공급망 전체를 뒤흔드는 거대한 지정학적 변화의 중심에 서 있습니다.

728x90