Tech

[화웨이 AI 시스템 분석 2부] 시스템의 심장을 해부하다: 어센드 910C와 슈퍼노드 아키텍처

임로켓 2025. 8. 3. 08:36
728x90

 

1부에서 우리는 화웨이가 '클라우드매트릭스 384'라는 거대한 시스템을 통해 AI 칩 전쟁의 규칙을 어떻게 바꾸려 하는지, 그 전략적 배경과 지정학적 맥락을 살펴보았습니다. 단일 칩의 성능 경쟁이라는 정면 대결을 피하고, 시스템 전체의 아키텍처적 우위를 통해 경쟁의 장을 옮기려는 화웨이의 담대한 시도였죠.

 

그렇다면 이제 그 '시스템'이라는 블랙박스를 열어볼 차례입니다. 과연 무엇이 이 거대한 클러스터를 살아 움직이게 만드는 걸까요?

 

이번 2부에서는 클라우드매트릭스 384의 '엔진'과 '신경망'을 담당하는 두 핵심 기술, 즉 AI 연산의 심장인 '어센드(Ascend) 910C' 프로세서와 384개의 칩을 하나로 묶는 경이로운 연결 기술인 '슈퍼노드(Supernode) 아키텍처'를 분석해 보겠습니다.

 

연산의 근육, 어센드 910C NPU를 해부하다

클라우드매트릭스 384의 모든 연산 능력은 '어센드 910C'라는 이름의 신경망 처리 장치(NPU, Neural Processing Unit)에서 나옵니다. 이 칩은 화웨이가 자체적으로 설계한 AI 전용 프로세서로, 시스템을 구성하는 가장 기본적인 '근육' 세포에 해당합니다.

  • 독자적인 '다빈치(Da Vinci)' 아키텍처: 어센드 910C의 핵심은 '다빈치 아키텍처'에 기반합니다. 이는 AI 연산에 필요한 다양한 유형의 계산을 효율적으로 처리하기 위해 설계된 하이브리드 구조입니다. 내부적으로는 크게 세 가지 종류의 코어로 구성됩니다. AI 연산의 99%를 차지하는 행렬 곱셈을 전담하는 'AI 코어(Cube Core)', 보다 범용적인 병렬 처리를 담당하는 '벡터 코어(Vector Core)', 그리고 전체적인 제어 흐름과 스칼라 연산을 맡는 '스칼라 코어(Scalar Core)'가 그것입니다. 이러한 복합 구조 덕분에 어센드 910C는 특정 AI 작업뿐만 아니라 데이터 전처리부터 후처리까지 전체 파이프라인을 유연하게 처리할 수 있습니다.
  • '충분히 좋은' 성능과 현실적 한계: 어센드 910C는 미국의 제재 하에서 SMIC의 7 나노급 공정으로 생산된 것으로 알려져 있습니다. 이는 최첨단 기술을 활용할 수 없는 상황에서 이뤄낸 놀라운 성과임은 분명합니다. 하지만 객관적으로 볼 때, 개별 칩의 성능은 TSMC의 최신 공정으로 생산되는 엔비디아 H100이나 B200 칩에는 미치지 못하는 것이 사실입니다. 일부 분석에 따르면 추론 성능 기준 H100의 약 60~80% 수준으로 평가되기도 합니다. 그러나 화웨이의 전략에서 중요한 것은 '최고'의 칩이 아니라, 대규모로 확장했을 때 효율적으로 작동할 수 있는 '충분히 좋은(Good Enough)' 칩을 확보하는 것이었습니다. 어센드 910C는 바로 그 역할을 충실히 수행하는 전략적 자산인 셈입니다.

 

384개의 뇌를 연결하는 경이로운 신경망: 슈퍼노드 아키텍처

 

1부에서 언급했듯, 384개의 칩을 모아놓는 것만으로는 아무 의미가 없습니다. 이들을 하나의 거대한 칩처럼 작동하게 만드는 연결 기술, 즉 '신경망'이 없다면 말이죠. 화웨이의 진정한 기술력은 바로 이 '슈퍼노드' 아키텍처에서 드러납니다.

  • 통신의 고속도로, 광학 인터커넥트(Optical Interconnect): 화웨이는 세계 최고의 통신 장비 기업입니다. 이들은 자신들의 가장 큰 강점인 광통신 기술을 클라우드매트릭스 384에 아낌없이 쏟아부었습니다. 전통적인 데이터센터가 구리선을 통해 칩들을 연결하는 것과 달리, 슈퍼노드 아키텍처는 칩과 칩 사이, 랙과 랙 사이의 통신에 초고속 광학 모듈을 전면적으로 사용합니다. 빛을 이용한 통신은 전기 신호보다 훨씬 빠르고, 멀리 가며, 신호 간섭이 적습니다. 이는 384개나 되는 칩들이 데이터를 주고받을 때 발생할 수 있는 지연 시간과 병목 현상을 원천적으로 최소화하는 핵심 기술입니다. 보고서에 따르면 이 시스템에는 무려 6,900개가 넘는 고속 광학 링크가 사용되어 거대한 데이터의 흐름을 뒷받침합니다.
  • 최단 경로 통신, '올-투-올(All-to-All)' 네트워크 토폴로지: 슈퍼노드의 또 다른 핵심은 '올-투-올'이라는 네트워크 연결 구조입니다. 쉽게 비유하자면, 384명이 참여하는 원탁회의와 같습니다. 모든 참석자(칩)가 다른 모든 참석자와 직접 대화할 수 있는 통로를 가지고 있어, 메시지를 전달하기 위해 다른 사람을 거칠 필요가 없습니다. 이는 거대언어모델(LLM) 훈련처럼 시스템 내 모든 칩이 끊임없이 데이터를 교환하고 동기화해야 하는 작업에서 엄청난 효율성을 발휘합니다. 중간 노드를 거치며 발생하는 지연이 없기 때문에, 전체 클러스터는 마치 하나의 거대한 두뇌처럼 유기적으로 작동할 수 있습니다.
  • 작업의 조율자, 쿤펑(Kunpeng) CPU: 클라우드매트릭스 384에는 384개의 어센드 NPU 외에도 192개의 '쿤펑(Kunpeng)' CPU가 탑재되어 있습니다. 이들은 AI 연산을 직접 수행하는 '일꾼'이 아니라, 전체 시스템을 조율하는 '관리자'의 역할을 합니다. 운영체제를 실행하고, 외부로부터 데이터를 받아와 NPU가 처리하기 좋은 형태로 가공하며, 연산이 끝난 결과를 정리하는 등 복잡한 관리 업무를 전담합니다. 이를 통해 어센드 NPU들은 오직 자신들의 전문 분야인 AI 연산에만 모든 자원을 집중할 수 있게 되어 시스템 전체의 효율이 극대화됩니다.

화웨이는 개별 칩의 성능이라는 단일 지표에 매몰되지 않았습니다.

 

대신, 자신들이 보유한 세계 최고 수준의 통신 기술과 시스템 통합 역량을 총동원하여 '충분히 좋은' 칩들을 '경이로운 수준'으로 연결하는 방식을 택했습니다. 클라우드매트릭스 384의 진정한 저력은 하나의 부품이 아닌, 이 모든 요소들이 만들어내는 완벽한 하모니에서 나옵니다.

그렇다면 이처럼 정교하게 설계된 하드웨어는 실제 성능에서 어떤 숫자를 보여줄까요? 그리고 엔비디아의 철옹성인 'CUDA' 소프트웨어 생태계라는 거대한 벽을 어떻게 넘어설 계획일까요?

728x90