https://unnamed-underdogs.tistory.com/32 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기unnamed-underdogs.tistory.com 1탄에 이어, 2탄을 진행해 보겠습니다. MoE 추론 성능은 전체 모델 크기와 달성 가능한 메모리 대역폭이라는 두 가지 주요 요소에 의존합니다. 왜냐하..