deepspeed 2

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #2

https://unnamed-underdogs.tistory.com/32 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기unnamed-underdogs.tistory.com 1탄에 이어, 2탄을 진행해 보겠습니다.  MoE 추론 성능은 전체 모델 크기와 달성 가능한 메모리 대역폭이라는 두 가지 주요 요소에 의존합니다. 왜냐하..

Paper review 2025.02.09

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1

https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기가 훨씬 크고, communication overhead가 추가된다는 점에서 이 MoE 모델로 추론 서비스를 제공하는 것은 상당히 어려운 문제입니다. 이 논문이 나온 것은 22년이지만, 올해 초 Deepseek R1을 출시하면서 MoE가 뜨거운 감자가 되었습니다. Deepseek R1을 알아보기 전에 MoE 관련해서 어떠한 이야기들이 있었는지 논문을 몇 편 리뷰해 보고, Deepseek R1 리뷰를 해보겠습니다. 이 글에서는 마이크로소프트사에서 publish ..

Paper review 2025.02.09