'deepspeed' 태그의 글 목록

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1

https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기가 훨씬 크고, communication overhead가 추가된다는 점에서 이 MoE 모델로 추론 서비스를 제공하는 것은 상당히 어려운 문제입니다. 이 논문이 나온 것은 22년이지만, 올해 초 Deepseek R1을 출시하면서 MoE가 뜨거운 감자가 되었습니다. Deepseek R1을 알아보기 전에 MoE 관련해서 어떠한 이야기들이 있었는지 논문을 몇 편 리뷰해 보고, Deepseek R1 리뷰를 해보겠습니다. 이 글에서는 마이크로소프트사에서 publish ..

Paper review 2025.02.09

Thinking, Writing, and.

deepspeed 2

티스토리툴바