728x90

MOE 3

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #2

https://unnamed-underdogs.tistory.com/32 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기unnamed-underdogs.tistory.com 1탄에 이어, 2탄을 진행해 보겠습니다.  MoE 추론 성능은 전체 모델 크기와 달성 가능한 메모리 대역폭이라는 두 가지 주요 요소에 의존합니다. 왜냐하..

Paper review 2025.02.09

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1

https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기가 훨씬 크고, communication overhead가 추가된다는 점에서 이 MoE 모델로 추론 서비스를 제공하는 것은 상당히 어려운 문제입니다. 이 논문이 나온 것은 22년이지만, 올해 초 Deepseek R1을 출시하면서 MoE가 뜨거운 감자가 되었습니다. Deepseek R1을 알아보기 전에 MoE 관련해서 어떠한 이야기들이 있었는지 논문을 몇 편 리뷰해 보고, Deepseek R1 리뷰를 해보겠습니다. 이 글에서는 마이크로소프트사에서 publish ..

Paper review 2025.02.09

Deepseek v3 code review - model

자체 개발 중인 inference engine에 MoE 기능을 넣기 위해, Deepseek v3와 Llama MoE를 분석해보고자 합니다.여기에서는 먼저 요즘 핫한 Deepseek을 먼저 살펴 봅니다.  github repo: https://github.com/deepseek-ai/DeepSeek-V3/tree/main/inference 글이 길어져서 결론을 먼저 위에 씁니다.  결론Llama model과 비교를 해봤을 때, Deepseek의 구조는 동일한 transformer architecture 기반으로 전체적인 골격은 유사합니다. 가장 큰 차이는 당연하게 MoE 부분인 FFN의 설계입니다. Llama는 dense MLP 구조를 사용하므로, 모든 토큰이 동일한 MLP path를 거치게 되고요. De..

Tech 2025.01.30
728x90