자체 개발 중인 inference engine에 MoE 기능을 넣기 위해, Deepseek v3와 Llama MoE를 분석해보고자 합니다.여기에서는 먼저 요즘 핫한 Deepseek을 먼저 살펴 봅니다. github repo: https://github.com/deepseek-ai/DeepSeek-V3/tree/main/inference 글이 길어져서 결론을 먼저 위에 씁니다. 결론Llama model과 비교를 해봤을 때, Deepseek의 구조는 동일한 transformer architecture 기반으로 전체적인 골격은 유사합니다. 가장 큰 차이는 당연하게 MoE 부분인 FFN의 설계입니다. Llama는 dense MLP 구조를 사용하므로, 모든 토큰이 동일한 MLP path를 거치게 되고요. De..