728x90

논문리뷰 3

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #2

https://unnamed-underdogs.tistory.com/32 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기unnamed-underdogs.tistory.com 1탄에 이어, 2탄을 진행해 보겠습니다.  MoE 추론 성능은 전체 모델 크기와 달성 가능한 메모리 대역폭이라는 두 가지 주요 요소에 의존합니다. 왜냐하..

Paper review 2025.02.09

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1

https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기가 훨씬 크고, communication overhead가 추가된다는 점에서 이 MoE 모델로 추론 서비스를 제공하는 것은 상당히 어려운 문제입니다. 이 논문이 나온 것은 22년이지만, 올해 초 Deepseek R1을 출시하면서 MoE가 뜨거운 감자가 되었습니다. Deepseek R1을 알아보기 전에 MoE 관련해서 어떠한 이야기들이 있었는지 논문을 몇 편 리뷰해 보고, Deepseek R1 리뷰를 해보겠습니다. 이 글에서는 마이크로소프트사에서 publish ..

Paper review 2025.02.09

One Queue Is All You Need:Resolving Head-of-Line Blocking in Large Language Model Serving

근 관심을 두고 있는 부분 자료가 있어 정리해 봤습니다. 개발 중인 inference engine (LunarServ)이 아직 걸음마 단계이지만, 회사 내부 서비스와 결합해서 PoC를 해보려고 이제 첫발을 떼고 있는 중입니다. 그러다 보니 사용자 관점, 서비스 운영 관점에서 어떤 것들이 더 필요한가, 어떤 부분들이 pain point가 될 것인가를 나름 고민해 보게 되었는데 제가 생각하고 있던 것과 유사한 논문이 있어 읽어 봤습니다. 😁이 논문에서 제안하는 QLM(Queue Management for LLM Serving)은 “어떻게 하면 LLM을 빠르고 안정적으로 서비스할 수 있을까 = SLO를 최대한 맞출 수 있을까"에 대한 고민에서 시작했습니다. 일단 기존 LLM 서빙 시스템(vLLM이나 TGI ..

Paper review 2025.01.29
728x90