728x90

Paper review 11

Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts

https://arxiv.org/pdf/2502.19811 1. 제안 기법 대규모 Mixture-of-Experts (MoE) 모델은 각 입력 토큰에 대해 소수의 전문가 네트워크만을 활성화함으로써, 방대한 수의 파라미터를 활용하면서도 연산 비용을 효율적으로 관리할 수 있다는 장점을 지닌다. 그러나 이러한 모델 구조를 분산 환경에 적용할 경우, GPU 간의 통신 빈도가 급증하여 전체 실행 시간 중 상당 부분을 통신에 할애하게 되는 문제가 발생한다. 실제로 일부 연구 결과에 따르면, 주요 MoE 모델의 forward 연산 과정에서 GPU 간 통신이 전체 모델 실행 시간의 약 47%를 차지하는 것으로 보고되었다. 이러한 성능 저하 문제를 해결하기 위해, MoE 레이어 내 통신과 연산을 파이프라인 방식으로 병행..

Paper review 2025.04.13

An Analysis of Technology to Improve LLM Inference Throughput-Latency Tradeoff Using Sarathi-Serve

https://arxiv.org/pdf/2403.02310 Summary대규모 언어 모델(LLM)의 추론 서비스에서는 높은 처리량(throughput)과 낮은 지연 시간(latency)을 동시에 달성하는 데 어려움이 따르는 상충 관계가 존재합니다. 각 요청은 프리필(prefill) 단계와 디코드(decode) 단계를 거치게 됩니다. 프리필 단계에서는 입력 프롬프트 전체를 일괄적으로 처리하여 첫 번째 출력 토큰을 생성하므로 GPU 활용도는 높으나 지연 시간이 길어지는 반면, 디코드 단계에서는 매 반복마다 하나의 토큰만을 생성하기 때문에 개별 반복 지연 시간은 짧지만 GPU 자원 활용도가 낮다. 이로 인해 디코드 단계에서는 배치(batch) 크기를 확대하여 병렬 처리를 수행하면 처리량이 크게 향상되는 반면,..

Paper review 2025.04.05

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference

https://arxiv.org/pdf/2503.08311 이번에 리뷰한 논문의 제목은 이렇습니다. Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference. LLM모델들이 autoregressive 방식으로 decode 토큰을 생성 하기 때문에, GPU 자원을 효율적으로 사용하지 못하고 병목 현상이 발생하는 문제가 있는데, 특히 배치 크기를 크게 늘릴 때 일정한 지점 이상에서는 성능 향상이 멈추고 정체되는 현상이 나타납니다.성능 정체의 주요 원인: 메모리 대역폭 병목 현상기존 연구에서는 성능 정체의 원인을 GPU 연산 자원(Compute-bound)의 한계로 보았으나, 최근 심층적인 GPU 분석을 통해 진짜 원인은 메모리 대..

Paper review 2025.03.16

vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

https://arxiv.org/abs/2405.04437 vAttention: Dynamic Memory Management for Serving LLMs without PagedAttentionPagedAttention is a popular approach for dynamic memory allocation in LLM serving systems. It enables on-demand allocation of GPU memory to mitigate KV cache fragmentation -- a phenomenon that crippled the batch size (and consequently throughput) in priorarxiv.org 서론대규모 언어 모델(LLM)을 서비스할 ..

Paper review 2025.03.11

PagedAttention. 정말 최적인가? 진짜?

추론 과정에서 GPU 메모리의 대부분을 차지하는 KV 캐시를 어떻게 관리하느냐가 서비스 성능에 큰 영향을 미치게 되는데, 이전 시스템들은 모델이 지원하는 최대 컨텍스트 길이를 기준으로 각 리퀘스트별로 메모리를 할당하는 "naive"한 방법을 사용했습니다. 하지만 이렇게 하면 모든 리퀘스트가 항상 모델의 최대 컨텍스트 길이만큼 디코드를 하는 것은 아니므로 메모리 낭비가 심하고, 낭비되는 메모리만큼 서비스를 더 할 수 없게 됩니다.Inference Engine의 (거의) 표준이 되가고 있는 vLLM은 OS 기반 가상 메모리 시스템의 demand-paging 방식에서 영감을 받아, 할당된 블록이 모두 사용되었으면, 필요에 따라 작은 GPU 메모리 블록을 할당하는 PagedAttention 방식을 제안했습니다...

Paper review 2025.03.10

PyTorch FSDP: Experiences on Scaling Fully Shared Data Parallel #2

https://arxiv.org/pdf/2304.11277https://unnamed-underdogs.tistory.com/39 PyTorch FSDP: Experiences on Scaling Fully Shared Data Parallel #1https://arxiv.org/pdf/2304.11277 이 논문에서는 대규모 모델 학습을 위한 PyTorch Fully Sharded Data Parallel (FSDP)에 대해 소개합니다. FSDP는 Tensor 구현, 디스패처 시스템, CUDA memory caching allocator등과 밀접하게unnamed-underdogs.tistory.com 리뷰 2탄에서는 Implementation, Evaluation 까지 살펴보고 마치겠습니다. FSDP ..

Paper review 2025.03.03

PyTorch FSDP: Experiences on Scaling Fully Shared Data Parallel #1

https://arxiv.org/pdf/2304.11277 이 논문에서는 대규모 모델 학습을 위한 PyTorch Fully Sharded Data Parallel (FSDP)에 대해 소개합니다. FSDP는 Tensor 구현, 디스패처 시스템, CUDA memory caching allocator등과 밀접하게 동작하도록 공동 설계되어 있습니다. 이를 통해 다양한 하드웨어 구성에서 자원 활용을 최적화하는 여러 기법과 설정을 자연스럽게 통합하고 있습니다. 이 논문의 실험에서 FSDP는 Districuted Data Parallel과 유사한 성능을 달성하고 있으며, 큰 모델을 지원하면서 TFLOPS 기준으로 "거의" 선형적으로 확장 가능합니다.  모델의 규모가 매우 빠르게 증가하면서, 이러한 모델의 훈련을 간소..

Paper review 2025.03.03

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #2

https://unnamed-underdogs.tistory.com/32 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기unnamed-underdogs.tistory.com 1탄에 이어, 2탄을 진행해 보겠습니다.  MoE 추론 성능은 전체 모델 크기와 달성 가능한 메모리 대역폭이라는 두 가지 주요 요소에 의존합니다. 왜냐하..

Paper review 2025.02.09

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1

https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기가 훨씬 크고, communication overhead가 추가된다는 점에서 이 MoE 모델로 추론 서비스를 제공하는 것은 상당히 어려운 문제입니다. 이 논문이 나온 것은 22년이지만, 올해 초 Deepseek R1을 출시하면서 MoE가 뜨거운 감자가 되었습니다. Deepseek R1을 알아보기 전에 MoE 관련해서 어떠한 이야기들이 있었는지 논문을 몇 편 리뷰해 보고, Deepseek R1 리뷰를 해보겠습니다. 이 글에서는 마이크로소프트사에서 publish ..

Paper review 2025.02.09
728x90