728x90

Memory 2

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference

https://arxiv.org/pdf/2503.08311 이번에 리뷰한 논문의 제목은 이렇습니다. Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference. LLM모델들이 autoregressive 방식으로 decode 토큰을 생성 하기 때문에, GPU 자원을 효율적으로 사용하지 못하고 병목 현상이 발생하는 문제가 있는데, 특히 배치 크기를 크게 늘릴 때 일정한 지점 이상에서는 성능 향상이 멈추고 정체되는 현상이 나타납니다.성능 정체의 주요 원인: 메모리 대역폭 병목 현상기존 연구에서는 성능 정체의 원인을 GPU 연산 자원(Compute-bound)의 한계로 보았으나, 최근 심층적인 GPU 분석을 통해 진짜 원인은 메모리 대..

Paper review 2025.03.16

PyTorch CUDA 메모리 관리

PyTorch CUDA 메모리 관리 이해하기딥러닝 모델을 GPU로 학습하다 보면 “CUDA out of memory” 오류를 접하는 일이 많습니다. 한정된 GPU 메모리를 효율적으로 사용하지 못하면 학습 중간에 메모리가 부족해지기 때문입니다. 이번 글에서는 PyTorch의 CUDA 메모리 관리 개념을 살펴보겠습니다. CUDA 메모리의 기본 개념부터 PyTorch의 메모리 관리 전략, 멀티 GPU 환경에서의 메모리 관리, 그리고 메모리 최적화 기법과 디버깅 방법 등을 알아봅니다. 1. CUDA 메모리 개요CUDA (에서 사용하는) 메모리란 NVIDIA GPU에서 사용하는 전용 메모리(VRAM)를 말합니다. CPU 메모리와 분리되어 있으므로, GPU에서 연산하려면 데이터를 명시적으로 GPU 메모리로 복사해..

Tech 2025.03.08
728x90