728x90

TGI 2

PagedAttention. 정말 최적인가? 진짜?

추론 과정에서 GPU 메모리의 대부분을 차지하는 KV 캐시를 어떻게 관리하느냐가 서비스 성능에 큰 영향을 미치게 되는데, 이전 시스템들은 모델이 지원하는 최대 컨텍스트 길이를 기준으로 각 리퀘스트별로 메모리를 할당하는 "naive"한 방법을 사용했습니다. 하지만 이렇게 하면 모든 리퀘스트가 항상 모델의 최대 컨텍스트 길이만큼 디코드를 하는 것은 아니므로 메모리 낭비가 심하고, 낭비되는 메모리만큼 서비스를 더 할 수 없게 됩니다.Inference Engine의 (거의) 표준이 되가고 있는 vLLM은 OS 기반 가상 메모리 시스템의 demand-paging 방식에서 영감을 받아, 할당된 블록이 모두 사용되었으면, 필요에 따라 작은 GPU 메모리 블록을 할당하는 PagedAttention 방식을 제안했습니다...

Paper review 2025.03.10

Text Generation Interface (TGI) Review

TGI DocumentTGI의 소개 페이지에서는 맨 처음 여러가지 최적화와 기능들을 구현했다고 말하고 있습니다.그 중에서 다음 몇가지 항목들에 대한 리뷰를 하고 정리해보겠습니다.Tensor Parallelism for faster inference on multiple GPUsTokne streaming using Server-Senf Events (SSE)Continuous batching of incoming requests for increased total throughputOptimized transformers code for inference using Flash Attantion and Paged Attention on the most popular architecturesQuantizat..

Tech 2025.01.29
728x90