TGI DocumentTGI의 소개 페이지에서는 맨 처음 여러가지 최적화와 기능들을 구현했다고 말하고 있습니다.그 중에서 다음 몇가지 항목들에 대한 리뷰를 하고 정리해보겠습니다.Tensor Parallelism for faster inference on multiple GPUsTokne streaming using Server-Senf Events (SSE)Continuous batching of incoming requests for increased total throughputOptimized transformers code for inference using Flash Attantion and Paged Attention on the most popular architecturesQuantizat..