Tech

Text Generation Interface (TGI) Review

임로켓 2025. 1. 29. 09:36
728x90

TGI Document

TGI의 소개 페이지에서는 맨 처음 여러가지 최적화와 기능들을 구현했다고 말하고 있습니다.

그 중에서 다음 몇가지 항목들에 대한 리뷰를 하고 정리해보겠습니다.

  • Tensor Parallelism for faster inference on multiple GPUs
  • Tokne streaming using Server-Senf Events (SSE)
  • Continuous batching of incoming requests for increased total throughput
  • Optimized transformers code for inference using Flash Attantion and Paged Attention on the most popular architectures
  • Quantization with bitsandbytes and GPT-Q
  • Stop sequences

그리고 server 및 client 코드를 살펴보고, 각각의 기능들에 대한 리뷰를 해보겠습니다.

728x90