728x90
TGI의 소개 페이지에서는 맨 처음 여러가지 최적화와 기능들을 구현했다고 말하고 있습니다.
그 중에서 다음 몇가지 항목들에 대한 리뷰를 하고 정리해보겠습니다.
- Tensor Parallelism for faster inference on multiple GPUs
- Tokne streaming using Server-Senf Events (SSE)
- Continuous batching of incoming requests for increased total throughput
- Optimized transformers code for inference using Flash Attantion and Paged Attention on the most popular architectures
- Quantization with bitsandbytes and GPT-Q
- Stop sequences
그리고 server 및 client 코드를 살펴보고, 각각의 기능들에 대한 리뷰를 해보겠습니다.
- TGI Review - server
- TGI Review - client
728x90
'Tech' 카테고리의 다른 글
[AI상식] LLM은 어떻게 동작할까 - Embedding (6) | 2025.02.01 |
---|---|
Deepseek v3 code review - model (0) | 2025.01.30 |
TGI Review - server (0) | 2025.01.29 |
Tensor Parallelism for faster inference on multiple GPUs (0) | 2025.01.29 |
Rust toy project (0) | 2023.04.29 |