728x90

Tech 14

TGI Review - server

참고 자료: TGI Server - server.pyTextGenerationService class이 class는 text generatoin과 관련된 여러 gRPC method를 포함합니다.코드는 다음과 같습니다.class TextGenerationService(generate_pb2_grpc.TextGenerationServiceServicer): generate_pb2_grpc.TextGenerationServiceServicer를 상속받아서 구현하고 있습니다.이름에서 유추해 볼 수 있듯이, generate_pb2_grpc.TextGenerationServiceServicer는 gRPC framework에서 자동으로 생성된 코드입니다. gRPC에 대한 내용은 간략하게만 설명하겠습니다. 😛 gRP..

Tech 2025.01.29

Tensor Parallelism for faster inference on multiple GPUs

Tensor Parallelism에 대해서 먼저 살펴 보겠습니다.참고자료 - Tensor ParallelismTensor ParallelismTensor Parallelism은 모델을 여러개의 GPU에 분산하여 학습하거나 추론하는 방법입니다.이 방법은 모델의 크기가 커지면서 메모리가 부족해지는 문제를 해결하기 위해 사용됩니다.Tensor Parallelism의 기본 아이디어는 다음과 같습니다. tesnor와 tensor의 matrix multiplication은 곱해지는 tensor를 분할하여, 각각의 부분을 곱한 다음 결과를 합치는 것과 같기 때문에,tensor를 분할하여 여러 GPU에 분산하여 계산하면, 계산 속도를 높일 수 있다는 것이죠. 예를 들어, 두 개의 행렬 A와 B가 있다고 할 때:A의 행..

Tech 2025.01.29

Text Generation Interface (TGI) Review

TGI DocumentTGI의 소개 페이지에서는 맨 처음 여러가지 최적화와 기능들을 구현했다고 말하고 있습니다.그 중에서 다음 몇가지 항목들에 대한 리뷰를 하고 정리해보겠습니다.Tensor Parallelism for faster inference on multiple GPUsTokne streaming using Server-Senf Events (SSE)Continuous batching of incoming requests for increased total throughputOptimized transformers code for inference using Flash Attantion and Paged Attention on the most popular architecturesQuantizat..

Tech 2025.01.29

Rust toy project

올 해 3월 즈음 부터, rust를 본격적으로 사용하기 위한 준비 단계로 toy project를 하나 계획하고 시작했습니다. 팀 내에서 rust로 약 1년여간 운영되었던 과제도 있었고, rust에 흥미가 있는 동료들도 많았던 상황이었고, 무엇보다 main 과제를 rust로 전환할 수 있느냐 없느냐에 대한 논의가 시작 되고 있었던 때라서, 하나의 교육과정을 만들어 보는 것도 의미가 있을 것 같다는 생각에 조그맣게 시작했습니다. 3명으로 시작했던 스터디 그룹이 얼떨결에 7명이 되었고, 아직 많은 성과물은 나오지 못하고 있는 상태입니다. 본업도 바쁜 와중에 toy project를 진행한다는 것이 생각보다 더 어려운 일인 것 같습니다. toy project는 rust로 작고 귀여운 storage service를..

Tech 2023.04.29
728x90