근 관심을 두고 있는 부분 자료가 있어 정리해 봤습니다. 개발 중인 inference engine (LunarServ)이 아직 걸음마 단계이지만, 회사 내부 서비스와 결합해서 PoC를 해보려고 이제 첫발을 떼고 있는 중입니다. 그러다 보니 사용자 관점, 서비스 운영 관점에서 어떤 것들이 더 필요한가, 어떤 부분들이 pain point가 될 것인가를 나름 고민해 보게 되었는데 제가 생각하고 있던 것과 유사한 논문이 있어 읽어 봤습니다. 😁이 논문에서 제안하는 QLM(Queue Management for LLM Serving)은 “어떻게 하면 LLM을 빠르고 안정적으로 서비스할 수 있을까 = SLO를 최대한 맞출 수 있을까"에 대한 고민에서 시작했습니다. 일단 기존 LLM 서빙 시스템(vLLM이나 TGI ..