728x90

LLM 23

Claude 3.5 Sonnet vs GPT-4o: 개발자 관점 성능, 비용, API 활용성 전격 비교

1. 인트로: 왜 지금 이 두 모델을 비교해야 하는가?2025년 여름, AI 업계는 다시 한번 뜨거워졌습니다. Anthropic과 OpenAI라는 두 거인이 연이어 내놓은 Claude 3.5 Sonnet과 GPT-4o는 단순한 성능 경쟁을 넘어, 우리 개발자들의 실제 작업 환경을 뒤흔들고 있습니다. 이제 LLM은 단순한 챗봇을 넘어, 우리의 코드를 리뷰하고, 복잡한 아키텍처를 설계하며, 버그를 잡아내는 '동료'가 되어가고 있습니다.이번에 출시된 두 모델은 특히 '개발자 경험(DX)'에 깊이 초점을 맞추고 있다는 점에서 주목할 만합니다. 더 빠른 속도, 더 저렴한 비용, 그리고 더욱 정교해진 코딩 능력까지. 이 모든 것이 우리 개발자들의 생산성과 직결되기 때문입니다.그래서, 우리 개발자들의 '코딩 파트너'..

Tech 2025.07.08

AI 에이전트, 과연 미래를 이끌 기술일까요?

1. AI 에이전트, 대체 무엇인가요?AI 에이전트는 우리 주변의 챗봇이나 자동화 도구와는 차원이 다른 개념입니다. 기존의 챗봇은 정해진 질문에만 답하고, 자동화 도구는 정해진 규칙대로만 움직이는 것과 다르게, AI 에이전트는 스스로 결정을 내리고, 필요하면 행동까지 하는 똑똑한 시스템을 말하는 것입니다. 다시 말해, 사람의 끊임없는 지시 없이도 스스로 일을 시작하고, 상황에 맞춰 능동적으로 변화하는 시스템이라고 생각하면 쉽죠. 미래에는 직원뿐만 아니라 소프트웨어 시스템도 자율적으로 움직이는 시대가 올 거라고 합니다. 이렇게 스스로 생각하고 행동하는 비서와 같은 AI 에이전트에 대해서 가트너의 수석 이사 애뉴쉬리 베르마에 따르면, 이런 에이전트들은 독립적으로 행동하고, 작업을 시작하며, 시간이 지나면서 ..

Tech 2025.07.01

2025년 6월, AI 세상은 어떻게 변했을까요?

1. 2025년 6월, AI는 얼마나 발전했을까요? 2025년 6월은 인공지능 분야에서 정말 놀라운 변화가 많았던 달입니다!생성형 AI부터 로봇, 헬스케어, 국방, 그리고 비즈니스까지, AI가 우리 삶의 다양한 부분에 이미 깊숙하게 들어와서, 우리가 예상했던 것보다 훨씬 더 빠르게 발전하고 있는 것 같습니다. 이번 달에 어떤 중요한 소식들이 있었는지 정리해 봤습니다.이 블로그 글을 통해 AI가 얼마나 우리 곁에 가까이 다가왔는지 알 수 있도록요. 2. GPT-5가 곧 나온다고요? 생성형 AI의 새로운 소식은요? 오픈 AI의 샘 올트먼 CEO가 gpt-5가 곧 출시될 것이라고 발표했습니다.기존 GPT-4보다 훨씬 더 똑똑해질 거라고 합니다. GPT 모델들이 출시 됐을 때마다 그 차이가 체감되었는데요, GP..

Tech 2025.06.29

집에서도 LLM을 돌릴 수 있다? prima.cpp

https://arxiv.org/pdf/2504.08791 집에서 큰 인공지능 모델을 돌리는 게 왜 어려울까요? 우리가 사용하는 chatGPT나 Gemini 같은 인공지능 모델, 즉 LLM을 직접 돌려보고 싶다는 생각 해보신 적 있나요? 그렇다면 매달 구독료를 내지 않아도 될텐데 말이죠? 그런데 생각보다 쉽지 않습니다. 기존의 LLM 시스템들은 엄청나게 좋은 컴퓨터가 필요하기 때문이죠. GPU 클러스터나 아주 많은 RAM, VRAM 같은 하드웨어가 있어야만 돌아갈 수 있는 구조로 되어 있고, 이런 장비들은 일반 가정집에는 잘 없잖아요? 특히 10B가 넘는 큰 모델들은 일반 컴퓨터에서 돌리기 정말 힘들답니다. 예를 들어, 8GB RAM을 가진 맥 M1에서 14B 모델을 돌리면 토큰 하나 만드는데 10초 이..

Paper review 2025.05.17

Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts

https://arxiv.org/pdf/2502.19811 1. 제안 기법 대규모 Mixture-of-Experts (MoE) 모델은 각 입력 토큰에 대해 소수의 전문가 네트워크만을 활성화함으로써, 방대한 수의 파라미터를 활용하면서도 연산 비용을 효율적으로 관리할 수 있다는 장점을 지닌다. 그러나 이러한 모델 구조를 분산 환경에 적용할 경우, GPU 간의 통신 빈도가 급증하여 전체 실행 시간 중 상당 부분을 통신에 할애하게 되는 문제가 발생한다. 실제로 일부 연구 결과에 따르면, 주요 MoE 모델의 forward 연산 과정에서 GPU 간 통신이 전체 모델 실행 시간의 약 47%를 차지하는 것으로 보고되었다. 이러한 성능 저하 문제를 해결하기 위해, MoE 레이어 내 통신과 연산을 파이프라인 방식으로 병행..

Paper review 2025.04.13

SGLang: 구조화된 LLM 프로그램의 효율적 실행 기술 분석

https://arxiv.org/pdf/2312.07104 전체 아키텍처 구성 및 구성 요소 역할SGLang 시스템은 구조화된 생성 언어(Structured Generation Language)인 프론트엔드와 SGLang 런타임(SRT)인 백엔드 런타임으로 구성됩니다. 프론트엔드는 Python에 내장된 DSL로서, 개발자가 다수의 LLM 호출과 제어 흐름을 포함하는 구조화된 프롬프트 프로그램을 용이하게 작성할 수 있도록 지원합니다. 백엔드 런타임은 이러한 프로그램을 효율적으로 실행하는 엔진으로서, RadixAttention 및 압축 FSM 등의 최적화를 통해 성능을 향상시킵니다. 백엔드 SRT는 서버 프로세스로 작동하며 여러 구성 요소로 이루어져 있습니다. 주요 구성 요소와 그 역할은 다음과 같습니다.F..

Tech 2025.04.09

Sarathi-Serve 상세 기술 분석

전체 아키텍처 개요 및 모듈 구조Sarathi-Serve는 대규모 언어 모델(LLM)의 온라인 추론을 위한 고성능 서빙 엔진으로서, 낮은 지연 시간과 높은 처리량을 동시에 확보하기 위해 특화된 구조로 설계되었습니다. 전체 시스템은 엔진 프로세스와 워커 프로세스로 구분되어 운영되며, 주요 구성 요소로는 스케줄러, 시퀀스 관리자, 블록 메모리 관리자, 모델 실행기, 요청 처리기(API 서버) 등이 있습니다. 각 구성 요소의 역할은 다음과 같습니다.• 엔진: 중앙 제어 모듈로서, 새로운 요청을 접수하고 스케줄러를 통해 요청들의 배치 및 실행 방법을 결정합니다. 엔진은 워커들과의 통신을 담당하며, 결과를 취합하여 응답을 반환합니다.• 스케줄러: 실행 대기 중인 모든 시퀀스들을 관리하며, 각 반복 단계에서 특정 ..

Tech 2025.04.05

An Analysis of Technology to Improve LLM Inference Throughput-Latency Tradeoff Using Sarathi-Serve

https://arxiv.org/pdf/2403.02310 Summary대규모 언어 모델(LLM)의 추론 서비스에서는 높은 처리량(throughput)과 낮은 지연 시간(latency)을 동시에 달성하는 데 어려움이 따르는 상충 관계가 존재합니다. 각 요청은 프리필(prefill) 단계와 디코드(decode) 단계를 거치게 됩니다. 프리필 단계에서는 입력 프롬프트 전체를 일괄적으로 처리하여 첫 번째 출력 토큰을 생성하므로 GPU 활용도는 높으나 지연 시간이 길어지는 반면, 디코드 단계에서는 매 반복마다 하나의 토큰만을 생성하기 때문에 개별 반복 지연 시간은 짧지만 GPU 자원 활용도가 낮다. 이로 인해 디코드 단계에서는 배치(batch) 크기를 확대하여 병렬 처리를 수행하면 처리량이 크게 향상되는 반면,..

Paper review 2025.04.05

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference

https://arxiv.org/pdf/2503.08311 이번에 리뷰한 논문의 제목은 이렇습니다. Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference. LLM모델들이 autoregressive 방식으로 decode 토큰을 생성 하기 때문에, GPU 자원을 효율적으로 사용하지 못하고 병목 현상이 발생하는 문제가 있는데, 특히 배치 크기를 크게 늘릴 때 일정한 지점 이상에서는 성능 향상이 멈추고 정체되는 현상이 나타납니다.성능 정체의 주요 원인: 메모리 대역폭 병목 현상기존 연구에서는 성능 정체의 원인을 GPU 연산 자원(Compute-bound)의 한계로 보았으나, 최근 심층적인 GPU 분석을 통해 진짜 원인은 메모리 대..

Paper review 2025.03.16

vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

https://arxiv.org/abs/2405.04437 vAttention: Dynamic Memory Management for Serving LLMs without PagedAttentionPagedAttention is a popular approach for dynamic memory allocation in LLM serving systems. It enables on-demand allocation of GPU memory to mitigate KV cache fragmentation -- a phenomenon that crippled the batch size (and consequently throughput) in priorarxiv.org 서론대규모 언어 모델(LLM)을 서비스할 ..

Paper review 2025.03.11
728x90