Think 15

PagedAttention. 정말 최적인가? 진짜?

추론 과정에서 GPU 메모리의 대부분을 차지하는 KV 캐시를 어떻게 관리하느냐가 서비스 성능에 큰 영향을 미치게 되는데, 이전 시스템들은 모델이 지원하는 최대 컨텍스트 길이를 기준으로 각 리퀘스트별로 메모리를 할당하는 "naive"한 방법을 사용했습니다. 하지만 이렇게 하면 모든 리퀘스트가 항상 모델의 최대 컨텍스트 길이만큼 디코드를 하는 것은 아니므로 메모리 낭비가 심하고, 낭비되는 메모리만큼 서비스를 더 할 수 없게 됩니다.Inference Engine의 (거의) 표준이 되가고 있는 vLLM은 OS 기반 가상 메모리 시스템의 demand-paging 방식에서 영감을 받아, 할당된 블록이 모두 사용되었으면, 필요에 따라 작은 GPU 메모리 블록을 할당하는 PagedAttention 방식을 제안했습니다...

Think 2025.03.10

Jensen Huang의 비전과 철학으로 본 NVIDIA의 현재와 미래 전략

NVIDIA의 여정과 GPU 산업에서의 역할 NVDIA는 1993년 창업한 이후 GPU 분야를 계속해서 개척하면서 성장해 왔습니다. 원래 GPU는 게임 그래픽을 위한 병렬처리 칩이었으나, GPU의 병렬 연산 능력을 게임 외 다양한 분야에서 쓰려고 시도 했던 사람들을 통해 젠슨 황은 GPU의 병렬 연산이 게임 외 다양한 분야에도 쓰일 수 있다고 깨닫게 됩니다. 이후 2006년 NVIDIA는 CUDA라는 플랫폼을 내놓아, 과학자와 개발자들이 CUDA를 범용 연산에 활용할 수 있게 했는데 아이러니 하게도 당시에는 시장의 큰 관심을 끌지 못했습니다.  이 때 CUDA에 대한 투자가 없었다면 지금 NVIDIA가 지금처럼 큰 결실을 맺을 수 있었을까요? 2012년 딥러닝 혁명이 일어나고, 대량의 연산을 빠르게 처리..

Think 2025.03.01

우리는 왜 달성해야할 목표를 갖지 못하는가?

우리는 왜 달성해야할 목표를 갖지 못하는가?새로운 기능을 개발하거나, 새로운 컨셉의 제품을 고민할 때 잘되지 않았던 경우를 생각해보면, 항상 설정된 목표에 대해 안되는 이유만을 찾는 경우가 많았습니다. 🤬 제가 관찰했던 결과가 안좋았던 사례들은 항상 패턴이 동일했습니다. 처음 목표가 설정되면, 여러 이유들로 그 목표가 잘 못되었다고 합니다. 그에 대한 객관적인 실험과 데이터는 없습니다. 🤷‍♂️ 대다수의 사람들은 자신의 지식과 경험의 범위 내에서 사고를 하기 때문에, 경험하지 못한 새로운 업무나 구현 방향성을 만나게 되면 거부감을 갖게 됩니다. 그래서 예전에는 이렇게 하지 않았다로 시작해서, 자신들이 경험 했던 비슷한(하지만 비효율적인..) 프로세스나 구현 방식을 고집합니다. 가상의 예를 들어보면 이..

Think 2025.02.24

신사업은 왜 힘든가? 왜 잘되지 않는가?

오늘은 미뤄뒀던 "신사업이 왜 힘든가 - 왜 잘 되지 않는가"에 대한 이야기를 적어보려고 합니다. 다른 회사들이 실패했던 이야기들과, 제가 경험했던 부분을 생각해 보면 크게 3가지 측면이 있었습니다. 먼저 조직 구조 자체의 문제입니다.기존에 A사업을 잘하고 있던 팀 내에, B사업을 하기 위한 조직을 새로 꾸리면, 기존 사업 부서와 목표가 충돌하는 경우가 많았습니다. 이에 따라 경영진의 (확실한) 지원을 받기가 쉽지 않습니다. 조직 전체의 기존 미션과 새 팀의 미션이 엇나가게 됩니다. 유명한 코닥의 이야기는 아실 것입니다. 세계 최초 디지털카메라를 개발하고서도, 기존 필름 사업에 영향을 줄까 봐 이 혁신을 추진하지 않고, 힘든 시기를 겪게 되죠. 블럭버스터 이야기도 유사합니다. 넷플릭스의 도전에 따라 온라..

Think 2025.02.15

제품 개발 시, 여러분은 오픈 소스를 어디까지 활용하시나요?

저는 과거 주로 사업화 과제를 진행하다가, 최근 몇 년간 오픈 소스 기반 과제를 다루며 다음과 같은 고민을 하게 되었습니다. "오픈 소스가 갖는 가치”와 “제품 개발 시 오픈 소스를 어느 정도까지 사용할 것인가”에 대해서 인데요, 조직 내에서 이야기 해보면 다양한 의견이 오가서 아주 재밌습니다. 😄저는 오픈 소스 활용은 단순히 ‘코드를 가져다 쓰는 것’ 이상의 의미가 있다고 생각합니다. - 브랜드와 기술력 노출: Meta의 Llama 모델 공개처럼, 오픈 소스는 회사의 지향점과 기술력을 대외적으로 드러내는 전략적 수단이 될 수 있습니다. 이를 통해 조직 외부의 개발자, 잠재적 인재, 파트너에게 “우리는 이런 기술적 방향성과 역량을 갖고 있다”는 메시지를 "강력하게" 전달할 수 있지 않을까요?? - 생태..

Think 2025.01.30

Deepseek. 과연 저비용 고효율만이 쟁점인가?

Deepseek으로 온 사방이 난리입니다.😄학습 비용에 대한 이야기, 성능에 대한 이야기. API 가격에 대한 이야기가 계속해서 나오고 있넹요. 개인적으로는 언젠가 와야할 시점이 생각보다 매우 빠르게 온 것이 놀랍다라는 생각이들고, 그것이 중국이라는 것은 사실 당연한 것이라는 생각이 들었습니다. LLM 관련 논문의 대부분에 중국 인재들이 많이 있었거든요.량원평의 인터뷰를 한 번 찾아서 읽어봤습니다.어떤 생각으로 이런걸 만들었을까가 더 궁금한 부분이었거든요.인터뷰 전문은 댓글로 달아두겠습니다. 궁금하신 분들은 참고하세요.제가 공감하면서 읽었던 부분들은 다음과 같았습니다.“우리가 부족한 것은 자본이 아니라, 자신감과 고급 인재를 효과적으로 조직하여 혁신을 이끌어 내는 능력입니다““혁신은 비즈니스만으로 이뤄..

Think 2025.01.29

GTP? 그거 하루에 10분 쓰는걸 왜 돈주고 써?

요즘 agent 관련해서 이것저것 보다보니, SW, HW 회사 모두 빨리 많은 것들을 준비해야 살아 남을 수 있겠다라는 생각이 많이 들었습니다. 먼저, GPU를 비롯한 많은 infra들이 좀 더 탄탄하게 잘 구축이 되어야 한다고 느낍니다. 아마 시간이 흐를수록 지금보다 더 폭발적으로 workload는 늘어 가겠죠. computing resource 뿐 아니라, memory, network 그리고 storage까지 점차적으로 확장이 되어 갈 것으로 생각합니다. 기존에는 단일 모델의 max throughput 위주의 성능 자랑 위주였다면 이제 점차적으로 agent와 같은 실사용 위주, 서비스 위주로 진행이 되어가면서 KV cache를 비롯해서 폭발적으로 늘어가는 "데이터" 들을 어떻게 전송하고, 보관하고, ..

Think 2025.01.29

문제를 해결하는 방법

문제를 해결하는 방법에 대해 생각해 봤습니다. 먼저 문제가 무엇인지 정확한 진단이 필요할 것입니다. 그리고 그 문제에 대한 대증요법이 아닌 정확한 해결책이 필요할 것입니다. 여러 조직들을 경험해 보면, 문제에 대한 정확한 진단을 하지 못하는 조직은 대부분 역량이 부족한 상태였습니다. 문제 자체를 이해하지 못하기 때문에 그것이 어떤 문제인지 알 수가 없는 상태인거죠. 그런 상태에서 나오는 답이 문제를 해결할 수 있을리 없습니다.역량을 충분히 갖춰 문제를 잘 진단하는 조직 중에서 이해가 잘 안됐던 부분 중 하나는 문제를 정확하게 해결하는 것이 아니라 일종의 대증요법(?)을 사용하는 것이었습니다. 예를 들면 하드웨어에 예상하지 못했던 exceptional case가 있어서 어렵고 critical한 불량이 발생..

Think 2025.01.29

Agent로 test coverage 올리기 체험기

개발 중인 inference 엔진의 test coverage를 어떻게 올릴 수 있나에 대한 고민을 하고 있습니다. 상대적으로 개발(휴먼) 리소스가 부족한 상황에서, 팀원분들이 굉장히(🤣) 빠르게 개발을 진행하고 있어서, 솔직히 테스트를 약하게.. 진행했던 부분들에서 삐걱거리게 시작했거든요. 테스트가 중요하다는 것은 명확한 사실이나, 개발(휴먼) 리소스가 부족한 것도 현실이라 어떻게 해야 하나 싶었는데, 요즘 agent에 대한 이야기들이 많이 나오길래 한 번 간단하게 구현해 봤습니다. 개발한 코드에 대해서 pair programming 하는 것처럼, unit test agent가 계속해서 code를 테스트 해줄 수 있으면 어떨까?하는 간단한 생각부터 출발!유명한 OpenHands는 open source ..

Think 2025.01.29

왜 혁신을 바라지 않는 사람들은 똘똘 뭉치나?

술자리에서 빠지지 않고 나오던 주제에 대해서 생각해 봤습니다. 주로 조직 문화 개선, 불합리 개선, 일하는 방법 개선 등등의 이야기를 쭉 하고 나면 항상 공통된 결론으로 귀결되는 뭐 그렇고 그런 이야기 입니다. 항상 이러한 불합리한 것들 개선하려고 보면, 반대되는 의견들이 있거든요. 주로 안정을 추구하거나 아니면 자신들에게 이득이 되지 않는다고 판단함으로써 단단한 껍질 속에 숨어 버리는 자라처럼 목을 쏙 집어 넣어버리고는 개선을 거부하는 의견들 말입니다. 참 신기하게도, 이렇게 안정을 추구하는 쪽은 항상 똘똘 뭉쳐있습니다. 대체 어떻게 그런 구심력을 갖게 되는 것인지 너무 궁금하지 않나요? 너무 부러워요. 어쩜 그렇게 똘똘 뭉쳐서 탄탄하게 자신들의 의견을 서로서로 방어할 수 있는지. 🤔 개선을 말하는 ..

Think 2025.01.29