728x90

deepseek 4

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #2

https://unnamed-underdogs.tistory.com/32 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale #1https://arxiv.org/pdf/2201.05596 거대 dense 모델의 훈련 비용과 관련하여 하드웨어 리소스의 가용성과 용량 한계를 극복할 수 있는 기술로 MoE(Mixture of Experts) 기술이 소개되었습니다. 하지만 모델 크기unnamed-underdogs.tistory.com 1탄에 이어, 2탄을 진행해 보겠습니다.  MoE 추론 성능은 전체 모델 크기와 달성 가능한 메모리 대역폭이라는 두 가지 주요 요소에 의존합니다. 왜냐하..

Paper review 2025.02.09

[AI상식] LLM은 어떻게 동작할까 - Embedding

앞으로 살펴볼 글들에서는, 많은 수학적 지식 필요 없이도 우리 주변에 성큼 다가온 AI(LLM)이라는 것이 무엇인지, 개념적인 이해를 할 수 있도록 천천히 다뤄볼 예정입니다. 비전공자나, 이제 막 LLM 관련 업무를 시작하는 전공자 모두에게 약간이나마 이해를 도울 수 있으면 좋겠네요. 😀 우리가 흔히 말하는 GPT나 Deepseek과 같은 "AI"들은 쉽게 말해서 LLM (Large Language Model)이라는 "모델"을 GPU에서 구동하는 것입니다.  이 LLM이라는 것은 "생성형 AI"의 한 종류로, 인간의 언어(자연어)를 배워서 다양한 입력으로부터 "응답"을 생성해 내는 것이죠. "안녕하세요, 오늘 어때요?"라는 문장을 입력받으면, 이 문장을 "기억"하고, 이다음에 올 단어가 어떤 것이 될지..

Tech 2025.02.01

Deepseek v3 code review - model

자체 개발 중인 inference engine에 MoE 기능을 넣기 위해, Deepseek v3와 Llama MoE를 분석해보고자 합니다.여기에서는 먼저 요즘 핫한 Deepseek을 먼저 살펴 봅니다.  github repo: https://github.com/deepseek-ai/DeepSeek-V3/tree/main/inference 글이 길어져서 결론을 먼저 위에 씁니다.  결론Llama model과 비교를 해봤을 때, Deepseek의 구조는 동일한 transformer architecture 기반으로 전체적인 골격은 유사합니다. 가장 큰 차이는 당연하게 MoE 부분인 FFN의 설계입니다. Llama는 dense MLP 구조를 사용하므로, 모든 토큰이 동일한 MLP path를 거치게 되고요. De..

Tech 2025.01.30

Deepseek. 과연 저비용 고효율만이 쟁점인가?

Deepseek으로 온 사방이 난리입니다.😄학습 비용에 대한 이야기, 성능에 대한 이야기. API 가격에 대한 이야기가 계속해서 나오고 있넹요. 개인적으로는 언젠가 와야할 시점이 생각보다 매우 빠르게 온 것이 놀랍다라는 생각이들고, 그것이 중국이라는 것은 사실 당연한 것이라는 생각이 들었습니다. LLM 관련 논문의 대부분에 중국 인재들이 많이 있었거든요.량원평의 인터뷰를 한 번 찾아서 읽어봤습니다.어떤 생각으로 이런걸 만들었을까가 더 궁금한 부분이었거든요.인터뷰 전문은 댓글로 달아두겠습니다. 궁금하신 분들은 참고하세요.제가 공감하면서 읽었던 부분들은 다음과 같았습니다.“우리가 부족한 것은 자본이 아니라, 자신감과 고급 인재를 효과적으로 조직하여 혁신을 이끌어 내는 능력입니다““혁신은 비즈니스만으로 이뤄..

Think 2025.01.29
728x90