'딥시크' 태그의 글 목록

728x90

딥시크 1

자체 개발 중인 inference engine에 MoE 기능을 넣기 위해, Deepseek v3와 Llama MoE를 분석해보고자 합니다.여기에서는 먼저 요즘 핫한 Deepseek을 먼저 살펴 봅니다. github repo: https://github.com/deepseek-ai/DeepSeek-V3/tree/main/inference 글이 길어져서 결론을 먼저 위에 씁니다. 결론Llama model과 비교를 해봤을 때, Deepseek의 구조는 동일한 transformer architecture 기반으로 전체적인 골격은 유사합니다. 가장 큰 차이는 당연하게 MoE 부분인 FFN의 설계입니다. Llama는 dense MLP 구조를 사용하므로, 모든 토큰이 동일한 MLP path를 거치게 되고요. De..

Tech 2025.01.30

Thinking, Writing, and.

소프트웨어 개발에 관련된 이야기, 조직문화 이야기, llm 관련 논문 리뷰, 그리고 이런저런 이야기들을 합니다.

07-28 16:05

250x250

GPU, CUDA, LLM, inference, 협업, 북리뷰, transformer, ai상식, paper, 소프트웨어개발, sarathi, vllm, nVidia, Ai, 논문리뷰, deepseek, ETF, 조직문화, MOE, 투자,

Today :
Yesterday :

728x90

딥시크 1

티스토리툴바