'transformer' 태그의 글 목록

728x90

transformer 3

이전 글에서 Input embedding과 Positional Encoding에 대해서 개념을 간략하게 알아봤습니다. 이 그림은 transformer architecture (Attention is all you need)인데, 아직은 자세히 살펴보지 않습니다. 다만 LLM model 들의 base가 되는 모델로써, 각 부분들이 개념적으로 어떻게 동작하는지를 보기 위해서 예시로 보여드리는 것입니다. 이제 positional encoding을 거친 input은 multi-head attention이라고 쓰여져 있는 sub-layer로 들어가게 됩니다. 이번 글에서는 이 attention이라는 것이 무엇인지 알아보겠습니다. Google에서 2017년 발표한 "Attention is all you need..

Tech 2025.02.08

[AI상식] LLM은 어떻게 동작할까 - Positional Encoding

LLM 동작에 대해서 지난 글에서는 간략한 개요와, Embedding에 대해서 알아봤습니다. 실제 Embedding의 동작에 대해서 깊게 알아보려면 많은 이해가 필요합니다만, 개념적인 이해를 위해서 최대한 간단하고 쉽게 작성하려고 해 봤습니다. 아. 우리가 말하는 AI라는 것이 LLM이라는 것을 쓰는데, 이렇게 동작하는구나? 정도의 이해를 할 수 있을 정도로요. 😀 지난 글은 아래를 참고해주세요. https://unnamed-underdogs.tistory.com/28 LLM은 어떻게 동작할까 - Embedding우리가 흔히 말하는 GPT나 Deepseek과 같은 "AI"들은 쉽게 말해서 LLM (Large Language Model)이라는 "모델"을 GPU에서 구동하는 것입니다. 이 LLM이라는 것..

Tech 2025.02.02

[AI상식] LLM은 어떻게 동작할까 - Embedding

앞으로 살펴볼 글들에서는, 많은 수학적 지식 필요 없이도 우리 주변에 성큼 다가온 AI(LLM)이라는 것이 무엇인지, 개념적인 이해를 할 수 있도록 천천히 다뤄볼 예정입니다. 비전공자나, 이제 막 LLM 관련 업무를 시작하는 전공자 모두에게 약간이나마 이해를 도울 수 있으면 좋겠네요. 😀 우리가 흔히 말하는 GPT나 Deepseek과 같은 "AI"들은 쉽게 말해서 LLM (Large Language Model)이라는 "모델"을 GPU에서 구동하는 것입니다. 이 LLM이라는 것은 "생성형 AI"의 한 종류로, 인간의 언어(자연어)를 배워서 다양한 입력으로부터 "응답"을 생성해 내는 것이죠. "안녕하세요, 오늘 어때요?"라는 문장을 입력받으면, 이 문장을 "기억"하고, 이다음에 올 단어가 어떤 것이 될지..

Tech 2025.02.01

Thinking, Writing, and.

소프트웨어 개발에 관련된 이야기, 조직문화 이야기, llm 관련 논문 리뷰, 그리고 이런저런 이야기들을 합니다.

07-01 01:17

250x250

북리뷰, vllm, Ai, 조직문화, sarathi, paper리뷰, 협업, 논문리뷰, paper, deepseek, nVidia, 썩은사과, LLM, GPU, vattention, MOE, transformer, 소프트웨어개발, inference, deepspeed,

Today :
Yesterday :

728x90

transformer 3

티스토리툴바