
안녕하세요 Teus입니다. 이번 포스팅은 지난번 GPT(트랜스포머) 이해하기. 1편을 바탕으로-. GPT기반 모델들의 최적화 기법(KV Cache)-. 양자화, Small, Big Size Model-. DeepSeek로 보는 LLM Model의 개선방향에 대해서 알아봅니다.1. 모델 최적화기존에 Self Att블록이 어떻게 계산되는지를 확인 했습니다. 지난번 연산을 통해서 Life Is Short, You Need 다음에 Fast 가 왔다고 보겠습니다. 그러면 GPT는 EOS(End Of Setence)가 나오지 않았기 때문에 Life Is Short, You Need Fast 다음 무슨 단어가 올 지를 예측하게 됩니다. 이 경우에 다시 흐름을 따라가보면, 불필요한 연산들이 눈에 보이게 됩니다. 기존에..

안녕하세요 Teus입니다. 이번 포스팅은 GPT의 근간이 되는 트랜스포머의 Self Attention Block이 어떤 구조로 되어있는지 간단히(?) 알아봅니다.1. LLM Model의 구조현재 LLM모델을 Transformer를 Base로 Transformer의 Decoder만을 사용해서 구현되고 있습니다.그래서 위 구조를 잘 살펴보면 Text가 들어가서 Text & Position Embedding을 거치면 단어가 d차원의 Vector로 바뀐다.d차원의 Vector가 Masked Multi Self Attention으로 들어가고, 그 결과가 기존 값이랑 합쳐진다여기서 중요한게, Masked Multi Self Attention에 Input Matrix와 Output Matrix의 크기와 차원은 동일합..

안녕하세요. Teus입니다. 이번 포스팅은 현재 LLM Agent을 구현하기위해서 가장 많이 쓰이는 Langchain과 Langgraph의 create_react_agent 함수의 차이점에 대해서 간략하게 알아봅니다.0. LLM AgentAgent는 보통은 특수한 영역 또는 기능에 특화된 일꾼 입니다. 근데 여기에 이게 Tools를 추가해서 유저의 요청에 따라, 상황에 맞는 Tool를 사용해서 기존에 학습하지 못했던 기능을 가능케 합니다. 이를위해서 ReAct(Reasoning and Action) Agent를 사용하게 됩니다. 이때 기존 포스팅을 통해서, Scratch부터 Agent를 만들어 봤지만 실제 Production에서는 Langchain이나 Langgraph를 사용하게 됩니다.1. Langch..

안녕하세요. Teus입니다. 이번 포스팅은 Langchain이나 Langgraph의 도움 없이 LLM을 통해서 자연어로 질문하고, 질문에 맞는 function이 실행되게 만드는 예제입니다.0. Agent?Agent는 특정 행동에 특화된 LLM 서비스를 의미합니다. 이때 특정 행동은 특정 영역에 대한 행동 뿐만 아니라 인터넷을 검색하던가, DataBase에서 Data를 찾아온다거나 하는 Function을 실행하는 행동 역시 포함됩니다. 이러한 Agent의 경우 현재 Multi turn을 통해서 LLM과의 소통 후에 질문, [생각, 행동]🔁, 결과도출 과정을 통해서 유저의 자연어에서 함수에 필요한 내용과, 함수를 실행하기 위한 매개변수를 찾아냅니다.1. 구현하기이러한 Agent를 ReAct(Reasonin..

안녕하세요. Teus입니다.지난번 포스팅을 통해서, GPT의 구조가 대략적으로 어떻게 생겼고 해당하는 구조를 통해서 다음단어 예측기(Decoder Only Transformer)가 대략적으로 어떻게 동작하는지 확인했습니다. 이번 포스팅에서는 해당하는 다음단어 예측기를 통해서 어떻게 GPT가 Chat이 가능한지 알아봅니다.1. 다음단어 예측기의 한계GPT는 문장이 주어졌을 때, 앞에있던 단어들을 가지고 다음에 올 단어을 예측합니다. 이러한 문장의 경우 대부분 위키피디아 등에 존재하는 문서 형태이기 때문에 인터넷의 수많은 문서를 학습한 상태의 LLM에게(이를 pre-trained상태라고 합니다) 오늘 날씨는 어때? 라고 물어본다면이처럼 정상적이지 못한 다음단어만 예측을 하면서, LLM이 예상치 못한 결과만을..

안녕하세요. Teus입니다. 이번에 포스팅에서는 GPT라는게 어떻게 구성이 되어있고 현재 많이 쓰이는 ChatGPT의 동작을 LLAMA모델을 통해서 대략적으로 알아봅니다.0. 다음단어 예측기전체적인 문맥을 만드는 일은 굉장히 어렵지만 현재 단어를 보고, 다음에 올 단어를 예측해보는일은 어느정도 가능한 일 입니다. 예를 들어 볼까요? life is short위 문장만 주어질 경우 다음 단어가 무엇이 나와야 할지 맞추기 어렵지만 life is short, you need 까지 주어지면, 앞에있는 단어들을 통해서 해당하는 문장의 다음 단어가 python일것이라고 대략적으로 예상해 볼 수 있습니다.(물론 🍺도 맞지만요!) 이처럼 문장이 주어지고, 그 문장 다음에 어떤 단어가 나올지를 맞추는게 GPT의 알파이자..
- Total
- Today
- Yesterday
- 모바일청첩장
- 완전탐색 알고리즘
- 프로그래머스
- AVX
- javascript
- GPT
- ai
- Sort알고리즘
- hash
- 동적계획법
- Python
- 사칙연산
- 자료구조
- GDC
- 알고리즘
- 분할정복
- react
- 청첩장
- prime number
- 코딩테스트
- SIMD
- LLM
- ChatGPT
- 셀프모청
- Greedy알고리즘
- deepseek
- 이분탐색
- Search알고리즘
- git
- stack
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |