1. 왜 Transformer가 중요한가?
2017년 Google이 발표한 "Attention Is All You Need" 논문에서 처음 소개된 Transformer는 현재 거의 모든 AI의 핵심 구조입니다.
GPT = Generative Pre-trained Transformer
Transformer 기반 번역 모델
Transformer로 이미지 생성
2. Transformer 이전에는? (RNN의 한계)
Transformer 이전에는 RNN (순환 신경망)이 문장을 처리했습니다. RNN은 단어를 하나씩 순서대로 읽는 방식입니다.
RNN 방식: 단어를 하나씩 순서대로 처리
⚠️ 문제: 앞의 단어("나는")를 처리할 때, 뒤의 단어("공부했다")를 아직 모름
❌ RNN의 문제점
- 느림: 단어를 하나씩 처리 → 병렬 처리 불가
- 기억력 한계: 문장이 길면 앞부분을 잊어버림
- 먼 관계 파악 어려움: "그녀가... 10문장 뒤 ... 그녀의" 연결 어려움
✅ Transformer의 해결
- 빠름: 모든 단어를 동시에 처리 → 병렬 처리 가능
- 무한 기억: 문장 전체를 한 번에 봄
- 먼 관계도 OK: 어떤 단어든 직접 연결 가능
3. 핵심 아이디어: Attention (집중)
🎯 Attention을 한마디로?
"이 단어를 이해하려면, 문장에서 어떤 다른 단어에 집중해야 할까?"
일상 비유: 시험 공부
교과서를 읽을 때, 모든 글자에 똑같이 집중하지 않습니다. 중요한 단어에 형광펜을 치듯이, AI도 중요한 단어에 더 집중합니다.
"그 고양이는 매우 귀여웠고,집에서 항상 소파 위에서 잠을 잤는데,그것은 정말 게을렀다."
→ "그것"이 무엇인지 알려면? → "고양이"에 집중! (Attention)
Self-Attention 시각화
문장: "나는 학교에서 수학을 공부했다"
밝을수록 = 더 집중 | "나는"은 자기 자신에게, "공부했다"도 자기 자신에게 가장 집중
4. Query, Key, Value — 도서관 비유
Attention의 핵심은 Query(질문), Key(키워드), Value(내용) 세 가지입니다. 도서관에서 책을 찾는 것에 비유하면 쉽게 이해할 수 있습니다.
Query (질문)
"AI에 대한 책을 찾고 싶어요"
Key (키워드)
각 책에 붙은 제목/태그
"인공지능", "요리", "여행"...
Value (내용)
책 안의 실제 내용
도서관 비유로 보는 Attention 과정
Q×KT = 질문과 키워드 비교 | √d = 크기 조절 | softmax = 비율 변환 | ×V = 내용 추출
5. Multi-Head Attention — 여러 관점으로 보기
🎯 한마디로?
하나의 문장을 여러 명이 각자 다른 관점으로 읽는 것!
비유: 같은 영화를 보는 여러 평론가
주어-동사 관계
어디서 일어났는지
감정/태도
언제 일어났는지
Multi-Head Attention 흐름
6. Transformer 전체 구조 — 레스토랑 비유
Transformer는 크게 Encoder (이해하는 부분)와 Decoder (생성하는 부분)로 나뉩니다. 레스토랑에 비유하면 이해하기 쉽습니다.
🧑🍳 Encoder (주방장)
"입력을 깊이 이해하는 역할"
🍽️ Decoder (서빙 담당)
"이해한 내용을 바탕으로 출력 생성"
번역 예시: "나는 학생입니다" → "I am a student"
7. Positional Encoding — 순서 정보 넣기
Transformer는 모든 단어를 동시에 처리합니다. 그래서 "개가 사람을 물었다"와 "사람이 개를 물었다"를 구분하려면 단어의 위치 정보가 필요합니다.
Positional Encoding = 좌석 번호표
각 단어에 "몇 번째인지" 정보를 더해줌 → sin/cos 함수 사용
8. GPT vs BERT — 두 가지 활용법
Transformer의 Encoder와 Decoder를 각각 따로 사용하면서 두 가지 대표 모델이 탄생했습니다.
GPT
Generative Pre-trained Transformer
입력: "오늘 날씨가"
GPT: "오늘 날씨가 좋아서 산책을 했다."
BERT
Bidirectional Encoder Representations
입력: "나는 [빈칸] 에서 공부했다"
BERT: "나는 학교 에서 공부했다"
9. ChatGPT는 어떻게 대답할까?
ChatGPT는 사실 매우 단순한 원리로 동작합니다: "지금까지의 글을 보고, 다음에 올 가장 적절한 단어를 예측"하는 것의 반복입니다.
ChatGPT의 답변 생성 과정
- • ChatGPT는 "이해"하는 것이 아니라 "가장 그럴듯한 다음 단어"를 예측할 뿐
- • 하지만 수천억 개의 텍스트로 학습하여 매우 자연스러운 문장을 생성
- • RLHF (인간 피드백 강화학습)로 유용하고 안전한 답변을 하도록 추가 학습
10. 한눈에 정리
| 개념 | 한마디 설명 | 비유 |
|---|---|---|
| Attention | 중요한 단어에 집중하기 | 형광펜 치기 |
| Self-Attention | 문장 안에서 단어끼리 관계 파악 | 반 친구들끼리 소통 |
| Multi-Head | 여러 관점으로 동시에 분석 | 여러 전문가 의견 종합 |
| Positional Encoding | 단어 순서 정보 추가 | 좌석 번호표 |
| Encoder | 입력을 깊이 이해 | 주방장 (재료 분석) |
| Decoder | 이해한 것을 바탕으로 생성 | 서빙 (요리 전달) |
| GPT | 다음 단어 예측 (생성형) | 소설가 |
| BERT | 빈칸 맞추기 (이해형) | 독해 전문가 |
Transformer를 완전히 이해하려면 위 순서대로 학습하는 것을 권장합니다.커리큘럼 보기 →