본문 바로가기

02. 딥러닝

00009. [AI 쉽게 이해하기 시리즈] 트랜스포머 구조 완전 정복! (그림으로 이해하는 AI)

반응형

안녕하세요! 😊 이번 포스팅에서는 드디어 트랜스포머(Transformer)의 전체 구조를 쉽고 직관적으로 설명해보겠습니다. GPT, BERT 등 유명한 AI 모델들이 다 이 구조를 기반으로 만들어졌답니다!


1. 트랜스포머는 왜 특별할까?

기존 RNN 계열은 순차적으로 처리해서 느리고, 정보가 앞쪽으로만 흐르다 보니 긴 문장을 잘 못 이해했어요.

하지만 트랜스포머는 전체 문장을 동시에 보고, **단어들 간의 관계(어텐션)**를 빠르게 파악해서 압도적인 성능을 보여줍니다.


2. 전체 구조 한눈에 보기

[입력 문장]
   ↓ (입력 임베딩)
[Position Encoding 추가]
   ↓
[Encoder 블록] × N번 반복
   ↓
[중간 표현] (문장 의미 벡터)
   ↓
[Decoder 블록] × N번 반복
   ↓
[출력 문장 생성]

✨ Encoder = 입력 문장을 이해하는 파트
✨ Decoder = 새로운 문장을 만들어내는 파트 (번역, 요약 등)


3. Encoder와 Decoder는 뭐가 들어있나요?

✅ Encoder 블록 구성

  1. Self-Attention: 문장 안에서 단어들끼리 서로 관련성 계산
  2. Feed Forward Network (FFN): 정보를 더 복잡하게 가공
  3. 잔차 연결 + Layer Normalization: 안정성과 학습 성능 향상

✅ Decoder 블록 구성

  1. Masked Self-Attention: 아직 안 본 단어는 가려두고 예측
  2. Encoder-Decoder Attention: 입력 문장과 연결 (번역할 때 중요!)
  3. FFN + 잔차 + 정규화: 위와 동일

4. 핵심 기술 요약 (그림 포함)

[입력 문장] → [Position Embedding] → [Encoder (Self-Attention + FFN)] × N
                                      ↓
                                  [중간 표현]
                                      ↓
          [Decoder (Masked Self-Attention + Encoder-Attention + FFN)] × N
                                      ↓
                                [출력 문장]

5. 용어가 헷갈릴 때 이렇게 기억하세요!

용어쉽게 말하면

Self-Attention "이 문장에서 어떤 단어가 중요한지 스스로 판단"
Encoder "입력 문장을 똑똑하게 이해하는 뇌"
Decoder "새로운 문장을 똑똑하게 만들어내는 입"
Masked Attention "미래 단어는 몰라야 하니까 가리자!"

6. 실제 적용 예시

  • 번역: 영어 문장을 한글로 바꾸기 (ex. "I love you" → "사랑해")
  • 요약: 긴 문장을 핵심만 추출
  • 질의응답: 질문에 대한 답 생성

트랜스포머는 거의 모든 언어 관련 AI 모델의 기반이에요!


7. 마무리 정리

  • 트랜스포머는 Encoder + Decoder 구조로 되어 있음
  • 핵심은 Self-Attention병렬 처리 가능성
  • 기존 RNN보다 훨씬 빠르고 정확함

이제 트랜스포머 구조의 큰 그림을 알게 되셨죠? 🤗

다음 시리즈에서는 트랜스포머가 어떻게 **단어의 위치 정보를 기억하는지 (포지션 인코딩)**에 대해 다뤄볼게요!

궁금한 점 있으면 댓글로 언제든지 남겨주세요~ 감사합니다!

반응형