반응형
1. Learning Rate(학습률)란?
Learning Rate(학습률)는 머신러닝과 딥러닝에서 모델을 학습할 때 가중치(weight)를 얼마나 빠르게 업데이트할지를 결정하는 하이퍼파라미터입니다. 학습률이 적절하지 않으면 학습 속도와 성능에 큰 영향을 미칠 수 있습니다.
2. 학습률이 중요한 이유
- 학습률이 너무 크면?
- 가중치 업데이트의 폭이 커서 최적의 값(최적해)을 지나쳐버릴 가능성이 높습니다.
- 학습이 불안정해지고 수렴하지 않을 수도 있습니다.
- 아래 그림처럼 최적해를 오버슈팅할 수 있습니다.
- 학습률이 너무 작으면?
- 학습이 너무 느려지고 오랜 시간이 걸립니다.
- 지역 최소값(Local Minimum)에 갇힐 위험이 커집니다.
3. 학습률 조절 기법
3.1 고정 학습률 (Fixed Learning Rate)
가장 기본적인 방법으로, 학습률을 특정 값으로 고정하여 사용하는 방식입니다. 하지만 학습이 진행됨에 따라 적절한 학습률이 달라질 수 있기 때문에 비효율적일 수 있습니다.
3.2 학습률 감소 (Learning Rate Decay)
학습이 진행될수록 학습률을 점진적으로 줄여 안정적인 수렴을 유도하는 방법입니다. 대표적인 기법으로는 Step Decay, Exponential Decay, 1/t Decay 등이 있습니다.
출처: Medium
3.3 적응형 학습률 (Adaptive Learning Rate)
학습률을 동적으로 조정하는 방법으로, 대표적인 알고리즘에는 AdaGrad, RMSprop, Adam 등이 있습니다.
- AdaGrad: 학습률을 점점 줄이는 방식 (자주 업데이트되는 가중치의 학습률을 낮춤)
- RMSprop: 최근의 그래디언트 정보를 반영하여 학습률을 조정
- Adam: 모멘텀과 RMSprop을 결합한 방법으로 가장 널리 사용됨
4. 적절한 학습률 찾는 방법
- 작은 학습률부터 시작하여 증가시키며 테스트
- Loss 그래프를 모니터링하여 조정
- Learning Rate Scheduler 사용 (TensorFlow, PyTorch 등에서 제공)
5. 마무리
Learning Rate는 모델 성능을 결정짓는 중요한 하이퍼파라미터 중 하나입니다. 적절한 학습률을 설정하면 빠르고 안정적인 학습이 가능해지며, 부적절한 학습률을 설정하면 학습이 실패할 수도 있습니다. 따라서 실험과 모니터링을 통해 최적의 학습률을 찾는 것이 중요합니다.
반응형
'02. 딥러닝' 카테고리의 다른 글
| 00006. 🎢 딥러닝의 핵심: 경사 하강법과 역전파! (0) | 2025.03.19 |
|---|---|
| 00005. 🎢 기울기 벡터는 어디로 가라고 하는 걸까? - 딥러닝의 비밀! (1) | 2025.03.19 |
| 00004. 최적화 알고리즘 비교: Momentum, AdaGrad, RMSprop, Adam (0) | 2025.03.11 |
| 00002. 🚀 Sigmoid 함수를 쓰면 왜 기울기 소실(Gradient Vanishing)이 발생할까? (0) | 2025.03.10 |
| 00001. Gradient Descent 완벽 정리: Batch GD, SGD, Mini-Batch 차이점 비교 (0) | 2025.03.06 |