JUstory
[딥러닝] 활성화 함수 Activation Function 본문
[ Sigmoid ]
$$\sigma (x) = \frac{1}{1+e^{-x}}$$
문제점
① Vanishing Gradient
: input이 크거나 작을때 기울기가 0에 가까워짐 = Local gradient 가 대부분 0이 됨
$$ \acute{\sigma (x)}= \frac{\partial }{\partial x}\frac{1}{1+e^{-x}}\\
= \frac{e^{-x}}{{(1+e^{-x})}^2}\\
= \frac{1}{1+e^{-x}} \cdot \frac{e^{-x}}{1+e^{-x}}\\
= \sigma (x)(1-\sigma (x))$$
② zero-centered 하지 않은 출력 값
: 입력 x가 모두 양수라고 가정한다면, 출력 값의 범위가 [0,1]이므로 항상 양수
모든 w에 대한 upstream gradient의 부호가 변하지 않음 → 모든 gradient가 양수이거나 음수 → gradient가 특정 방향으로만 업데이트
③ exp() 의 연산이 비쌈
[ Tanh ]
tanh(x)
- zero - centered 하다는 특징이 있음. (↔ sigmoid)
문제점
Vanishing Gradient
[ ReLu ]
max(0,x)
- + 영역에서 saturate 하지 않음 ( = 입력값이 커질 출력값도 같이 커지며 특정 값으로 수렴하지 않음)
- 연산이 효율적임
- sigmoid나 tanh보다 빨리 수렴함
문제점
① 출력값이 zero - centered 하지 않음
② Dead ReLU problem : 출력 값이 음수라면 saturated되는 문제가 발생
③ x=0일때 미분 불가능
[ Leaky ReLu ]
max(0.01x, x)
- 모든 영역에서 saturate 하지 않음
- 연산에 효율적임
- sigmoid나 tanh보다 수렴 속도가 빠름
- No Dead ReLU: gradient vanishin 되지 않음
문제점
추가적인 하이퍼파라미터 (x가 0 미만일때의 기울기)
[ ELu (Exponential Linear Unit) ]
- ReLU의 장점들
- (Leaky) ReLU에 비해 saturated된 음수 지역은 견고성을 더함
문제점
exp() 의 연산이 비쌈
'딥러닝' 카테고리의 다른 글
[딥러닝] 정규화 기법 (0) | 2024.10.14 |
---|---|
[딥러닝] Linear Regression (1) | 2024.10.14 |
Backpropagation - 경사하강법 (0) | 2024.08.26 |
Nearest Neighbor Classifier (0) | 2024.08.21 |
[딥러닝 기초] Linear Regression 가중치 구하기 (0) | 2024.08.14 |