Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

JUstory

[딥러닝] 활성화 함수 Activation Function 본문

딥러닝

[딥러닝] 활성화 함수 Activation Function

jueuniiiju 2024. 9. 4. 00:02

[ Sigmoid ] 

 

output 범위 : [0,1]

$$\sigma (x) = \frac{1}{1+e^{-x}}$$

 

문제점 

① Vanishing Gradient

: input이 크거나 작을때 기울기가 0에 가까워짐 = Local gradient 가 대부분 0이 됨

$$ \acute{\sigma (x)}= \frac{\partial }{\partial x}\frac{1}{1+e^{-x}}\\
= \frac{e^{-x}}{{(1+e^{-x})}^2}\\
= \frac{1}{1+e^{-x}} \cdot \frac{e^{-x}}{1+e^{-x}}\\
= \sigma (x)(1-\sigma (x))$$

 

 

② zero-centered 하지 않은 출력 값

: 입력 x가 모두 양수라고 가정한다면, 출력 값의 범위가 [0,1]이므로 항상 양수

모든 w에 대한 upstream gradient의 부호가 변하지 않음 → 모든 gradient가 양수이거나 음수 → gradient가 특정 방향으로만 업데이트

 

③ exp() 의 연산이 비쌈

 

 

[ Tanh ] 

 

output 범위 : [-1,1]

 

tanh(x)

  • zero - centered 하다는 특징이 있음. (↔ sigmoid)

 

문제점

Vanishing Gradient 

 

 

[ ReLu ] 

output 범위 : [0,infinite]

 

max(0,x)

  • + 영역에서 saturate 하지 않음 ( = 입력값이 커질  출력값도 같이 커지며 특정 값으로 수렴하지 않음)
  • 연산이 효율적임
  • sigmoid나 tanh보다 빨리 수렴함

 

문제점

 

① 출력값이 zero - centered 하지 않음

② Dead ReLU problem : 출력 값이 음수라면 saturated되는 문제가 발생

x=0일때 미분 불가능

 

 

[ Leaky ReLu ] 

max(0.01x, x)

  • 모든 영역에서 saturate 하지 않음
  • 연산에 효율적임
  • sigmoid나 tanh보다 수렴 속도가 빠름
  • No Dead ReLU: gradient vanishin 되지 않음

 

 

문제점

 

추가적인 하이퍼파라미터 (x가 0 미만일때의 기울기)

[ ELu (Exponential Linear Unit) ] 

  • ReLU의 장점들
  • (Leaky) ReLU에 비해 saturated된 음수 지역은 견고성을 더함

 

 

문제점

 

exp() 의 연산이 비쌈

'딥러닝' 카테고리의 다른 글

[딥러닝] 정규화 기법  (0) 2024.10.14
[딥러닝] Linear Regression  (1) 2024.10.14
Backpropagation - 경사하강법  (0) 2024.08.26
Nearest Neighbor Classifier  (0) 2024.08.21
[딥러닝 기초] Linear Regression 가중치 구하기  (0) 2024.08.14