[딥러닝] 활성화 함수 Activation Function

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

JUstory

[딥러닝] 활성화 함수 Activation Function 본문

딥러닝

[딥러닝] 활성화 함수 Activation Function

jueuniiiju 2024. 9. 4. 00:02

[ Sigmoid ]

$$\sigma (x) = \frac{1}{1+e^{-x}}$$

문제점

① Vanishing Gradient

: input이 크거나 작을때 기울기가 0에 가까워짐 = Local gradient 가 대부분 0이 됨

$$ \acute{\sigma (x)}= \frac{\partial }{\partial x}\frac{1}{1+e^{-x}}\\
= \frac{e^{-x}}{{(1+e^{-x})}^2}\\
= \frac{1}{1+e^{-x}} \cdot \frac{e^{-x}}{1+e^{-x}}\\
= \sigma (x)(1-\sigma (x))$$

② zero-centered 하지 않은 출력 값

: 입력 x가 모두 양수라고 가정한다면, 출력 값의 범위가 [0,1]이므로 항상 양수

모든 w에 대한 upstream gradient의 부호가 변하지 않음 → 모든 gradient가 양수이거나 음수 → gradient가 특정 방향으로만 업데이트

③ exp() 의 연산이 비쌈

[ Tanh ]

tanh(x)

zero - centered 하다는 특징이 있음. (↔ sigmoid)

문제점

Vanishing Gradient

[ ReLu ]

max(0,x)

+ 영역에서 saturate 하지 않음 ( = 입력값이 커질 출력값도 같이 커지며 특정 값으로 수렴하지 않음)
연산이 효율적임
sigmoid나 tanh보다 빨리 수렴함

문제점

① 출력값이 zero - centered 하지 않음

② Dead ReLU problem : 출력 값이 음수라면 saturated되는 문제가 발생

③ x=0일때 미분 불가능

[ Leaky ReLu ]

max(0.01x, x)

모든 영역에서 saturate 하지 않음
연산에 효율적임
sigmoid나 tanh보다 수렴 속도가 빠름
No Dead ReLU: gradient vanishin 되지 않음

문제점

추가적인 하이퍼파라미터 (x가 0 미만일때의 기울기)

[ ELu (Exponential Linear Unit) ]

ReLU의 장점들
(Leaky) ReLU에 비해 saturated된 음수 지역은 견고성을 더함

문제점

exp() 의 연산이 비쌈

'딥러닝' 카테고리의 다른 글

[딥러닝] 정규화 기법 (0)	2024.10.14
[딥러닝] Linear Regression (1)	2024.10.14
Backpropagation - 경사하강법 (0)	2024.08.26
Nearest Neighbor Classifier (0)	2024.08.21
[딥러닝 기초] Linear Regression 가중치 구하기 (0)	2024.08.14

'딥러닝' Related Articles

JUstory

[딥러닝] 활성화 함수 Activation Function 본문

[딥러닝] 활성화 함수 Activation Function

[ Sigmoid ]

[ Tanh ]

tanh(x)

[ ReLu ]

max(0,x)

[ Leaky ReLu ]

max(0.01x, x)

[ ELu (Exponential Linear Unit) ]

'딥러닝' 카테고리의 다른 글

티스토리툴바