[인공지능] 활성화함수(Activation Function)

제가 공부하면서 느낀 내용을 게시하기 때문에 이론이 실제와 다를 수 있습니다. 문제점과 틀린점이 있다면 댓글로 말해주시면 감사하겠습니다.
kook의 AI 공부 블로그 주인장

Unit Step Function 계단 함수

Unit Step Function

$$ Step(x) = \begin{cases} 1 & (x > 0) \\ 0 & (x \le 0) \end{cases} $$

이 함수는 [인공지능] 퍼셉트론과 신경망 에서 주로 사용한 활성화 함수다.
결과값이 0이하이면 0을 출력하고 0보다 크면 1을 출력하는 간단한 함수라고 생각하면 된다. !

활성화함수는 이 계단함수말고도 여러개가 존재하는데 대표적인 활성화함수들을 알아보고 왜 활성화함수가 필요한지까지 알아보겠다.

Sigmoid Function 시그모이드 함수

Sigmoid Function

$$ Sigmoid(x) = \frac{1}{1+e^{-x}} $$

시그모이드 함수의 특징을 살펴보자.

$x$의 범위는 $(-\infty, \infty)$, $y$의 범위는 $(0, 1)$까지이다.
-> 수 많은 x값에 대해서 y가 0에서1사이의 값을 출력하니 확률값으로도 계산할 수 있겠다. !

그래프가 모든 x에 대해서 미분가능하다.
-> 경사하강법을 사용할 수 있다.

이렇게 두가지의 특징을 그래프를 보고 알 수 있다.
따라서 시그모이드 함수는 인공지능에서 입력값을 확률 값으로 바꿔주는 역할을 하며, 미분가능하기때문에 경사하강법을 통해 역전파알고리즘을 사용할 수 있게 해준다.

시그모이드함수는 어떻게 만들어졌을까?

로지스틱에서 시그모이드가 되는 과정은 다른 글에서 작성도록 하겠습니다. !

Vanishing Gradient 기울기 소실 문제

Vanishing Gradient (Backpropagation)

← 역전파과정에서 기울기가 입력값 쪽으로 전달될수록 0에 가까워짐

시그모이드함수의 여러 특성 덕분에 인공지능 학습에서 없어서는 안 될 존재가 되었지만 가장 큰 문제점이 있었다.
그것은 바로 기울기 소실 문제이다.

기울기 소실 문제는 역전파를 진행할 때 전달되는 값이 점점 작아져 입력층에 가까워지면 미분값이 0에 수렴하게 되는 문제다.

시그모이드함수가 왜 Vanishing Gradient를 만들까?

첫번째 이유,

입력값이 (-4, 4) 보다 크거나 작아질수록 출력값이 0과 1로 수렴하게 된다. 즉, 입력을 받은 값을 0과 1사이로 만드려고하니 손실되는 데이터들이 생긴다.

예를들어, 신경망의 값이 10이 나왔을 때의 값과 5가 나왔을 때를 비교해보면 이해가 쉽다.
Sigmoid(10) = 0.9995
sigmoid(5) = 0.9933

이렇게 두 배나 되는 값의 결과가 비슷하게 나오는 것으로 볼 수 있다. 따라서, 값의 절댓값이 클수록 데이터의 특징을 못 담는 현상이 벌어진다.

두번째 이유,

역전파 알고리즘을 살펴보면 각 노드가 Loss에 대한 미분값으로 자기자신을 업데이트 한다.
여기서 시그모이드함수의 미분은 아래와 같다.
$$ \sigma'(x) = \sigma(x)(1-\sigma(x)) $$
시그모이드 함수의 결과가 0.7이면 미분값은 0.7 x 0.3 = 0.21 이다.
시그모이드 함수의 결과만 알면 미분값도 쉽게 구할 수 있다는 장점이 있다.

하지만 문제는 $ \sigma(x)(1-\sigma(x))$가 나올 수 있는 범위가 0 ~ 0.25 사이라는 점이다. !!

왜인지 살펴보자.

Sigmoid & Derivative

출력값(y)가 0부터 0.25인 것을 볼 수 있다.

예시 - 시그모이드 출력이 0.7, 0.9, 0.5 일 때
그래프를 보면 이해가 되는데 식만 봤을 때는 한번에 와닿지않았다. 그래서 예시를 준비했다.

0.7 일 때 $\sigma(x)(1-\sigma(x))=0.7\cdot(1 - 0.7) = 0.21 $
0.9 일 때 $0.9\cdot(1-0.9) = 0.09$
0.5 일 때 $0.5\cdot(1-0.5) = 0.25$

좋다 그럼 (0 ~ 0.25)가 뭐가 중요하냐 !!
인공지능에서 역전파를 진행할 때 체인룰이라는 기술을 사용하는데 이 체인룰은

$$ \frac{dL}{dw} = \frac{dL}{dy} \cdot \frac{dy}{dz} \cdot \frac{dz}{dw} \cdot ...$$

이런 식으로 계속 곱해진다. 그러면 0~0.25 사이에 값이 계속 곱해지면서 결국에는 0에 수렴하는 형태가 된다는 말이다 !
0.21 x 0.13 x 0.07 x 0.24 x ...

ReLU Function 렐루 함수

ReLU Function

$$ ReLU(x) = \begin{cases} x & (x>0) \\ 0 & (x \le 0) \end{cases} $$

시그모이드함수의 두가지 문제점을 해결한 함수가 바로 이 ReLU 함수다.

나도 뭐 문제점을 개선하고 그러니까 엄청 대단하고 멋있게 생긴 함수라고 생각했는데 보기에는 간단한 함수여서 신기했다.

ReLU함수의 특징

어떠한 입력값이 들어와도 0보다 큰 부분은 자기자신과 똑같은 신호를 출력해준다.
미분값이 0이하는 0, 0보다 큰 쪽은 1로 간단하다.

ReLU함수의 단점

원점(0,0)을 보면 미분 불가능하다는 문제점이 있다.
0 이하인 부분은 전부 0이기 때문에 데이터 소실의 문제도 갖고있다.

이러한 단점을 보완한 다양한 ReLU함수가 존재한다.

다양한 렐루함수들

Leaky ReLU

GeLU

Leaky ReLU : 0이하인 부분도 조금의 기울기를 포함하자.

GeLU : 0 근처에서 미분값이 없으므로 미분가능하게 만들어보자. !

활성화 함수가 필요한 이유

신경망의 기본적인 형태를 보면 $Wx + b$이다 .

신경망 층을 여러개 쌓으면 $W(W(Wx+b)+b)+b$ 이런식이 된다. 이 식을 잘 풀면 결국에는 $Ax + b$ 형태가 되고 이 형태는 기존과 비슷한 형태가 된다. 따라서 우리가 해결하고자 하는 문제의 함수를 모방할 수 없는 구조가 되는 것이다. ! $(Ax + b$ 형태를 선형적이라고 한다.)

그리하여 활성화 함수의 역할은 선형적인 신경망과 결합하여 신경망에 비선형성을 추가하는 것이다.(이때 활성화 함수는 비선형적이어야함)

보편 근사 정리(Universal Approximation Theorem, UAT)

그럼 신경망에 비선형적인 활성화 함수를 추가했다고 우리가 알고자하는 엄청 복잡한 함수들을 모방할 수 있을까?

바로 보편근사정리를 통하여 가능하게 된다.

보편 근사 정리란 뉴런과 비선형적인 활성화 함수가 충분히 많이 더해지면 세상의 모든 연속함수를 모방할 수 있다는 정리이다.

이게 사실인지 아래 실습을 통해 확인해보자 !

Universal Approximation Theorem

활성화 함수 선택

뉴런 개수 (Units)

MSE: -

위 그래프의 식은 이렇게 된다.

$$ \hat{y} = \sum_{i=1}^{N} \theta_i \cdot \phi(w_i x + b_i) $$

$\hat{y}$ : 모델의 출력값
$\theta_i$ : 각 뉴런 출력에 곱해지는 가중치 - 이걸로 활성화함수의 형태를 결정
$\phi$ : 활성화 함수

뉴런 개수가 1개일때는 기본적인 활성화함수 형태였다가 점점 늘릴수록 타겟함수에 가까워지는 것을 볼 수 있다.

실제 신경망에서는 타겟함수가 없지만 이 실습에서처럼 보편 근사 정리를 통해 어떠한 함수도 모방이 가능하니 우리가 해결하고자하는 문제의 알려지지 않은 함수도 학습 가능하다고 생각한다. 또한 신경망에 이러한 특징이 있어 오늘날 AI가 활발한 이유같기도 하다. !

2026년 01월 29일

[인공지능] 퍼셉트론과 신경망

제가 공부하면서 느낀 내용을 게시하기 때문에 이론이 실제와 다를 수 있습니다. 문제점과 틀린점이 있다면 댓글로 말해주시면 감사하겠습니다.
kook의 AI 공부 블로그 주인장

퍼셉트론

x₁

w₁ +b

x₂

w₂

y

$$ Perceptron(x) = \text{Activation}(\sum_{i=1}^{2}w_ix_i + b) $$

$x_1, x_2$ : 입력값, $w_1, w_2 $ : 가중치, $ b $ : 편향

신경망에 대해서 배우기 전 기초가 되는 개념인 퍼셉트론에 대해서 배워보자.

퍼셉트론은 여러개의 입력값과 여러개의 가중치를 서로 곱해서 하나의 신호를 출력하는 알고리즘이다.

위에 이미지 구조로 or과 and를 구현해보겠다.

단층 퍼셉트론으로 AND와 OR 구현하기

x₂ (Input 2)

x₁ (Input 1)

Perceptron Decision Boundary

Weight 1 (w₁)0.7

Weight 2 (w₂)0.7

Bias (b)-1.0

Decision: w₁x₁ + w₂x₂ + b = 0

붉은 배경은 Output: 1, 흰 배경은 0입니다.

$w_1, w_2, b $ 를 조절하여 AND, OR, XOR게이트를 구현해보자.
(검은 점이 붉은 영역에 들어오도록 해보자.)

$\text{Activation}(\sum_{i=1}^{2}w_ix_i + b)$ 이런 식이였는데 갑자기 직선이 나오고 그래프 범위가 나와서 어지러울 수 있다. !
$x_1$을 x라고 생각하고 $x_2$를 y라고 생각해보자.

$$
\begin{aligned}
w_1x_1 + w_2x_2 + b &= 0 \\
w_2y &= -w_1x – b \\
y &= -\frac{w_1}{w_2}x -\frac{b}{w_2}
\end{aligned}
$$

자 이렇게 일차함수식으로 나타내니까 직선이 보이지 !!
그래서 직선으로 나타낼 수 있다는 것이다. ~

여기서 $Activation Function$ 활성화함수라는 개념이 추가되는데
$y$ 값이 0 이상이면 1을 출력하게한다.
-> 이렇게 입력값을 보고 출력값을 정해주는 것(활성화시키는 것)을 활성화함수라고 한다.

활성화함수는 아주 중요한 개념인데
활성화함수가 왜 필요한지에 대해서는 다음에 포스팅하겠다 !

다층 퍼셉트론 (MLP)

x₁

w₁ w₂ w₅ +b₁ +b₃

x₂

w₃ w₄ w₆ +b₂

h₁

h₂

y

$$
\begin{aligned}
h_1 &= f(w_1x_1 + w_2x_2 + b_1) \\
h_2 &= f(w_3x_1 + w_4x_2 + b_2) \\
y &= f(w_5h_1 + w_6h_2 + b_3) \\
\end{aligned}
$$

_{여기서 $f$는 활성화 함수이며 값을 0 또는 1로 출력}

XOR 게이트 구현하기

위에 실습에서 XOR게이트를 클릭하면 (1,0)과 (0,1)만 검정점으로 되어있는 것을 볼 수 있다.
단층 퍼셉트론은 직선을 하나만 그을 수 있기때문에 XOR게이트 구현하는 것은 불가능하다.

따라서 단층 퍼셉트론형태에서 은닉층을 추가한 다층 퍼셉트론을 사용하여야한다.

실습을 통해 weigt가 늘어남에 따라 좌표평면 그래프가 어떻게 바뀌었는지 살펴보자.

Multi-Layer Perceptron (MLP)

x₂ (Input 2)

x₁ (Input 1)

Hidden Node 1 (h₁)

3.0x₁ + 3.0x₂ – 1.0 = 0

w₁: 3.0 w₂: 3.0 b₁: -1.0

Hidden Node 2 (h₂)

5.0x₁ + 5.0x₂ – 6.0 = 0

w₃: 5.0 w₄: 5.0 b₂: -6.0

Output Node (y)

1.0h₁ – 1.0h₂ – 0.5 = 0

w₅: 1.0 w₆: -1.0 b₃: -0.5

출력층의 연산 결과가 0보다 크면 붉은 영역으로 표시됩니다.

$x_1, x_2$가 각각 x축 y축이 되고
$w_1x_1 + w_2x_2 + b_1, w_3x_1 + w_4x_2 + b_2$이 직선이 된다고 생각하면 된다.

은닉층에서 만들어진 $h_1, h_2$의 값의 따라 0보다 크면 1을 출력하고 작으면 0이 된다.(활성화함수)

마지막으로 $h_1,h_2$의 출력값들과 $w_5, w_6,b_3$을 통해 최종 출력값을 정해주면 된다. 여기서 $w_5, w_6, b_3$ 은 새로운 직선을 만들지 않고 값을 증폭시키거나 감소시켜 활성화 유무를 조절한다.

예시 1 (1,0)

$w_1 = 3, w_2 = 3, b_1 = -1, w_3 = 5, w_4 = 5, b_2 = -6$ 일때,
$x_1, x_2 = (1,0) 와 (1,1)$ 를 생각해보자.
$h_1 = w_1\cdot x_1 + w_2\cdot x_2 + b_1 = 3\cdot1 + 3\cdot0-1 = 2$ … > 0 이므로 $h_1$의 값은 1
$h_2 = w_3\cdot x_1 + w_4\cdot x_2 + b_2 = 5\cdot1 + 5\cdot0-6 = -1$ … < 0 이므로 $h_2$의 값은 0
$w_5 = 1, w_6 = -1, b_3= -0.5$
$y = w_5\cdot h_1 + w_6\cdot h_2 + b_3=1\cdot1 + -1\cdot0 – 0.5 = 0.5$ … > 0 이므로 $y$값은 1이 된다.
>>> (1,0)을 대입했을때는 붉은 영역에 포함되는것을 볼 수 있다.

예시 2 (1,1)

$h_1 = w_1\cdot x_1 + w_2\cdot x_2 + b_1 = 3\cdot1 + 3\cdot1 -1 = 5$ … >0 이므로 $h_1$의 값은 1
$h_2 = w_3\cdot x_1 + w_4\cdot x_2 + b_2 = 5\cdot1 + 5\cdot1 -6 = 4$ … >0 이므로$h_2$ 의 값은 1
$y = w_5\cdot h_1 + w_6\cdot h_2 + b_3 = 1\cdot1 – 1\cdot1 – 0.5 = -0.5$ … <0 이므로 $y$의 값은 0
>>> (1,1) 을 대입했을때 최종 출력이 0이므로 붉은 영역에 포함되지않는 것을 볼 수 있다.

신경망

x₁

x₂

x₃

y

$$ y = f(\sum_{i=1}^{n}w_i x_i + b) $$

_{$f$ 는 활성화함수}

다층 퍼셉트론(MLP)와 똑같은 구조로 은닉노드를 수백 수천개 까지 쌓은 형태를 말한다.

퍼셉트론은 신경망에 아주 기초가 되는 개념이고 앞으로는
이러한 신경망을 학습하는 방법(역전파),
활성화함수,
손실함수 등을 알아볼 것이다. !

2026년 01월 20일

[통계] 기댓값과 분산

제가 공부하면서 느낀 내용을 게시하기 때문에 이론이 실제와 다를 수 있습니다. 문제점과 틀린점이 있다면 댓글로 말해주시면 감사하겠습니다.
kook의 AI 공부 블로그 주인장

기댓값

$$E(X)=\sum_{i=1}^{n}x_i P(x_i) $$

이산확률변수 $X$에 대하여, 각 값 $x_i$가 나타날 확률을 $P(x_i)$라고 할 떄 기댓값 $E(X)$는 위와 같이 나타낼 수 있다.

기댓값의 뜻은 이렇지만 나는 늘 기댓값이 평균이라고 생각해왔다.
하지만 평균과 기댓값은 계산하는 식 자체가 다르기 때문에 처음 통계를 공부할때 헷갈리는 부분이였다.

평균의 식은 국어 60점 수학 80점 영어 70점 이럴때

$$ \bar{x}=\frac{60 + 80 + 70}{3} $$

이 식처럼 모두 더하고 더한 수만큼 나누는 것으로 알고 있었다.
이제 두 식의 뜻을 파악해보자 !

아 그전에 $x_i, P(x_i)$ 에 대해 설명해주겠다.

이전 글에 있던 이산확률변수의 주사위 사건을 가져와 보겠다.

주사위의 이산확률분포

각 눈이 나올 확률은 $P(X=x) = 1/6 \approx 0.167 $로 모두 동일합니다.

$X$ : 값이 정해지지 않은 상태의 확률변수. 즉, 주사위 눈이 1~6까지 나올 수 있는 상황.
$x_i$ : 우리가 사건을 숫자로 대응시킨 값. _{ex. 주사위 1이 나오는 사건을 1이라. 지정 또는 주사위 1이 나오는 사건을 10이라 지정}
$P(x_i)$: $x_i$가 발생할 확률. _{ex. 주사위에서 1이 나오는 사건($x_i$)을 1이라 정했으니 $x_i$가 1이 나올 확률은 1\6}

다시 본론으로 들어와서

$ E(X) = \sum_{i=1}^{n}x_iP(x_i) $ 기댓값 식을 다시보면 $ x_i $와 $ P(x_i) $ 곱하여 전부 더한 것을 볼 수 있다.
주사위 예제로 기댓값을 구해보자.

$$ E(X) = 1\cdot \frac{1}{6} + 2\cdot \frac{1}{6} + 3\cdot \frac{1}{6} + 4\cdot \frac{1}{6} + 5\cdot \frac{1}{6} + 6\cdot \frac{1}{6} = 3.5 $$

평균으로 학교 점수 평균점수를 매겨보자

$$ \bar{x}=\frac{60 + 80 + 70 + 80 + 90}{5} $$

기댓값과 평균의 차이가 보이는가 !!

잘 안 보인다고? 사실 바로 차이가 보이는건 진짜 천재들 같고
기댓값의 예제와 똑같이 주사위를 통해 비교를 해보자.

이번엔 주사위의 각 눈이 나올 확률을 모르고 직접 주사위를 20번, 25번 던졌을때 얘기를 해보자.

$$ \frac{1+1+1+2+2+2+3+3+3+3+3+4+4+4+5+5+5+6+6}{20}=3.15 $$
$$ \frac{1+1+1+1+1+2+2+2+2+3+3+3+3+3+4+4+4+4+5+5+5+5+6+6+6}{25}=3.28 $$

기댓값의 결과랑은 조금 다르다.
하지만 시행횟수를 늘리니 점점 기댓값의 결과인 3.5에 가까워지는 것을 볼 수 있다.
아래를 통해 실제로 여러번 던졌을때 평균이 기댓값(3.5)에 가까워지는지 살펴보자.

던지는 횟수(size)를 입력하고 확인해보세요!

30, 100, 1000 점점 시행할수록 3.5에 가까워지는 것을 봐보자.

이제 기댓값과 평균의 차이가 보이는가 !

몰라도 괜찮다 ! 느낌만이라도 있으면 좋다. 그리고 느낀 그 뭉텅이 같은 것을 파고 파다보면 의미를 알 수 있을때가 올거다 !
내가 느낀건 뭔가 사건이 일어날 확률을 알고 있냐없냐 차이 같았다.
더 나아가 기댓값은 일어날 사건의 확률을 통해 계산하는 반면 평균은 일어난 사건을 종합하여 계산한다는 점까지 생각하면 좋을 거 같다.

기댓값과 평균의 차이에 대해서 정리를 해보자.

기댓값은 미래의 일어날 사건을 예측한다고 보면 된다.
주사위를 굴렸을때 ‘각 눈은 1/6 확률로 나오겠구나’ 같은 느낌이다.

평균은 이미 일어난 일을 종합해서 결과를 나타내는 것이다.

수식의 의미를 파악해보자.

$$ \mu, \bar{x}, E(X) $$

$ \mu $ (뮤) : 신이 알고있는 수 라고 해서 전체 모집단의 평균이다. 예를들어, 이 세상 사람 모두의 몸무게를 구해서 나온 평균이라고 생각하면 된다. 구할 수 없는 것 !

$ \bar{x}$ (표본평균) : $ \mu $를 추정하기 위해서 표본을 뽑고 그 표본에서의 평균을 나타낸 것.
_{가끔씩 표본평균의 평균이란 말도 들릴텐데 이건 무슨 뜻이냐면 표본을 한 그룹만 사용하는게 아니고 여러개의 표본 그룹을 만들어서 여러개의 표본평균을 만들고 그 여러개의 표본평균의 평균을 구한다고 보면 된다. !}

$ E(X) $ (기댓값) : 알고있는 확률정보를 통해 $ \mu $를 예측하는 것. 이론적으로 결과가 이럴것이다를 볼 수 있다.

결국에 우리가 알고싶은 것은 모집단의 모수인 $ \mu $ 라는 점이고 통계는 이 $ \mu $를 찾아가는 방향이라고 생각한다.

분산

$$ (1) \ Var(X) = \frac{1}{n}\sum_{i=1}^{n}(x_i – \mu)^2 $$

$$ (2) \ Var(X) = E[(X-E(X))^2] $$

분산의 의미

수식에 제곱도 있고 기댓값표시도 있고 시그마도 있어서 복잡해보이지만
분산은 흩어진 정도에 평균의 제곱이다.

(1) 식에 $ (x_i – \mu)^2 $ 부분을 봐보자. $ x_i $ 는 각각의 값이고 그 값에서 평균 $ \mu $를 뺀 것의 제곱이다.
그 후, $ \frac{1}{n}\sum_{i=1}^{n} $를 통해 평균 계산을 진행한 것이다.

(2) 식은 갑자기 E(X)가 들어왔는데 평균을 계산해주는 함수라고 보면 된다. $ f(x) = x^2 $ 같은 !

(1) 식과 (2) 식의 차이
둘의 가장 큰 차이는 $ X $ 와 $ x_i $의 차이일거다.
$ x $의 값이 정해지고 관측이 가능하여 계산할 수 있을 때는 (1) 식을 사용하고,
값이 정해지지 않고 추상적이고 이론적으로 식을 나타낼때 (2) 식을 사용한다.

2026년 01월 12일

[통계] 확률변수

제가 공부하면서 느낀 내용을 게시하기 때문에 이론이 실제와 다를 수 있습니다. 문제점과 틀린점이 있다면 댓글로 말해주시면 감사하겠습니다.
kook의 AI 공부 블로그 주인장

확률변수

변수지만 그 변수가 선택될 확률을 가지고 있는 변수

이렇게만 생각하면 선택될 확률이 있는 변수겠구나 생각하지만
확률변수의 뜻 중 더 중요했던게 “실험의 결과를 숫자로 나타내는 함수”였다.

$$X : \Omega \to \mathbb{R} $$

_{$ \Omega $ : 표본공간에 나올 수 있는 값, $ \mathbb{R} $ : 실수 집합}

확률변수는 $ X $로 나타낼 수 있다. 이 $X$를 실수값으로 바꿔주는 것이라고 생각하면 되는데 이렇게 변환을 시켜주니 함수라고도 한다.

이게 무슨 말인지 모를 수 있는데 간단하게 말해보겠다 !

예시 1

주사위는 1에서 6까지의 수가 나올 수 있다.
주사위에서 1이나오는 사건을 1이라 칭하고 2가나오는 사건을 2라 칭하고 3은 3, 4는 4, 5는 5, 6은 6 이라고 칭한것을 많이 봤을거다.

여기서 이렇게 123456으로 칭하는 것을 10, 20, 30, 40, 50 ,60으로 칭해도 된다는 것을 말하고싶다. 즉, 이렇게 어떤 일이 일어나는 것을 숫자로 표현하는 것을 확률변수로 할 수 있게 되는 거다.

예시 2

동전을 두개 던지는 상황 H(앞면), T(뒷면)
표본공간$\ S $ : HH, HT, TH, TT

확률변수로 만든다면
– HH = 2
– HT = 1
– TH = 1
– TT = 0

표본 공간은 일어날 결과를 모두 모은 것이고 확률변수는 표본공간을 구분할 수 있는 숫자로 대응시킨것 !

확률변수는 두가지의 종류가 있다.

1. 이산확률변수

주사위의 이산확률분포

각 눈이 나올 확률은 $P(X=x) = 1/6 \approx 0.167 $로 모두 동일합니다.

주사위 눈과 동전의 한 쪽 면처럼 값이 딱딱 끊어져 있는 확률변수
주사위의 각 눈이 나올 확률인 1/6으로 되어 있는것을 볼 수 있다.

2. 연속확률변수

몸무게의 연속확률분포

나이에 따른 몸무게 변화

몸무게가 60키로였다가 70키로가 되는건 어느 한 순간에 바뀌는 것이 아니라 60..61..61.2…61.3..62..65..68..70 이렇게 천천히 서서히 바뀐다. 이렇게 연속적으로 값이 증가하고 감소하는 확률변수를 연속확률변수라고 한다.

2026년 01월 08일

Hello world!

Welcome to WordPress. This is your first post. Edit or delete it, then start writing!

2025년 08월 11일

[카테고리:] Uncategorized

[인공지능] 활성화함수(Activation Function)

Unit Step Function 계단 함수