기타

1회차

JYUN(sia) 2023. 8. 28. 21:57

용어 정리

매개변수(parameter): 기계가 학습을 해야하는 대상. x,y(주어진 데이터)를 제외한 변수, 외부로부터 투입되는 데이터

ex) w,b

 

Hyper parameter: 사용자가 지정하는 변수

 

엔트로피(Entropy)

정보이론에서 나온 개념으로, 변수의 불확실성(놀람의 정도)을 나타내는 지표이다.

예측하기가 어려운 사건일수록 정보량이 많아지고, 엔트로피도 커지게 된다.

ex) 컴활 평균 90점 탈락 ~> 정보량 많음 ~> 엔트로피 증가

손실함수 (Loss function) , 비용함수 (Cost function)

수많은 가설 중 가장 좋은 가설을 찾는 방법이다.

 

1. 오차 제곱합 (Mean Squared Error, MSE)

sum(가설값 - 정답값)^2
MSE 그래프 형태

수식이 2차식 이므로 2차함수의 형태로 나타날 것이다.

MSE는 손실에 관한 함수 ~> 작을 수록 좋다. 즉 최솟값을 찾는 것이 관건

볼록함수에서의 최솟값 == 극솟값 == 기울기가 0인 점을 찾으면 된다

 

지정한 x값의 함수를 미분하였을 때 절댓값이 0보다 크다면 목표지점과 떨어졌다는 것을 의미하므로

절댓값이 작아지는 지점으로 점점 이동하여 0인 지점을 찾는다.

Gradient Descent (경사 하강) 공식 : x값 - 기울기

Gradient Descent 공식에 있는 α 는 기울기의 반영비를 결정하는 Hyper parameter 이다. 

 

α가 필요한 이유

1. 만일 x = 0.5, 기울기 = -1 과 같은 상황이라면 다음에 조사되는 값이 목표지점으로 수렴하지 못하고 아주 큰 x값으로 가 버린다. > 기울기 폭발 상황

2. Gradient Descent 연산을 적당한 정도로 수행해 시간을 단축시킨다.

 

=> 최적의 α 값을 찾는것이 중요

 

2. 교차 엔트로피 오차 (Cross Entropy Error, CEE)

다음을 이해하기 위해 먼저 logistic regression 을 살펴보겠다.

 

로지스틱 회귀분석은 지정된 독립 변수 데이터를 기반으로 사건이 발생할 확률을 추정한다. 

결과는 확률이므로 종속 변수는 0과 1 사이에 있다.

그 중 2진 분류의 경우, 확률이 0.5보다 작은 경우 0을, 큰 경우 1을 예측한다. 

0과 1 중 어떤 범주에 속하는 지를 알아내는 것이 핵심이다.

 

위와 같은 상황에서 선형회귀를 사용하여 예측하는 것이 힘들기 때문에 곡선을 사용해야 한다.

 

s자형 곡선을 갖는 시그모이드(Sigmoid) 함수로 예측하는 것이 가능하다. 

Sigmoid 수식

시그모이드 함수의 방정식은 아래와 같다.

적절한 a(w)와 b값을 찾아 시그모이드 함수를 logistic regression에 활용할 수 있다.

이 적절한 파라미터를 찾기위해 MSE를 cost function으로 이용해 경사 하강법(Gradient descent)을 사용한다면

다음과 같은 그래프가 그려지기에

시그모이드에 MSE를 사용했을 때의 그래프

Local minima 에 빠질 가능성이 있다.

 

이것을 해결하기 위한 방법에 CEE 방식이 있다.

cross entropy의 개념은 실제 분포에 대해 알지 못하는 상태에서 모델링을 통해 실제 분포를 예측하는 것이다.

위의 수식에서 q는 딥러닝 모델의 추정 확률분포를, p는 모델이 추구해야 할 미지의 확률분포를 의미한다.

교차 엔트로피에서 1)실제값 == 예측값인 경우에는 0으로 수렴하고

2)틀릴 경우에는 값이 커지기 때문에 두 확률분포가 서로 얼마나 다른지를 나타내주는 정량적인 지표 역할을 한다.

Binary cross entropy loss function

두 곡선이 만나는 교점 지점에서 global minima가 발생한다.