본문 바로가기
인공지능 개발하기/Machine Learning

Likelihood와 MLE(Maximum Likelihood Estimation)

by 선의공 2025. 5. 18.
반응형

 

확률분포가 특정 데이터를 얼마나 잘 나타내는지에 대해서 공부해보려고 합니다.

 


 

1. Likelihood

Likelihood(우도)란 확률모형에서 parameter(모수)를 변수로 보고,

고정된 데이터를 얼마나 잘 설명하는지를 나타내는 함수입니다.

Probabliity(확률)과 Likelihood(우도)를 비교하면서 이해해보겠습니다.

 

Probability란, 모수가 고정되어 있을 때, 어떤 데이터가 관측될 확률을 나타내는 값입니다.

중요한 점은 모수가 고정되고, 데이터가 변한다는 점입니다.

 

반면에 Likelihood란, 실제로 관측된 데이터를 기준으로
어떤 모수가 이 데이터를 가장 잘 설명하는지를 평가하는 함수입니다.

Likehood는 Probability와 반대로 데이터가 고정되고, 모수가 변합니다.

 

 

분포와 데이터의 예시를 보자면 아래와 같습니다.

정규분포의 모수에 따라 분포의 위치나 모양이 바뀌게 되며,

데이터를 더 잘 표현하는 정규분포를 Likelihood를

로 수치화 해서 나타낼 수 있습니다.


 

2. Log-Likelihood

 

이러한 수치화로 계산한 Likelihood를 계산하기 위해서는 확률 값들을 곱해주게 되는데,

확률값은 0과 1사이의 값이므로 곱셈으로 인해 값이 너무 작아지는 문제가 발생합니다.

이런 현상을 방지하기 위해 확률값에 Log를 취해주는 방식을 고려합니다.

 


 

3. MLE(Maximum Likelihood Estimation), 최대우도추정

 

MLE(최대우도추정)는 가장 최고의 Likelihood를 찾는 방식

즉, 관측된 데이터를 가장 그럴듯하게 설명해주는 모수(parameter)를 찾는 방법입니다.

해당 식은 argmax를 통해서 θ가 가장 큰 값을 만들어 주도록 수치화로 표현하기 위한 수식입니다.

argmax는 경사상승법으로 구해줍니다.

 


4. MLE의 응용

 

반대로 Log-Likelihood를 음수화 시켜서

Nagative Log-Likelihood를 생성하면 아래와 같은 수식이 되고,

해당 수식은 Cross- Entropy와 동일하게 됩니다.

해당 수식을 Loss로서 사용해서 분류(Classification) 모델에서

강사하강법 Optimizer 방식으로 최적의 parameter를 가진 모델을 얻기 위한 훈련을 진행합니다.

 

추가적으로 parameter(모수)를

통계적, 딥러닝적 parameter의 개념이 다르다고 생각하고 헷갈릴 수 있을 것 같아 "모수"라고 설명했는데,

결과적으로 나열해보니, Cross Entropy를 최소화하는 것은 결국 최적의 Weight, bias를 Parameter로서 구하는 것이고,
그렇기 때문에 통계학, 딥러닝에서의 “parameter”는 본질적으로 같은 의미를 띈다고 생각됩니다..

 

 

 


 

Reference

 

https://gbdai.tistory.com/11

 

Likelihood(가능도)와 MLE(Maximum Likelihood Estimation)란?

통계학에서, 가능도(可能度, 영어: likelihood) 또는 우도(尤度)는 확률 분포의 모수가, 어떤 확률변수의 표집값과 일관되는 정도를 나타내는 값이다. 구체적으로, 주어진 표집값에 대한 모수의 가

gbdai.tistory.com

 

반응형