본문 바로가기
정보/IT 상식

선형 회귀(Linear Regression) : 머신러닝 기본 모델

by 윤윤프로젝트 2024. 9. 13.
반응형

  선형 회귀는 머신러닝에서 가장 기본적인 모델 중 하나입니다. 데이터 간의 선형 관계를 찾아 예측하는 데 사용되며, 두 변수 사이의 직선적 관계를 설명합니다. 이번 글에서는 선형 회귀의 개념과 방식을 설명해드릴게요.

 

1. 선형 회귀란?

  선형 회귀(Linear Regression)는 주어진 데이터에서 독립 변수(x)종속 변수(y) 사이의 관계를 선형 함수로 모델링하는 방법입니다. 예를 들어 어떤 사람의 키(x)를 알면 그 사람의 몸무게(y)를 예측할 수 있을 때, 선형 회귀를 통해 이 두 변수의 관계를 분석할 수 있습니다. 선형 회귀 모델은 다음과 같은 수식을 따릅니다.

$$ y=\theta_0+\theta_1x $$

여기서 θ0는 절편을, θ1기울기를 나타냅니다. 기울기 θ1는 입력값 x가 변화할 때 종속 변수 y가 얼마나 변화하는지를 의미합니다.

 

2. 비용 함수와 최적화

  선형 회귀 모델이 주어진 데이터를 잘 맞추기 위해서는 비용 함수(Cost Function)를 최소화해야 합니다. 비용 함수는 모델이 예측한 값과 실제 값 사이의 차이를 나타냅니다. 가장 많이 사용하는 비용 함수는 평균 제곱 오차(MSE: Mean Squared Error)입니다.

$$ J(\theta) = \frac{1}{2n} \sum_{i=1}^{n} (h_{\theta}(x^{(i)}) - y^{(i)})^2 $$

여기서 n은 데이터의 개수, hθ(x(i))는 모델이 예측한 값, y(i)는 실제 값을 의미합니다. 비용 함수 J(θ)를 최소화하기 위해 경사 하강법(Gradient Descent)을 사용합니다.

 

3. 경사 하강법(Gradient Descent)

  경사 하강법은 비용 함수를 최소화하는 방향으로 파라미터 θ를 업데이트하는 최적화 알고리즘입니다. 모델이 예측한 값과 실제 값 사이의 오차를 기반으로 파라미터를 점진적으로 조정해 나가는 과정입니다. 경사 하강법은 다음과 같은 업데이트 규칙을 따릅니다.

$$ \theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} $$

여기서 α학습률(Learning Rate)로, 한 번의 업데이트에서 파라미터가 얼마나 변화하는지를 결정합니다.

 

4. 정규화된 선형 회귀(Regularized Linear Regression)

  선형 회귀 모델이 과적합(Overfitting) 문제를 겪지 않도록, 정규화(Regularization) 기법을 사용합니다. 이는 모델의 복잡도를 줄여서 너무 많은 변수를 포함해 과도하게 학습하는 것을 방지합니다. L2 정규화를 적용한 비용 함수는 다음과 같습니다.

$$ J(\theta) = \frac{1}{2n} \sum_{i=1}^{n} (h_{\theta}(x^{(i)}) - y^{(i)})^2 + \lambda \sum_{j=1}^{d} \theta_j^2 $$

여기서 λ는 정규화 항의 강도를 조절하는 하이퍼파라미터입니다. 이 값이 크면 모델의 기울기 가 작아져서 과적합을 줄일 수 있습니다.

 

5. 선형 회귀의 실제 응용

  선형 회귀는 다양한 응용 분야에서 사용됩니다.

  • 부동산 가격 예측: 주택의 크기나 위치 등의 특성을 입력 변수로 하여 주택의 가격을 예측할 수 있습니다.
  • 광고 효과 분석: 광고 비용과 매출 간의 관계를 분석하여 최적의 광고 전략을 세울 수 있습니다.
  • 경제 데이터 분석: 경제 지표 간의 관계를 분석하여 미래의 경제 흐름을 예측할 수 있습니다.

 

마치며

  이렇게 선형 회귀의 기초 개념과 그 응용 방법에 대해 설명해드렸습니다. 선형 회귀는 데이터 분석과 예측에 매우 유용한 도구로, 머신러닝의 첫 단추를 여는 중요한 기법입니다. 궁금한 점이나 추가로 알고 싶은 내용이 있으면 언제든지 말씀해주세요! 😊 다음 시간에는 베이즈 추론(Bayesian Inference)으로 찾아뵙겠습니다!

2024.09.20 - [데이터분석/기계학습] - 베이즈 추론(Bayesian Inference) : 확률을 통한 의사결정

 

베이즈 추론(Bayesian Inference) : 확률을 통한 의사결정

베이즈 추론은 확률론을 바탕으로 불확실성을 다루고, 새로운 증거를 통해 가설의 가능성을 업데이트하는 기법입니다. 이는 특히 분류 문제와 같은 의사결정 과정에서 불확실성을 반영해야 할

check22.tistory.com

 

반응형