ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 회귀분석
    내일배움캠프 2024. 8. 12. 19:01

     

     

    회귀분석

     

    회귀분석은 변수 간의 함수관계를 분석하는 방법 중 하나로

    독립변수와 종속변수 간의 1차 선형관계를 도출하여 

    독립변수가 종속변수에 미치는 영향 혹은 예측 정도를 분석하는 방법입니다.

     

    종속변수 예측 및 분석을 위해서

    수학적 함수식으로 나타내고

    직선 형태의 추세선을 도출합니다.

     

     

    오늘은 회귀분석 절차에 대해서 공부해봤습니다.

    가장 간단한 단순회귀분석으로 설명을 드리겠습니다.

     

     


     

     

    절차

     

     

    회귀분석 절차로는 크게

     

    회귀 모델 설정 -> 데이터 경향성 확인 -> 회귀계수 추정 -> 회귀계수 유의성 확인

    -> 회귀식 적합성 확인 -> 회귀식의 영향력 진단 -> 최종 모델 선정

     

    으로 이루어집니다.

     

     

    회귀 모델 설정

     

    먼저 데이터를 살펴보면서 주요 독립변수와 종속변수를 파악합니다.

     

     

    데이터 경향성 확인

    산점도

     

     

    독립변수와 종속변수 간 산점도 분석 및 상관관계 분석을 하여 선형성을 확인합니다.

    산점도는 seaborn 라이브러리의 scatterplot으로 나타낼 수 있습니다.

     

     

    회귀계수 추정

     

    회귀계수를 추정하는 방법으로는

    최소제곱법, 최대가능도법, 적률추정법 등이 있습니다.

     

    from sklearn.linear_model import LinearRegression

     

    LinearRegression()의 fit 매서드에 독립변수와 종속변수를 넣어주면

    스스로 학습하여 선형회귀 계수를 구해줍니다.

     

    덕분에 편하게

    y = 0.11x + 0.92라는

    선형회귀식을 얻을 수 있었습니다.

     

    선형회귀식

     

     

    회귀 계수 유의성 확인

     

    앞에서 구한 회귀 계수가 유의한지 확인해줍니다.

     

    t검정을 통해서 회귀 계수가 0이 아님을 검정하여

    해당 변수가 설명력이 있음을 확인하는 과정입니다.

     

     

    회귀식 적합성 확인

     

    1. 모델 적합성 검정

     

    독립변수 X가 종속변수 Y에 대하여

    통계적으로 유의한 영향을 주는가를 확인합니다.

     

    분산분석(ANOVA)의 F검정을 통해서 확인해줍니다.

     

    F값 = MSR / MSE 인데요,

     

    from sklearn.metrics import mean_squared_error
    mean_squared_error(y, y_pred)

     

    MSE는 위 코드를 통해서

    확인해줄 수 있습니다.

     

    2. 설명력 검정

     

    종속변수의 분산 중에서 독립 변수로 설명되는 비율.

    회귀분석 모델로 종속 변수를 얼마나 잘 설명하는가를 보여줍니다.

     

    결정계수(R-Square)을 통해서

    검정해주실 수 있습니다.

     

    from sklearn.metrics import r2_score
    r2_score(y, y_pred)

     

    위 코드를 통해서

    결정계수 값을 확인해주실 수 있습니다.

     

    만약 결정계수 값이 0.72가 나왔다면

    종속변수의 변동 중 약 72%가 독립변수에 의해 설명이 가능하다고

    해석할 수 있습니다.

     

    3. 데이터 적합성 검정

     

    분산분석과 결정계수를 통해 유의한 결과가 나왔을 때

    데이터에 의해 회귀모델이 적절했는지 확인하는 과정입니다.

     

    다음 4가지를 모두 만족시켜줘야 합니다.

     

    - 독립변수와 종속변수 간의 선형성

    - 오차의 독립성(더빈-왓슨)           

    - 오차의 정규성(Q-Q plot)           

    - 오차의 등분산성                          

     

     

    회귀식의 영향력 진단

     

    관측값의 이상값과 영향값이 회귀식의 기울기에 영향을 주는지

    회귀식의 안정성을 진단합니다.

     

    마할라노비스 거리, 쿡의 거리, 레버리지 값 등을 활용해줍니다.

     

     

    최종 모델

     

    최종 모델을 선정합니다.

     

     


     

     

    다중회귀분석

     

    다중회귀분석은 단순회귀분석과는 다르게

    연속형 변수인 독립변수가 2개 이상 있는데요,

     

    따라서 대부분의 분석 절차는 동일하지만

    다중공선성을 확인해주어야 합니다.

     

     

    다중공선성

     

    다중공선성은

    독립수들 간에 강한 상관관계가 나타날 때

    생기는 문제인데요

     

    상관관계가 있기 때문에

    종속변수에 중복으로 영향을 주게 됩니다.

     

     

    독립변수 간 상관계수를 확인하거나

    분산팽창요인(VIF)를 통해서

    다중공선성을 확인해줄 수 있고

     

    1. 상관계수가 높은 독립변수 중 하나를 제거,

    2. 주성분분석 등 차원축소 알고리즘을 적용하여 독립변수를 줄여주거나

    3. 릿지회귀, 라쏘회귀 등을 이용하여 독립변수에 제약을 줘서

    회귀계수의 영향도를 낮추는 방법과

    4. 단계적 방법(전진선택법, 후진제거법 등)을 이용하여 종속변수에 영향을 미치는

    유의미한 독립변수들을 선택하는 방법을 적용하여

     

    다중공선성 문제를 해결할 수 있습니다.

Designed by Tistory.