Udemy – 기계 학습에 관한 모든 것(회귀 모델 선택)


최적의 모델 선택

데이터 전처리 프로세스를 건너뛰고 누락된 데이터 또는 범주 데이터가 없는 완전한 데이터 세트를 사용합니다.

시계열 데이터 분석 책에서 이전에 다룬 UCI 기계 학습 리포지토리의 클래식 데이터입니다.


약 10,000개의 데이터로 구성된 통합 발전소 데이터입니다.
처음부터 엔진 온도, 배기 가스 진공, 주변 기압 및 상대 습도의 독립 변수(특성)와 종속 에너지 변수로 구성된 데이터입니다.


소스 코드

어떤 유형의 회귀가 가장 효율적인지 테스트하기 위해 지금까지 학습한 다양한 회귀 코드 끝에 R 제곱을 평가하는 코드를 추가합니다.

from sklearn.metrics import r2_score
r2_score(y_test, y_pred)

결과

# Multiple_linear

((431.43 431.23)
 (458.56 460.01)
 (462.75 461.14)
 ...
 (469.52 473.26)
 (442.42 438.  )
 (461.88 463.28))
 
# r^2 score
0.9325315554761303

# Polynomial

((433.94 431.23)
 (457.9  460.01)
 (460.52 461.14)
 ...
 (469.53 473.26)
 (438.27 438.  )
 (461.66 463.28))
 
# r^2 score
0.9458192809530098

# Support_vector

((434.05 431.23)
 (457.94 460.01)
 (461.03 461.14)
 ...
 (470.6  473.26)
 (439.42 438.  )
 (460.92 463.28))
 
# r^2 score
0.9480784049986258

# Decision_tree

((431.28 431.23)
 (459.59 460.01)
 (460.06 461.14)
 ...
 (471.46 473.26)
 (437.76 438.  )
 (462.74 463.28))

# r^2 score
0.922905874177941

# Random_forest

((434.05 431.23)
 (458.79 460.01)
 (463.02 461.14)
 ...
 (469.48 473.26)
 (439.57 438.  )
 (460.38 463.28))

# r^2 score
0.9615908334363876

각 모델의 결과 및 R-제곱 점수의 2차원 배열입니다.
보시다시피 Random Forest Regression의 R-squared score는 0.9615…로 압도적인 성능을 보여줍니다.
위와 같은 방식으로 비교 평가를 하여 가장 좋은 모델을 선택할 수 있음을 직접 해 보면서 배웠습니다.