최적의 모델 선택
데이터 전처리 프로세스를 건너뛰고 누락된 데이터 또는 범주 데이터가 없는 완전한 데이터 세트를 사용합니다.
시계열 데이터 분석 책에서 이전에 다룬 UCI 기계 학습 리포지토리의 클래식 데이터입니다.
약 10,000개의 데이터로 구성된 통합 발전소 데이터입니다.
처음부터 엔진 온도, 배기 가스 진공, 주변 기압 및 상대 습도의 독립 변수(특성)와 종속 에너지 변수로 구성된 데이터입니다.
소스 코드
어떤 유형의 회귀가 가장 효율적인지 테스트하기 위해 지금까지 학습한 다양한 회귀 코드 끝에 R 제곱을 평가하는 코드를 추가합니다.
from sklearn.metrics import r2_score
r2_score(y_test, y_pred)
결과
# Multiple_linear
((431.43 431.23)
(458.56 460.01)
(462.75 461.14)
...
(469.52 473.26)
(442.42 438. )
(461.88 463.28))
# r^2 score
0.9325315554761303
# Polynomial
((433.94 431.23)
(457.9 460.01)
(460.52 461.14)
...
(469.53 473.26)
(438.27 438. )
(461.66 463.28))
# r^2 score
0.9458192809530098
# Support_vector
((434.05 431.23)
(457.94 460.01)
(461.03 461.14)
...
(470.6 473.26)
(439.42 438. )
(460.92 463.28))
# r^2 score
0.9480784049986258
# Decision_tree
((431.28 431.23)
(459.59 460.01)
(460.06 461.14)
...
(471.46 473.26)
(437.76 438. )
(462.74 463.28))
# r^2 score
0.922905874177941
# Random_forest
((434.05 431.23)
(458.79 460.01)
(463.02 461.14)
...
(469.48 473.26)
(439.57 438. )
(460.38 463.28))
# r^2 score
0.9615908334363876
각 모델의 결과 및 R-제곱 점수의 2차원 배열입니다.
보시다시피 Random Forest Regression의 R-squared score는 0.9615…로 압도적인 성능을 보여줍니다.
위와 같은 방식으로 비교 평가를 하여 가장 좋은 모델을 선택할 수 있음을 직접 해 보면서 배웠습니다.