15. 앙상블 (Ensemble)
반응형
여러 분류기를 하나로 연결하여 개별 분류기보다 더 좋은 일반화 성능을 달성하는 방법을 앙상블이라 한다.
여러 분류 알고리즘을 사용하는 투표Voting 기반 방법과 하나의 분류 알고리즘을 여러 번 사용하는 배깅Bagging, 부스팅Boosting 방법이 있다.
- 투표 방법: 동일한 학습 데이터를 사용한다.
- 배깅: 각 모델마다 서로 다른 학습 데이터를 추출하여, 여러 개의 모델을 생성 (Random Forest 등)
- 부스팅: 샘플링에서 잘못 분류된 데이터 50%를 재학습에 사용 또는 가중치를 사용
다수결 투표Majority Voting
동일한 데이터로 여러 개의 모델을 구축한다. (선형 회귀, 결정 트리 등) 이후 각 결과값의 다수결 투표를 진행하여 최종 예측값을 낸다.
배깅Bagging
알고리즘마다 별도의 학습 데이터를 추출(샘플링)하여 모델 학습에 사용한다. 학습데이터 샘플링 시 복원 추출(중복)을 허용한다. 대표적으로 랜덤 포레스트가 배깅 알고리즘에 속한다.
랜덤 포레스트
결정 트리 모델을 여러 개 학습시키되, 전체 데이터의 일부를 활용하여 각각의 모델을 학습시킨다.
최종적으로 분류 모델의 경우 투표, 회귀의 경우 평균화 방법을 통해 최종 결과를 결정한다.
부스팅Boosting
데이터 샘플링 후 모델을 하나 학습시킨다. 이때 학습된 모델이 오분류한 데이터 일부를 다음 모델의 학습에 사용하거나, 가중치를 적용하여 해당 데이터들을 다음 모델의 학습에 높은 비중을 갖게 한다. 가중치를 이용하는 방법으로 AdaBoost가 있다.
이러한 방법을 통해 틀리기 쉬운(오분류된) 데이터들에 강건한 모델을 만들 수 있다.
반응형
'학부 수업 > 머신러닝' 카테고리의 다른 글
14. 교차 검증 (Cross Validation) (0) | 2020.12.16 |
---|---|
13. 주성분 분석 (Principal Component Analysis: PCA) (0) | 2020.12.16 |
12. 차원 축소 (Dimension Reduction) (0) | 2020.12.16 |
11. 군집화 (Clustering) (0) | 2020.12.15 |
10. 비선형 서포트 벡터 머신 (Non-linear SVM) (0) | 2020.11.25 |
댓글
이 글 공유하기
다른 글
-
14. 교차 검증 (Cross Validation)
14. 교차 검증 (Cross Validation)
2020.12.16 -
13. 주성분 분석 (Principal Component Analysis: PCA)
13. 주성분 분석 (Principal Component Analysis: PCA)
2020.12.16 -
12. 차원 축소 (Dimension Reduction)
12. 차원 축소 (Dimension Reduction)
2020.12.16 -
11. 군집화 (Clustering)
11. 군집화 (Clustering)
2020.12.15