관리 메뉴

너와 나의 스토리

[ML] Bootstrap / Bagging 본문

Data Analysis/Machine learning

[ML] Bootstrap / Bagging

노는게제일좋아! 2019. 9. 16. 22:22
반응형
  • Bootstrapping
    • 훈련 데이터 셋에서 중복을 허용하여 원래 데이터 셋과 같은 크기의 데이터 셋을 만드는 과정
  • Bagging 
    • Bagging(Bootstrap aggregating)은 bootstrap을 통해 조금씩 다른 훈련 데이터에 대해 훈련된 기초 분류기(base learner)들을 결합(aggregating)시키는 방법이다.
    • 트레이닝 데이터를 선택하는 방법에 따라
      • Bagging

        • 훈련 세트에서 중복을 허용하여 샘플링하는 방식

        • 예측 모형의 분산을 줄이고 과적합(overfitting)을 피하도록 해준다.

        • 보통 '결정 트리 학습법'이나 '랜덤 포레스트'에만 적용되는 것이 일반적이다
      • Pasting
        • 중복을 허용하지 않고 샘플링하는 방식

 

Bagging을 사용하면 왜 분산(Variance)이 줄어드는가?
  • 배깅은 원래 데이터 셋에서 샘플링을 통해 여러개의 데이터 셋을 생성한다.
  • 각 모델들이 배깅을 통해 새로 만들어진 데이터 셋을 통해 학습하여 예측할 때 각기 다른 값을 내게된다. -> 편향이 높아짐
  • 이를 평균하여 예측하는 값을 만드는데, 이 평균하는 과정을 통해서 각 모델간의 차이를 줄여서 variance를 감소시킨다.
반응형
Comments