독서 리마인더/핸즈온 머신러닝

5장 연습문제

hwijin97 2021. 11. 3. 14:21

1. 서포트벡터의 근본아이디어

클래스로 구분된 데이터셋에 가능한 가장 넓은 도로를 내는 것이 서포트벡터의 목표이다.

이때 완벽한 클래스 구분과 넓은 도로를 낼 수 있는 절충안을 가지는 하드, 소프트 마진 두 방법이 있다.

 

2. 서포트 벡터는 무엇인가요

훈련을 통해서 찾은 넓은 도로가 서포트 벡터이다.

 

3. SVM 사용시 스케일이 중요한 이유

클래스 사이에 가장 넓이가 큰 도로를 찾는 것이 목표이므로, 훈련 세트의 스케일이 맞지 않으면 작은 값은 무시될 수 있다.

 

4. SVM 분류기가 분류할 때 신뢰도 점수나 확률을 출력할 수 있는지

SVM 분류기는 샘플의 클래스 결정경계사이의 거리를 측정 가능하기 때문에, 이를 신뢰도 점수로 사용가능하지만, 확률로 변환은 불가능해서, 점수에 로지스틱 회귀를 훈련시켜 확률을 예측한다.

 

5. 수백만개의 샘플과 수백개의 특성을 가진 훈련세트에서 선형 SVM을 사용할때 원 문제 혹은 쌍대 문제 어느것이 더 적합한지

원 문제는 훈련 샘플수에 비례하고, 쌍대 문제는 제곱, 세제곱에 비례한다. 따라서 수백만개면 원 문제로 푸는게 적합하다.

 

6. RBF 커널으로 SVM에 과소적합됬을 경우, 감마와 C 는 어떻게 변경해야 하는지

커널의 과소적합은 모델의 규제가 너무강하단 의미, 규제를 완화한다. 감마와 C를 증가시킨다.

 

8. 선형적으로 분리되는 데이터셋에 LinearSVC 를 훈련시키고, SVC, SGDClassifier 을 적용해보기

9. MNIST 데이터셋으로 SVM에 OvR 이용해서 훈련시키기 정확도 높이기

10. 캘리포니아 주택 가격에서 SVM 회귀 훈련시키기

https://github.com/kimhwijin/HandsOnMachineLearing/blob/main/HOML_Exercise_5.ipynb

 

 

 

 

 

 

 

 

 

'독서 리마인더 > 핸즈온 머신러닝' 카테고리의 다른 글

7장 연습문제  (0) 2021.11.03
6장 연습문제  (0) 2021.11.03
4장 연습문제  (0) 2021.11.01
3장 연습문제  (0) 2021.10.30
2장 연습문제  (0) 2021.10.28