9장 연습문제
1. 군집을 어떻게 정의하는가, 몇개의 군집 알고리즘을 말해보세요
비슷한 샘플을 모으는 작업.
k-mean : 랜덤 센트로이드를 정해서 반복마다 샘플의 레이블을 정하고 센트로이드를 조정함.
DBSCAN : 각 샘플의 입실론 거리 내에 특정 이상 샘플이 있으면 핵심샘플로 지정하고, 핵심샘플 주변에 핵심샘플이 있으면 클러스터 범위를 늘려 레이블을 지정한다.
병합 군집 , BIRCH, 평균-이동, 유사도 전파, 스펙트럼 군집
2. 군집알고리즘의 주요 애플리케이션
데이터 분석, 고객 분류, 추천 시스템, 검색 엔진, 이미지 분할, 준지도 학습, 차원 축소, 이상치 탐지, 특이치 탐지 등 (레이블이 없는 분류 모델?)
3. k-평균을 사용할 때 적절한 클러스터 개수를 선택할 수 있는 두가지 방법
- 이니셔 그래프를 클러스터 개수 k 에 대한 그래프로 그렸을 때 급격하게 기울기가 꺾이는 엘보 구간을 찾는다.
- 클러스터 개수이 함수로 실루엣 점수 그래프를 그려서, 뾰족하게 올라간 점 부근이 최적의 클러스터 개수이다.
4. 레이블 전파란?
레이블이 있는 샘플을 비슷한 샘플에 레이블을 복사하는 기법.
군집을 통해 클러스터의 레이블이 있는 샘플의 대표 레이블을 클러스터에 포함된 모든 샘플에 복사한다.
5. 대규모 데이터셋으로 확장할 수 있는 군집 알고리즘 두가지, 밀도가 높은 지역을 찾는 군집 알고리즘 두가지
대규모 데이터셋 : k-mean, BIRCH
밀도 높은 지역 : DBSCAN, 평균-이동
6. 능동 학습이 유용한 경우는 언제이고 어떻게 구현할 수 있는지
레이블이 없는 샘플이 많고, 레이블 부여에 많은 비용이 들때.
레이블된 샘플을 통해 모델을 만들고, 레이블이 없는 샘플에 대한 예측을 만든다음, 가장 불확실하게 예측한 샘플을 모아
전문가에게 판별을 맡긴다.
7. 이상치 탐지와 특이치 탐지의 차이?
이상치가 포함될 수 있는 데이터셋에서 훈련을 한다. 이상치 탐지의 목표는 새로운 샘플이 이상치일 경우를 구별해내는 것이다.
이상치가 없는 깨끗한 데이터셋에서 훈련을 한다. 특이치 탐지는 새로운 샘플에서 특이한 것을 감지하는 것이다.
8. 가우시안 혼합은 무엇인가?
샘플을 파라미터를 모르는 몇개의 가우시안 분포에서 생성되었다고 가정하는 확률 모델이다.
밀집도 추정, 군집, 이상치 탐지에 이 모델을 사용가능하다.
9. 가우시안 혼합모델을 사용할 때 적절한 클러스터 개수를 찾는 방법
클러스터의 개수로 BIC, AIC 그래프를 그리다음에, 이를 최소화하는 클러스터 개수를 찾는다.
베이즈 가우시안 혼합모델을 사용해 클러스터 수를 자동으로 선택한다.
10. 올리베티 얼굴 데이터셋으로 어떤 사람의 사진인지 예측하기
11. 10번의 분류기를 훈련하고, 검증세트에 평가해보기
12. 가우시안 혼합 모델로 훈련해보기.
13. 차원 축소기법으로 재구성 오차 비교해보기
https://github.com/kimhwijin/HandsOnMachineLearing/blob/main/HOML_Exercise_9.ipynb