독서 리마인더/핸즈온 머신러닝 35

5장

서포트 벡터 머신SVM(support vector machine) 서포트 벡터 머신은 선형, 비선형 분류, 회귀, 이상치 탑색에도 사용가능한 다목적 모델이다. 복잡한 분류 문제에 잘 맞으면 중소 크기의 데이터셋에 적합하다. 5.1 선형 SVM 분류 선형 SVM분류기는 두개의 클래스를 하나의 직선으로 분류할때, 결정 경계에 제일 가까운 훈련 샘플로부터 가능한 멀리 떨어지도록 결정 경계를 생성한다. 즉 가장 폭이 넓은 도로를 찾는 것과 같다. 이를 라지 마진 분류large margine classification 이라고 한다. 도로 경계 또는 안쪽에 위치한 샘플들에 의해 전적으로 결정(의지)된다. 이런 샘플을 서포트 벡터support vector 라고 한다. 5.1.1 소프트 마진 분류 모든 샘플이 도로 바..

4장

모델 훈련 4.1 선형 회귀 선형 모델 : 입력 특성과 가중치의 곱의 합과, 편향bias(상수)를 더한다. y_hat : 예측값 n : 특성의 수 x_i : i번째 특성값 theta_j : j번째 모델 파라미터 Theta : theta_0 ~ theta_n 까지의 특성 가중치를 담은 모델 파라미터 배열 x : x_0 ~ x_n 까지 샘플을 담은 특성 벡터 x_0 = 1 ( theta_0 * x_0 ) h_theta = 모델 파라미터 Theta 를 사용하는 가설 함수 열벡터를 사용하는 경우 : theta n x 1 의 열백터 => theta T 와 x의 행렬 곱 => 1 x 1의 행렬 내적을 사용하는 경우 : 스칼라 선형 회귀 모델 훈련 => 성능지표를 RMSE로 설정할 경우, RMSE를 최소화하는 the..

3장

3.3 분류기의 성능측정 3.3.1 교차검증을 사용한 정확도 측정 분류기의 정확도 성능지표의 단점 : MNIST의 경우 0~9의 category가 있고, 5인지 아닌지를 판단하는 분류기의 경우, 5가 아닐확률이 90%의 확률이므로 굉장히 불균형한 데이터셋이다. 이런 데이터셋을 다룰 때 특히 정확도를 성능 측정 지표로 선호하지 않는다. 3.3.2 오차 행렬 분류기의 성능평가는 오차 행렬confusion matrix을 이용한다. 아이디어는 오차 행렬에 A 샘플이 B로 분류된 횟수를 저장한다. -> 5가 3으로 인식된 경우 : 행렬의 5행 3열을 관찰한다. 오차행렬을 통한 정밀도precision 측정 : TP / TP + FP (TP : 양성의 수, FP : 거짓 양성의 수) 재현율recall = 민감도sen..

2장

머신러닝 프로젝트의 처음부터 끝까지 1. 큰그림을 본다. 2. 데이터를 구한다. 3. 데이터를 탐색하고 시각화한다. 4. 데이터를 준비한다. 5. 모델을 선택하고 훈련한다. 6. 모델을 상세하게 조정한다. 7. 솔루션을 제시한다. 8. 시스템을 런칭하고 유지보수한다. 추천 데이터 저장소 - UC 얼바인lrvine 머신러닝 저장소 (http://archive.ics.edu/ml) - 캐글kaggle 데이터셋 (http://www.kaggle.com/datasets) - 아마존 aws 데이터셋 https://registry.opendata.aws - 데이터 포털 http://opendatamonitor.eu - 퀸들Quandl http://quandl.com - 위키백과 머신러닝 데이터셋 목록 https:/..

1장

머신러닝이란 : 컴퓨터가 데이터에서부터 명시적인 프로그래밍 없이 학습하는 능력을 갖추게 하는 연구분야이다. 시스템이 학습하는데 사용하는 샘플(example) : 훈련 세트 training set 각 훈련데이터 : 훈련 사례 training instance or example 머신러닝의 접근 방법 : -> 문제 연구 -> 머신러닝 알고리즘 훈련 ( 솔루션 평가 ->-> 런칭 or 반복 전통적인 방법과 다른점 : 데이터에서 자주 보여지는 특성을 명시적으로 코딩하지 않아도 알아서 학습함. 데이터 마이닝 : 잘 알지못하는 문제해결 알고리즘을 머신러닝을 통해 적합한 솔루션을 생성하고, 그 솔루션을 분석함으로 문제를 더 잘 이해하게된다. 더 나은 이해를 바탕으로 다시 머신러닝을 지도한다. ex) one, two 의..