본문 바로가기

전체 글

(64)
8. Esemble Method 1. 용어 bias 늘림 -> 실제 - 예측 차이 향상 -> underfitting var 늘림 -> bais줌 -> overfitting 2. 앙상블 메소드 base learer => 모델들 중 하나 조건: 관점이 다른 모델 종류: Bagging, Boosting Bagging => overfitting 모델들 ( low bias high var ) 모아 Boosting => underfitting 모델들 ( high bias low var ) 모아 ㅁ Bagging ( Bootstrap aggregating ) 트레이닝 데이터 복원추출로 여러 bootstrap(50 이상) 만들어서 각 모델에 학습 후 voting random foest 데이터 랜덤추출 -> 50개이상 DT만듬 -> OOB( out o..
7. Decision Tree 1. Decision Rule DT는 분기를 어떻게 하느냐( Decision Rule )가 중요 impurity drop ( 불순도 낮추기 ) => 리프노드의 데이터가 얼마나 분리되었는지에 대한 정도를 낮추는 방향으로 => 분류 성능 향상 어떤 측정이던 경향동일 결과만 조금다름 그럼 분기가 잘됐는지는 어케 판단할지 기준이 있어야함 split criteria IG = 이전 불순도 - 현 불순도 = 정보이득 => 정보이득 > 0 이면 분기후 정보이득만큼의 불순도를 낮춘것 완전히 분류 => 엔트로피 0 orthogonal하고 그리디(로컬최적)하게 나누어 분기하고 반복하기에 Recursive patitioning 특징을 갖는다. 2. Full Tree 모든 리프노드의 엔트로피가 0일떄 까지 분기하는것 => ov..
6장 Model Evaluation 1. 모델 성능 평가 테스트 데이터에 대한 성능을 일반화 하는것이 목적 하지만 우리는 학습에 사용하지 않은 unseen데이터는 가지고 있지 않음 즉, 목적은 어떤 데이터든지간에 결과를 일반화하는 거지만 학습과 테스트 모두 가지고 있는 데이터로만 할 수 밖에 없는 상황임 unssen 데이터와 train데이터가 iid라고 가정! => 독립, 같은분포 데이터 분할 방식 교차검증 학습데이터 여러개로 나눠서 fold가 1번씩은 검증데이터가 되도록 => 과적합방지 평가 전략 일정 시간을 두고 학습과 테스트 진행 규제 L1 L2 mse만 최소화하면 오버피팅이 발생하므로 값을 추가하여 규제함, 단 람다가 너무 크면 언더피팅 확률이 올라감 분류에서 accuracy를 측정해서 정확도를 판별하는데 문제점 존재 데이터의 가중..
5장 Nearest Neighbor Method 1. Distance metic 멘하튼거리 유클리드 거리 가로거리 세로거리 차이가 일정하도록 분산으로 나누어줌 Distance metric 직업 같은게 거리로 계산되면 안되니 원핫인코딩으로 두점 사이 거리 0이 되도록 해야함 원핫인코딩 못할경우 수식으로 표현 전자는 두점 사이 거리 뺴고 범위로 나눠줌, 후자는 같은거면 0 다르면 1로 맞춰줌 normalizetion 각 특징의 크기에 따라 어떤 특징의 값이 무시될 수 있으므로 정규화 진행 알고리즘 1. 라벨이 붙은 트레이닝 데이터 준비 2. 새로운 데이터 가져옴 3. 모든 트레이닝 데이터랑 새로운 데이터랑 거리 게산 4. k개 이웃 선택 5. 이웃으로부터 투표 => 분류 k가 클수록 둔감함, 값이 천천히 변함 k가 작으면 민감함, 값이 빠르게 변함 k는 ..
4장 Logistic Legression 1. Linear refression vs Logistic regression 불연속값을 사용한다는것을 제외하면 로지스틱 회귀는 선형회귀와 유사하다. 로지스틱 회귀는 MSE를 이용한다. 2. Logistic regression Odds and Log Odds 분류 문제를 회귀로 풀 방법이 있을까? 어떤 사건이 일어날 확률을 p라 하면 0기준 대칭으로 만들기 위해 log 이용 정리하면 Y = log odd의 해석 결과 MLE 로지스틱으로 회귀를 하는 방법 : 데이터가 베르누이 분포를 따르므로 조건부확률을 구할 수 있고 종속변수에 따른 값을 각각 구해서 가장 확률이 높은 값으로 분류 Softmax regression 다중분류를 원핫인코딩으로 수행 cost function 이진분류 다중분류
3장 Regression 1. Linear Regreeion X : 독립변수, Y: 종속변수 장점 : 사용 쉬움, 설명 쉬움 단점 : 선형회귀만 설명가능, 관련없는 데이터도 결과에 영향줌 1차원인 경우는 line으로 표현 다차원인 경우 b0 : y절편, bi : X가 변할 때 Y에 영향을 주는 값 regression의 목표! 모델이 위와 같이 추정할 때 최적의 bi헷을 구하는 것 최적의 베타는 어떻게 구할까? - least squars method ( 오차 제곱 최소화 ) 모델 평가 y와 y헷의 차이를 기반으로 mse, rmse, mae, mape를 구함 performance measurements R^2 결정계수 = SSR/SST = 1 - SSE/SSR => 1에 가까울 수록 모델이 좋음 SSE = SST + SSR SST,..
2장 Bayesian Classifier 1. Bayesian Classifier 데이터를 일정 기준으로 분류 -> 데이터 중 어떤 것으로 분류되었는지 확률값을 알고싶다. 분류방법 : 확률값 높은 class 1로 분류 하지만 posterior 직접 못구함 -> 식을 바꿔서 구할 수 있는 애들로 구하자 prior ( 사전 ) 자연에서 가져온 데이터로 traing data와 independent함 수집하기 전에 이미 확률 알고있음 충분한 데이터 없이 분류를 해야하는 경우 유용함 예시) Likelihood ( 가능도 ) 관찰데이터의 빈도를 나타냄 정규분포를 통해 구할 수 있다. evidence 분류 결정에 영향x ( 분자로만 대소비교가능 ) posterior의 확률 분포를 얻고자 할떄 사용 모든 wi가 mutually independent하기 때문에..
1장 Introdution to Machine Learning 머신러닝 정의 작업 T를 P로 측정하는 능력이 E로 향상될 수 있다. T : 작업 = 모델, 학습방식? ( 지도, 비지도, 강화학습 ) 지도 : 입력, 출력 주고 함수만듬 ( 분류, 회귀 ) 비지도 : 입력 주고 알아서 함수만듬 ( 군집 ) 강화 : 입력주면 리워드랑 관찰값 반환, policy를 배워 리워드 최대가 되게끔 혼자 강화 P : 알고리즘 능력 평가 회귀 : mse, rmse, mae, mape 분류 : accury, precision, recall, confusion matrix, f1 – score, ... Test data : unseen data로 평가 E : 경험 = 데이터 Raw data : 원본 데이터 ( 아무거나 되지만 유의미한 데이터를 구성해야.. ) 보통 행렬로 정리, 열에는 ..