본문 바로가기

머신러닝

(10)
12. Dimensionality Reduction 목표 : feature의 개수를 효율적으로 줄이자 방법 : feature select, feature extraction 1. feature selection ㅁ exhaustive search ( 전수조사 ) 모든 조합 다 고려해서 넣어보고 제일 좋은 특성집합 선택, NP-complite ㅁ Heuristic ( 하면서 찾아내기 ) -forwoad search : 특성 하나씩 그리디하게 추가하면서 찾기 -backward search : 특성 하나씩 그리디하게 빼면서 찾기 -stepwise search : 평가기준에 따라 한개씩 넣고 만족못할시 -> 하나씩 기준에 따라 뺌 -> 반복하다가 추가, 삭제 기준 둘 다 충족 못할 때까지 반복 평가기준 : AIC, BIC ㅁ meta heuristic ( 휴리스..
11. Kerner Method ERM ( Empirical risk min ) SRM (Structural risk minimization) 마진을 둬서 마진 최대가 되게 하자! 해서 두 선형식의 차이가 최대가 되도록 hard margin: 모든 데이터가 위에 식 만족 위 식을 만족하더라 convex에 의해 어차피 a = 0 인경우는 바운더리 결정x, 즉, 결정은 뒤에 식이 Soft Margin SVM 마진은 키우고 앱샐론은 줄이는 방향으로 가야함 하지만 소프트 마진도 여전히 리니어임 차원 낮으면 논리니어인데 차원 높으면 리니어인 경우 생각 -> 높은차원에 매핑함수 파이로 가정 파이 대신 커널함수 사용! SVM for 회귀
9. Neural Networks 페셉트론 = 인공뉴런 => 다수의 입력에 weighted sum + bias의 값을 activation function에 입력하여 output을 얻는다. 하지만 그냥 퍼셉트론은 non-linear 해결 x -> MLP ( multilayer perceptron )등장 - universal approximation theory 어떤 non-linear문제도 퍼셉트론 여러개로 가능 feedforward vs backpropagation 히든 노드 or layer 많을 수록 capacity 향상 히든 레이어 af의 역할 : nonliner transformation 분류인 경우 output 레이어의 af의 역할 : 원핫인코딩처럼 확률 나눠서 내줌 or softmax(각 결과 확률로) 회귀인 경우 문제에 따라 ..
7. Decision Tree 1. Decision Rule DT는 분기를 어떻게 하느냐( Decision Rule )가 중요 impurity drop ( 불순도 낮추기 ) => 리프노드의 데이터가 얼마나 분리되었는지에 대한 정도를 낮추는 방향으로 => 분류 성능 향상 어떤 측정이던 경향동일 결과만 조금다름 그럼 분기가 잘됐는지는 어케 판단할지 기준이 있어야함 split criteria IG = 이전 불순도 - 현 불순도 = 정보이득 => 정보이득 > 0 이면 분기후 정보이득만큼의 불순도를 낮춘것 완전히 분류 => 엔트로피 0 orthogonal하고 그리디(로컬최적)하게 나누어 분기하고 반복하기에 Recursive patitioning 특징을 갖는다. 2. Full Tree 모든 리프노드의 엔트로피가 0일떄 까지 분기하는것 => ov..
6장 Model Evaluation 1. 모델 성능 평가 테스트 데이터에 대한 성능을 일반화 하는것이 목적 하지만 우리는 학습에 사용하지 않은 unseen데이터는 가지고 있지 않음 즉, 목적은 어떤 데이터든지간에 결과를 일반화하는 거지만 학습과 테스트 모두 가지고 있는 데이터로만 할 수 밖에 없는 상황임 unssen 데이터와 train데이터가 iid라고 가정! => 독립, 같은분포 데이터 분할 방식 교차검증 학습데이터 여러개로 나눠서 fold가 1번씩은 검증데이터가 되도록 => 과적합방지 평가 전략 일정 시간을 두고 학습과 테스트 진행 규제 L1 L2 mse만 최소화하면 오버피팅이 발생하므로 값을 추가하여 규제함, 단 람다가 너무 크면 언더피팅 확률이 올라감 분류에서 accuracy를 측정해서 정확도를 판별하는데 문제점 존재 데이터의 가중..
5장 Nearest Neighbor Method 1. Distance metic 멘하튼거리 유클리드 거리 가로거리 세로거리 차이가 일정하도록 분산으로 나누어줌 Distance metric 직업 같은게 거리로 계산되면 안되니 원핫인코딩으로 두점 사이 거리 0이 되도록 해야함 원핫인코딩 못할경우 수식으로 표현 전자는 두점 사이 거리 뺴고 범위로 나눠줌, 후자는 같은거면 0 다르면 1로 맞춰줌 normalizetion 각 특징의 크기에 따라 어떤 특징의 값이 무시될 수 있으므로 정규화 진행 알고리즘 1. 라벨이 붙은 트레이닝 데이터 준비 2. 새로운 데이터 가져옴 3. 모든 트레이닝 데이터랑 새로운 데이터랑 거리 게산 4. k개 이웃 선택 5. 이웃으로부터 투표 => 분류 k가 클수록 둔감함, 값이 천천히 변함 k가 작으면 민감함, 값이 빠르게 변함 k는 ..
4장 Logistic Legression 1. Linear refression vs Logistic regression 불연속값을 사용한다는것을 제외하면 로지스틱 회귀는 선형회귀와 유사하다. 로지스틱 회귀는 MSE를 이용한다. 2. Logistic regression Odds and Log Odds 분류 문제를 회귀로 풀 방법이 있을까? 어떤 사건이 일어날 확률을 p라 하면 0기준 대칭으로 만들기 위해 log 이용 정리하면 Y = log odd의 해석 결과 MLE 로지스틱으로 회귀를 하는 방법 : 데이터가 베르누이 분포를 따르므로 조건부확률을 구할 수 있고 종속변수에 따른 값을 각각 구해서 가장 확률이 높은 값으로 분류 Softmax regression 다중분류를 원핫인코딩으로 수행 cost function 이진분류 다중분류
3장 Regression 1. Linear Regreeion X : 독립변수, Y: 종속변수 장점 : 사용 쉬움, 설명 쉬움 단점 : 선형회귀만 설명가능, 관련없는 데이터도 결과에 영향줌 1차원인 경우는 line으로 표현 다차원인 경우 b0 : y절편, bi : X가 변할 때 Y에 영향을 주는 값 regression의 목표! 모델이 위와 같이 추정할 때 최적의 bi헷을 구하는 것 최적의 베타는 어떻게 구할까? - least squars method ( 오차 제곱 최소화 ) 모델 평가 y와 y헷의 차이를 기반으로 mse, rmse, mae, mape를 구함 performance measurements R^2 결정계수 = SSR/SST = 1 - SSE/SSR => 1에 가까울 수록 모델이 좋음 SSE = SST + SSR SST,..