본문 바로가기

머신러닝

12. Dimensionality Reduction

목표 : feature의 개수를 효율적으로 줄이자

 

방법 : feature select, feature extraction

 

1. feature selection

 

ㅁ exhaustive search ( 전수조사 )

모든 조합 다 고려해서 넣어보고 제일 좋은 특성집합 선택, NP-complite

 

ㅁ Heuristic ( 하면서 찾아내기 )

 

-forwoad search : 특성 하나씩 그리디하게 추가하면서 찾기

-backward search : 특성 하나씩 그리디하게 빼면서 찾기

-stepwise search : 평가기준에 따라 한개씩 넣고 만족못할시 -> 하나씩 기준에 따라 뺌 -> 반복하다가 추가, 삭제 기준 둘 다 충족 못할 때까지 반복

평가기준 : AIC, BIC

 

ㅁ meta heuristic ( 휴리스틱 알고리즘화 )

"지역탐색보단 성능좋게 전수조사보단 효율적으로"

 

ㅁ Genetic 알고리즘

거의 글로벌 옵티마 접근, 진화적인 계산

 

 

 

selection 에서 determinestic :상위 몇퍼 뽑기, probailistic : 룰렛

글로벌 옵티머에 도달할 수 있지만 시간 오래걸림

 

2. feature extraction

Princial component analysis ( PCA ) - 주성분 분석

분산이 클수록 변수가 많고 변수가  많으면 성능 좋아짐 -> 분산 어케 늘림 -> PCA

 

프로젝션 지점 구함 > X의 평균이 0이 되도록 nomalize>  wTX의 공분산을 구함 -> wTXXTw에서 S는 X의 공분산이됨

즉, wTSw를 최대가 되게하는 방법을 구하면됨 이떄 wwT=1로 가정하면 L = wTSw - ㅅ(wTw - 1) = 0이되고 

convex optimization에 의해 미분 = 0 을찾으면 Sw - ㅅw=0인 지점이고 이떄 람다, w는 S의 고유벡터,고유값이다.

 

Autoencoder

양쪽 같게할 수 있으면 히든부분으로 줄여서 쓰는겨

 

 

 

 

 

'머신러닝' 카테고리의 다른 글

11. Kerner Method  (0) 2023.12.18
9. Neural Networks  (0) 2023.12.18
7. Decision Tree  (0) 2023.12.17
6장 Model Evaluation  (1) 2023.10.25
5장 Nearest Neighbor Method  (0) 2023.10.25