목표 : feature의 개수를 효율적으로 줄이자
방법 : feature select, feature extraction
1. feature selection
ㅁ exhaustive search ( 전수조사 )
모든 조합 다 고려해서 넣어보고 제일 좋은 특성집합 선택, NP-complite
ㅁ Heuristic ( 하면서 찾아내기 )
-forwoad search : 특성 하나씩 그리디하게 추가하면서 찾기
-backward search : 특성 하나씩 그리디하게 빼면서 찾기
-stepwise search : 평가기준에 따라 한개씩 넣고 만족못할시 -> 하나씩 기준에 따라 뺌 -> 반복하다가 추가, 삭제 기준 둘 다 충족 못할 때까지 반복
평가기준 : AIC, BIC
ㅁ meta heuristic ( 휴리스틱 알고리즘화 )
"지역탐색보단 성능좋게 전수조사보단 효율적으로"
ㅁ Genetic 알고리즘
거의 글로벌 옵티마 접근, 진화적인 계산
selection 에서 determinestic :상위 몇퍼 뽑기, probailistic : 룰렛
글로벌 옵티머에 도달할 수 있지만 시간 오래걸림
2. feature extraction
Princial component analysis ( PCA ) - 주성분 분석
분산이 클수록 변수가 많고 변수가 많으면 성능 좋아짐 -> 분산 어케 늘림 -> PCA
프로젝션 지점 구함 > X의 평균이 0이 되도록 nomalize> wTX의 공분산을 구함 -> wTXXTw에서 S는 X의 공분산이됨
즉, wTSw를 최대가 되게하는 방법을 구하면됨 이떄 wwT=1로 가정하면 L = wTSw - ㅅ(wTw - 1) = 0이되고
convex optimization에 의해 미분 = 0 을찾으면 Sw - ㅅw=0인 지점이고 이떄 람다, w는 S의 고유벡터,고유값이다.
Autoencoder
양쪽 같게할 수 있으면 히든부분으로 줄여서 쓰는겨
'머신러닝' 카테고리의 다른 글
11. Kerner Method (0) | 2023.12.18 |
---|---|
9. Neural Networks (0) | 2023.12.18 |
7. Decision Tree (0) | 2023.12.17 |
6장 Model Evaluation (1) | 2023.10.25 |
5장 Nearest Neighbor Method (0) | 2023.10.25 |