본문 바로가기

머신러닝

5장 Nearest Neighbor Method

1. Distance metic

 멘하튼거리

 

유클리드 거리

가로거리 세로거리 차이가 일정하도록 분산으로 나누어줌

Distance metric

 직업 같은게 거리로 계산되면 안되니 원핫인코딩으로 두점 사이 거리 0이 되도록 해야함

 원핫인코딩 못할경우 수식으로 표현

 전자는 두점 사이 거리 뺴고 범위로 나눠줌, 후자는 같은거면 0 다르면 1로 맞춰줌

 

normalizetion

 각 특징의 크기에 따라 어떤 특징의 값이 무시될 수 있으므로 정규화 진행 

 

 

알고리즘

 1. 라벨이 붙은 트레이닝 데이터 준비

 2. 새로운 데이터 가져옴

 

3. 모든 트레이닝 데이터랑 새로운 데이터랑 거리 게산

4. k개 이웃 선택

5. 이웃으로부터 투표 => 분류

 k가 클수록 둔감함, 값이 천천히 변함

 k가 작으면 민감함, 값이 빠르게 변함

 

k는 어떻게 구해? => 하나씩 다 돌려봐야함 알고리즘 x, 단 홀수로 돌려야 분류가 쉬움

 

회귀로 사용할 때는 이웃간의 가중치평균, 평균 구함

'머신러닝' 카테고리의 다른 글

7. Decision Tree  (0) 2023.12.17
6장 Model Evaluation  (1) 2023.10.25
4장 Logistic Legression  (0) 2023.10.25
3장 Regression  (1) 2023.10.24
2장 Bayesian Classifier  (1) 2023.10.23