머신러닝 정의
작업 T를 P로 측정하는 능력이 E로 향상될 수 있다.
T : 작업 = 모델, 학습방식? ( 지도, 비지도, 강화학습 )
지도 : 입력, 출력 주고 함수만듬 ( 분류, 회귀 )
비지도 : 입력 주고 알아서 함수만듬 ( 군집 )
강화 : 입력주면 리워드랑 관찰값 반환, policy를 배워 리워드 최대가 되게끔 혼자 강화
P : 알고리즘 능력 평가
회귀 : mse, rmse, mae, mape
분류 : accury, precision, recall, confusion matrix, f1 – score, ...
Test data : unseen data로 평가
E : 경험 = 데이터
Raw data : 원본 데이터 ( 아무거나 되지만 유의미한 데이터를 구성해야.. )
보통 행렬로 정리, 열에는 feature, 행에는 각 데이터 x
지도 학습 : 데이터가 라벨과 특징 가짐 -> testdata의 라벨을 예측하거나 분류
비지도 학습 : 특성, 정보를 학습 -> 분포를 추정
새미지도학습 : 라벨을 일부만 붙임 ( why? 효율성 )
모델 성능
일반화 : unseen data도 잘 동작하도록 ( 실제 목적 ) => 과적합방지
실제 새로운 데이터를 가지고 있는 것이 아니므로 추정, 이때 test set은 iid로 가정
ex) 회귀 식들은 추정한 것임.
No free lunch theorem
하나의 알고리즘이 모든 문제 해결x -> 특정 모델 성능평가하면서 잘 수행하도록.
'머신러닝' 카테고리의 다른 글
6장 Model Evaluation (1) | 2023.10.25 |
---|---|
5장 Nearest Neighbor Method (0) | 2023.10.25 |
4장 Logistic Legression (0) | 2023.10.25 |
3장 Regression (1) | 2023.10.24 |
2장 Bayesian Classifier (1) | 2023.10.23 |