목표: 최적함수가 있다고하면 그거 모방하는거!
퍼셉트론 여러층 쌓아서 성능, 일반화등을 높일 수 있다.
vanishing 문제: 시그모이드 쓰면 편미분 계산하면서 초기 가중치 0이됨 -> relu쓰자
오버피팅 해결법
1. 노드 껏다 켯다
2. 필터를 통해 연결 -> sparse connection으로 parmeter sharing 가능
느린 최적화 해결법
1. 모든 로스 구하기가 아닌 부분 배치 로스 구해서 경사하강 ㄱ(stochastic)
2. 누적벡터로 ㄱ ( 잘 가고있으면 가중 )
3. 가중치에 관성 (이전값 고려)
깊이 = > 히든레이어 수, 학습= 이상적함수 f에 근사
relu단점 : 0인 지점 존재
CNN ( Convolutional )
최소 하나의 convolution network포함하면 CNN
pooling
maxpooling, averagepooling
conv + af + pooling 까지 conv layer
strde
output줄이고 싶을때 사용하는 방법으로 filter를 여러칸 넘어감
zeropadding
output의 크기를 변화하고 싶지 않을때 0으로 채움
기타 아키텍쳐
파라미터 계산시 bias 고려!
residual branch로 생략하는 곳 있음
RNN ( recurrent neural network )
-sequential data
-unfolding ( 시간에 따라 펼친 )
패턴 1 : 지금 히든 다음 인풋이랑 같이 히든으로
패턴 2 : 지금 아웃풋 다음 히든
패턴 3 : 패턴 1 + 아웃풋 마지막 1
bptt : 시간에 따른 BP