2017년 10월 23일 월요일

Optimization cs231n

크로스밸리데이션과 코어스 투 파인 전략
파라미터 선택시 그리드서치 보단 랜덤서치가 성능이 좋다
학습시 학습곡선의 진동이 크면 배치크기를 키워라
구글 시각화툴이 3일전에 새로나왔다. 텐서보드 와 다른것?
트레인과 밸리데이션 곡선이 너무 같으면 모델이 더 좋아질수 있다. 바꿔라.
Hessian 행렬은 2차미분 연산행렬로 자코비안이 기울기를 얻는 연산행렬인 반면 헤시안 행렬은 곡률을 구하는 연산행렬이다.
미니배치를 SGD에 적용하면 랜덤워크 처럼 헤매는 단점이 생긴다.
모멘텀으로 안장점이나 로컬미니마의 탈출이 가능하다.
네스테로브 모멘텀은 모멘텀에도 그레디언트 방향을 반영한 것이다.
아다그라드는 롱타임 학습엔 멈출수도 있다.
RMSProp 는 그레이언트에 디케이를 줘서 극복한다.
아담 = 모멘텀 + RMSProp
전형적인 아담의 베타값들은 ... 이다.
아담을 쓰면 런닝레이트 디케이를 덜해도 된다.
헤씨안은 연산이 오래걸리는게 문제여서 BGFS 가 나왔고 메모리를 덜먹는 L-BGFS 도 나왔다.
L-BFGS 방법은 풀배치에서만 유효하고 미니배치에서는 효과가 적다.
학습 어큐러시곡선은 높은데 검증 어큐러씨 곡선이 낮으면 오버핏을 의심해 보라
앙상블 모델링을 사용하면 인식율이 2% 정도는 올라간다.
Polyak 에버리징은 테스트 타임에 쓰며 한번에 여러번의 앙상블한 효과를 모사하는것이다.
파이토치에만 있는것: AutoGrad, Dynamic Graph
파이토치는 주로 연구용에, Caffe2는 주로 실무에서 많이 사용한다.

댓글 없음:

댓글 쓰기

gpustat command

sudo apt install gpustat watch --color -n0.1 gpustat --color