RNN, LSTM cs231n

- 알엔엔은 시간축을 펼치면 전입력이 새출력으로들어오는 점과 입출력이 하나씩인 점, 그리고 리커런트 웨이트를 공유한다는 점, tanh 만 빼면 멀티레이어퍼셉트론과 동일한것 같다.

- 알엔엔에만 있는 독특한 학습인 트렁케이티드 백프로파게이션

- 이미지에 텍스트문장이 들어간 데이타셋은 MSCOCO 뿐이다. 한문장에 백원씩 주고 오픈소스로 수집한 데이타셋이라고는

- 현대차는 어노테이션 할때 방글라데시 드에 외주를 주어 빅데이타를 만든다고 ..

- 이미지캡션 모델에서 엔드토큰은 출력레이어에 준다.

- 덴스넷은 학습타임이 빠르다고 한다.

- 이미지캡션 어텐션 모델에서 피쳐를 뽑는 씨엔엔망은 분류와 리그레션을 함께 학습시켜야 한다.

- 이미지캡션 어텐션 모델에서 런타임시에 입출력이 무엇인지에 대한 이슈...난 입력이 영역,출력이 워드라고 주장. 다른분들은 입력도 영상이라고 주장. 뭐가 맞을런지?

- 어텐션 모델을 문장번역에 사용하고, 문장번역에서 입력은 영어 문장의 한 단어씩(단어 위치포함, 그림으로 치면 한 영역), 출력은 한국어 문장의 한단어씩 인걸보면 내 주장이 맞을것 같기도 한데 말이다...

- 이미지캡션 어텐션 모델에서 씨엔엔망에 학습시에 리그레션을 빼고 분류만을 그리고 엘에스티엠에 정상, 비정상만 학습시키면 이미지시퀀스가 들어갈때 아노말리 프리딕션도 가능할것으로 추정된다. 맞나?

- 엘에스티엠은 1997년 Hochireiter 가 만들었으며 알엔엔의 숏텀메모리 문제를 극복하기 위해 나온것이다.

- 엘이스티엠의 핵심은 배니싱그레디언트 억제와 제로점통과 전달함수인 하이퍼탄젠트이다.

- 하이퍼탄젠트는 중앙 기울기가 심해 시그모이드보다 배니싱그레디언트에 더 취약함에도 엘에스티엠에서 쓴다.

- 그이유는 전달함수의 제로점 통과특성과 가파른 기울기 때문이다. 배니싱그레디언트 문제는 전혀 다른방식인 3개의 아날로그적 스위칭소자(시그모이드)의 클리핑으로 해결한다. 그래서 엘에스티엠 회로가 그렇게 복잡한 것이다.

- 시그모이드는 전달함수가 아니고 스위치처럼 사용되며 제어 단자값(바이어스)으로 게이트 입력값을 차단(0) 또는 전달(0<)하는 역할을 한다.

- 엘에스티엠에서 렐루를 못쓰는 이유는 리커런트 구조에 따른 무한 발산 문제 때문이다.

- 엘에스티엠에는 또한 아이덴티티 게이트도 존재한다. 역시 배그 문제를 줄이기 위한 장치.

- 엘에스티엠은 씨엔엔 네트웍처럼 영장류 뇌 작동방식을 모방한 네트웍이 아니고 인간의 논리적(?) 창작물이다. 따라서 그 자체로는 단점이 많고 씨엔엔등과 결합해서 쓰이는 경우가 많은듯 ..

- 씨엔엔 처럼 알엔엔(엘이스티엠 포함)도 뇌구조 같은 생체를 모방한 구조가 나온다면 노벨상 감일텐데.. 쉽진 않아보인다.

- 발표할땐 가능한 자료를 전체화면으로 띄워서 화면 스크롤을 줄이자...스크롤은 시간이 길어질때 보는 사람으로 하여금 눈에 피로감을 준다.

Gromit's Cabin