강화학습 Markov Decision Process

- 강화학습을 수식화 할수 있는 일반적인 방법은 마르코프 결정 프로세스
- 에이전트: 게이머, 당신
- 환경: 게임, 패드, 볼 위치, 방향, 장애물, 타깃 등
- 보상: 점수 증가

댓글

  1. 마르코프 결정프로세스에 따라
    한게임 에피소드에서 모든 프로세스는
    행동과 보상의 유한 순서를 형성한다.

    답글삭제
  2. Si : 상태
    Ai : 액션
    Ri : 액션수행후의 보상

    답글삭제

댓글 쓰기

이 블로그의 인기 게시물

파이썬으로 Homomorphic Filtering 하기

파이썬으로 2D FFT/iFFT 하기: numpy 버전