강화학습 (1) 썸네일형 리스트형 강화학습 1차. 1차. 강화학습Reinforcement Learning은, 머신 러닝의 한 분야로서 에이전트 / 행동 / 보상에 대한 알고리즘입니다. 다시 말해서, 에이전트가 보상을 극대화하기 위해서 어떤 행동을 해야할 것인가에 대한 학문입니다. 흔히 3 가지로 분류되는 머신러닝의 3분야 패러다임, 즉 지도Supervised 학습과 비지도 학습, 그리고 나머지 한 분야를 차지합니다. 지도 학습의 인풋 대비 아웃풋 등으로 측정하거나 부분의 합의 최대 등의 방식을 넘어 모험Exploration과 활용Exploitation(현재의 가장 좋은 조건으로 실행)의 혼합 방식을 사용합니다. 이 알고리즘의 배경은 MDP, 마르코프 의사결정 프로세스라는 환경을 바탕으로 합니다. 첫째, 마르코프의 프로세스는 특정한 상태State에서의 확.. 이전 1 다음