1차.
강화학습Reinforcement Learning은,
머신 러닝의 한 분야로서 에이전트 / 행동 / 보상에 대한 알고리즘입니다.
다시 말해서, 에이전트가 보상을 극대화하기 위해서 어떤 행동을 해야할 것인가에 대한 학문입니다. 흔히 3 가지로 분류되는 머신러닝의 3분야 패러다임, 즉 지도Supervised 학습과 비지도 학습, 그리고 나머지 한 분야를 차지합니다.
지도 학습의 인풋 대비 아웃풋 등으로 측정하거나 부분의 합의 최대 등의 방식을 넘어 모험Exploration과 활용Exploitation(현재의 가장 좋은 조건으로 실행)의 혼합 방식을 사용합니다.
이 알고리즘의 배경은 MDP, 마르코프 의사결정 프로세스라는 환경을 바탕으로 합니다.
첫째, 마르코프의 프로세스는 특정한 상태State에서의 확률Probability 쌍으로서, 여기서 확률은 지금의 상태가 미래의 상태로 될 가능성을 의미합니다.
둘째는 보상Reward의 의미, 즉 에이전트가 전체 환경으로부터 매번 행동을 할 때마다 얻을 수 있는 값을 더하게 됩니다.
셋째로는 감가율Discount Factor를 반영하는데, 이는 현재와 미래의 가치가 다르기 때문입니다. 보통 0에서부터 1사이의 소수값을 감마γ 로서 수렴하는 값을 나타내도록 합니다.
이 세 가지가 MDP의 핵심 요소로서, 에이전트가 각 상태에서 가장 큰 값의 보상을 얻기 위해서 최적의 행동하는 것을 수식으로 표현하게 됩니다.
'Track of Edu' 카테고리의 다른 글
리드잇진 ReadIt Zine, #2 (0) | 2021.12.15 |
---|---|
제목 분석. 패턴이란? 리팩터링이란? (0) | 2021.11.29 |
북리뷰_패턴을 활용한 리팩터링 (0) | 2021.11.25 |
Kotlin 둘 (0) | 2019.09.18 |
Kotlin 하나 (0) | 2019.09.17 |