본문 바로가기

Track of Edu

강화학습 1차.

1차.
강화학습Reinforcement Learning은,
머신 러닝의 한 분야로서 에이전트 / 행동 / 보상에 대한 알고리즘입니다.


다시 말해서, 에이전트가 보상을 극대화하기 위해서 어떤 행동을 해야할 것인가에 대한 학문입니다. 흔히 3 가지로 분류되는 머신러닝의 3분야 패러다임, 즉 지도Supervised 학습과 비지도 학습, 그리고 나머지 한 분야를 차지합니다.

 

지도 학습의 인풋 대비 아웃풋 등으로 측정하거나 부분의 합의 최대 등의 방식을 넘어 모험Exploration과 활용Exploitation(현재의 가장 좋은 조건으로 실행)의 혼합 방식을 사용합니다.

 

이 알고리즘의 배경은 MDP, 마르코프 의사결정 프로세스라는 환경을 바탕으로 합니다.
첫째, 마르코프의 프로세스는 특정한 상태State에서의 확률Probability 쌍으로서, 여기서 확률은 지금의 상태가 미래의 상태로 될 가능성을 의미합니다.
둘째는 보상Reward의 의미, 즉 에이전트가 전체 환경으로부터 매번 행동을 할 때마다 얻을 수 있는 값을 더하게 됩니다.
셋째로는 감가율Discount Factor를 반영하는데, 이는 현재와 미래의 가치가 다르기 때문입니다. 보통 0에서부터 1사이의 소수값을 감마γ 로서 수렴하는 값을 나타내도록 합니다.

 

이 세 가지가 MDP의 핵심 요소로서, 에이전트가 각 상태에서 가장 큰 값의 보상을 얻기 위해서 최적의 행동하는 것을 수식으로 표현하게 됩니다.

'Track of Edu' 카테고리의 다른 글

리드잇진 ReadIt Zine, #2  (0) 2021.12.15
제목 분석. 패턴이란? 리팩터링이란?  (0) 2021.11.29
북리뷰_패턴을 활용한 리팩터링  (0) 2021.11.25
Kotlin 둘  (0) 2019.09.18
Kotlin 하나  (0) 2019.09.17