RL 논문 읽기 01. Playing Atari with Deep Reinforcement Learning – Mnih et al.

Abstract

이 연구는 강화학습을 사용해서 고차원 감각 입력으로부터 직접적으로 제어 규칙을 성공적으로 학습한 첫 딥러닝 모델을 제시한다. Q-learning으로 학습된 이 모델은 raw 픽셀을 입력받아 future reward를 추정하는 value function을 출력하는 convolutional nerual network이다. 여기에서는 구조와 학습 알고리즘을 조정하지 않고 7개의 아타리 2600 게임에 적용시켰다. 이러한 방법은 6개의 게임에서 이전 연구들과 비교해 높은 성능을 보였고, 3개의 게임에서는 전문적인 사람의 기록을 뛰어넘었다.

Introduction

에이전트를 비전과 스피치같은 고차원 감각 정보에서 바로 제어하기 위한 학습은 강화학습에서 오랫동안 지속된 문제였다. 이러한 영역에서 작동했던 대부분의 성공적인 강화학습 어플리케이션들은 수작업으로 만들어진 선형적 value function과 제어규칙이 융합된 feature에 의존해왔다. 이러한 시스템의 성능은 분명하게도 이러한 feature의 질에 크게 의존한다.

최근 딥러닝의 진보는 raw한 감각 정보에서부터 고차원 feature를 추출해낼 수 있게 되었다. 이러한 방법들은 convolutional networks, multilayer perceptrons, restricted Boltzmann machines, recurrent neural networks와 같은 다양한 인공신경망 구조를 활용하며, supervised와 unsupervised 학습 모두를 활용하고 있다.

그러나 강화학습은 딥러닝 관점에서 다양한 문제를 제시한다. 첫번째로, 대부분의 성공한 딥러닝 어플리케이션은 대량의 labelled training data를 요구한다. 반면에 강화학습 알고리즘은 희박하고 손상되있으며 지연된 스칼라 reward signal을 학습한다. 액션과 결과 보상간의 어쩌면 엄청 큰 시간일 수도 있는 이러한 딜레이는 지도 학습에서 보이는 입력과 목표간의 직접적인 연관관계에 비교했을 때 특히 주눅이 든다. 다른 이슈는 강화학습에서는 강하게 관련이 있는 상태들의 시퀀스를 다루지만, 대부분의 딥러닝은 이러한 데이터 샘플을 독립적인 것으로 가정한다는 것이다. 게다가, 딥러닝 방법에서는 데이터 분포가 고정되어있다고 가정하기 때문에 강화학습에서 알고리즘이 새로운 행동을 학습하게 되었을 때 데이터 분포가 변하는 것은 문제가 될 수 있다.

이 연구에서는 복잡한 RL 환경에서 raw video를 convolutional neural network를 통해 제어 규칙을 성공적으로 학습하여 이러한 문제를 해결할 수 있다는 것을 입증한다. 이 네트워크는 Q-laerning 알고리즘과 확률적(stochastic) gradient descent로 weights를 갱신하며 학습된다. 데이터의 관련성과 정적이지 않은 분포에 대한 문제를 완화하기 위해 랜덤하게 이전 transition들을 표본추출하고 학습 분포를 많은 과거 행동에서 부드럽게하는 experience replay 메커니즘을 사용했다.

Background

이 연구에서는 아타리 에뮬레이터라는 환경 \epsilon과 actions, observations, rewards의 시퀀스의 측면에서 task들을 고려했다. 각 타임스텝에서 에이전트는 게임 액션의 집합 A = \{1, ..., K\}로부터 action a_t 를 선택한다. 이 액션은 에뮬레이터로 전송되며 내부 state와 게임 score를 변경한다. 일반적으로, ε는 확률적이다(stochastic). 이 에뮬레이터의 내부 state는 에이전트에 의해 관찰되지 않지만 대신에 에이전트는 에뮬레이터의 현재 스크린에 표시되는 raw pixel 값의 벡터인 이미지를 관찰한다. 덧붙여 그것은 게임 점수의 변화에 따른 reward r_t를 받는다.

에이전트는 현재 스크린의 이미지만 관찰할 수 있기 때문에, task는 부분적으로 관찰되며 많은 에뮬레이터 states는 인지적으로 대체된다. (즉, 현재 스크린 x_t에서부터 완벽하게 현재 상황을 이해하기는 불가능하다.) 그래서 actions과 observations의 시퀀스를 s_t = s_1, a_1, x_2, ..., a_{t-1}, x_t}로 고려하며 이러한 시퀀스에 맞는 게임 전략을 학습한다. 에뮬레이터의 모든 시퀀스들은 유한 개의 타임스텝 내에 끝난다고 가정된다. 이러한 형식은 크지만 유한한 Markov decision process (MDP)를 발생시킨다. 결과적으로 이 연구에서는 완벽한 시퀀스 s_t를 시간 t에 대한 state 표현으로 사용함으로써, MDP를 위한 기본적인 강화학습 방법을 적용시킬 수 있게 된다.

에이전트의 목표는 future rewards를 최대화하는 방향으로 actions을 선택하면서 에뮬레이터와 상호작용하는 것이다. 이 연구에서는 future rewards를 \gamma라는 팩터에 의해 각 시간스텝마다 discounted되도록 기본 가정을 만들고, 시간 t에서의 future discounted return을 R_t = \sum^T_{t'=t}{\gamma^{t'-t}r_t}로 정의한다.

No Responses

  1. StevMync 댓글:
    댓글이 검토 대기 중입니다. 미리보기이므로 댓글이 승인 된 후에 표시됩니다.

    Progesterone Florgynal Cod Only cialis 20mg for sale Cialis 5 Mg Funciona

  2. StevMync 댓글:
    댓글이 검토 대기 중입니다. 미리보기이므로 댓글이 승인 된 후에 표시됩니다.

    Buy Tamoxifen Citrate Research Viagra Cialis Discount buy viagra Buy Viagra Paypal Accepted

  3. StevMync 댓글:
    댓글이 검토 대기 중입니다. 미리보기이므로 댓글이 승인 된 후에 표시됩니다.

    Baclofene Quel Dosage Priligy Janssen cialis Viagra Espagne Sans Ordonnance Natural Alternative To Orlistat

  4. StevMync 댓글:
    댓글이 검토 대기 중입니다. 미리보기이므로 댓글이 승인 된 후에 표시됩니다.

    order accutane online from canada Cialis Douleurs Musculaires cialis 20mg for sale Buy Now Online Zentel Cura Con Priligy

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다