4. 자료와 학습(중급) part1. 머신 러닝(3) : 강화학습

Part1. 머신 러닝(3) : 강화 학습​

 강화 학습(Reinforcement Learning)이라는 말을 들어본 적이 있나요? 2016년 인공지능 프로그램인 알파고와 이세돌 9단의 바둑 대결을 봤나요? 구글 딥마인드가 설계한 알파고의 핵심 알고리즘도 강화학습을 기반으로 합니다. 알파고는 인터넷에 공개된 정보를 바탕으로 기본적인 바둑의 정석을 익힌 후 무수히 많은 시행착오를 통해 스스로 바둑을 학습했습니다. 그 결과 지금은 인간의 수준을 넘어서는 경기력을 보여줍니다.

 강화학습이란 행동심리학자인 스키너의 실험에서 말하는 강화와 보상의 원리로부터 영감을 받은 머신러닝 학습의 한 방법입니다.

강화 학습(Reinforcement Learning)

시행착오 개념이 적용된 강화학습의 방식은 아래와 같습니다.

① 에이전트는 환경으로부터 상태를 관측합니다.

② 에이전트는 그에 따른 적절한 행동을 합니다.

③ 에이전트는 행동에 따라 환경으로부터 적절한 보상을 얻습니다.

④ ①,②,③ 과정을 통틀어 경험이라 하며, 이 경험을 반복하면서 환경으로부터 얻은 보상을 최대화하는 과업을 수행해야 합니다.

 이해하기 쉽기 위해 좀 더 구체적으로 알아보겠습니다. 위의 그림에서 로봇에게는 갈림길에서 코인을 많이 얻는 길을 선택해야하는 ‘과업’이 주어졌습니다. 로봇이 갈림길에서 어느 쪽을 선택해야 코인을 더 많이 얻을 수 있나요? 왼쪽길입니다. 강화학습은 에이전트(로봇)가 정해진 환경(갈림길)에서 현재의 상태를 인식하고, 행동을 통해 보상(코인)을 최대화하는 방향으로 학습하는 알고리즘을 말합니다. 보상이 커지도록 하는 행동은 더 자주 하고, 보상을 줄이는 행동은 덜하게 됩니다.

 강화(Reinforcement)는 시행착오(Trial and Error)를 통해 학습하는 방법 중 하나입니다. 에이전트(agent)는 환경(environment)으로부터 상태(state)를 관측(observation)하고 이에 따른 적절한 행동(action)을 하면 이 행동을 기준으로 환경으로부터 보상(reward)을 받습니다. 이 때, 관측은 상태로 바뀌게 됩니다. 에이전트는 ‘관측-행동-보상’ 상호작용을 반복하면서 환경으로부터 얻은 보상을 최대화하도록 과업을 수행하는데, 과업을 수행하기 위한 일련의 과정을 ‘강화학습’이라고 합니다.

강화 학습(Reinforcement Learning)과 자율주행 시스템

 강화학습으로 학습한 자율주행 시스템이 주차하는 과업을 어떻게 해결할까요? 자율주행 시스템(에이전트)이 정확한 주차 위치에 정확한 방향으로 주차하는 것이 이 과업의 목표입니다. 환경은 자율주행 시스템을 제외한 모든 주변 조건을 말하며 차의 이동, 근처 다른 차, 주차 주변에 사람 등이 포함될 수 있습니다.

에이전트는 훈련하면서 카메라, GPS와 같은 센서의 수치(관찰)를 이용하여 조향, 제동, 가속 명령(행동)을 생성합니다.관찰로부터 정확한 행동을 생성하는 방법을 학습하기 위해(정책 튜닝) 에이전트는 시도와 실패 과정을 활용하여 반복적으로 주차를 시도합니다. 보상 신호를 제공함으로써 적절한 시도인지 평가하고 학습 과정에 방향을 제시합니다.

자율주행 주차에서는 학습 알고리즘이 훈련을 감독합니다. 학습 알고리즘은 수집된 센서 수치와 행동, 보상을 이용하여 에이전트의 정책을 튜닝하는 역할을 합니다. 차량의 컴퓨터는 훈련을 마친 후 튜닝된 정책과 센서 수치만을 이용하여 주차할 수 있어야 합니다.

Part1. 머신 러닝(3) : 강화 학습​ Quiz

1. 강화학습은 시행착오 개념이 적용되었으며 행동심리학에 기초한 인공지능의 학습 방법이다. (O, X)

Correct! Wrong!

2. 인공지능은 강화학습을 통해 보상을 최대화하는 방향으로 학습하며 보상을 줄이는 행동은 더 자주 하고, 보상이 커지도록 하는 행동은 덜하게 된다. (O, X)

Correct! Wrong!

3. 시행착오 개념이 적용된 강화학습의 방식을 순서대로 바르게 나열한 것을 고르시오.

Correct! Wrong!

① 에이전트는 행동에 따라 환경으로부터 적절한 보상을 얻습니다. ② 에이전트는 그에 따른 적절한 행동을 합니다. ③ 에이전트는 환경으로부터 상태를 관측합니다.