강화학습 2 (policy gradient) - 1. 강화학습의 Policy Gradient 기반 방법론에 대해 알아봅니다.
2. REINFORCE, Actor-Critic 등 간단한 Policy Gradient 기반 에이전트 구현 방법에 대해 학습합니다.

강화학습 2 (policy gradient)

1. 강화학습의 Policy Gradient 기반 방법론에 대해 알아봅니다.
2. REINFORCE, Actor-Critic 등 간단한 Policy Gradient 기반 에이전트 구현 방법에 대해 학습합니다.
강의수
5
학습자수
149
수강평
5.0(총3명)
짹더코딩 2020-07-06
REINFORCE와 Actor-critic의 전반적인 이론과 실질적인 코드를 볼 수 있어서 정말 좋았습니다.
리뷰
  • 학습내용
    1. 강화학습의 Policy Gradient 기반 방법론에 대해 알아봅니다.
    2. REINFORCE, Actor-Critic 등 간단한 Policy Gradient 기반 에이전트 구현 방법에 대해 학습합니다.
    학습대상
    MDP, Reward, Value 등 강화학습 기초 개념을 이해하고 있으신 분
    * 강화학습의 기초 개념에 대한 이해가 부족하신 분은 아래 과정을 먼저 학습하시길 추천합니다.
     ▶ 강화학습 입문하기 : https://tacademy.skplanet.com/live/player/onlineLectureDetail.action?seq=163

    <실습환경>
    * 본 세미나는 구글 콜랩에서 진행되었습니다. 
    * 구글 콜랩 사용이 익숙하지 않으신 분은 아래 과정을 먼저 학습하시길 추천합니다.
     ▶Colab 사용환경 준비 : https://tacademy.skplanet.com/live/player/onlineLectureDetail.action?seq=157 


    * 본 강의는 2019. 11. 21(목)에 진행된 제64차 토크ON세미나 동영상입니다.
    강사, 학습기간, 이수기준 안내
    강사 노승은 엔씨소프트
    학습기간 수강신청일로부터 30일
    이수기준 진도 100% 완료
  • [1강] 강화학습 기초 Review - MDP, Value, Policy, 벨만 방정식, MC, TD

    • 강의시간 41분

    [2강] Policy Gradient I - 개요

    • 강의시간 39분

    [3강] Policy Gradient II - REINFORCE 실습

    • 강의시간 36분

    [4강] Policy Gradient III - Vanilla Actor Critic

    • 강의시간 33분

    [5강] Policy Gradient 구현 IV - Vanilla Actor Critic 실습

    • 강의시간 23분

    ▶ 강의자료

    ▶ 사전 학습자료

페이스북 서비스

  • T아카데미 페이스북
  • Smartteen AppClub 페이스북
  • SK플래닛 페이스북
  • 멘토링