이 강좌에 대하여

최근 조회 98,705
공유 가능한 수료증
완료 시 수료증 획득
100% 온라인
지금 바로 시작해 나만의 일정에 따라 학습을 진행하세요.
다음 특화 과정의 4개 강좌 중 2번째 강좌:
유동적 마감일
일정에 따라 마감일을 재설정합니다.
중급 단계

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode

완료하는 데 약 24시간 필요
영어

귀하가 습득할 기술

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
공유 가능한 수료증
완료 시 수료증 획득
100% 온라인
지금 바로 시작해 나만의 일정에 따라 학습을 진행하세요.
다음 특화 과정의 4개 강좌 중 2번째 강좌:
유동적 마감일
일정에 따라 마감일을 재설정합니다.
중급 단계

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode

완료하는 데 약 24시간 필요
영어

제공자:

Placeholder

앨버타 대학교

Placeholder

Alberta Machine Intelligence Institute

강의 계획 - 이 강좌에서 배울 내용

콘텐츠 평가Thumbs Up92%(2,458개의 평가)Info
1

1

완료하는 데 1시간 필요

Welcome to the Course!

완료하는 데 1시간 필요
2개 동영상 (총 10분), 2 개의 읽기 자료
2개의 동영상
Meet your instructors!8m
2개의 읽기 자료
Reinforcement Learning Textbook10m
Read Me: Pre-requisites and Learning Objectives10m
2

2

완료하는 데 6시간 필요

Monte Carlo Methods for Prediction & Control

완료하는 데 6시간 필요
11개 동영상 (총 58분), 3 개의 읽기 자료, 2 개의 테스트
11개의 동영상
Using Monte Carlo for Prediction6m
Using Monte Carlo for Action Values2m
Using Monte Carlo methods for generalized policy iteration2m
Solving the Blackjack Example3m
Epsilon-soft policies5m
Why does off-policy learning matter?4m
Importance Sampling4m
Off-Policy Monte Carlo Prediction5m
Emma Brunskill: Batch Reinforcement Learning12m
Week 1 Summary3m
3개의 읽기 자료
Module 1 Learning Objectives10m
Weekly Reading40m
Chapter Summary40m
1개 연습문제
Graded Quiz30m
3

3

완료하는 데 5시간 필요

Temporal Difference Learning Methods for Prediction

완료하는 데 5시간 필요
6개 동영상 (총 37분), 2 개의 읽기 자료, 2 개의 테스트
6개의 동영상
Rich Sutton: The Importance of TD Learning6m
The advantages of temporal difference learning5m
Comparing TD and Monte Carlo5m
Andy Barto and Rich Sutton: More on the History of RL12m
Week 2 Summary2m
2개의 읽기 자료
Module 2 Learning Objectives10m
Weekly Reading40m
1개 연습문제
Practice Quiz30m
4

4

완료하는 데 6시간 필요

Temporal Difference Learning Methods for Control

완료하는 데 6시간 필요
9개 동영상 (총 30분), 3 개의 읽기 자료, 2 개의 테스트
9개의 동영상
Sarsa in the Windy Grid World3m
What is Q-learning?3m
Q-learning in the Windy Grid World3m
How is Q-learning off-policy?4m
Expected Sarsa3m
Expected Sarsa in the Cliff World3m
Generality of Expected Sarsa1m
Week 3 Summary2m
3개의 읽기 자료
Module 3 Learning Objectives10m
Weekly Reading40m
Chapter summary40m
1개 연습문제
Practice Quiz30m

검토

SAMPLE-BASED LEARNING METHODS의 최상위 리뷰

모든 리뷰 보기

강화 학습 특화 과정 정보

강화 학습

자주 묻는 질문

궁금한 점이 더 있으신가요? 학습자 도움말 센터를 방문해 보세요.