이 강좌에 대하여

최근 조회 228,270
공유 가능한 수료증
완료 시 수료증 획득
100% 온라인
지금 바로 시작해 나만의 일정에 따라 학습을 진행하세요.
다음 특화 과정의 4개 강좌 중 1번째 강좌:
유동적 마감일
일정에 따라 마감일을 재설정합니다.
중급 단계

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

완료하는 데 약 15시간 필요
영어

귀하가 습득할 기술

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
공유 가능한 수료증
완료 시 수료증 획득
100% 온라인
지금 바로 시작해 나만의 일정에 따라 학습을 진행하세요.
다음 특화 과정의 4개 강좌 중 1번째 강좌:
유동적 마감일
일정에 따라 마감일을 재설정합니다.
중급 단계

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

완료하는 데 약 15시간 필요
영어

제공자:

Placeholder

앨버타 대학교

Placeholder

Alberta Machine Intelligence Institute

강의 계획 - 이 강좌에서 배울 내용

콘텐츠 평가Thumbs Up93%(9,558개의 평가)Info
1

1

완료하는 데 1시간 필요

Welcome to the Course!

완료하는 데 1시간 필요
4개 동영상 (총 20분), 2 개의 읽기 자료
4개의 동영상
Course Introduction5m
Meet your instructors!8m
Your Specialization Roadmap3m
2개의 읽기 자료
Reinforcement Learning Textbook10m
Read Me: Pre-requisites and Learning Objectives10m
완료하는 데 4시간 필요

An Introduction to Sequential Decision-Making

완료하는 데 4시간 필요
8개 동영상 (총 46분), 3 개의 읽기 자료, 2 개의 테스트
8개의 동영상
Learning Action Values4m
Estimating Action Values Incrementally5m
What is the trade-off?7m
Optimistic Initial Values6m
Upper-Confidence Bound (UCB) Action Selection5m
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8m
Week 1 Summary3m
3개의 읽기 자료
Module 1 Learning Objectives10m
Weekly Reading30m
Chapter Summary30m
1개 연습문제
Sequential Decision-Making45m
2

2

완료하는 데 3시간 필요

Markov Decision Processes

완료하는 데 3시간 필요
7개 동영상 (총 36분), 2 개의 읽기 자료, 2 개의 테스트
7개의 동영상
Examples of MDPs4m
The Goal of Reinforcement Learning3m
Michael Littman: The Reward Hypothesis12m
Continuing Tasks5m
Examples of Episodic and Continuing Tasks3m
Week 2 Summary1m
2개의 읽기 자료
Module 2 Learning Objectives10m
Weekly Reading30m
1개 연습문제
MDPs45m
3

3

완료하는 데 3시간 필요

Value Functions & Bellman Equations

완료하는 데 3시간 필요
9개 동영상 (총 56분), 3 개의 읽기 자료, 2 개의 테스트
9개의 동영상
Value Functions6m
Rich Sutton and Andy Barto: A brief History of RL7m
Bellman Equation Derivation6m
Why Bellman Equations?5m
Optimal Policies7m
Optimal Value Functions5m
Using Optimal Value Functions to Get Optimal Policies8m
Week 3 Summary4m
3개의 읽기 자료
Module 3 Learning Objectives10m
Weekly Reading30m
Chapter Summary13m
2개 연습문제
[Practice] Value Functions and Bellman Equations45m
Value Functions and Bellman Equations45m
4

4

완료하는 데 4시간 필요

Dynamic Programming

완료하는 데 4시간 필요
10개 동영상 (총 72분), 3 개의 읽기 자료, 2 개의 테스트
10개의 동영상
Iterative Policy Evaluation8m
Policy Improvement4m
Policy Iteration8m
Flexibility of the Policy Iteration Framework4m
Efficiency of Dynamic Programming5m
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7m
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21m
Week 4 Summary2m
Congratulations!3m
3개의 읽기 자료
Module 4 Learning Objectives10m
Weekly Reading30m
Chapter Summary30m
1개 연습문제
Dynamic Programming45m

검토

FUNDAMENTALS OF REINFORCEMENT LEARNING의 최상위 리뷰

모든 리뷰 보기

강화 학습 특화 과정 정보

강화 학습

자주 묻는 질문

궁금한 점이 더 있으신가요? 학습자 도움말 센터를 방문해 보세요.