이 강좌에 대하여

최근 조회 72,277
공유 가능한 수료증
완료 시 수료증 획득
100% 온라인
지금 바로 시작해 나만의 일정에 따라 학습을 진행하세요.
다음 특화 과정의 4개 강좌 중 3번째 강좌:
유동적 마감일
일정에 따라 마감일을 재설정합니다.
중급 단계

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

완료하는 데 약 21시간 필요
영어

귀하가 습득할 기술

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
공유 가능한 수료증
완료 시 수료증 획득
100% 온라인
지금 바로 시작해 나만의 일정에 따라 학습을 진행하세요.
다음 특화 과정의 4개 강좌 중 3번째 강좌:
유동적 마감일
일정에 따라 마감일을 재설정합니다.
중급 단계

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

완료하는 데 약 21시간 필요
영어

제공자:

Placeholder

앨버타 대학교

Placeholder

Alberta Machine Intelligence Institute

강의 계획 - 이 강좌에서 배울 내용

콘텐츠 평가Thumbs Up92%(1,888개의 평가)Info
1

1

완료하는 데 1시간 필요

Welcome to the Course!

완료하는 데 1시간 필요
2개 동영상 (총 12분), 2 개의 읽기 자료
2개의 동영상
Meet your instructors!8m
2개의 읽기 자료
Read Me: Pre-requisites and Learning Objectives10m
Reinforcement Learning Textbook10m
완료하는 데 5시간 필요

On-policy Prediction with Approximation

완료하는 데 5시간 필요
13개 동영상 (총 69분), 2 개의 읽기 자료, 2 개의 테스트
13개의 동영상
Generalization and Discrimination5m
Framing Value Estimation as Supervised Learning3m
The Value Error Objective4m
Introducing Gradient Descent7m
Gradient Monte for Policy Evaluation5m
State Aggregation with Monte Carlo7m
Semi-Gradient TD for Policy Evaluation3m
Comparing TD and Monte Carlo with State Aggregation4m
Doina Precup: Building Knowledge for AI Agents with Reinforcement Learning7m
The Linear TD Update3m
The True Objective for TD5m
Week 1 Summary4m
2개의 읽기 자료
Module 1 Learning Objectives10m
Weekly Reading: On-policy Prediction with Approximation40m
1개 연습문제
On-policy Prediction with Approximation30m
2

2

완료하는 데 5시간 필요

Constructing Features for Prediction

완료하는 데 5시간 필요
11개 동영상 (총 52분), 2 개의 읽기 자료, 2 개의 테스트
11개의 동영상
Generalization Properties of Coarse Coding5m
Tile Coding3m
Using Tile Coding in TD4m
What is a Neural Network?3m
Non-linear Approximation with Neural Networks4m
Deep Neural Networks3m
Gradient Descent for Training Neural Networks8m
Optimization Strategies for NNs4m
David Silver on Deep Learning + RL = AI?9m
Week 2 Review2m
2개의 읽기 자료
Module 2 Learning Objectives10m
Weekly Reading: On-policy Prediction with Approximation II40m
1개 연습문제
Constructing Features for Prediction28m
3

3

완료하는 데 5시간 필요

Control with Approximation

완료하는 데 5시간 필요
7개 동영상 (총 41분), 2 개의 읽기 자료, 2 개의 테스트
7개의 동영상
Episodic Sarsa in Mountain Car5m
Expected Sarsa with Function Approximation2m
Exploration under Function Approximation3m
Average Reward: A New Way of Formulating Control Problems10m
Satinder Singh on Intrinsic Rewards12m
Week 3 Review2m
2개의 읽기 자료
Module 3 Learning Objectives10m
Weekly Reading: On-policy Control with Approximation40m
1개 연습문제
Control with Approximation40m
4

4

완료하는 데 6시간 필요

Policy Gradient

완료하는 데 6시간 필요
11개 동영상 (총 55분), 2 개의 읽기 자료, 2 개의 테스트
11개의 동영상
Advantages of Policy Parameterization5m
The Objective for Learning Policies5m
The Policy Gradient Theorem5m
Estimating the Policy Gradient4m
Actor-Critic Algorithm5m
Actor-Critic with Softmax Policies3m
Demonstration with Actor-Critic6m
Gaussian Policies for Continuous Actions7m
Week 4 Summary3m
Congratulations! Course 4 Preview2m
2개의 읽기 자료
Module 4 Learning Objectives10m
Weekly Reading: Policy Gradient Methods40m
1개 연습문제
Policy Gradient Methods45m

검토

PREDICTION AND CONTROL WITH FUNCTION APPROXIMATION의 최상위 리뷰

모든 리뷰 보기

강화 학습 특화 과정 정보

강화 학습

자주 묻는 질문

궁금한 점이 더 있으신가요? 학습자 도움말 센터를 방문해 보세요.