About this Course

최근 조회 150,200

100% 온라인

지금 바로 시작해 나만의 일정에 따라 학습을 진행하세요.

다음 전문 분야의 4개 강좌 중 1번째 강좌:

유동적 마감일

일정에 따라 마감일을 재설정합니다.

중급 단계

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

완료하는 데 약 19시간 필요

권장: 4-6 hours/week...

영어

자막: 영어

배울 내용

  • Check
    Formalize problems as Markov Decision Processes
  • Check
    Understand basic exploration methods and the exploration / exploitation tradeoff
  • Check
    Understand value functions, as a general-purpose tool for optimal decision-making
  • Check
    Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

귀하가 습득할 기술

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems

100% 온라인

지금 바로 시작해 나만의 일정에 따라 학습을 진행하세요.

다음 전문 분야의 4개 강좌 중 1번째 강좌:

유동적 마감일

일정에 따라 마감일을 재설정합니다.

중급 단계

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

완료하는 데 약 19시간 필요

권장: 4-6 hours/week...

영어

자막: 영어

강의 계획 - 이 강좌에서 배울 내용

콘텐츠 평가Thumbs Up93%(3,736개의 평가)Info
1

1

완료하는 데 1시간 필요

Welcome to the Course!

완료하는 데 1시간 필요
4개 동영상 (총 20분), 2 readings
4개의 동영상
Course Introduction5m
Meet your instructors!8m
Your Specialization Roadmap3m
2개의 읽기 자료
Reinforcement Learning Textbook10m
Read Me: Pre-requisites and Learning Objectives10m
완료하는 데 7시간 필요

The K-Armed Bandit Problem

완료하는 데 7시간 필요
8개 동영상 (총 46분), 3 readings, 2 quizzes
8개의 동영상
Learning Action Values4m
Estimating Action Values Incrementally5m
What is the trade-off?7m
Optimistic Initial Values6m
Upper-Confidence Bound (UCB) Action Selection5m
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8m
Week 1 Summary3m
3개의 읽기 자료
Module 2 Learning Objectives10m
Weekly Reading30m
Chapter Summary30m
1개 연습문제
Exploration/Exploitation45m
2

2

완료하는 데 3시간 필요

Markov Decision Processes

완료하는 데 3시간 필요
7개 동영상 (총 36분), 2 readings, 2 quizzes
7개의 동영상
Examples of MDPs4m
The Goal of Reinforcement Learning3m
Michael Littman: The Reward Hypothesis12m
Continuing Tasks5m
Examples of Episodic and Continuing Tasks3m
Week 2 Summary1m
2개의 읽기 자료
Module 3 Learning Objectives10m
Weekly Reading30m
1개 연습문제
MDPs45m
3

3

완료하는 데 3시간 필요

Value Functions & Bellman Equations

완료하는 데 3시간 필요
9개 동영상 (총 56분), 3 readings, 2 quizzes
9개의 동영상
Value Functions6m
Rich Sutton and Andy Barto: A brief History of RL7m
Bellman Equation Derivation6m
Why Bellman Equations?5m
Optimal Policies7m
Optimal Value Functions5m
Using Optimal Value Functions to Get Optimal Policies8m
Week 3 Summary4m
3개의 읽기 자료
Module 4 Learning Objectives10m
Weekly Reading30m
Chapter Summary13m
2개 연습문제
Value Functions and Bellman Equations45m
Value Functions and Bellman Equations45m
4

4

완료하는 데 7시간 필요

Dynamic Programming

완료하는 데 7시간 필요
10개 동영상 (총 72분), 3 readings, 2 quizzes
10개의 동영상
Iterative Policy Evaluation8m
Policy Improvement4m
Policy Iteration8m
Flexibility of the Policy Iteration Framework4m
Efficiency of Dynamic Programming5m
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7m
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21m
Week 4 Summary2m
Congratulations!3m
3개의 읽기 자료
Module 5 Learning Objectives10m
Weekly Reading30m
Chapter Summary30m
1개 연습문제
Dynamic Programming45m
4.8
166개의 리뷰Chevron Right

Fundamentals of Reinforcement Learning의 최상위 리뷰

대학: PVNov 10th 2019

I understood all the necessary concepts of RL. I've been working on RL for some time now, but thanks to this course, now I have more basic knowledge about RL and can't wait to watch other courses

대학: ABSep 7th 2019

Concepts are bit hard, but it is nice if you undersand it well, espically the bellman and dynamic programming.\n\nSometimes, visualizing the problem is hard, so need to thoroghly get prepared.

강사

강사 평가4.72/5 (129개의 평가)Info
강사의 이미지, Martha White

Martha White 

Assistant Professor
Computing Science
14,750명의 학습자
4 Courses
강사의 이미지, Adam White

Adam White 

Assistant Professor
Computing Science
14,750명의 학습자
4 Courses

제공자:

앨버타 대학교 로고

앨버타 대학교

Alberta Machine Intelligence Institute 로고

Alberta Machine Intelligence Institute

강화 학습 전문 분야 정보

The Reinforcement Learning Specialization consists of 4 courses exploring the power of adaptive learning systems and artificial intelligence (AI). Harnessing the full potential of artificial intelligence requires adaptive learning systems. Learn how Reinforcement Learning (RL) solutions help solve real-world problems through trial-and-error interaction by implementing a complete RL solution from beginning to end. By the end of this Specialization, learners will understand the foundations of much of modern probabilistic artificial intelligence (AI) and be prepared to take more advanced courses or to apply AI tools and ideas to real-world problems. This content will focus on “small-scale” problems in order to understand the foundations of Reinforcement Learning, as taught by world-renowned experts at the University of Alberta, Faculty of Science. The tools learned in this Specialization can be applied to game development (AI), customer interaction (how a website interacts with customers), smart assistants, recommender systems, supply chain, industrial control, finance, oil & gas pipelines, industrial control systems, and more....
강화 학습

자주 묻는 질문

  • 강좌에 등록하면 바로 모든 비디오, 테스트 및 프로그래밍 과제(해당하는 경우)에 접근할 수 있습니다. 상호 첨삭 과제는 이 세션이 시작된 경우에만 제출하고 검토할 수 있습니다. 강좌를 구매하지 않고 살펴보기만 하면 특정 과제에 접근하지 못할 수 있습니다.

  • 강좌를 등록하면 전문 분야의 모든 강좌에 접근할 수 있고 강좌를 완료하면 수료증을 취득할 수 있습니다. 전자 수료증이 성취도 페이지에 추가되며 해당 페이지에서 수료증을 인쇄하거나 LinkedIn 프로필에 수료증을 추가할 수 있습니다. 강좌 내용만 읽고 살펴보려면 해당 강좌를 무료로 청강할 수 있습니다.

궁금한 점이 더 있으신가요? 학습자 도움말 센터를 방문해 보세요.