본문 영역으로 바로가기
 

강좌 검색

B.인공지능.8-Reinforcement Learning Explained(중급)

강의소개

이 과정은 인공 지능 분야의 Microsoft 전문 프로그램의 일부입니다.

강화학습 (RL)은 에이전트가 목표를 달성하기 위해 환경과 상호 작용하여 학습하는 기계학습 영역입니다.

이 과정에서는 강화학습의 세계를 소개합니다. 강화학습 문제를 구성하는 방법을 배우고 뉴스 추천, 그리드 세계에서 탐색하는 방법 배우기, 카트 폴 균형 조정과 같은 고전적인 예를 다루기 시작합니다.

다중 슬롯 머신, 동적 프로그래밍, TD (시간차) 학습에서 기본 알고리즘을 탐색하고 특히 딥 러닝을 사용하여 함수 근사를 사용하여 더 큰 상태 공간으로 진행합니다. 또한 정책 경사 및 행위자 비판 방법을 사용하여 최상의 정책을 검색하는데 초점을 맞춘 알고리즘에 대해 배웁니다. 그 과정에서 Minecraft 게임을 기반으로 구축 된 인공 지능 실험 및 연구 플랫폼인 Project Malmo를 소개합니다.

학습목록

  • 강화 학습 문제
  • Markov 의사 결정 과정
  • Bandits-적기
  • 동적 프로그래밍
  • 시간차 학습
  • 대략적인 솔루션 방법
  • 정책 경사 및 배우 비평가
  • 작동하는 RL

강사소개

Jonathan Sanito

Jonathan Sanito

수석 콘텐츠 개발자
Microsoft

Jonathan은 데이터 및 분석 온라인 교육에 주력하는 Microsoft의 콘텐츠 개발자 및 프로젝트 관리자로 일하고 있습니다. 그는 Microsoft Dynamics NAV에서 Windows Active Directory에 이르기까지 개발자 및 IT 전문가 대상 교육에 참여했습니다.

Microsoft에 오기 전에 Jonathan은 Microsoft 파트너의 컨설턴트로 일하면서 Microsoft Dynamics NAV 솔루션을 구현했습니다.

Roland Fernandez

Roland Fernandez

딥 러닝 테크놀로지 센터 선임 연구원 겸 AI 학교 강사
Microsoft Research AI

Roland는 Microsoft Research AI의 Deep Learning Technology Center에서 연구원 및 AI School 강사로 일하고 있습니다. 그의 관심 분야는 강화 학습, 자율적 멀티 태스킹 학습, 상징적 표현, AI 교육, 정보 시각화 및 HCI입니다. DLTC에 오기전에 Roland는 시각화 및 HCI 프로젝트, 특히 SandDance 프로젝트를 수행하는 MSR의 VIBE 그룹에서 일했습니다. MSR 이전에 Roland는 자연 사용자 인터페이스, 활동 기반 컴퓨팅, 고급 프로토 타이핑, 프로그래머 도구, 운영 체제 및 데이터베이스 영역에서 Microsoft 및 기타 회사에서 근무했습니다.

Adith Swaminathan

Adith Swaminathan

연구원
Microsoft Research AI

Adith는 Microsoft Research의 Deep Learning Technology Center 연구원입니다. 그는 기계학습을 사용하여 인간중심시스템을 개선할 수 있는 원리와 알고리즘을 연구합니다. Adith는 2015-16 학년도에 암스테르담 대학의 정보 및 언어처리시스템 그룹을 방문하고 2015년 여름에 Microsoft Research NYC의 기계 학습 그룹인 Computer Human Interactive Learning 그룹 (현재는 Machine Teaching Group이라고 함)에 인턴을했습니다. 2013년 여름에는 Microsoft Research Redmond에서, 2012년 여름에는 Microsoft Research의 Search Labs에서 근무했으며, 2010년 6월부터 2011년 7월까지 14개월 동안 Tower Research Capital에서 전략가로 일했습니다.

Kenneth Tran

Kenneth Tran

책임 연구원
Microsoft Research AI

Kenneth는 딥러닝 기술 센터의 수석 연구원입니다. 그는 최적화 알고리즘에서 분산 시스템에 이르기까지 기계학습에 폭 넓은 관심을 가지고 있습니다. 그의 현재 주요 연구 분야는 정책을 벗어난 학습 및 샘플 효율적인 방법, 안전한 탐색, 역 강화 학습 및 드론 제어, 데이터 센터 에너지 최적화, 실내 농업 최적화 등을 포함한 실제 최적 제어 애플리케이션에 초점을 맞춘 심층 강화 학습입니다.

Katja Hofmann

Katja Hofmann

연구원
Microsoft Research AI

Katja는 Microsoft Research Cambridge의 Machine Intelligence and Perception 그룹 연구원입니다. 그녀는 지능형 기술 개발을 위한 실험 플랫폼으로 인기게임인 Minecraft를 사용하는 Project Malmo의 연구 책임자입니다. 그녀의 장기적인 목표는 사람들과 협력하는 방법을 배우고, 사용자에게 권한을 부여하고, 복잡한 실제 문제를 해결하는데 도움이 되는 AI 시스템을 개발하는 것입니다. Project Malmo 외부에서 Katja는 정보 검색을 위한 온라인평가 및 대화 형 학습 작업을 수행합니다. 이는 기계학습을 인공 지능에 적용하여 보다 지능적인 검색 및 추천 시스템을 개발하는 방법을 이해하는 것을 의미합니다.

Matthew Hausknecht

Matthew Hausknecht

연구원
Microsoft Research AI

Matthew는 Microsoft Research의 연구원입니다. 그의 관심사는 지능형 에이전트의 기능을 확장하는 것입니다. 그의 주요 연구는 강화 학습과 딥러닝의 교차점입니다. Matthew는 오스틴에있는 텍사스 대학교에서 Peter Stone의 감독하에 박사 학위를 받았습니다.

About this course

This course is part of the Microsoft Professional Program in Artificial Intelligence.

Reinforcement Learning (RL) is an area of machine learning, where an agent learns by interacting with its environment to achieve a goal.

In this course, you will be introduced to the world of reinforcement learning. You will learn how to frame reinforcement learning problems and start tackling classic examples like news recommendation, learning to navigate in a grid-world, and balancing a cart-pole.

You will explore the basic algorithms from multi-armed bandits, dynamic programming, TD (temporal difference) learning, and progress towards larger state space using function approximation, in particular using deep learning. You will also learn about algorithms that focus on searching the best policy with policy gradient and actor critic methods. Along the way, you will get introduced to Project Malmo, a platform for Artificial Intelligence experimentation and research built on top of the Minecraft game.

What you'll learn

  • Reinforcement Learning Problem
  • Markov Decision Process
  • Bandits
  • Dynamic Programming
  • Temporal Difference Learning
  • Approximate Solution Methods
  • Policy Gradient and Actor Critic
  • RL that Works

Meet the instructors

Jonathan Sanito

Jonathan Sanito

Senior Content Developer
Microsoft

Jonathan works as a content developer and project manager for Microsoft focusing in Data and Analytics online training. He has worked with trainings for developer and IT pro audiences, from Microsoft Dynamics NAV to Windows Active Directory.

Before coming to Microsoft, Jonathan worked as a consultant for a Microsoft partner, implementing Microsoft Dynamics NAV solutions.

Roland Fernandez

Roland Fernandez

Senior Researcher and AI School Instructor, Deep Learning Technology Center
Microsoft Research AI

Roland works as a researcher and AI School instructor in the Deep Learning Technology Center of Microsoft Research AI. His interests include reinforcement learning, autonomous multitask learning, symbolic representation, AI education, information visualization, and HCI. Before coming to the DLTC, Roland worked in the VIBE group of MSR doing visualization and HCI projects, most notably the SandDance project. Before MSR, Roland worked (at Microsoft and other companies) in the areas of Natural User Interfaces, Activity Based Computing, Advanced Prototyping, Programmer Tools, Operating Systems, and Databases.

Adith Swaminathan

Adith Swaminathan

Researcher
Microsoft Research AI

Adith is a researcher at the Deep Learning Technology Center at Microsoft Research. He studies principles and algorithms that can improve human-centered systems using machine learning. Adith spent the 2015-16 academic year visiting the Information and Language Processing Systems group at the University of Amsterdam, interned with the Machine Learning group at Microsoft Research NYC during the summer of 2015, Computer Human Interactive Learning group (now called Machine Teaching Group) at Microsoft Research Redmond during the summer of 2013, Search Labs at Microsoft Research during the summer of 2012, and worked as a strategist with Tower Research Capital for 14 months from June 2010 – July 2011.

Kenneth Tran

Kenneth Tran

Principal Research Engineer
Microsoft Research AI

Kenneth is a Principal Research Engineer at the Deep Learning Technology Center. He has wide interest in Machine Learning spanning from optimization algorithms to distributed systems. His current main research pursuit is deep reinforcement learning with focus on off-policy learning and sample efficient methods, safe exploration, reverse reinforcement learning and real-world optimal control applications, including drones control, data center energy optimization, indoor farming optimization, etc.

Katja Hofmann

Katja Hofmann

Researcher
Microsoft Research AI

Katja is a researcher at the Machine Intelligence and Perception group at Microsoft Research Cambridge. She is the research lead of Project Malmo, which uses the popular game Minecraft as an experimentation platform for developing intelligent technology. Her long-term goal is to develop AI systems that learn to collaborate with people, to empower their users and help solve complex real-world problems. Outside of Project Malmo, Katja works on online evaluation and interactive learning for information retrieval, which means understanding how we can apply machine learning an artificial intelligence to develop more intelligent search and recommendation systems.

Matthew Hausknecht

Matthew Hausknecht

Researcher
Microsoft Research AI

Matthew is a researcher at Microsoft Research. His interests involve expanding the capabilities of intelligent agents. His main research is at the intersection of Reinforcement Learning and Deep Learning. Matthew received his PhD from the University of Texas at Austin under the supervision of Peter Stone.

키워드: 인공지능
수강신청