본문 영역으로 바로가기
 

강좌 검색

A.데이터사이언스13-Analyzing Big Data with Microsoft R(고급)

강의소개

이 과정은 데이터 과학 분야의 Microsoft 전문 프로그램 인증서 및 빅 데이터 분야의 Microsoft 전문 프로그램 인증서의 일부입니다.

오픈 소스 프로그래밍 언어 R은 데이터 처리 및 통계 분석을 위해 오랫동안 (특히 학계에서) 인기가있었습니다. R의 강점 중 하나는 간결한 프로그래밍 언어이며 모든 종류의 분석을 수행 할 수있는 광범위한 타사 라이브러리 저장소가 있다는 것입니다. 이 두 가지 기능을 함께 사용하면 데이터 과학자가 원시 데이터에서 요약, 차트 및 완전한 보고서로 매우 빠르게 이동할 수 있습니다. 그러나 R의 한 가지 결점은 전통적으로 많은 양의 메모리를 사용한다는 것입니다. 데이터 전체를 data.frame 객체로 로드 해야하기 때문이고 데이터를 처리하는 데 종종 추가 복사본을 만들어야하기 때문입니다 (때로는 수정시 복사라고 함). 이것이 R이 학계에 비해 산업계에서 더 마지 못해 받아온 이유 중 하나입니다.

Microsoft R Server (MRS)의 주요 구성 요소는 RevoScaleR 패키지로, 대규모 데이터 세트를 메모리에 한번에 로드하지 않고도 처리 할 수있는 기능 세트를 제공하는 R 라이브러리입니다. RevoScaleR은 시간이 지남에 따라 추가되는 다양한 분산 통계 및 기계 학습 알고리즘 세트를 제공합니다. 마지막으로 RevoScaleR은 랩톱에서 개발 한 코드를 최소한의 노력으로 SQL Server 또는 Spark (내부적으로 매우 다른 인프라)와 같은 원격 서버에 배포 할 수있는 메커니즘을 제공합니다.

이 과정에서는 MRS를 사용하여 대규모 데이터 세트에 대한 분석을 실행하는 방법을 보여주고 Spark 클러스터 또는 SQL Server 데이터베이스에 배포하는 방법에 대한 몇 가지 예를 제공합니다. 완료되면 빅 데이터 문제에 R을 사용하는 방법을 알게됩니다.

RevoScaleR은 R 패키지이므로 과정 참가자가 R에 익숙하다고 가정합니다. R 데이터 구조 (벡터, 행렬, 목록, 데이터 프레임, 환경)에 대한 확실한 이해가 필요합니다. dplyr과 같은 타사 패키지에 대한 지식도 도움이됩니다.

학습목록

MRS를 사용하여 다음과 같은 대규모 데이터 세트를 읽고, 처리하고, 분석하는 방법을 배웁니다:

  • 플랫 파일의 데이터를 R의 데이터 프레임 개체로 읽고, 데이터 세트의 구조를 조사하고, 수정하고, 나중에 사용할 수 있도록 준비된 데이터 세트를 저장
  • 데이터 준비 및 변환
  • ggplot2 패키지로 필수 요약 통계를 계산하고, 교차 분석을 수행하고, 요약 함수를 작성하고, 데이터를 시각화합니다.
  • 예측 모델을 구축하고, 모델을 평가 및 비교하고, 새 데이터에 대한 예측을 생성합니다.

강의계획서

  • R에 대한 지식

강사소개

Liberty J. Munson

Jonathan Sanito

수석 콘텐츠 개발자
Microsoft

Jonathan은 데이터 및 분석 온라인 교육에 주력하는 Microsoft의 콘텐츠 개발자 및 프로젝트 관리자로 일하고 있습니다. 그는 Microsoft Dynamics NAV에서 Windows Active Directory에 이르기까지 개발자 및 IT 전문가 대상 교육에 참여했습니다.

Microsoft에 오기 전에 Jonathan은 Microsoft Dynamics NAV 솔루션을 구현하는 Microsoft 파트너의 컨설턴트로 일했습니다.

Authman Apatira

Seth Mottaghinejad

데이터 과학자
Microsoft

Seth는 Microsoft R Server를 사용하는 클라이언트 교육 및 컨설팅을 전문으로하는 Microsoft의 데이터 과학자입니다. 그의 과거 작업에는 R 및 MRS를 사용하도록 데이터 과학자 팀을 교육하고, MRS가 빅 데이터 아키텍처에 어떻게 적합한지 보여주고, SAS와 같은 도구에서 R 및 MRS 로의 마이그레이션 지원, R 성능 최적화 등이 있습니다. Microsoft에 입사하기 전에 Seth는 2015 년 5 월 Microsoft가 인수한 R 기반 빅 데이터 및 분석 회사 인 Revolution Analytics에서 분석 컨설턴트로 일했습니다. 또한 Seth는 American Express 및 Saks Fifth에서 이전 작업에서 마케팅 및 고객 분석 경험이 있습니다. 수단. 그는 열정적 인 "R-vangelist", 열렬한 아웃 도어맨 (호수와 산에 가까워지기 위해 시애틀로 이주), 아마추어 글로브 트로터입니다.

About this course

This course is part of the Microsoft Professional Program Certificate in Data Science and the Microsoft Professional Program Certificate in Big Data..

The open-source programming language R has for a long time been popular (particularly in academia) for data processing and statistical analysis. Among R's strengths are that it's a succinct programming language and has an extensive repository of third party libraries for performing all kinds of analyses. Together, these two features make it possible for a data scientist to very quickly go from raw data to summaries, charts, and even full-blown reports. However, one deficiency with R is that traditionally it uses a lot of memory, both because it needs to load a copy of the data in its entirety as a data.frame object, and also because processing the data often involves making further copies (sometimes referred to as copy-on-modify). This is one of the reasons R has been more reluctantly received by industry compared to academia.

The main component of Microsoft R Server (MRS) is the RevoScaleR package, which is an R library that offers a set of functionalities for processing large datasets without having to load them all at once in the memory. RevoScaleR offers a rich set of distributed statistical and machine learning algorithms, which get added to over time. Finally, RevoScaleR also offers a mechanism by which we can take code that we developed on our laptop and deploy it on a remote server such as SQL Server or Spark (where the infrastructure is very different under the hood), with minimal effort.

In this course, we will show you how to use MRS to run an analysis on a large dataset and provide some examples of how to deploy it on a Spark cluster or a SQL Server database. Upon completion, you will know how to use R for big-data problems.

Since RevoScaleR is an R package, we assume that the course participants are familiar with R. A solid understanding of R data structures (vectors, matrices, lists, data frames, environments) is required. Familiarity with 3rd party packages such as dplyr is also helpful.

What you'll learn

You will learn how to use MRS to read, process, and analyze large datasets including:

  • Read data from flat files into R’s data frame object, investigate the structure of the dataset and make corrections, and store prepared datasets for later use
  • Prepare and transform the data
  • Calculate essential summary statistics, do crosstabulation, write your own summary functions, and visualize data with the ggplot2 package
  • Build predictive models, evaluate and compare models, and generate predictions on new data

Course Syllabus

  • Familiarity with R

Meet the instructors

Liberty J. Munson

Jonathan Sanito

Senior Content Developer
Microsoft

Jonathan works as a content developer and project manager for Microsoft focusing in Data and Analytics online training. He has worked with trainings for developer and IT pro audiences, from Microsoft Dynamics NAV to Windows Active Directory.

Before coming to Microsoft, Jonathan worked as a consultant for a Microsoft partner, implementing Microsoft Dynamics NAV solutions.

Authman Apatira

Seth Mottaghinejad

Data Scientist
Microsoft

Seth is a data scientist at Microsoft who specializes in training and consulting clients who use Microsoft R Server. His past work includes training teams of data scientists to use R and MRS, showing how MRS fits in the big-data architecture, and helping with migration from tools such as SAS to R and MRS, and optimizing R performance. Before joining Microsoft, Seth worked as an analytics consultant at Revolution Analytics, the R-based big data and analytics company that was acquired by Microsoft in May 2015. Seth also has experience in marketing and customer analytics from prior jobs at American Express and Saks Fifth Avenue. He is a passionate "R-vangelist", an avid outdoorsman (who moved to Seattle to be close to lakes and mountains), and an amateur globetrotter.

키워드 : 데이터사이언스, 데이터 사이언스
수강신청