본문 영역으로 바로가기
 

강좌 검색

B.인공지능10-Speech Recognition Systems(고급)

강의소개

이 과정은 인공 지능 분야의 Microsoft 전문 프로그램의 일부입니다.

ASR (자동 음성 인식) 시스템을 개발하고 이해하는 것은 언어학, 컴퓨터 과학, 수학 및 전기 공학에 대한 전문 지식을 습득하는 학제간 활동입니다.

인간이 단어를 말할 때, 목소리가 시간에 따라 변화하는 패턴의 소리를 냅니다. 이 소리는 공기를 통해 전파되는 압력의 파동입니다. 소리는 마이크 또는 마이크어레이와 같은 센서에 의해 캡처되고 시간에 따른 압력 변화를 나타내는 일련의 숫자로 바뀝니다. 자동 음성 인식 시스템은 이 시간 압력 신호를 시간 주파수 에너지 신호로 변환합니다. 선별된 레이블이 지정된 음성사운드 세트에 대해 교육을 받았으며 제공되는 사운드에 레이블을 지정했습니다. 이러한 음향 레이블은 단어 발음 모델 및 단어 시퀀스 모델과 결합되어 말한 내용의 텍스트 표현을 만듭니다.

이 과정의 한 부분을 깊이 탐구하는 대신이 과정은 최신 ASR 시스템의 구성 요소에 대한 개요를 제공하도록 설계되었습니다. 각 강의에서는 구성 요소의 목적과 일반적인 구조를 설명합니다. 각 실습에서 학생은 시스템의 기능 블록을 만듭니다. 과정이 끝나면 거의 전적으로 Python 코드로 음성 인식 시스템을 구축 할 것입니다.

학습목록

  • 음성 인식의 기초
  • 음성 인식을위한 기본 신호 처리
  • 음향 모델링 및 라벨링
  • 언어 모델링을위한 공통 알고리즘
  • 음향 기능을 음성으로 디코딩

전제조건

  • 일부 파이썬 경험
  • 기본 머신 러닝 원칙
  • 확률과 통계에 대한 지식

강사소개

Adrian Leven

Adrian Leven

콘텐츠 개발자
Microsoft Corporation

Adrian Leven은 인간-컴퓨터 상호 작용에 중점을 둔 Microsoft Learning의 콘텐츠 개발자입니다. 그는 B.S. Stanford University에서 컴퓨터 과학을 전공했습니다.

About this course

This course is part of the Microsoft Professional Program in Artificial Intelligence.

Developing and understanding Automatic Speech Recognition (ASR) systems is an inter-disciplinary activity, taking expertise in linguistics, computer science, mathematics, and electrical engineering.

When a human speaks a word, they cause their voice to make a time-varying pattern of sounds. These sounds are waves of pressure that propagate through the air. The sounds are captured by a sensor, such as a microphone or microphone array, and turned into a sequence of numbers representing the pressure change over time. The automatic speech recognition system converts this time-pressure signal into a time-frequency-energy signal. It has been trained on a curated set of labeled speech sounds, and labels the sounds it is presented with. These acoustic labels are combined with a model of word pronunciation and a model of word sequences, to create a textual representation of what was said.

Instead of exploring one part of this process deeply, this course is designed to give an overview of the components of a modern ASR system. In each lecture, we describe a component's purpose and general structure. In each lab, the student creates a functioning block of the system. At the end of the course, we will have built a speech recognition system almost entirely out of Python code.

What you'll learn

  • Fundamentals of Speech Recognition
  • Basic Signal Processing for Speech Recogntion
  • Acoustic Modeling and Labeling
  • Common Algorithms for Language Modeling
  • Decoding Acoustic Features into Speech

Prerequisites

  • Some python experience
  • Basic Machine Learning principles
  • Knowledge of probability and statistics

Meet the instructors

Adrian Leven

Adrian Leven

Content Developer
Microsoft Corporation

Adrian Leven is a Content Developer at Microsoft Learning with a focus on Human-Computer Interaction. He received his B.S. In Computer Science from Stanford University.

키워드: 인공지능
수강신청