About this Course
4.7
231개의 평가
44개의 리뷰

100% 온라인

지금 바로 시작해 나만의 일정에 따라 학습을 진행하세요.

탄력적인 마감일

일정에 따라 마감일을 재설정합니다.

고급 단계

완료하는 데 약 27시간 필요

권장: 4 hours/week...

러시아어

자막: 러시아어

귀하가 습득할 기술

Data ScienceMachine LearningVowpal WabbitData Visualization (DataViz)

100% 온라인

지금 바로 시작해 나만의 일정에 따라 학습을 진행하세요.

탄력적인 마감일

일정에 따라 마감일을 재설정합니다.

고급 단계

완료하는 데 약 27시간 필요

권장: 4 hours/week...

러시아어

자막: 러시아어

강의 계획 - 이 강좌에서 배울 내용

1
완료하는 데 24분 필요

Неделя 1

...
2 readings, 1 quiz
2개의 읽기 자료
Обзор проектов10m
Как это работает?10m
1개 연습문제
Выбор проекта4m
완료하는 데 11시간 필요

Неделя 1: Lesson Choices

Choice 1: В этом проекте мы будем решать задачу идентификации пользователя по его поведению в сети Интернет. Это сложная и интересная задача на стыке анализа данных и поведенческой психологии. В качестве примера, компания Яндекс решает задачу идентификации взломщика почтового ящика по его поведению. В двух словах, взломщик будет себя вести не так, как владелец ящика: он может не удалять сообщения сразу по прочтении, как это делал хозяин, он будет по-другому ставить флажки сообщениям и даже по-своему двигать мышкой. Тогда такого злоумышленника можно идентифицировать и "выкинуть" из почтового ящика, предложив хозяину войти по SMS-коду. Этот пилотный проект описан в статье на Хабрахабре. Похожие вещи делаются, например, в Google Analytics и описываются в научных статьях, найти можно многое по фразам "Traversal Pattern Mining" и "Sequential Pattern Mining". | Choice 2: Выстраивание взаимоотношений с клиентами или customer relationship managmenet (CRM) является важным звеном в функционировании любого бизнеса. От того, насколько хорошо простроена работа с аудиторией зачастую зависит успех всей компании. В проекте вы столкнететь с одной из наиболее актуальных задач из области CRM: прогнозирование оттока пользователей или churn prediction. Суть задачи заключается в заблаговременном нахождении сегмента пользователей, склонных через некоторый промежуток времени отказаться от использования некоторого продукта или услуги. Точное и своевременное нахождение таких пользователей позволяет эффективно бороться с их оттоком, например, выявлять причины оттока и принимать меры по удержанию клиентов. Эта задача актуальна для большинства организаций, оказывающих услуги в сегменте B2C и вдвойне актуальна в областях, где распространение услуги близко к отметке 100%. Хороший пример такой области – рынок мобильной связи, где насыщение уже фактически произошло, и как следствие постепенно снижается прирост клиентской базы. В такой ситуации задача удержания клиентов и выстраивания с ними взаимоотношений выходит на первый план. В процессе работы над проектом вы научитесь математически ставить задачу прогнозирования оттока, строить и оптимизировать прогнозные модели, оценивать их качество и экономический потенциал. И, конечно, полученные знания и опыт вы сможете применять в дальнейшем для решения аналогичной задачи в сфере вашей работы . | Choice 3: Задача этого проекта — научиться предсказывать количество поездок в ближайшие часы в каждом районе Нью-Йорка. Для того, чтобы её решить, сырые данные необходимо агрегировать по часам и районам. Агрегированные данные будут представлять собой почасовые временные ряды с количествами поездок из каждого района. Похожие задачи возникают на практике, если вам необходимо спрогнозировать продажи большого количества товаров в большом количестве магазинов, объём снятия денег в сети банкоматов, посещаемость разных страниц сайта и т.д. | Choice 4: В этом проекте вам предстоит решать задачи анализа тональности текстов в нескольких разных постановках. Начнется все с несложных экспериментов на отзывах на фильмы, в ходе которых вы построите простую модель и немного доработаете ее. Затем вам предстоит поучаствовать в соревновании по сентимент-анализу отзывов на товары и сделать интерактивную демонстрацию для своего алгоритма, которую можно будет показать даже тем, кто никогда не видел Python и машинное обучение. После этого вы поупражняетесь в парсинге веб-страниц и столкнетесь с жестокой реальностью - к вам придет заказчик, который захочет от вас сентимент-анализ отзывов на определенную категорию товаров, но вот выборку для обучения придется собирать самим. Как и угадывать, что же заказчик называет негативными отзывами, а что позитивными. В конце проекта вам потребуется сделать демонстрацию и для этого алгоритма, чтобы заказчик мог с ним поиграться, а не только лишь ориентироваться на качество из контеста....
5 videos (Total 58 min), 3 readings, 4 quizzes
5개의 동영상
Чтение данных из файлов11m
Запись файлов, изменение файлов8m
Pandas. Data Frame11m
Pandas. Индексация и селекция13m
3개의 읽기 자료
Общее описание проекта "Идентификация интернет-пользователей"10m
Прогнозирование оттока пользователей телекоммуникационной компании10m
Жёлтое такси в Нью-Йорке10m
2
완료하는 데 10시간 필요

Неделя 2: Lesson Choices

Choice 1: На второй неделе мы продолжим подготавливать данные для дальнейшего анализа и построения прогнозных моделей. Конкретно, раньше мы определили что сессия – это последовательность из 10 посещенных пользователем сайтов, теперь сделаем длину сессии параметром, и потом при обучении прогнозных моделей выберем лучшую длину сессии. Также мы познакомимся с предобработанными данными и статистически проверим первые гипотезы, связанные с нашими наблюдениями. | Choice 2: На прошлой неделе мы познакомились с задачей и данными. Пора задуматься о том, с какими особенностями и трудностями нам предстоит работать в процессе построения модели прогнозирования оттока. Как может сказаться на качестве модели то, что данные не сбалансированы по классам? Какие метрики качества подходят в таких случаях? Каким будет KPI? Как организовать процесс оценки решения с помощью кросс-валидации, какую схему выбрать? Как следует обрабатывать данные разного типа (например, категориальные) для того, чтобы использовать их при построении модели? На все эти вопросы нам предстоит ответить на этой неделе. | Choice 3: На этой неделе вам предстоит освоить работу с геоданными, научиться рисовать объекты на статистических и динамических картах, а также понять, для каких прямоугольных районов прогнозировать спрос на такси на самом деле нужно. | Choice 4: На этой неделе вам предстоит поэкспериментировать с признаками в задаче анализа тональности отзывов....
3 videos (Total 25 min), 4 quizzes
3개의 동영상
Биномиальный критерий для доли7m
Доверительные интервалы на основе бутстрепа8m
3
완료하는 데 8시간 필요

Неделя 3: Lesson Choices

Choice 1: Теперь мы займемся визуальным анализом данных и построением признаков. Сначала мы вместе построим и проанализируем несколько признаков, связанных со временем посещения сайта, потом Вы сможете сами придумать и описать различные признаки. На этой неделе задание имеет вид Peer-Review, так что творчество здесь активно приветствуется. Если задействуйте IPython-виджеты, библиотеку Plotly, анимации и прочий интерактив, всем от этого будет только лучше. | Choice 2: На этой неделе вам предстоит построить модель временного ряда для одной из зон; вы можете выбрать любую. Если вы забыли, как в питоне можно прогнозировать временные ряды, пересмотрите первую неделю пятого курса. | Choice 3: Настало время перейти к построению моделей! Давайте начнем с построения так называемых бейзлайнов - построим несколько моделей, которые в дальнейшем будем использовать в качестве первого приближения для будущей модели. Часто для решения подобных задач используются линейные модели, а также ансамбли, например, случайный лес или градиентный бустинг | Choice 4: Итак, вы уже немного познакомились с задачей. Теперь попробуйте поучаствовать в соревновании по анализу тональности текстов и побить бейзлайн (или вовсе выйти в топ участников)....
2 videos (Total 18 min), 4 quizzes
2개의 동영상
Визуализация данных в sklearn12m
4
완료하는 데 9시간 필요

Неделя 4: Lesson Choices

Choice 1: Теперь мы наконец подойдем к обучению моделей классификации, сравним на кросс-валидации несколько алгоритмов, разберемся, какие параметры длины сессии (session_length и window_size) лучше использовать. Также для выбранного алгоритма построим кривые валидации (как качество классификации зависит от одного из гиперпараметров алгоритма) и кривые обучения (как качество классификации зависит от объема выборки). | Choice 2: Итак, мы научились обрабатывать данные, выбрали схему кросс-валидации и определились с метриками качества. Пора переходить к оптимизации модели. На этой неделе вам предстоит принять участие в соревновании на платформе kaggle inclass! Цель такого соревнования - преодолеть предложенное baseline решение, а, главное, обсудить и сравнить предложенные решения на форуме. Какие признаки оказали наибольший вклад в модель? Как лучше обрабатывать категориальные признаки? Нужно ли делать отбор признаков, А балансировать выборку? Экспериментируйте с данными и обсуждайте ваши решения на форуме! | Choice 3: На прошлой неделе вы научились прогнозировать временной ряд со сложной сезонностью с помощью модели ARIMA на примере одной из географических зон. На этой неделе вы построите такие прогнозы для каждой зоны. Чтобы не подбирать вручную огромное количество моделей, вам понадобится сделать кластеризацию рядов. | Choice 4: Теперь, когда у вас уже получается делать неплохие решения задачи сентимент-анализа, пора научиться собирать для вашего алгоритма интерактивную демонстрацию в виде простенькой веб-странички, чтобы на него могли посмотреть в действии не только те, кто может запустить ipython notebook....
4 quizzes
5
완료하는 데 8시간 필요

Неделя 5: Lesson Choices

Choice 1: На этой неделе мы вспомним про концепцию стохастического градиентного спуска и опробуем классификатор Scikit-learn SGDClassifier, который работает намного быстрее на больших выборках, чем алгоритмы, которые мы тестировали на 4 неделе. Также мы познакомимся с данными соревнования Kaggle по идентификации пользователей и сделаем в нем первые посылки. По итогам этой недели дополнительные баллы получат те, кто попадет в топ-30 публичного лидерборда соревнования. | Choice 2: На прошлой неделе мы познакомились с задачей и данными, пришло время приготовить датасет для построения моделей. Пора задуматься о том, с какими особенностями и трудностями нам предстоит работать в процессе построения моделей прогнозирования оттока. Как может сказаться на качестве модели то, что данные не сбалансированы по классам? Какие метрики качества подходят в таких случаях? Каким будет KPI? Как организовать процесс оценки решения с помощью кросс-валидации, какую схему выбрать? Как следует обрабатывать данные разного типа(например, категориальные) для того, чтобы использовать их при построении модели? На все эти вопросы нам предстоит ответить на этой неделе. | Choice 3: Класс моделей ARIMA недостаточно богат для наших данных: с их помощью, например, никак нельзя учесть взаимосвязи между рядами. Нам нужна более сложная модель. Давайте займёмся сведением задачи массового прогнозирования рядов к регрессионной постановке! | Choice 4: Не всегда в вашем распоряжении уже есть готовая выборка для построения модели и оценки ее качества, иногда ее нужно собрать самому. На этой неделе мы будем учиться парсить веб-страницы....
4 quizzes
6
완료하는 데 9시간 필요

Неделя 6: Lesson Choices

Choice 1: На этой неделе мы познакомимся с популярной библиотекой Vowpal Wabbit и попробуем ее на данных соревнования. Знакомиться будем на данных Scikit-learn по новостям, сначала в режиме бинарной классификации, затем – в многоклассовом режиме. Далее будем классифицировать рецензии к фильмам с сайта IMDB. Наконец, применим Vowpal Wabbit к нашему соревнованию. Материала немало, но Vowpal Wabbit того стоит! | Choice 2: Выстраивание взаимоотношений с клиентами или customer relationship managmenet (CRM) является важным звеном в функционировании любого бизнеса. От того, насколько хорошо простроена работа с аудиторией зачастую зависит успех всей компании. В проекте вы столкнететь с одной из наиболее актуальных задач из области CRM: прогнозирование оттока пользователей или churn prediction. Суть задачи заключается в заблаговременном нахождении сегмента пользователей, склонных через некоторый промежуток времени отказаться от использования некоторого продукта или услуги. Точное и своевременное нахождение таких пользователей позволяет эффективно бороться с их оттоком, например, выявлять причины оттока и принимать меры по удержанию клиентов. Эта задача актуальна для большинства организаций, оказывающих услуги в сегменте B2C и вдвойне актуальна в областях, где распространение услуги близко к отметке 100%. | Choice 3: На этой неделе вам предстоит попробовать добавить в вашу регрессионную модель дополнительные признаки. Дайте волю своему воображению! Такие моменты — одни из лучших в работе специалиста в науке о данных. | Choice 4: Теперь вы готовы окунуться в более агрессивную симуляцию реальной жизни. Вам нужно будет разработать модель, которая будет давать точные прогнозы на тестовой выборке заказчика, но обучающую выборку для вас собрать не готовы - придется выкручиваться самостоятельно. Усугубляет ситуацию то, что вы даже не знаете ответов на выборке заказчика, но можете периодически отправлять свои прогнозы на проверку....
4 quizzes
7
완료하는 데 20분 필요

Неделя 7

...
2 readings
2개의 읽기 자료
Финальные титры10m
Стань ментором специализации10m
완료하는 데 8시간 필요

Неделя 7: Lesson Choices

Choice 1: Теперь остался последний шаг – объединить все сделанное ранее! | Choice 2: Выстраивание взаимоотношений с клиентами или customer relationship managmenet (CRM) является важным звеном в функционировании любого бизнеса. От того, насколько хорошо простроена работа с аудиторией зачастую зависит успех всей компании. В проекте вы столкнетесь с одной из наиболее актуальных задач из области CRM: прогнозирование оттока пользователей или churn prediction. Суть задачи заключается в заблаговременном нахождении сегмента пользователей, склонных через некоторый промежуток времени отказаться от использования некоторого продукта или услуги. Точное и своевременное нахождение таких пользователей позволяет эффективно бороться с их оттоком, например, выявлять причины оттока и принимать меры по удержанию клиентов. Эта задача актуальна для большинства организаций, оказывающих услуги в сегменте B2C и вдвойне актуальна в областях, где распространение услуги близко к отметке 100%. | Choice 3: Ваш проект почти закончен! На этой неделе вам предстоит оформить результат, используя интерактивные графики. | Choice 4: Вы неплохо потрудились и справились с задачей заказчика. Дело за малым - нужно презентовать ему свое решение, а для этого неплохо было бы снова собрать демонстрацию....
4 quizzes
4.7
44개의 리뷰Chevron Right

80%

이 강좌를 수료한 후 새로운 경력 시작하기

64%

이 강좌를 통해 확실한 경력상 이점 얻기

최상위 리뷰

대학: TBJul 16th 2018

Excellent project which gives an opportunity to practice the skills you earned during the previous courses. Nice job, guys!

대학: VTJun 29th 2017

Проект по сентимент-анализу немного примитивный, но в общем-то все было достаточно неплохо. Может, сделаю и другие :)

모스크바 물리 기술원 정보

Московский физико-технический институт (неофициально известный как МФТИ или Физтех) является одним из самых престижных в мире учебных и научно-исследовательских институтов. Он готовит высококвалифицированных специалистов в области теоретической и прикладной физики, прикладной математики, информатики, биотехнологии и смежных дисциплин. Физтех был основан в 1951 году Нобелевской премии лауреатами Петром Капицей, Николаем Семеновым, Львом Ландау и Сергеем Христиановичем. Основой образования в МФТИ является уникальная «система Физтеха»: кропотливое воспитание и отбор самых талантливых абитуриентов, фундаментальное образование высшего класса и раннее вовлечение студентов в реальную научно-исследовательскую работу. Среди выпускников МФТИ есть Нобелевские лауреаты, основатели всемирно известных компаний, известные космонавты, изобретатели, инженеры....

Yandex 정보

Yandex is a technology company that builds intelligent products and services powered by machine learning. Our goal is to help consumers and businesses better navigate the online and offline world....

Машинное обучение и анализ данных 전문 분야 정보

Мы покажем, как проходит полный цикл анализа, от сбора данных до выбора оптимального решения и оценки его качества. Вы научитесь пользоваться современными аналитическими инструментами и адаптировать их под особенности конкретных задач. В рамках специализации вы освоите основные темы, необходимые в работе с большим массивом данных, в т.ч. современные методы классификации и регрессии, поиск структуры в данных, проведение экспериментов, построение выводов, базовая фундаментальная математика, основы программирования на Python. Мы разберём, как построить рекомендательную систему, оценить эмоциональную окраску текста, спрогнозировать спрос на товар, оценить вероятность клика по рекламе и т.д. В финале вам потребуется выполнить проект собственной системы, решающей любую актуальную для бизнеса задачу. Результатом будет наглядная работающая модель, которую вы сможете использовать в вашей повседневной работе или продемонстрировать на собеседовании. Все, прошедшие специализацию, могут принять участие в Программе трудоустройства. Если вы заинтересованы в новых проектах, новых перспективах и возможностях - пройдите обучение по Специализации и подайте заявку....
Машинное обучение и анализ данных

자주 묻는 질문

  • 강좌에 등록하면 바로 모든 비디오, 테스트 및 프로그래밍 과제(해당하는 경우)에 접근할 수 있습니다. 상호 첨삭 과제는 이 세션이 시작된 경우에만 제출하고 검토할 수 있습니다. 강좌를 구매하지 않고 살펴보기만 하면 특정 과제에 접근하지 못할 수 있습니다.

  • 강좌를 등록하면 전문 분야의 모든 강좌에 접근할 수 있고 강좌를 완료하면 수료증을 취득할 수 있습니다. 전자 수료증이 성취도 페이지에 추가되며 해당 페이지에서 수료증을 인쇄하거나 LinkedIn 프로필에 수료증을 추가할 수 있습니다. 강좌 내용만 읽고 살펴보려면 해당 강좌를 무료로 청강할 수 있습니다.

  • Курс "Анализ данных: финальный проект" перезапускается раз в два месяца, в отличии от предыдущих курсов специализации, которые перезапускались раз в две недели.

궁금한 점이 더 있으신가요? 학습자 도움말 센터를 방문해 보세요.