Специалист по Data Science от Яндекс Практикум

    Яндекс Практикум
    Стоимость курса
    112 000 Р
    Рассрочка
    от 5 761 Р в месяц
    Длительность
    8 месяцев
    Сертификат
    Да
    Начало курса
    25 апреля 2024
    Трудоустройство
    Содействие

    Кому подойдет

    • Для тех, кто хочет освоить профессию Data Science

    Чему Вы научитесь

    • Освоите навыки анализа данных и машинного обучения

    Программа обучения

    Основы Python и анализа данных

    Moscow Catnamycs

    Вывод данных на экран. CSV-файлы. Работа с таблицами. Тепловые карты. Умножение столбца на целое число.

    Ошибки в коде

    Синтаксические ошибки. Ошибки наименования. Ошибки при делении на ноль. Ошибки при импорте модуля.

    Переменные и типы данных

    Переменные. Типы данных. Арифметические операции с числами и строками.

    Как выдвигать гипотезы

    Гипотезы. HADI-циклы. Аналитическое мышление. Чтение графиков.

    Работа в области данных

    Задачи аналитика. Уточнение задач. Декомпозиция. Стадии проекта.

    Машинное обучение

    Модель. Обучающая и тестовая выборки. Объект и признак. Метрика Евклида. Алгоритм k-ближайших соседей (kNN). Библиотека Scikit-learn.

    Базовый Python

    Переменные и типы данных

    Язык Python. Переменные. Вывод объектов и данных на экран. Обработка ошибок, оператор try-except. Типы данных. Преобразования типов данных.

    Строки

    Индексы в строках. Срезы строк. Операции над строками. Методы строк. Форматирование строк, метод format(), f-строки.

    Списки

    Индексы в списках. Срезы списков. Добавление и удаление элементов. Сложение и умножение, сортировка списков. Поиск элементов в списке. Разделение строки в список строк, соединение списка строк.

    Цикл for

    Перебор элементов. Перебор индексов элементов. Обработка элементов списков с помощью циклов: нахождение суммы и произведения элементов.

    Вложенные списки

    Циклы по вложенным спискам с подсчётом значений. Добавление элементов во вложенные списки. Сортировка вложенных списков.

    Условный оператор

    Цикл while. Логический тип данных. Булевы значения. Логические и составные логические выражения. Условный оператор if, elif, else. Ветвления. Фильтрация списков с использованием условного оператора. Цикл while.

    Функции

    Назначение функций. Параметры и аргументы. Параметры со значениями по умолчанию. Позиционные и именованные аргументы. Возвращение результата из функции.

    Словари

    Ключи и значения. Поиск значения по ключу. Добавление элементов в словарь. Список словарей. Красивый вывод словарей.

    Библиотека Pandas

    Чтение CSV-файлов. Датафрейм. Конструктор датафрейма. Вывод первых и последних строк датафрейма. Индексация в датафреймах. Индексация в столбцах Series.

    Предобработка данных

    Принцип GIGO. Переименование столбцов датафрейма. Обработка пропущенных значений. Обработка явных и неявных дубликатов.

    Анализ данных

    Группировка данных. Сортировка данных. Основы описательной статистики. Оформление результатов.

    Jupyter Notebook — тетрадь в ячейку

    Интерфейс и шорткаты Jupyter Notebook.

    Предобработка данных

    Работа с пропусками

    Конверсия. Куки. Категориальные и количественные переменные, обработка пропусков в них. Обработка пропусков в количественных переменных по категориям.

    Изменение типов данных

    Чтение Excel-файлов. Преобразование Series к числовому типу. Модуль числа, метод abs(). Работа с датой и временем. Обработка ошибок, оператор try-except. Объединение датафреймов, метод merge(). Сводные таблицы.

    Поиск дубликатов

    Классический метод поиска дубликатов. Поиск дубликатов с учётом регистра.

    Категоризация данных

    Декомпозиция таблиц. Категоризация по числовым диапазонам. Категоризация на основе нескольких значений в строке.

    Критическое и системное мышление

    Системное мышление. Причины ошибок в данных. Критическое мышление.

    Исследовательский анализ данных

    Первые графики и выводы

    Применение сводных таблиц. Гистограмма. Распределения. Диаграмма размаха.

    Изучение срезов данных

    Метод query(). Работа с датой и временем. Построение графиков методом plot(). Бритва Оккама.

    Работа с несколькими источниками данных

    Срез данных на основе внешних объектов. Добавление новых столбцов в датафрейм. Добавление данных из других датафреймов. Переименование столбцов. Объединение таблиц.

    Взаимосвязь данных

    Диаграмма рассеяния. Корреляция переменных. Матрица диаграмм рассеяния.

    Валидация результатов

    Укрупнение групп. Разбиение данных по группам.

    Статистический анализ данных

    Комбинаторика

    Комбинации. Правило умножения. Перестановки. Количество перестановок. Размещения. Число размещений. Сочетания. Число сочетаний.

    Теория вероятностей

    Эксперимент. Вероятностное пространство. События. Вероятность. Пересекающиеся и взаимоисключающие события. Диаграмма Эйлера-Венна. Закон больших чисел.

    Описательная статистика

    Категориальные и количественные переменные. Мода и медиана. Среднее значение. Дисперсия. Стандартное отклонение. Квартили и процентили. Диаграмма размаха. Столбчатая диаграмма. Плотность частоты. Гистограмма.

    Случайные величины

    Случайная и дискретная случайная величина. Распределение вероятностей для дискретной случайной величины. Кумулятивная функция, математическое ожидание и дисперсия дискретной случайной величины.

    Распределения

    Эксперимент Бернулли. Биномиальный эксперимент. Распределения: непрерывное равномерное, нормальное и стандартное нормальное. CDF, PPF для нормального распределения. Распределение Пуассона. Аппроксимация одного распределения другим.

    Проверка гипотез

    Генеральная совокупность. Выборка. Выборочное распределение. Центральная предельная теорема. Односторонние и двусторонние гипотезы. P-Value. Проверка гипотезы о равенстве средних двух генеральных совокупностей.

    Первый большой проект

    Научитесь предварительному исследованию данных, сформулируете и проверите гипотезы. Найдёте закономерности в данных о продаже игры.

    Линейные модели в машинном обучении

    Основы машинного обучения

    Понятие моделирования. Схема моделирования. Понятие машинного обучения. Типы данных. Виды машинного обучения. Входные признаки. Целевые признаки. Scikit-learn. Тренировочная выборка. Валидационная выборка. Тестовая выборка. Метрики качества.

    Линейная алгебра для машинного обучения

    Вектор. Векторные операции. Сходство векторов. Матрица. Матричные операции. Скалярное произведение. Матричное умножение. Определитель матрицы. Обратные матрицы.

    Подготовка данных для машинного обучения

    Подготовка данных. Мультиколлинеарность. Кодирование. Масштабирование. Анализ остатков модели.

    Задача регрессии и линейная регрессия

    Задача регрессии. Линейная регрессия. MSE. MAE. R². Математическая основа линейной регрессии.

    Классификация и логистическая регрессия

    Задача классификации. Бинарная и мультиклассовая классификации. Порог классификации. Логистическая регрессия. Матрица ошибок. Accuracy. Точность, полнота, математическая основа логистической регрессии.

    Обучение с учителем: качество модели

    Модели классификации

    Метод опорных векторов. Линейное, полиномиальное ядро SVM. Ядро RBF. Метод k-ближайших соседей. Подходы к многоклассовой классификации.

    Проблема переобучения

    Проблемы переобучения и недообучения. Смещение, разброс, регуляризация.

    Проблема дисбаланса классов

    Дисбаланс классов. Кросс-валидация.

    Подбор гиперпараметров

    Параметры. Гиперпараметры. GridSearchCV. RandomizedSearchCV. OptunaSearchCV.

    Работа с признаками

    OneHotEncoding. OrdinalEncoder. Утечка целевого признака. Попарная корреляция входных признаков. Feature Engineering.

    Отбор признаков

    Фильтрация для отбора признаков. SelectKBest. Интерпретация модели. Значимость признаков.

    Пайплайн обучения

    Создание пайплайна. Sklearn Pipeline.

    Второй большой проект

    Разработаете 2 модели машинного обучения и оцените их качество. Упакуете работу в пайплайн. Смоделируете коэффициент удовлетворённости сотрудников, чтобы помочь HR-отделу компании спрогнозировать текучку кадров.

    Машинное обучение в бизнесе

    Метрики бизнеса

    Оборот, себестоимость и маржинальность. Операционные расходы и операционная прибыль. Чистая прибыль. Возврат на инвестиции. Конверсии. Воронки. Онлайн- и офлайн-метрики.

    Бутстреп в машинном обучении

    А/B-тест. Расчёт доверительного интервала. Бутстреп и его применение.

    Сбор данных

    Источники данных. Разметка данных. Декомпозиция задачи. Голосование по большинству.

    Базовый SQL

    Базы данных

    База данных, СУБД, синтаксис языка SQL.

    Срезы данных

    ER-диаграмма. Логические и специальные операторы в SQL. Операторы работы с датой и временем. Обработка специальных значений. Условные конструкции в SQL-запросах.

    Группировка и сортировка

    Агрегирующие функции и их применение. Группировка данных. Сортировка данных. Группировка и сортировка по нескольким полям. Операторы HAVING, GROUP BY.

    Связи и объединения таблиц

    ER-диаграммы. Псевдонимы. Виды объединения таблиц. Оператор JOIN. Оператор INNER JOIN. Операторы LEFT OUTER JOIN и RIGHT OUTER JOIN. Оператор FULL OUTER JOIN. Виды присоединения: UNION и UNION ALL.

    Подзапросы

    Общие табличные выражения. Различие между подзапросом и присоединением. Работа со строками в PostgreSQL.

    Схемы данных

    Определение оконной функции. Определение и работа с окном. Особенности работы с оконными функциями. Операторы ранжирования. Расчёт кумулятивных функций. Операторы смещения.

    PySpark

    Распределённые системы. Структуры данных в PySpark. SQL-запросы в PySpark. RDD-датафреймы и работа с ними.

    Численные методы

    Анализ алгоритмов

    Вычислительная сложность. Время обучения линейной регрессии. Итеративные методы. Сравнение методов.

    Градиентный спуск

    Методы оптимизации. Функция потерь. Градиент функции. Градиентный спуск. Градиентный спуск для линейной регрессии. Стохастический градиентный спуск.

    Градиентный бустинг

    Ансамблевые методы. Градиентный бустинг. Регуляризация градиентного бустинга.

    Временные ряды

    Анализ временных рядов

    Временные ряды. Ресемплирование. Скользящее среднее. Тренды и сезонность. Стационарные ряды. Разности временного ряда.

    Прогнозирование временных рядов

    Задача прогнозирования. Качество прогноза. Создание признаков. Обучение модели.

    Машинное обучение для текстов

    Векторизация слов

    Лемматизация. Регулярные выражения. Векторизация слова. TF-ID.

    Языковые представления

    Эмбединги. Word2vec. BERT.

    Компьютерное зрение

    Компьютерное зрение

    Преобразование изображения в вектор. Аугментация. Классификация изображений.

    Полносвязные сети

    Полносвязные нейросети. Keras. Обучение нейронных сетей. Многослойные сети.

    Свёрточные нейросети

    Свёрточные слои. Свёрточные сети. LeNet. ResNet. Загрузчики данных. Adam.

    Обучение без учителя

    Освоите ещё один способ машинного обучения, при котором система решает задачу без размеченных заранее данных, на основе их особенностей и структуры. Познакомитесь с задачами кластеризации и поиска аномалий.

    Итоговый проект

    Подтвердите, что освоили новую профессию. Уточните задачу заказчика, пройдёте все стадии анализа данных и машинного обучения. Теперь без уроков и домашних заданий — всё как на реальной работе.

    Будете работать над одним из проектов на выбор:

    • Прогноз оттока клиентов в телекоммуникационной компании.
    • Предсказание параметров технологического процесса на металлургическом комбинате.

    Дополнительный курс: практика Python

    Потренируетесь составлять запросы для получения данных. Самостоятельно составите датасет и обучите на нём модель. Оцените потенциальную опасность поездок для сервиса каршеринга и его клиентов.

    Дополнительный курс: теория вероятностей

    Вспомните или узнаете базовые термины в теории вероятностей: независимые, противоположные, несовместные события и т. д. На простых примерах и забавных задачах потренируетесь работать с числами и выстраивать логику решения. Поработаете с практическими заданиями, которые используются на собеседованиях.

    Дополнительный курс: практика SQL

    Решите несколько десятков дополнительных задач на отработку навыка работы с SQL. Пройдёте практические задания по составлению SQL-запросов, поработаете с новыми базами данных.

    Отзывы о школе 7

    4.3 из 5
    5
    0
    1
    1
    0
    Сортировать:
    Дате публикации
    • Дата публикации
    • Популярности
    • Сначала положительные
    • Сначала отрицательные
    • Константин 12 октября 2023

      Мои полгода обучения в Яндекс Практикуме оказались весьма впечатляющими, прежде всего благодаря высокому качеству программы и ее тщательной проработке. Важно отметить, тренажер, который предоставляют на курсе. Он обладает хорошо структурированным сценарием и высоким уровнем геймификации, что значительно облегчает освоение информации. Здесь мы не просто пересказываем теорию, а погружаемся в ситуации, анализируем поведение виртуальных коллег, разбираем проблемы и находим решения. Одним из замечательных аспектов программы является ее обширное покрытие всех необходимых тем и вопросов, которые студент должен овладеть. Кроме того, наставники акцентируют внимание на практических заданиях, проводимых онлайн в ходе еженедельных воркшопов и вебинаров, что способствует развитию реальных навыков. Особой чертой данного курса и комьюнити его студентов является возможность работать в команде. Во время обучения мы не просто учимся, но и находим новых друзей, создавая тесные связи с однокурсниками. Еще одной фантастической особенностью обучения является карьерный модуль в конце курса. Здесь нам не только рассказывают о том, как написать эффективное резюме и куда его отправлять, но и предоставляют возможность практического сотрудничества с опытными специалистами, которые помогают улучшить наше резюме, подготовиться к собеседованиям и многое другое. Они обеспечивают реальную поддержку и помощь при поиске работы и продвижении по карьерной лестнице. Я действительно поражен высоким качеством обучения в Яндекс Практикуме и всеми преимуществами, которые он предлагает. Этот курс является превосходным выбором для тех, кто стремится получить качественное и практическое образование в области, связанной с программированием и разработкой.

      Был ли отзыв полезен?
    • Анатолий 8 августа 2023

      Приветствую всех! Недавно приобрел курс "Аналитик данных" от Яндекс Практикума, и пока ни капли сожаления не испытывал. Выбор пал на данную платформу по следующим основаниям: 1. Отсутствие навязчивой рекламы со стороны блогеров на YouTube 2. Знакомые стартаперы, которые уже прошли другие программы Практикума и остались очень удовлетворены результатами 3. Отсутствие причин усомниться в надежности такой компании как Яндекс Курс организован по модулям, каждый из которых длится две недели. Предоставляется достаточно теоретических материалов, но и практической составляющей еще больше. Хотелось бы отметить профессионализм команды разработчиков курса и их умение доступно разъяснять сложные вопросы (к примеру, теорию вероятностей). Все объяснения идут через примеры, что позволяет гармонично совмещать теорию с практикой. Безусловно, стоит отметить работу специалистов команды Практикума (наставников, кураторов, рецензентов проектов). Все участники высококвалифицированы, крайне вежливы и терпеливы. Лично для меня, будучи человеком без каких-либо технических знаний, порой сталкиваюсь со сложностями, однако стремление освоить новую профессию преобладает, а к тому же команда Яндекса поддерживает в нужный момент. В итоге, моя оценка – 10 из 10.

      Был ли отзыв полезен?
    • Евгения 3 июня 2023

      Решила пройти здесь бесплатные курсы по Backend разработке. Все настолько поверхностно, что даже не описать. Маленькие окошечки с заданиями, которые приходится каждый раз увеличивать, а это неудобно. Выходит, что даже функционал толком не доработан. Все темы из теории очень поверхностны. Ни слова про рекурсию и переменные, а это основа основ. Практики на курсах нет, хоть вам обещают обратное. А ведь это основная задача, только практикой можно закрепить материал. Как можно научиться кодить и запоминать сантаксис? Задачи можно решать разными способами, но если вы напишите решение не так, как забито в компьютере, то результат зачтут как неправильный. Если задачу вы не решите, то к следующему блоку тем вас просто не допустят. Продукт крайне сырой и даже для новичка бесплатный курс это просто трата времени. Разработчики ценятся за знания, в том числе и математические, на курсах Яндекса эти знания вам никто не даст. Не советую трать время.

      Был ли отзыв полезен?
    Посмотреть все отзывы о Яндекс Практикум