Профессия Разработчик BigData от ФПМИ МФТИ

    ФПМИ МФТИ
    Стоимость курса
    108 800 Р
    Длительность
    12 месяцев
    Сертификат
    Да
    Начало курса
    В любой момент
    Трудоустройство
    Нет

    Кому подойдет

    • Разработчик
    • Аналитик
    • Data engineer
    • Data scientist

    Чему Вы научитесь

    • сможете совершенствовать навыки программирования, расширить и получить новые знания в desktop, web разработки, а также в работе с большими данными.
    • сможете проводить аналитику с помощью SQL и NoSQL инструментов, визуализировать данные и отчеты на основе больших массивов информации.
    • получите знания по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных. Изучите модели машинного обучения в применении к большим данным.

    Программа обучения

    КУРС ХРАНЕНИЕ И ОБРАБОТКА БОЛЬШИХ ОБЪЁМОВ ДАННЫХ

    Распределённые файловые системы (GFS, HDFS)

    Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: Web, shell, Java.

    Парадигма MapReduce

    Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций. Виды и классификация многопроцессорных вычислительных систем. Hadoop. Схема его работы, роли серверов в Hadoop-кластере. API для работы с Hadoop (Native Java API vs. Streaming), примеры. MapReduce, продолжение. Типы Join’ов и их реализации в парадигме MR. Паттерны проектирования MR (pairs, stripes, составные ключи).

    Управление ресурсами Hadoop-кластера. YARN

    Hadoop MRv1 vs. YARN. Нововведения в последних версиях Hadoop. Планировщик задач в YARN. Apache Slide.

    SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive

    SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive. Повторение SQL. HiveQL vs. SQL. Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи. Аналитические функции в Hive. Расширения Hive: Streaming, User defined functions. Оптимизация запросов в Hive.

    Технологии обработки данных в распределенной оперативной памяти. Apache Spark

    • Spark RDD vs Spark Dataframes
    • Spark SQL
    • Spark GraphFrames

    Обработка данных в реальном времени. Kafka, Spark Streaming

    Обработка данных в реальном времени. Spark Streaming. Распределённая очередь Apache Kafka. Kafka streams.

    BigData NoSQL, Key-value базы данных

    HBase. NoSQL подходы к реализации распределенных баз данных, key-value хранилища. Основные компоненты BigTable-подобных систем и их назначение, отличие от реляционных БД. Чтение, запись и хранение данных в HBase. Minor- и major-компактификация. Надёжность и отказоустойчивость в HBase. Cassandra. Основные особенности. Чтение и запись данных. Отказоустойчивость.

    Примеры применения HBase и Cassandra.
    Отличие архитектуры HBase от Сassandra.

    КУРС ТЕХНОЛОГИИ ПРОГРАММИРОВАНИЯ И ОПЕРАЦИОННЫЕ СИСТЕМЫ

    Семейство ОС Unix. Современные инструменты для работы в консоли

    Семейство ОС Unix, основные дистрибутивы и их отличия. Основные командные интерпретаторы, их отличия. Утилита sed, язык awk. Использование Python как заменителя shell. Jupyter Notebook. Терминальные мультиплексоры, автоматизация работы с ними.

    Системы контроля версий

    Системы контроля версий в современных проектах. Разновидности VСS. Git и работа с ним. Работа над проектами в команде. Автоматизация работы с Git.

    Контейнеризация и виртуализация

    Что это такое? Чем отличаются? Современные платформы и работа с ними. Автоматизация работы с виртуальными окружениями.

    Непрерывная интеграция

    Методология гибкой разработки. Непрерывная интеграция (continuous integration) и её этапы. Основные инструменты CI и их связь с VCS.

    Оркестрация контейнеров. Kubernetes

    Основные задачи и концепции. Модель безопасности и контроллеры задач. Архитектура, компоненты. Хранение данных. Взаимодействие по сети. CI/CD в Kubernetes.

    КУРС МАШИННОЕ ОБУЧЕНИЕ НА БОЛЬШИХ ОБЪЁМАХ ДАННЫХ

    Рекомендательные системы

    • Рекомендательные сервисы в продакшене.
    • Метрики и базовые подходы
    • Классические алгоритмы.
    • Нейросетевые рекомендеры.
    • Нерешенные проблемы и новые направлени.
    • Рекомендации и Reinforcement Learning.

    Анализ эпидемиологических графов

    • Foundations & Preliminaries
    • Characterization of common graph types
    • Notable results
    • Advanced topics

    Тематическое моделирование на больших данных

    • Проблемы тематического моделирования при больших данных. AD-LDA, его недостатки, Y!LDA, Mr. LDA. ARTM.
    • Библиотеки BigARTM. Online LDA и его применение в Vowpal Wabbit

    Отзывы о школе 1

    5 из 5
    1
    0
    0
    0
    0
    Сортировать:
    Дате публикации
    • Дата публикации
    • Популярности
    • Сначала положительные
    • Сначала отрицательные
    • Милена 15 июня 2023

      С октября прошлого года я прохожу курс Data Scientist на факультете ФПМИ в МФТИ, который включает в себя три блока обучения: Python с уклоном в анализ данных, математику для анализа больших данных и методы программирования машинного обучения (МАДМО). Ранее у меня не было опыта программирования или применения аналитических инструментов в работе с данными. Я приняла решение пройти данный курс, чтобы улучшить свои знания и навыки с целью ускорения обработки финансовых данных на практике. Оказалось, что система машинного обучения и методы анализа данных - это увлекательно и интересно! Я с удовольствием прохожу курс. Главное преимущество данной программы - высокое качество обучения, фокусированное на понимании концепций, значимости и создании своих решений. Больше всего мне нравится то, что курс предоставляет множество материалов для самообучения и визуализаций, что помогает проще получить знания. Преподаватели очень открыты и доступны для конструктивного диалога. Я рекомендую данный курс всем, основываясь на своем личном опыте.

      Был ли отзыв полезен?
    Посмотреть все отзывы о ФПМИ МФТИ