Инструменты работы с большими данными от ФПМИ МФТИ

    ФПМИ МФТИ
    Стоимость курса
    117 000 Р
    Длительность
    2.5 месяца
    Сертификат
    Да
    Начало курса
    27 апреля 2024
    Трудоустройство
    Нет

    Кому подойдет

    • Разработчики
    • Аналитики
    • Junior Data Engineers
    • Data Scientists

    Чему Вы научитесь

    • Пользоваться распределенной файловой системой
    • Пользоваться высокоуровневыми языками программирования для BigData для обработки большого объема данных на вычислительном кластере
    • Запускать задачи на Hadoop кластере
    • Решать задачи статистики, задачи поиска и индексации, задачи машинного обучения на Hadoop кластере
    • Писать задачи для запуска на Hadoop кластере с помощью нативного Java-интерфейса
    • Работать с большими объемами данных и располагать кругозором в выборе архитектурного решения поставленной задачи
    • Писать задачи для запуска на Hadoop кластере с помощью любого другого языка программирования (с помощью инструментария Hadoop streaming)

    Программа обучения

    Занятие 1. Введение. Зачем нужны большие данные. Распределённые файловые системы

    Виды отказов в сети. Распределённые файловые системы (GFS, HDFS). Их достоинство и сфера применения. Архитектура HDFS. Алгоритмы чтения и записи в HDFS. HDFS Web UI. Обзор API для работы с HDFS

    Занятие 2. MapReduce

    Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций. API для работы с Hadoop (Native Java API vs. Streaming)

    Занятие 3. MapReduce, продолжение

    Дополнительные элементы MapReduce-задачи (Combiner, Comparator, Partitioner). Типы Join’ов и их реализации в парадигме MR. Паттерны проекттирования MR (pairs, stripes, составные ключи).

    Занятие 4. Планирование задач в MapReduce. YARN

    Дополнительные применения MapReduce

    Занятие 5. SQL over BigData

    Повторение SQL. HiveQL vs. SQL. Hive. Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи.

    Занятие 6. Расширения Hive

    Оптимизация запросов в Hive (партиционирование, бакетирование, оптимизация Join’ов). Примерные расчеты в Hive. Расширения Hive (select-transform и UDF). Не только Hive: обзор Apache Pig, Cloudera Impala, Presto, Trino

    Занятие 7. Apache Spark

    Итеративная обработка больших данных на Apache Spark, отличия Spark от MapReduce. Spark RDD API

    Занятие 8. Spark Dataframe API

    SQL-запросы на Spark. GraphX и GraphFrames

    Занятие 9. Обработка данных в реальном времени

    Принципы обработки данных в реальном времени. Её отличия от «батч»-обработки. Spark Streaming API

    Занятие 10. Распределенный брокер сообщений

    Apache kafka. Архитектура, отличия алгоритмов репликации от HDFS. Роль лидера в Kafka

    Занятие 11. Связь Kafka с обработкой данных в реальном времени

    Kafka и Spark Streaming. Kafka Streams. Работа с KafkaStreams и сравнение со Spark Streaming

    Занятие 12. NoSQL в BigData

    CAP-теорема. Google Bigtable и Apache HBase. Связь HBase с MapReduce и Spark

    Занятие 13. Amazon dynamo и Cassandra

    Связь Cassandra и Spark

    Занятие 14. От NoSQL снова к SQL

    Google Spanner и CockroachDB

    Занятие 15. Администрирование экосистемы BigData

    Практикум по Cloudera и Яндекс.Облаку

    Финальный проект

    Вы выполняете проект под руководством преподавателя курса, закрепляете знания и навыки, полученные на программе и систематизируете рабочий опыт.

    Отзывы о школе 1

    5 из 5
    1
    0
    0
    0
    0
    Сортировать:
    Дате публикации
    • Дата публикации
    • Популярности
    • Сначала положительные
    • Сначала отрицательные
    • Милена 15 июня 2023

      С октября прошлого года я прохожу курс Data Scientist на факультете ФПМИ в МФТИ, который включает в себя три блока обучения: Python с уклоном в анализ данных, математику для анализа больших данных и методы программирования машинного обучения (МАДМО). Ранее у меня не было опыта программирования или применения аналитических инструментов в работе с данными. Я приняла решение пройти данный курс, чтобы улучшить свои знания и навыки с целью ускорения обработки финансовых данных на практике. Оказалось, что система машинного обучения и методы анализа данных - это увлекательно и интересно! Я с удовольствием прохожу курс. Главное преимущество данной программы - высокое качество обучения, фокусированное на понимании концепций, значимости и создании своих решений. Больше всего мне нравится то, что курс предоставляет множество материалов для самообучения и визуализаций, что помогает проще получить знания. Преподаватели очень открыты и доступны для конструктивного диалога. Я рекомендую данный курс всем, основываясь на своем личном опыте.

      Был ли отзыв полезен?
    Посмотреть все отзывы о ФПМИ МФТИ