Основы Apache Spark от IBS Training Center

    IBS Training Center
    Стоимость курса
    45 000 Р
    Сертификат
    Да
    Начало курса
    В любой момент
    Трудоустройство
    Нет

    Кому подойдет

    • разработчики
    • архитекторы
    • аналитики данных

    Чему Вы научитесь

    • Получите представление об основных концепциях и архитектуре Spark
    • Создавать табличные запросы, используя Spark SQL и DataFrame Python API
    • Разрабатывать программы обработки данных как последовательности преобразований RDD
    • Загружать данные для обработки Spark из систем JDBC, Kafka и Cassandra, а также сохранять полученные результаты во внешних хранилищах данных.

    Программа обучения

    1. Концепции и архитектура Spark (теория – 2 ч., практика – 1 ч.)

    • Map/Reduce и Spark в Hadoop. Примеры
    • Spark в Lambda-архитектуре
    • Кластеры для распределенной обработки данных
    • Как запустить Spark
    • Исполнители, задания, задачи в Spark

    2. Программирование с помощью RDD: трансформации и действия (теория – 2 ч., практика – 2 ч.)

    • В чем разница между SparkSession и SparkContext
    • Как создавать и распараллеливать RDD
    • Как трансформировать RDD
    • Как анализировать и управлять обработкой RDD (план и DAG)
    • Как сохранять и хранить RDD в HDFS
    • Как группировать и соединять RDD

    3. Программирование с помощью DataFrame (теория – 2 ч., практика – 2 ч.)

    • В чем разница между RDD и DataFrame
    • Как создавать и распараллеливать DataFrame
    • Как анализировать и управлять выполнением DataFrame (план и DAG)
    • Как сохранять DataFrame в HDFS

    4. Загрузка данных с внешних хранилищ и во внешние хранилища (теория – 1 ч., практика – 2 ч.)

    • Как читать/писать данные с файлового хранилища (HDFS, S3, FTP, локальной файловой системы)
    • Какой формат данных выбрать
    • Как распараллеливать чтение/запись в JDBC
    • Как создать DataFrame из MPP (Cassandra, Vertica, Greenplum)
    • Как работать с Kafka

    5. Написание логики с использованием Spark DSL (теория – 1 ч., практика – 1 ч.)

    • Как считать строки
    • Как обрабатывать математические агрегации
    • Как группировать строки
    • Как правильное соединять DataFrames

    6. Написание логики с использованием Spark SQL (теория – 1 ч., практика – 1 ч.)

    • Как и зачем переключаться на Spark SQL
    • Как работать с таблицей EXTERNAL
    • Как работать с таблицей MANAGED

    7. Использование функций Window и UDF (теория – 1 ч., практика – 1 ч.)

    • Какие оконные функции существуют и как их использовать в Spark
    • Когда не следует использовать оконные функции
    • Что такое UDF, UDAF и как их использовать
    • Как оптимизировать UDFs в PySpark

    8. Типы Spark (теория – 1 ч., практика – 1 ч.)

    • Логические: как добавить фильтр
    • Численные: как подсчитать сумму, произведение, статистику
    • Строковый: как использовать регулярные выражения
    • Комплексные: как работать со структурами, массивами
    • Как работать с данными

    9. Примеры оптимизации Spark (теория – 1 ч., практика – 1 ч.)

    • Недостаточно памяти
    • Маленькие файлы в HDFS
    • Асимметричные данные
    • Медленные соединения
    • Трансляция больших таблиц
    • Совместное использование ресурсов
    • Новые механизмы оптимизации: AQE и DPP

    10.Запуск Spark в Airflow (теория – 1 ч., демонстрация – 1 ч.)

    • Оркестраторы
    • Устройство Airflow
    • Встроенные операторы Airflow
    • SparkSubmitOperator

    Отзывы о школе 1

    5 из 5
    1
    0
    0
    0
    0
    Сортировать:
    Дате публикации
    • Дата публикации
    • Популярности
    • Сначала положительные
    • Сначала отрицательные
    • Василий 14 июня 2023

      Я посещал курс по анализу данных для начинающих, который проводил доктор наук. Он довольно просто и понятно объясняет сложные вещи, что позволяет легко погрузиться в тему и быстро овладеть новыми знаниями. Здесь вы найдете приятный и модернизированный дизайн классов и новое современное оборудование. Но что делает это место по-настоящему эффективным для обучения? Ежедневные экзамены! Как только вы освоите новый материал, вам предложат пройти небольшой тест, чтобы убедиться, что вы действительно поняли всю информацию. Это помогает зафиксировать знания и убедиться, что вы продвигаетесь в обучении. Также стоит отметить, что для тех, кто хочет учиться офлайн, школа имеет свою собственную недурную столовую с большим выбором блюд, которой могут воспользоваться как обучающиеся, так и сотрудники - вход только изнутри. Это очень удобно, если у вас нет времени или желания искать место, где можно перекусить. Школа также выдает официальный и реальный сертификат об окончании курсов, что может быть очень полезно при поиске работы или продолжении обучения в другом месте. Я очень рекомендую эту школу для всех, кто ищет эффективное место для обучения в современной и комфортной обстановке.

      Был ли отзыв полезен?
    Посмотреть все отзывы о IBS Training Center