Site Reliability Engineering: data-driven подход к управлению надежностью систем от Слерм

    Слерм
    Стоимость курса
    90 000 Р
    Рассрочка
    от 22 500 Р в месяц
    Сертификат
    Нет
    Начало курса
    11 марта 2024
    Трудоустройство
    Нет

    Кому подойдет

    • SRE-инженер

    Чему Вы научитесь

    • научитесь быстро поднимать продакшн силами команды;
    • поймете, какие метрики собирать и как это делать правильно;
    • узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;
    • внедрите правки прямо в прод;
    • узнаете, как снизить ущерб от отказов в будущем.

    Программа обучения

    1 день (среда) 19:00 мск, установочная AMA-сессия

    Обсудим цели и задачи курса, а также расскажем что такое SRE, распределим на команды.

    Открытие 2 теоретических тем:

    Тема 1: Мониторинг

    • Зачем нужен мониторинг
    • Перцентили
    • Alerting
    • Observability

    Тема 2: Теория SRE

    • SLO, SLI, SLA
    • Durability
    • Error budget

    2 день (суббота) 10:00 — 16:00 мск, разбор практик и кейсов*

    Практика: Делаем базовый дашборд и настраиваем необходимые алерты

    Практика: Добавляем на дашборд SLO/SLI + алерты

    Практика: Первая нагрузка системы

    Решение 1 кейса: зависимость downstream.

    В большой системе существует много взаимозависимых сервисов, и не всегда они работают одинаково хорошо. Особенно обидно, когда с вашим сервисом порядок, а соседний, от которого вы зависите, периодически уходит в down.

    Учебный проект окажется именно в таких условиях, а вы сделаете так, чтобы он все равно выдавал качество на максимально возможном уровне.

    3 день (среда) 19:00 мск, AMA-сессия, ответы на вопросы

    AMA-сессия и ответы на вопросы

    Открывается доступ к 2-му теоретическому модулю:

    Решение проблем с окружением и архитектурой

    Второй модуль построен вокруг решения двух кейсов: зависимость upstream и проблемы с архитектурой. Спикеры расскажут про управление инцидентами, правила для пожарной команды и работу с постмортерами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.

    Тема 3: Управление инцидентами

    • Resiliencе Engineering
    • Как выстраивается пожарная бригада
    • Насколько ваша команда эффективна в инциденте
    • 7 правил для лидера инцидента
    • 5 правил для пожарного
    • HiPPO — highest paid person’s opinion. Communications Leader

    Тема 4: Инструменты варрума и алерт менеджмента.

    Вest practiсe других компаний в организации инцидент-менеджмента.

    4 день (суббота) 10:00 — 17:00 мск, разбор практик и кейсов

    Решение 2 кейса: зависимость upstream.

    Одно дело, когда вы зависите от сервиса с низким SLO. Другое дело, когда ваш сервис является таковым для других частей системы. Так бывает, если критерии оценки не согласованы: например, вы отвечаете на запрос в течение секунды и считаете это успехом, а зависимый сервис ждёт всего 500 мск и уходит с ошибкой.

    В кейсе обсудим важность согласования метрик и научимся смотреть на качество глазами клиента.

    Решение 3 кейса: проблемы с базой данных.

    База данных тоже может быть источником проблем. Например, если не следить за replication relay, то реплика устареет и приложение будет отдавать старые данные. Причём дебажить такие случаи особенно сложно: сейчас данные рассогласованы, а через несколько секунд уже нет, и в чём причина проблемы — непонятно.

    Через кейс вы прочувствуете всю боль дебага и узнаете, как предотвращать подобные проблемы.

    Практика работы с постмортемами

    Практика: Пишем постмортем по предыдущему кейсу и разбираем его со спикерами.

    5 день (среда) 19:00 мск, AMA-сессия, ответы на вопросы

    AMA-сессия и ответы на вопросы по предыдущим темам.

    Открывается доступ к 3-му теоретическому модулю:

    Traffic shielding и канареечные релизы

    В третьем модуле мы разберем кейс, посвященный проблеме с окружением, а также поэтапно разберем, как внедрять SRE в компании и узнаем опыт компаний, в которых работают спикеры курса.

    Тема 5: Health Checking

    • Health Check в Kubernetes
    • Жив ли наш сервис?
    • Exec probes
    • InitialDelaySeconds
    • Secondary Health Port
    • Sidecar Health Server
    • Headless Probe
    • Hardware Probe

    Тема 6: Способы деплоймента

    Тема 7: SRE онбординг проекта

    В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать. А также спикеры поделяться опытом, как у них проходило внедрение SRE и на какие грабли они наступали.

    6 день (суббота) 10:00 — 16:00 мск, разбор практик и кейсов

    Решение 4 кейса: проблема с окружением, билеты купить невозможно.

    Задача Healthcheck — обнаружить неработающий сервис и заблокировать трафик к нему. И если вы думаете, что для этого достаточно сделать рутом запрос к сервису и получить ответ, то вы ошибаетесь: даже если сервис ответит, это не гарантирует его работоспособность — проблемы могут быть в окружении.

    Через этот кейс вы научитесь настраивать корректный Healthcheck и не пускать трафик туда, где он не может быть обработан.

    Подведение итогов

    Отзывы о курсе 1

    4.5 из 5
    0
    1
    0
    0
    0
    Оставить отзыв
    Сортировать:
    Дате публикации
    • Дата публикации
    • Популярности
    • Сначала положительные
    • Сначала отрицательные
    • Марат 20 февраля 2024

      В программе есть темы которые проходятся самостоятельно на первых занятиях таких тем много в конце обучения материала уже нет, хорошо бы равномерно распределить материал на курсе. После прохождения курса начал применять на практике работу с инцидентами, ранее такой курс в формате интенсива проходил коллега, тогда у нас появились практики работы с инцидентами, данные практики возможно дополнить благодаря навыкам полученным на курсе.

      Был ли отзыв полезен?

    Отзывы о школе 1

    5 из 5
    1
    0
    0
    0
    0
    Сортировать:
    Дате публикации
    • Дата публикации
    • Популярности
    • Сначала положительные
    • Сначала отрицательные
    • Станислав 4 июня 2023

      Я решил пройти интенсивный практический курс для того, чтобы более подробно ознакомиться с принципами работы k8s. После внимательного рассмотрения многих вариантов я остановился на интенсиве от Слерм. Мне очень понравилось качество преподавания, и мне не потребовалось обращаться в службу поддержки, что говорит об отличном организационном уровне этого курса. На курсе для меня самым интересным моментом стало добавление rollback piplin'а для отката версии Docker-образа. Однако, так как я являюсь ценителем CI/CD, то эта тема была для меня весьма актуальной. Очень приятно было узнать больше о интеграции CI/CD с Kubernetes через Helm, хотя создание собственной базы helm chart'а оказалось для меня достаточно сложной практической задачей. После курса я лично убедился в том, что Kubernetes - это наиболее совершенный оркестратор для контейнеров на данный момент времени. Я продолжаю развиваться в этой сфере и применять новые знания в рабочих задачах. В настоящее время я пересматриваю материалы курса, которые связаны с helm, так как мне приходится пересобирать все наши ci/cd под деплойку через Helm. В целом, курс был полезным и оказался очень интересным. Я получил множество новых знаний и навыков, которые несомненно помогут мне в дальнейшей работе с Kubernetes и CI/CD. Если вы хотите улучшить свои знания и навыки в этой сфере, я рекомендую обратить особое внимание на интенсивы от Слерм.

      Был ли отзыв полезен?
    Посмотреть все отзывы о Слерм