Мониторинг и стабильность Rails-приложений [Пакет Слушатель] [Thinknetica] [Алексей Наумов]

Bot

Администратор
Команда форума
23 Янв 2020
190,401
3,071
113

Складчина: Мониторинг и стабильность Rails-приложений [Пакет Слушатель] [Thinknetica] [Алексей Наумов]​

upload_2025-9-25_16-55-22.png

Этот воркшоп для вас, если:

  • дошли до уровня, когда уже задумываетесь о работе всего приложения, а не только делаете отдельные задачи
  • в проекте нет системного мониторинга и алертинга
  • порой приходится что-то чинить на проде и долго разбираться с причинами проблем
  • планируете рост нагрузки на приложение
  • хотите сделать мониторинг был действительно полезным и эффективным, а не набором красивых данных, в которые никто не смотрит
  • с приложением всё здорово, но хочется быть уверенным в том, что это будет продолжаться и дальше
Программа воркшопа
День 1. Основы мониторинга

Поговорим о том, зачем нужен мониторинг, на какие метрики надо смотреть, чтобы быть уверенными, что приложение работает. Разберём, что такое «золотые сигналы». Заведём в рельсовое приложение мониторинг с помощью Прометеуса, Графаны и Ябеды.

Результат:

  • Поймёте, зачем нужен мониторинг и как он помогает не только техническим специалистам, но и бизнесу.
  • Научитесь ориентироваться в метриках, на основе которых строится мониторинг — технические, инфраструктурные и бизнесовые метрики.
  • Соберёте связку Прометеус-Графана-приложение, чтобы добавить первые дэшборды в ваше приложение.
Содержание:
  • Зачем нужно мониторить приложение?
  • Какие бывают мониторинги
  • На какие метрики смотреть?
  • Технические метрики (Latency, Traffic, Errors, Saturation)
  • Инфраструктурные метрики
  • Бизнесовые метрики
День 2. Алерты и решения для организации мониторинга
Посмотрим на систему, которую собрали на первом дне воркшопа. Сравним системы сбора метрик и дэшбодров между собой — беплатные, платные, облачные и т.д.
Разберёмся, почему дэшбордов недостаточно для полноценного мониторинга приложений. Алерты — по каким метрикам настраивать, какие пороги выбирать, как обрабатывать. Алерты предвосхищающие проблемы — z-index и Нострадамус.

Трассировка запросов — зачем нужна, какие инструменты использовать, хорошие практики для построения систем.

Результат:

  • Разберётесь с множеством систем мониторинга и сможете выбрать наиболее подходящую
  • Научитесь настраивать алертинг - выставлять пороги срабатывания, поймёте, в каких случаях нужны ночные звонки, а в каких можно обойтись без них.
  • Поёмете, зачем нужна трассировка во взаимодействии между сервисами, как её организовать и как использовать при поиске проблем.
Содержание:
  • Опенсорсные решения (Prometheus, Grafana, Grafana OnCall, Zabbix)
  • Коммерческие решения (Datadog, New Relic, Dynatrace, Okmeter)
  • Быстрый поиск проблем
  • Сквозная трассировка запросов (Jaeger, Zipkin)
  • Алертинг
  • Предсказание проблем
День 3. Инцидент-менеджмент и стабильность приложений
Пройдемся от алертов к причинам их возникновения — инцидентам. Ответим на вопросы: что считать инцидентом? Что делать, чтобы их было меньше? Обсудим регламенты работы, подсказки для сложных ситуаций, дежурства, разборы причин и планирование улучшений.
Поговорим об SLI, SLO, SLA и подходах, которые помогут вам договориться с бизнесом о том, что значит «стабильное приложение» и сколько это будет стоить.

Затронем нагрузочное тестирование приложения. Что такое хаос тесты и когда они вам могут пригодится? Сделаем обзор практик по хаос-инжинирингу.

Результат:

  • Поймёте, как внедрить в компании процесс инцидент-менеджмента.
  • Узнаете, как договориться с бизнесом о приемлемых диапазонах простоя приложения.
  • Сможете убедить бизнес, что 100% работоспособности — это не то, чего он хочет.
  • Разберётесь, как подготовится к большим нагрузкам с помощью нагрузочного тестирования. И как протестировать систему на отказ с помощью хаос-тестов.
Содержание:
  • Фазы работы над инцидентом
  • Роли участников процесса
  • Организация с точки зрения процесса и технической реализации
  • Метрики стабильности (SLI, SLO, SLA)
  • Нагрузочное тестирование
  • Хаос-тесты
Этот воркшоп поможет:
  • Систематизировать знания по мониторингу
    Посмотреть на разные решения и практики по стабилизации приложений и подготовке к работе под нагрузкой
  • Поднять мониторинг на проекте с нуля
    С чего начать и как рассказать бизнесу, что мониторинг — это обязательная часть работы системы
  • Сделать приложение более стабильным
    Внедрить практики инцидент менеджмента — дежурства, регламенты, разборы. Быстро находить проблемы с помощью трассировки.
  • Получить набор инструментов под разные виды метрик
    Разобраться какие бывают технические, инфраструктурные и бизнесовые метрики. Какие из метрик более приоритетные и с помощью каких технических решений их можно отслеживать.
Алексей Наумов
Автор воркшопов "Под капотом Rails" и "Дизайн Rails-приложений"
Тариф Слушатель

Цена 7900 руб
Скрытая ссылка