mttrly для On-Call инженеров
Реагируй на инциденты откуда угодно
PagerDuty разбудил тебя. Что дальше? С mttrly можно диагностировать и починить проблему, даже не вставая с кровати.
🚨 3AM PagerDuty: High Error Rate
Woken up by alert. Need to diagnose and fix without leaving bed.
Traditional on-call:
- Wake up fully
- Get laptop
- VPN connect (slow at 3am)
- SSH into server
- Run diagnostics
- Read logs
- Make decision
- Execute fix
MTTR: 15-30 minutesWith mttrly:
- Open Telegram (5 sec)
- Ask what's wrong (10 sec)
- Review diagnosis (30 sec)
- Choose rollback (5 sec)
- Confirm (5 sec)
- Verify fixed (10 sec)
MTTR: 2 minutesThe Problem
- ✗Нужен ноутбук для реакции на алерты
- ✗VPN медленно подключается в 3 ночи
- ✗Простые фиксы занимают 15+ минут
- ✗Нельзя выйти из дома во время дежурства
The Solution
Получай алерты в Telegram, смотри логи, рестартуй сервисы, запускай playbooks — всё с телефона. MTTR падает с часов до минут.
Боль дежурства
Ты на дежурстве на этой неделе. Это значит: ноутбук всегда заряжен, мобильный интернет всегда готов, никуда без связи. Алерт в 3 ночи — брести к столу, ждать VPN, набирать команды сонными глазами. Простые фиксы занимают 15+ минут из-за времени на подготовку.
Почему MTTR важен
Mean Time To Resolution напрямую влияет на пользователей и SLA. Каждая минута простоя — это потерянная выручка, расстроенные клиенты и стресс для команды. Средний MTTR в индустрии — 4+ часа. Компании с мобильными инструментами реагирования сокращают его до 30 минут.
Workflow дежурства с mttrly
Приходит алерт
Срабатывает PagerDuty/OpsGenie. mttrly тоже шлёт алерт в мессенджер с начальным контекстом.
Быстрая диагностика
Ты: "что не так?" → Bro запускает диагностику HighLatency → CPU 23% (норма), Диск 45% (норма), RAM 94% (ВЫСОКО) → процесс node.js 3.2GB → 127 предупреждений heap → коррелирует с деплоем 2 часа назад. Диагностика за 15 секунд.
Выполнение фикса
Стандартные фиксы становятся одним тапом: /restart nginx, /run clear-cache, /deploy hotfix. Подтверждение для безопасности.
Проверка решения
/status подтверждает, что сервисы здоровы. Обнови инцидент. Обратно спать.
Playbooks для типичных инцидентов
Оформи runbooks как playbooks mttrly. Высокая память? /run memory-cleanup убивает прожорливые процессы. Диск заполнен? /run disk-cleanup чистит логи и временные файлы. База тормозит? /run db-vacuum запускает обслуживание. Твои tribal knowledge становятся автоматизацией в один тап.
“Наше среднее время реакции упало с 45 минут до 4 после внедрения mttrly. Дежурный инженер может подтвердить и исправить большинство инцидентов, даже не проснувшись полностью.”— Сара, SRE Lead в финтех-стартапе