mttrly для On-Call инженеров

Реагируй на инциденты откуда угодно

PagerDuty разбудил тебя. Что дальше? С mttrly можно диагностировать и починить проблему, даже не вставая с кровати.

🚨 3AM PagerDuty: High Error Rate

Woken up by alert. Need to diagnose and fix without leaving bed.

B
Bro Terminal
>_ Interactive session
3AM Alert
PagerDuty: errors spiking
🔍
Quick Check
CPU OK, Disk OK, RAM 94%
🎯
Root Cause
Memory leak from 1am deploy
⏮️
Rollback
Revert → restart → healthy
Before
Wake up, stumble to desk, wait for VPN, SSH, grep logs, diagnose... 15+ minutes.
Traditional on-call:
- Wake up fully
- Get laptop
- VPN connect (slow at 3am)
- SSH into server
- Run diagnostics
- Read logs
- Make decision
- Execute fix

MTTR: 15-30 minutes
After
Phone in hand → ask "what's wrong" → tap rollback → back to sleep. 2 minutes.
With mttrly:
- Open Telegram (5 sec)
- Ask what's wrong (10 sec)
- Review diagnosis (30 sec)
- Choose rollback (5 sec)
- Confirm (5 sec)
- Verify fixed (10 sec)

MTTR: 2 minutes

The Problem

  • Нужен ноутбук для реакции на алерты
  • VPN медленно подключается в 3 ночи
  • Простые фиксы занимают 15+ минут
  • Нельзя выйти из дома во время дежурства

The Solution

Получай алерты в Telegram, смотри логи, рестартуй сервисы, запускай playbooks — всё с телефона. MTTR падает с часов до минут.

Боль дежурства

Ты на дежурстве на этой неделе. Это значит: ноутбук всегда заряжен, мобильный интернет всегда готов, никуда без связи. Алерт в 3 ночи — брести к столу, ждать VPN, набирать команды сонными глазами. Простые фиксы занимают 15+ минут из-за времени на подготовку.

Почему MTTR важен

Mean Time To Resolution напрямую влияет на пользователей и SLA. Каждая минута простоя — это потерянная выручка, расстроенные клиенты и стресс для команды. Средний MTTR в индустрии — 4+ часа. Компании с мобильными инструментами реагирования сокращают его до 30 минут.

Workflow дежурства с mttrly

1

Приходит алерт

Срабатывает PagerDuty/OpsGenie. mttrly тоже шлёт алерт в мессенджер с начальным контекстом.

2

Быстрая диагностика

Ты: "что не так?" → Bro запускает диагностику HighLatency → CPU 23% (норма), Диск 45% (норма), RAM 94% (ВЫСОКО) → процесс node.js 3.2GB → 127 предупреждений heap → коррелирует с деплоем 2 часа назад. Диагностика за 15 секунд.

3

Выполнение фикса

Стандартные фиксы становятся одним тапом: /restart nginx, /run clear-cache, /deploy hotfix. Подтверждение для безопасности.

4

Проверка решения

/status подтверждает, что сервисы здоровы. Обнови инцидент. Обратно спать.

Playbooks для типичных инцидентов

Оформи runbooks как playbooks mttrly. Высокая память? /run memory-cleanup убивает прожорливые процессы. Диск заполнен? /run disk-cleanup чистит логи и временные файлы. База тормозит? /run db-vacuum запускает обслуживание. Твои tribal knowledge становятся автоматизацией в один тап.

Наше среднее время реакции упало с 45 минут до 4 после внедрения mttrly. Дежурный инженер может подтвердить и исправить большинство инцидентов, даже не проснувшись полностью.
Сара, SRE Lead в финтех-стартапе

Example: 3am incident response

🚨 PagerDuty: High error rate on prod-api-01
You: /logs prod-api-01 --errors
Found 847 errors in last 5min: "Redis connection timeout"
You: /restart prod-api-01 redis
✅ Redis restarted. Error rate dropping.
Total incident time: 2 minutes (without leaving bed)