Что такое MTTR?
Метрика, которая показывает как быстро вы чините
MTTR = Mean Time To Recovery
Сколько времени от «что-то сломалось» до «снова работает». Всё. Чем короче — тем лучше.
MTTR = Общий даунтайм ÷ Количество инцидентовИз чего состоит MTTR
Обнаружение
Узнать что что-то сломалось
Диагностика
Понять что именно сломалось
Исправление
Починить проблему
Проверка
Убедиться что работает
Почему это важно?
- •Каждая минута даунтайма = потерянные деньги и злые пользователи
- •SLA обычно требует 99.9% аптайм. Это всего 8.7 часов даунтайма в год
- •Средний MTTR в индустрии — 4+ часа. Топовые компании — меньше 30 минут
Почему у большинства MTTR высокий?
Нужен ноутбук
Инцидент в 3 ночи? Включай ноут, VPN, SSH...
Долгая диагностика
Где логи? Что искать?
Страх сломать больше
Ручные команды = риск опечатки
Как mttrly сокращает каждый этап
| Этап | Без mttrly | С mttrly |
|---|---|---|
| Обнаружение | Ждёшь жалобу пользователя | Мгновенный алерт в мессенджер |
| Диагностика | SSH, grep по логам | /logs --errors с телефона |
| Исправление | Набираешь команды руками | Один тап по кнопке |
| Проверка | Смотришь дашборды | /status сразу после фикса |
Результат: MTTR с часов → минуты
А как же Grafana и Datadog?
Они отлично показывают что сломалось. Красивые графики, умные алерты. Но когда алерт пришёл — всё равно нужно открыть ноутбук, подключиться по SSH и чинить руками. mttrly закрывает этот гэп: увидел алерт → починил с телефона → готово.
Industry Standards & Research
Site Reliability Engineering: How Google Runs Production Systems ↗
Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy · Book (Free Online)
The foundational SRE text defining MTTR, monitoring, alerting, and incident response practices used by Google and adopted industry-wide.
DORA State of DevOps Reports ↗
DevOps Research and Assessment (Google Cloud) · Annual Research
Industry benchmarks for MTTR, deployment frequency, change failure rate, and lead time. Elite teams achieve MTTR under 1 hour.
Accelerate: The Science of Lean Software and DevOps
Nicole Forsgren, Jez Humble, Gene Kim · Book
Research-backed evidence that MTTR is one of the four key metrics predicting software delivery performance and organizational outcomes.
PagerDuty Incident Response Documentation ↗
PagerDuty · Open-source Guide
Free incident response handbook covering on-call practices, severity classification, communication during incidents, and post-mortem processes.
Попробуй на следующем инциденте
Есть бесплатный тариф. Настройка за 2 минуты.