Что такое MTTR?

Метрика, которая показывает как быстро вы чините

MTTR = Mean Time To Recovery

Сколько времени от «что-то сломалось» до «снова работает». Всё. Чем короче — тем лучше.

MTTR = Общий даунтайм ÷ Количество инцидентов

Из чего состоит MTTR

🔔

Обнаружение

Узнать что что-то сломалось

🔍

Диагностика

Понять что именно сломалось

🔧

Исправление

Починить проблему

Проверка

Убедиться что работает

Почему это важно?

  • Каждая минута даунтайма = потерянные деньги и злые пользователи
  • SLA обычно требует 99.9% аптайм. Это всего 8.7 часов даунтайма в год
  • Средний MTTR в индустрии — 4+ часа. Топовые компании — меньше 30 минут

Почему у большинства MTTR высокий?

Нужен ноутбук

Инцидент в 3 ночи? Включай ноут, VPN, SSH...

Долгая диагностика

Где логи? Что искать?

Страх сломать больше

Ручные команды = риск опечатки

Как mttrly сокращает каждый этап

ЭтапБез mttrlyС mttrly
ОбнаружениеЖдёшь жалобу пользователяМгновенный алерт в мессенджер
ДиагностикаSSH, grep по логам/logs --errors с телефона
ИсправлениеНабираешь команды рукамиОдин тап по кнопке
ПроверкаСмотришь дашборды/status сразу после фикса

Результат: MTTR с часов → минуты

А как же Grafana и Datadog?

Они отлично показывают что сломалось. Красивые графики, умные алерты. Но когда алерт пришёл — всё равно нужно открыть ноутбук, подключиться по SSH и чинить руками. mttrly закрывает этот гэп: увидел алерт → починил с телефона → готово.

Industry Standards & Research

Site Reliability Engineering: How Google Runs Production Systems

Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy · Book (Free Online)

The foundational SRE text defining MTTR, monitoring, alerting, and incident response practices used by Google and adopted industry-wide.

DORA State of DevOps Reports

DevOps Research and Assessment (Google Cloud) · Annual Research

Industry benchmarks for MTTR, deployment frequency, change failure rate, and lead time. Elite teams achieve MTTR under 1 hour.

Accelerate: The Science of Lean Software and DevOps

Nicole Forsgren, Jez Humble, Gene Kim · Book

Research-backed evidence that MTTR is one of the four key metrics predicting software delivery performance and organizational outcomes.

PagerDuty Incident Response Documentation

PagerDuty · Open-source Guide

Free incident response handbook covering on-call practices, severity classification, communication during incidents, and post-mortem processes.

Попробуй на следующем инциденте

Есть бесплатный тариф. Настройка за 2 минуты.