Item: mttrly
Rating: 5
Author: Сара, SRE Lead в финтех-стартапе

PagerDuty разбудил тебя. Что дальше? С mttrly можно диагностировать и починить проблему, даже не вставая с кровати.

🚨 3AM PagerDuty: High Error Rate

Woken up by alert. Need to diagnose and fix without leaving bed.

Bro Terminal

>_ Interactive session

⏰

3AM Alert

PagerDuty: errors spiking

→

🔍

Quick Check

CPU OK, Disk OK, RAM 94%

→

🎯

Root Cause

Memory leak from 1am deploy

→

⏮️

Rollback

Revert → restart → healthy

Before

Wake up, stumble to desk, wait for VPN, SSH, grep logs, diagnose... 15+ minutes.

Traditional on-call:
- Wake up fully
- Get laptop
- VPN connect (slow at 3am)
- SSH into server
- Run diagnostics
- Read logs
- Make decision
- Execute fix

MTTR: 15-30 minutes

After

Phone in hand → ask "what's wrong" → tap rollback → back to sleep. 2 minutes.

With mttrly:
- Open Telegram (5 sec)
- Ask what's wrong (10 sec)
- Review diagnosis (30 sec)
- Choose rollback (5 sec)
- Confirm (5 sec)
- Verify fixed (10 sec)

MTTR: 2 minutes

The Problem

✗Нужен ноутбук для реакции на алерты
✗VPN медленно подключается в 3 ночи
✗Простые фиксы занимают 15+ минут
✗Нельзя выйти из дома во время дежурства

The Solution

Получай алерты в Telegram, смотри логи, рестартуй сервисы, запускай playbooks — всё с телефона. MTTR падает с часов до минут.

Боль дежурства

Ты на дежурстве на этой неделе. Это значит: ноутбук всегда заряжен, мобильный интернет всегда готов, никуда без связи. Алерт в 3 ночи — брести к столу, ждать VPN, набирать команды сонными глазами. Простые фиксы занимают 15+ минут из-за времени на подготовку.

Почему MTTR важен

Mean Time To Resolution напрямую влияет на пользователей и SLA. Каждая минута простоя — это потерянная выручка, расстроенные клиенты и стресс для команды. Средний MTTR в индустрии — 4+ часа. Компании с мобильными инструментами реагирования сокращают его до 30 минут.

Workflow дежурства с mttrly

Приходит алерт

Срабатывает PagerDuty/OpsGenie. mttrly тоже шлёт алерт в мессенджер с начальным контекстом.

Быстрая диагностика

Ты: "что не так?" → Bro запускает диагностику HighLatency → CPU 23% (норма), Диск 45% (норма), RAM 94% (ВЫСОКО) → процесс node.js 3.2GB → 127 предупреждений heap → коррелирует с деплоем 2 часа назад. Диагностика за 15 секунд.

Выполнение фикса

Стандартные фиксы становятся одним тапом: /restart nginx, /run clear-cache, /deploy hotfix. Подтверждение для безопасности.

Проверка решения

/status подтверждает, что сервисы здоровы. Обнови инцидент. Обратно спать.

Playbooks для типичных инцидентов

Оформи runbooks как playbooks mttrly. Высокая память? /run memory-cleanup убивает прожорливые процессы. Диск заполнен? /run disk-cleanup чистит логи и временные файлы. База тормозит? /run db-vacuum запускает обслуживание. Твои tribal knowledge становятся автоматизацией в один тап.

“Наше среднее время реакции упало с 45 минут до 4 после внедрения mttrly. Дежурный инженер может подтвердить и исправить большинство инцидентов, даже не проснувшись полностью.”

— Сара, SRE Lead в финтех-стартапе

Example: 3am incident response

🚨 PagerDuty: High error rate on prod-api-01

You: /logs prod-api-01 --errors

Found 847 errors in last 5min: "Redis connection timeout"

You: /restart prod-api-01 redis

✅ Redis restarted. Error rate dropping.

Total incident time: 2 minutes (without leaving bed)

Try mttrly Free

mttrly для On-Call инженеров