От мониторинга до автономного DevOps.
Три тарифа. Одна цель: уверенность в серверах.
Режим Watchdog
Мониторинг, алерты и действия кнопками. Без AI, без сюрпризов — просто надёжная, предсказуемая автоматизация.
Для DevOps, SRE и команд, которым нужен контроль
- Мониторинг статуса — CPU, RAM, диск, сервисы — всегда на виду
- Алерты о падениях — Узнай мгновенно когда что-то ломается
- Авто-рестарт — Приложения автоматически поднимаются после падения
- Управление Docker — Жизненный цикл контейнеров из чата
- Триггеры — Если X случилось, делай Y. Ты задаёшь правила.
- Playbooks — Кастомные скрипты запускаются одним тапом
- Дашборд — Веб-интерфейс для обзора всех серверов
- Audit logs — Полная история каждого действия
Deployment Bro
Говори с серверами на обычном языке. Bro понимает контекст, диагностирует проблемы и выполняет решения.
Для вайб-кодеров и тех, кто быстро шипит
- Естественный язык — «Почему приложение тормозит?» — получи реальный ответ
- Контекст-aware — Bro помнит твою конфигурацию и историю
- Умная диагностика — 9 рецептов — читает логи, находит причину, объясняет просто
- Git-деплои — «Задеплой мои изменения» — готово, с авто-откатом
- Investigation Mode — Сессионный bypass для AI-клиентов — один 2FA на сессию
- Дашборд аномалий — 9 детекторов с auto-mute и rate limiting
- 35+ MCP-инструментов — Полный доступ из Claude Code, Cursor, Codex
- BYOK — Используй свой API-ключ OpenAI/Anthropic
- Всё из Watchdog — Все функции автопилота включены
LAYER 4: Investigation Mode (для AI-клиентов)
Сессионный обход approval для AI, который дебажит инцидент.
Problem: Per-action 2FA ломает поток AI. Дебаг-сессия — это 5–10 exec-действий, каждое требует пуш и подтверждение. AI-ассистенты (Claude Code, Cursor, Codex) теряют контекст между апрувами; оператор устает.
Solution: Открой расследование, один раз пройди 2FA при acquire_investigation_bypass — дальше exec идёт без подтверждений на время сессии. Bypass закрывается по таймауту неактивности (30 мин), hard cap (2ч) или достижению лимита действий (20 по умолчанию).
- ✓Server-scoped — bypass на одном сервере не действует на другой
- ✓Atomic action counter — параллельные вызовы не превысят max_actions
- ✓Exec bypass ограничен execute_command + execute_script. write_file, repair_install и update_agent остаются per-command
- ✓Тюнингуется на acquire — inactivity 1–120 мин, max actions 1–100
- ✓Hard cap не настраивается (2ч) — защищает от случайного открытия bypass на 24 часа
Сделано специально под Claude Code / Cursor / Codex воркфлоу. Доступно на Deployment Bro и выше.
Управление аномалиями
Проактивный мониторинг с auto-mute, rate-limit и дашбордом, которым реально пользуются.
Детекторы, которые работают сейчас
systemd_pm2_mismatch — Сервис под PM2 без systemd unit (или наоборот)port_service_mismatch — Слушающий порт без определения сервисаkernel_error — Ошибки dmesg — OOM kills, hardware faults, segfaultsstale_backups — Бэкапы не выполняются по расписаниюsystemd_unit_drift — Unit-файл изменился относительно known-goodincident_spike — Резкий кластер инцидентов на сервереdeploy_failure_cluster — Несколько деплоев валятся подрядinvestigation_churn — Одна и та же проблема расследуется снова и снова без решенияagent_update_stale — Версия агента устарелаКак это работает на практике
- ✓FP-budget auto-mute — повторные ложные срабатывания на правиле автоматически приглушают его
- ✓Notification rate limiter — никаких пейдж-штормов в 3 ночи
- ✓Acknowledge proactive events — отметь как принято или ложное срабатывание
- ✓Дашборд аномалий — обзор, ack и mute с одного экрана
- ✓Morning brief — проактивные находки + свежие knowledge в одном дайджесте
Быстрое сравнение
| Возможность | Watchdog | Deployment Bro | Deployment Crew |
|---|---|---|---|
| Как взаимодействовать | Кнопки и /команды | Обычный язык | Обычный язык |
| Серверы | 1 | 3 (+1500₽/доп.) | 9 (+1500₽/доп.) |
| Порог входа | Нулевой | Нулевой | Нулевой |
| Авто-рестарт | ✓ | ✓ | ✓ |
| Алерты | ✓ | ✓ | ✓ |
| Дашборд | — | ✓ | ✓ |
| Естественный язык | — | ✓ | ✓ |
| Умная диагностика (9 рецептов) | — | ✓ | ✓ |
| Investigation Mode | — | ✓ | ✓ |
| Дашборд аномалий | — | ✓ | ✓ |
| Проактивный мониторинг | — | ✓ | ✓ |
| Авто-фикс | Авто-рестарт | Простые проблемы | Простые проблемы |
| Git-деплои | — | ✓ | ✓ |
| Пайплайн деплоя | — | ✓ | ✓ + webhooks (soon) |
| Мульти-мессенджеры | — | — | Coming Soon |
| Командный доступ | — | — | Coming Soon |
| Provisioning | — | ✓ | ✓ |
| Retention аудита | 7 дней | 30 дней | 90 дней (soon) |
| MCP-инструменты | 6 read-only | 35+ | 35+ |
| Поддержка | Community | Приоритет (24ч) |
Feature Deep Dive
Further Reading
Site Reliability Engineering: How Google Runs Production Systems ↗
Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy · Book (Free Online)
The foundational SRE text defining MTTR, monitoring, alerting, and incident response practices used by Google and adopted industry-wide.
Accelerate: The Science of Lean Software and DevOps
Nicole Forsgren, Jez Humble, Gene Kim · Book
Research-backed evidence that MTTR is one of the four key metrics predicting software delivery performance and organizational outcomes.
Observability Engineering: Achieving Production Excellence
Charity Majors, Liz Fong-Jones, George Miranda · Book
Modern observability practices that reduce MTTR by improving detection and diagnosis — moving beyond traditional monitoring.