На связи техническая команда Kaiten: честный отчет и принятые меры
Делимся результатами расследования инцидента 9 апреля и дальнейшими действиями по повышению надежности Kaiten.

Здравствуйте!
Хотим поделиться результатами расследования инцидента и дальнейшими действиями по повышению надежности Kaiten. Будем с вами предельно честны.
9 апреля наш сервис столкнулся с серьезными перебоями в работе из-за перегрузки кластера БД, что привело к временной недоступности Kaiten.
Два дня подряд мы безостановочно проводили оптимизационные меры — пересобрали статистику планировщика запросов, выполнили вакуумирование базы, переконфигурировали кластер, проанализировали и оптимизировали потенциально «тяжёлые» операции.
Однако нам не удалось оперативно выявить первопричину инцидента — её нельзя было детально диагностировать из-за ограниченных возможностей доступа к внутренней инфраструктуре и логам БД. Это привело к более затянувшемуся процессу устранения неполадок и увеличило время простоя.
Что мы делаем, чтобы подобное не повторилось?
Усиливаем инфраструктуру и мониторинг.
Ниже приводим основные работы с указанием сроков выполнения.
Инфраструктура
- Q2 2025
- Перевод кластера БД к новому провайдеру. Это обеспечит полную прозрачность работы кластера для наших инженеров, предоставит расширенные инструменты мониторинга и диагностики, а также гарантирует более высокую отказоустойчивость и стабильность под нагрузкой.
- Q3 2025
- Упрощение процесса добавления или замены провайдеров. Мы стремимся уйти от зависимости только от одного поставщика и планируем гибко масштабироваться на нескольких провайдеров. Таким образом мы повысим отказоустойчивость на уровне оборудования, сети и сервисов.
- Q1 2026
- Снижение риска отказа важных узлов. Дополнительно укрепим ключевые компоненты инфраструктуры и обеспечим, чтобы сбой одного узла не влиял на стабильность работы всего сервиса.
Мониторинг
- Q2 2025
- Увеличение объёма данных телеметрии от приложений и инфраструктуры. Чем больше метрик мы собираем, тем точнее можем оценивать состояние системы и выявлять потенциальные проблемы заблаговременно.
- Более высокий уровень детализации данных телеметрии. Углубленный сбор телеметрии позволит нам быстрее находить «узкие места» и устранять их, сохраняя стабильность сервиса.
- Q3 2025
- Система мониторинга для клиентов On-premise. Аналогичные инструменты мониторинга будут доступны и для on-premise версий Kaiten, обеспечивая одинаково высокий уровень контроля и стабильности для всех пользователей.
- Q4 2025
- Проактивные реакции на аномалии. Механизмы мониторинга автоматически распознают аномальное поведение компонентов системы и оперативно оповещают инженеров, предотвращая серьёзные сбои.
- Q1 2026
- Status page. Специальная страница позволит в реальном времени отслеживать текущее состояние компонентов Kaiten и быть в курсе доступности.
Часть из этих работ уже выполняется. Также мы будем продолжать делиться с вами статусом.
Мы приносим извинения за доставленные неудобства и благодарим вас за понимание.
Ваше доверие — наш главный приоритет, и мы продолжим совершенствовать инфраструктуру, чтобы предоставлять вам качественный сервис и инструмент для эффективной командной работы.
С уважением,
Команда Kaiten 💜