2 min read

На связи техническая команда Kaiten: честный отчет и принятые меры

Делимся результатами расследования инцидента 9 апреля и дальнейшими действиями по повышению надежности Kaiten.

На связи техническая команда Kaiten: честный отчет и принятые меры
Содержание

Здравствуйте! 

Хотим поделиться результатами расследования инцидента и дальнейшими действиями по повышению надежности Kaiten. Будем с вами предельно честны.

9 апреля наш сервис столкнулся с серьезными перебоями в работе из-за перегрузки кластера БД, что привело к временной недоступности Kaiten.

Два дня подряд мы безостановочно проводили оптимизационные меры — пересобрали статистику планировщика запросов, выполнили вакуумирование базы, переконфигурировали кластер, проанализировали и оптимизировали потенциально «тяжёлые» операции.

Однако нам не удалось оперативно выявить первопричину инцидента — её нельзя было детально диагностировать из-за ограниченных возможностей доступа к внутренней инфраструктуре и логам БД. Это привело к более затянувшемуся процессу устранения неполадок и увеличило время простоя.

Что мы делаем, чтобы подобное не повторилось?

Усиливаем инфраструктуру и мониторинг. 

Ниже приводим основные работы с указанием сроков выполнения.

Инфраструктура

  • Q2 2025
    • Перевод кластера БД к новому провайдеру. Это обеспечит полную прозрачность работы кластера для наших инженеров, предоставит расширенные инструменты мониторинга и диагностики, а также гарантирует более высокую отказоустойчивость и стабильность под нагрузкой.
  • Q3 2025
    • Упрощение процесса добавления или замены провайдеров. Мы стремимся уйти от зависимости только от одного поставщика и планируем гибко масштабироваться на нескольких провайдеров. Таким образом мы повысим отказоустойчивость на уровне оборудования, сети и сервисов.
  • Q1 2026
    • Снижение риска отказа важных узлов. Дополнительно укрепим ключевые компоненты инфраструктуры и обеспечим, чтобы сбой одного узла не влиял на стабильность работы всего сервиса.

Мониторинг

  • Q2 2025
    • Увеличение объёма данных телеметрии от приложений и инфраструктуры. Чем больше метрик мы собираем, тем точнее можем оценивать состояние системы и выявлять потенциальные проблемы заблаговременно.
    • Более высокий уровень детализации данных телеметрии. Углубленный сбор телеметрии позволит нам быстрее находить «узкие места» и устранять их, сохраняя стабильность сервиса.
  • Q3 2025
    • Система мониторинга для клиентов On-premise. Аналогичные инструменты мониторинга будут доступны и для on-premise версий Kaiten, обеспечивая одинаково высокий уровень контроля и стабильности для всех пользователей.
  • Q4 2025
    • Проактивные реакции на аномалии. Механизмы мониторинга автоматически распознают аномальное поведение компонентов системы и оперативно оповещают инженеров, предотвращая серьёзные сбои.
  • Q1 2026
    • Status page. Специальная страница позволит в реальном времени отслеживать текущее состояние компонентов Kaiten и быть в курсе доступности.

Часть из этих работ уже выполняется. Также мы будем продолжать делиться с вами статусом.

Мы приносим извинения за доставленные неудобства и благодарим вас за понимание. 

Ваше доверие — наш главный приоритет, и мы продолжим совершенствовать инфраструктуру, чтобы предоставлять вам качественный сервис и инструмент для эффективной командной работы.

С уважением,
Команда Kaiten 💜