Этапы работы

Описание процесса

CE Process // Как мы работаем // Каркасный процесс

We describe a chaos engineering process starting from incident categorization and system research to hypothesis/well functioning tests. The process outcomes are team tasks for fixing failed tests and suites of green tests (to be invoked on new release).

1. Prepare // Подготовка

  • начинаем с анализа истории инцидентов
  • сводим к категориям инцидентов (grow up)
  • делаем исследование (что на входе, что не выходе)
  • строим гипотезы и планируем эксперименты в местах "где узко"
  • используем группы атак (в том числе по сложности и стоимости подготовки тестов)

2. Test // Тестирование

  • провели тесты, зафиксирвоали результаты
  • получили в несколько итераций эталонные тесты

3. Fix // Что делаем с результатами

  • что считаем положительным или отрицательным результатом теста

Отрицательные тесты:

  • задача на исследование команде (почему так получилось)
  • распочковывание задач команде + проблемы + риски

Тесты, которые проходят:

  • используем для анализа следующего релиза
  • при необходимости - проводим на их основе аварийные учения

Обсуждение

  • нужно показать в чем value всего процесса
  • разные view на процесс: основные блоки, их детализация, почему именно так, а не по-другому
  • обснование почему в такой последоватлеьности, а не от SLO
  • обратим внимание, что сами тесты - самый короткий этап
  • без чего вообще не работет этот пайплайн (например, мониторинг)