Перейти к содержимому

SRE Culture

Ветвь развития, посвящённая совершенствованию компетенций и навыков, связанных с построением культуры надёжности в организации. Главный объект деятельности — люди и нормы: договорённости, отношения, обмен опытом, метрики как инструмент разговора.

Ключевой принцип: надёжность — это фича, а не afterthought.

Под каждым L1-узлом — список L2-концептов (потенциальные подкомпетенции, не leaf-страницы). Не каждый L2-узел становится leaf’ом; leaves регистрируются отдельно в src/data/roadmap.ts. Подробнее — в Методологии.

Выстраивание партнёрства между SRE и продуктовыми командами, управление ожиданиями стейкхолдеров, формирование культуры совместной ответственности за надёжность. SRE работают вместе с разработчиками, а не вместо них.

L2-концепты: Stakeholder Management · Continuous Feedback · Dev Team Partnership · Communications

Распространение SRE-знаний внутри организации: game day, обучение incident response, менторство, постмортем как инструмент обучения, а не порицания.

L2-концепты: Game Day / Chaos Drills · Postmortem Culture · Communities of Practice · Incident Response Training · Mentorship · Knowledge Sharing

Определение и отслеживание метрик надёжности: DORA-метрики, SLI/SLO/SLA, error budget burn rate, toil ratio. Основа data-driven reliability decisions.

L2-концепты: SLO / Budget Review · DORA Metrics · Toil Measurement

Систематическое накопление и распространение знаний об эксплуатации систем: runbooks, playbooks, постмортемы, архитектурные решения. База знаний снижает когнитивную нагрузку и время восстановления при инцидентах.

L2-концепты: Runbooks · Playbooks · Postmortem Database · Architecture Decision Records · Collaboration

Управление надёжностью и жизненным циклом IT-систем: бюджет on-call нагрузки, SLA с внешними сервисами (SLO Governance), DR Policy & Stakeholders, принятие архитектурных решений с точки зрения надёжности.

L2-концепты: On-Call Budget Management · DR Policy & Stakeholders · SLO Governance

Развитие зрелости SRE-практик в организации: оценка текущего состояния надёжности, внедрение SRE-модели (embedded vs centralised), масштабирование практик на другие команды.

L2-концепты: SRE Maturity Assessment · SRE Model Adoption · Research & PoC · Team Topologies


Бюджет узлов: 1 корень + 6 L1 + 25 L2 = 32 узла.