SRE Engineering
Ветвь развития, посвящённая совершенствованию технических компетенций и навыков, необходимых для обеспечения надёжности, масштабируемости и производительности систем. Главный объект деятельности — технические артефакты: код, инфраструктура, инструменты наблюдаемости и автоматизации.
Ветвь включает наблюдаемость (observability), управление SLO/SLI/SLA, снижение toil, chaos engineering, capacity planning и всё, что позволяет системам быть надёжными по своей природе.
Компетенции верхнего уровня
Заголовок раздела «Компетенции верхнего уровня»Под каждым L1-узлом — список L2-концептов (потенциальные подкомпетенции, не leaf-страницы). Конкретный тулинг (Prometheus, Terraform, k6 и т.п.) в графе не присутствует — он живёт в секции «Материалы» соответствующего листа. Подробнее — в Методологии.
Observability
Заголовок раздела «Observability»Построение и поддержка систем наблюдаемости: метрики, логи, трейсы (три столпа observability). Включает dashboards, alerting-стратегии и SLI-based мониторинг.
L2-концепты: Metrics · Logging · Distributed Tracing · SLI-based Alerting · Symptom vs Cause Alerting · End-User Monitoring
Reliability Engineering
Заголовок раздела «Reliability Engineering»Определение и управление SLO/SLA, error budget policy, capacity planning и проектирование систем с учётом надёжности. Включает chaos engineering и fault injection для проверки устойчивости.
L2-концепты: SLO Engineering · Composite SLO Methodology · Chaos Engineering · Capacity Planning · Disaster Recovery · Resilience Patterns
Toil Reduction
Заголовок раздела «Toil Reduction»Выявление, измерение и автоматизация ручного повторяющегося операционного труда (toil) — от personal-уровня tooling до team-level ChatOps. Цель — удерживать долю toil ниже 50% рабочего времени команды.
L2-концепты: Toil Identification · Toil Tracking · Toil Automation · Personal SRE Toolkit · ChatOps
Configuration Management
Заголовок раздела «Configuration Management»Управление конфигурацией инфраструктуры и приложений как кодом (IaC, GitOps), обеспечение воспроизводимости и предсказуемости состояния систем.
L2-концепты: Infrastructure as Code · GitOps
IT Infrastructure
Заголовок раздела «IT Infrastructure»Эксплуатация, проектирование и оптимизация инфраструктуры с точки зрения надёжности: сетевой стек, операционные системы, контейнеризация и оркестрация, service mesh, облачные провайдеры.
L2-концепты: Networking · Operating Systems · Containerization & Orchestration · Service Mesh · Cloud Providers
Programming / Scripting
Разработка инструментов для автоматизации, операционных сервисов, систем контроля надёжности и снижения toil. SRE пишет код — это принципиальное отличие от классических ops.
L2-концепты: Programming Languages · Shell & CLI Craft · CI/CD · Test Strategy · Performance & Profiling
Database Reliability
Заголовок раздела «Database Reliability»Обеспечение надёжности хранилищ данных: backup/restore, репликация, performance tuning, DR-сценарии для БД, мониторинг consistency.
L2-концепты: DB Engines · Replication · Backup & Restore · Performance & Monitoring
Financial Management
Заголовок раздела «Financial Management»Управление стоимостью облака и инфраструктуры с точки зрения engineering: cost visibility, allocation по командам и сервисам, unit economics, оптимизация без потери SLO. FinOps Lifecycle (Inform / Optimize / Operate) опирается на observability и IaC — инструменты, которые уже принадлежат SRE.
L2-концепты: Cost Visibility · Cost Allocation · Unit Economics · Reserved / Spot Strategy · Cost as SLI
Бюджет узлов: 1 корень + 8 L1 + 38 L2 = 47 узлов (в пределах политики ≤ 80 на проект).