Calibration Meeting

«У нас в команде A это уже senior, у нас в команде B он бы тянул на mid» — реплика, которую я регулярно слышу в кулуарах между руководителями двух команд из одного департамента. Calibration meeting — это регулярная встреча руководителей, на которой они вместе пересматривают свои рекомендуемые уровни для инженеров и согласовывают общую интерпретацию ladder. Без неё каждый руководитель читает career ladder по-своему; через полгода команда A и команда B имеют несовместимые «L5» с разными ожиданиями; решения о повышениях становятся несправедливыми; зарплатные диапазоны начинают расходиться. Узкая практика внутри L1 Performance Management; закрывает разрыв между Career Ladders как документом и реальностью применения.

Сразу границы: One-on-Ones — непрерывная обратная связь между руководителем и инженером; калибровка — периодическое согласование между руководителями. Career Ladders — словарь; калибровка — ритуал, в котором словарь проверяется на конкретных людях. Этот лист — про механику калибровки (ритм, участники, артефакты, результат); полный цикл performance review с рейтингом и разговором о компенсации — шире, отдельная тема.

Что должен уметь

Главный навык на уровне L5 — приходить на калибровку с артефактами, а не с впечатлениями. «Я считаю, что Лёша на L5» — самое худшее, что можно сказать на калибровке. «Лёша закрыл ожидания L5 по таким-то пунктам, артефакты — ADR X, инцидент Y, инициатива между командами Z; пробел по пункту “наставник минимум для N junior-инженеров” — пока 1 ученик» — это разговор о калибровке. По моим наблюдениям, разница между калибровкой, которая работает, и калибровкой, которая превращается в спор интуиций, — именно в том, что участники приходят с заранее подготовленными ссылками на артефакты.

Готовится к калибровке с артефактами на каждого инженера: список ожиданий ladder, конкретные артефакты (ADR, проекты, инциденты, наставничество) под каждый пункт, явные пробелы.
Признаёт собственные искажения: эффект свежести (последний месяц вытесняет прошлый год), halo effect (один сильный проект перекрывает остальное), симпатия к своим (свои в команде кажутся сильнее). Калибрует свою позицию относительно коллег.
Различает «согласен» и «не возражаю»: на калибровке ритуал — собрать конструктивные разногласия, а не формальный консенсус. Если все «не возражают», калибровка не работает.

L6+

Ведёт встречу калибровки: повестка, жёсткий лимит на одного инженера (типично 5–10 минут), правила обсуждения (на фактах, а не на впечатлениях), формат фиксации решений и обоснований.
Поддерживает цикл калибровки на уровне организации: ритм (полугодие — норма для зрелых организаций, квартал — для растущих), состав участников, путь эскалации для спорных случаев, связка с решениями о повышениях и рейтинге.
Замечает и корректирует расхождение между ladder-документом и реальной практикой: если на калибровке три квартала подряд возникает «по этому пункту мы все читаем по-разному» — сигнал обновлять ladder, а не интерпретировать в каждой калибровке заново.
Защищает калибровку от деградации в формальный театр: формальная встреча без настоящих разногласий — хуже, чем её отсутствие (создаёт иллюзию справедливости).

Материалы

Книги

Camille Fournier — The Manager’s Path (O’Reilly, 2017). Главы про performance review и калибровку с позиции руководителя команды разработки — практический справочник. Если читать одну главу — главу «Performance Reviews».
Lara Hogan — Resilient Management (A Book Apart, 2019). Глава про справедливую обратную связь и практики калибровки без искажений — короткий применимый источник.
Will Larson — An Elegant Puzzle: Systems of Engineering Management (Stripe Press, 2019). Раздел про performance management как систему, а не как индивидуальные решения; полезен как ментальная модель перед дизайном цикла калибровки на уровне организации.

Статьи и фреймворки

Michael Lopp (Rands) — On Performance Reviews и связанные посты на randsinrepose.com. Серия про performance management из позиции инженерного руководителя; калибровка упоминается как побочный эффект зрелого процесса обзоров.
Progression.fyi. 75+ публичных career ladders разных компаний. По моим наблюдениям, перед дизайном калибровки полезно посмотреть 5–10 ladder и заметить разницу в формулировке ожиданий — это лучшая подготовка к разговору «у нас здесь читается по-разному».
GitLab Engineering Handbook — Performance Indicators и связанные страницы про калибровку в публичном handbook. Хороший пример полностью описанного процесса для распределённой компании; меньшие организации могут адаптировать примерно треть.
Spotify Engineering Steps (открытая публикация). Один из публичных примеров ladder, к которому шла регулярная калибровка — полезен как референс структуры.

Инструменты

Таблица или структурированный документ — самый простой формат: таблица «инженер × текущий уровень × рекомендуемый × ссылки на артефакты × заметки калибровки». По моим наблюдениям, разница между «работающей» и «бутафорной» калибровкой — в том, заполнена ли колонка артефактов до встречи или на лету во время.
Lattice, 15Five, Culture Amp — коммерческие платформы для performance management со встроенным представлением калибровки. Полезны на масштабе 100+ инженеров, где таблица становится узким местом; до этого порога — overengineering.
Анонимная обратная связь от коллег (через формы или платформу) — опционально, как источник артефактов для калибровки. По моим наблюдениям, попытка сделать обратную связь от коллег обязательным источником для калибровки в большинстве команд деградирует в формальное «всё хорошо» или поляризованное «у меня с ним конфликт». Полезно для проверки, не как основной источник.

Best practices

Самый частый сценарий неудачной калибровки, который я наблюдаю: руководители собираются, поочерёдно зачитывают своих инженеров, никто никого не оспаривает, через 90 минут все расходятся «откалиброванные». Через полгода выясняется, что команда A и команда B по-прежнему имеют разные «L5», зарплатные диапазоны расходятся, при переводе между командами инженер падает в уровне — никто не понимает почему. Калибровка без настоящих разногласий — это не калибровка, это галочка.

Короткие правила:

Артефакты до калибровки, а не во время. Каждый руководитель приходит с заполненной таблицей артефактов на каждого инженера (ожидания × артефакты × пробелы). Без этого калибровка вырождается во впечатления, интуиции и halo effect. «Я считаю, что он на L5» — антипаттерн; «вот ожидания L5, вот закрыто через X / Y / Z, вот пробел по N» — правильно.
Ритм: полугодие — норма, квартал — для растущих организаций. Год — слишком редко (расхождение накапливается, калибровка становится тяжёлой пересборкой). Месяц — слишком часто (не успевают накопиться артефакты). По моим наблюдениям, для зрелых команд 30–80 инженеров полугодовой ритм — оптимум.
Разногласия — главный результат, а не консенсус. Калибровка, где никто никого не оспаривает — формальная. Цель — выявить, где руководители читают ladder по-разному, и договориться об общей интерпретации; либо обновить ladder, если различие структурное.

Подробнее:

Участники: все руководители одной зоны ответственности + один старший ведущий. Оптимальный состав — все руководители одного уровня организации (например, все тимлиды одного департамента) + старший ведущий (директор или staff IC, не сам руководитель из обсуждаемой зоны). Слишком узкий состав (руководитель + его босс) — это не калибровка, это 1:1 руководителя с подчинённым. Слишком широкий (вся организация из 50 руководителей) — калибровка деградирует в формальное заседание. Я регулярно вижу оптимум 4–8 руководителей на одной встрече.

Жёсткий лимит на одного инженера: 5–10 минут. Калибровка на 30 инженеров с 30 минутами на каждого — это не калибровка, это марш смерти на 15 часов. 5–10 минут заставляют руководителей готовиться заранее: артефакты сжаты, пробел явный, рекомендация чёткая. Если по конкретному инженеру нужно больше — это сигнал, что либо подготовка по нему была плохой, либо это спорный кейс на промоушн, который заслуживает отдельной встречи. Калибровка не место для глубокого разбора одного человека.

Фиксировать решения и обоснования, а не только итог. «Лёша оставлен на L4» — это решение без обоснования; через полгода никто не помнит, почему. Заметки калибровки сохраняют что обсуждалось, какие артефакты приводились, что стало решающим фактором — версионируются, доступны для следующей калибровки. Через 2–3 цикла эта документация — главный артефакт зрелости процесса performance management; и единственный способ сделать решения о повышениях отстаиваемыми перед всей инженерной организацией.

Расхождение между ladder и реальностью — сигнал обновлять ladder, а не каждый раз интерпретировать заново. Если на трёх калибровках подряд один и тот же пункт ladder читается всеми по-разному — проблема не в калибровке, а в формулировке ladder. Норма: после калибровки — короткая ретроспектива на 30 минут, что в ladder требует уточнения. Без ретроспективы ladder остаётся «как у нас написано», калибровка каждый раз переделывает интерпретацию с нуля. Это самая тонкая дисциплина и самая ценная: она превращает калибровку в петлю обратной связи для ladder, а не в одноразовый компромисс на конкретный цикл.

Антипаттерн: калибровка как формальная штамповка уже принятых решений о промоушне. Руководитель приходит с «я уже договорился с N о промоушне на L5, нужна формальная калибровка». Калибровка превращается в театр. Норма: калибровка — до финального решения, а не после; результаты калибровки входят в решение, а не наоборот. Если промоушн уже обещан кому-то до калибровки — это перевёрнутый процесс с предсказуемыми последствиями (калибровка без веса, ladder без словаря, обещания руководителя без подкрепления).

Связанные листья

Career Ladders — словарь, который калибровка применяет. Без явной ladder калибровка сводится к спорам интуиций; без калибровки ladder остаётся документом-альбатросом, который не используется между промоушнами.
One-on-Ones — непрерывная обратная связь, которая подпитывает артефакты для калибровки. «Правило отсутствия сюрпризов» в performance review — побочный эффект того, что 1:1 регулярно обсуждают прогресс по ladder; калибровка без истории 1:1 превращается во впечатления.
Personal Growth Plan — артефакт уровня инженера, который тот приносит на 1:1; суммарно эти планы — источник для калибровки (что инженеры сами считают своими целевыми уровнями).
Mentoring as Practice — калибровка оценивает артефакты; наставничество — один из механизмов передачи, через которые артефакты накапливаются (особенно «наставник минимум для N» как ожидаемое поведение L5+).
Stakeholder Management — критерий L5+ в большинстве ladder; калибровка регулярно возвращается к «есть ли влияние через организацию как артефакт».

Открытые вопросы

Полный цикл performance review (TBD) — калибровка — только часть полного цикла обзоров. Полный цикл включает самооценку, обзор руководителя, калибровку, решение по рейтингу, разговор о компенсации, передачу обратной связи. Заслуживает отдельного листа; этот покрывает только механику калибровки.
Разговор о компенсации (TBD) — связка калибровка → уровень → зарплатные диапазоны. Зона HR, отдельная подтема со своими правилами (прозрачность vs конфиденциальность, данные рынка, географическая дифференциация).
Форматы кейсов на промоушн (TBD) — детальная схема одностраничника перед калибровкой: ссылки на артефакты, рекомендации коллег, обоснование руководителя. Упоминается в Career Ladders, заслуживает отдельного листа.
Калибровка в распределённой организации — распределённые руководители, асинхронная культура, разные часовые пояса — встреча калибровки на 90 минут становится тяжёлым ритуалом. GitLab handbook предлагает асинхронную калибровку как альтернативу; я не пробовал, не могу оценить компромиссы. Расскажите через PR, если работает.
Калибровка для специалистов уровня staff/principal — обычная калибровка не справляется (выборка 1–2 человека, артефакты качественно другие). Я регулярно вижу, что калибровка для staff+ делается отдельным процессом с другим составом участников, но не видел публичных описаний.