Planner — писать стало дёшево, доверять

Проблема

Узкое место больше не «написать». А «поверить».

Генерация подешевела до нуля. Проверка — нет. 61% разработчиков говорят, что AI часто выдаёт код, который выглядит правильным, но ненадёжен; 38% — что ревью AI-кода требует больше усилий, чем ревью кода живого коллеги. CTO AWS Вернер Фогельс назвал это verification debt: долг проверки, который ты выплачиваешь руками после каждого «готово».

Источники: Sonar — State of Code Developer Survey (96%, 61%, 38%) · IT Pro — «verification debt», Werner Vogels (AWS re:Invent)

Агент рапортует «готово», которое не может подтвердить.

Тесты зелёные — но проверяют заглушку, а не поведение. Функция, которую ты просил, осталась TODO под аккуратным отчётом о проделанной работе. Агент генерит слова о завершении тем же движком, что и код — независимо от того, что реально на диске. И доказывает работу, и принимает её одно лицо. Независимой проверки в контуре нет.

Решение

Контракт из критериев. И независимая проверка.

Planner ставит между «агент сказал» и «задача закрыта» проверяемый контур из четырёх шагов:

Оформляете цель с критериями приёмки

Проверяемыми над результатом, а не «на словах». Что именно должно стать правдой, чтобы задача считалась закрытой.

Ставите эту цель Claude как вход

Агент получает не расплывчатую просьбу, а цель с явными критериями — и знает, по чему его закрытие будут проверять.

Агент прикладывает evidence к каждому критерию

Артефакты результата — а не отчёт о проделанной работе.

→ доказывает агент

Судья в планере сверяет и выносит вердикт

Отдельная сессия без доступа к рассуждениям агента — судит по приложенным артефактам, а не по его отчёту. Содержательно сопоставляет evidence с критерием и засчитывает закрытие или отклоняет с причиной.

→ проверяет судья

Доказывает агент. Проверяет — судья. «Готово» перестаёт быть словом агента и становится проверенным фактом — без verification debt, который ты выплачивал руками.

Когда «готово» не готово

Агент сказал «готово». Судья посмотрел на скриншот.

С живого прогона демо. Агент отчитался, что шаг онбординга сделан, и приложил скриншот как доказательство. Судья вынес вердикт по самому скриншоту — а не по отчёту.

onboarding Онбординг нового пользователя

Что заявил агент

✓ Готово — после первого действия пользователю показывается прогресс «шаг 1 из 3».

Что нашёл судья в evidence

after-first-action.png

скриншот · обещанного прогресс-бара нет

✗ судья: на скриншоте индикатора прогресса нет. Закрытие не засчитано.

Каждый вердикт цитирует пруф, на котором стоит. Перепроверь сам.

Как зарабатывается «готово»

Один критерий, который судят, пока он не заслужен.

Та отклонённая карточка — итерация 1. Здесь тот же критерий онбординга прогоняется через петлю снова и снова — каждую попытку судят по видимому результату, и счётчик выполненных условий двигается только в одну сторону.

Итерация 10 / 4 условий

После первого действия прогресс-бара нет вовсе

✗ отклонено. Индикатора прогресса на скриншоте нет — проверять против критерия нечего.

Итерация 21 / 4 условий

После первого действия

шаг 0 из 3

✗ отклонено. Бар отрисован — но застрял на «шаг 0 из 3» после первого действия. Не продвигается.

Итерация 32 / 4 условий

После первого действия

шаг 1 из 3

✗ отклонено. Теперь продвигается — но бар залит на 100% при шаге 1 из 3. Заполнение не пропорционально.

Итерация 43 / 4 условий

После первого действия

Шаг 1 из 3

↻ после reload: пусто

✗ отклонено. Верный бар на 1/3 — но скриншот после reload показывает сброс в пусто. Прогресс не сохраняется.

Итерация 54 / 4 условий

После первого действия

Шаг 1 из 3

↻ после reload: сохранилось aria-valuenow=1

✓ засчитано. 1/3 пропорционально, подпись «Шаг 1 из 3», переживает reload, отдаёт aria-valuenow=1 — все четыре условия выполнены.

Пять попыток, один критерий — счётчик выполненных условий ни разу не идёт назад. Этот храповик и есть суть: каждое засчитанное «готово» пришлось заслужить перед evidence.

Это видят все, кто работает с агентами

Агент скажет, что всё готово. Коммиты сделаны, тесты проходят. Открываешь ветку — а там половина хелпера, ни одного теста и билд, который не собирается.
— Brad Kinnard, «AI coding agents lie about their work» (перевод)

Перестаньте выплачивать verification debt

Задайте критерии один раз — и пусть агент доказывает, а судья проверяет. Посмотрите на готовом примере, как «готово» становится проверенным.

Ранний доступ. Planner собран в собственной разработке и каждую свою задачу проводит тем же контуром — пример на демо настоящий, не нарисованный.

Посмотреть, как это работает →

Интерактивное демо — без регистрации · готовы подключить? Подключить к Claude →