METR study: почему AI замедляет опытных разработчиков

В июле 2025 года организация METR опубликовала исследование, которое поставило под сомнение индустриальный консенсус об AI-продуктивности. Рандомизированное контролируемое исследование (RCT) показало: опытные разработчики с AI-инструментами выполняют задачи на 19% медленнее, чем без них. При этом сами участники были уверены, что AI ускорил их на 20%. Разрыв между ощущением и реальностью — 39 процентных пунктов.

Дизайн исследования

METR набрала 16 опытных разработчиков из крупных open-source проектов. Средний размер репозиториев — 22 000+ звёзд на GitHub и более миллиона строк кода. Каждый участник работал в собственном проекте, который знал вдоль и поперёк: годы коммитов, глубокое понимание архитектуры.

Разработчики составили списки реальных задач для своих проектов — баг-фиксы, фичи, рефакторинги. Всего 246 задач. Каждая случайным образом попадала в одну из двух групп: «с AI» или «без AI». В группе с AI разрешалось использовать любые инструменты на выбор (большинство выбрали Cursor Pro с Claude 3.5/3.7 Sonnet). В группе без AI — работа без генеративных инструментов. Средняя задача занимала около двух часов, разработчики записывали экран и сами фиксировали затраченное время. Оплата — $150/час.

Это не синтетический бенчмарк, где незнакомый разработчик ковыряет чужой код. Реальные задачи в проектах, которые сами же участники и создавали.

Главный результат: 19% замедление

Задачи с разрешённым AI заняли на 19% больше времени. Статистически значимый результат рандомизированного эксперимента, а не корреляция из опроса.

Ещё интереснее результаты по восприятию. До начала работы участники прогнозировали, что AI сэкономит им 24% времени. После выполнения задач они оценили ускорение в 20%. Замедления никто не заметил. Все были уверены, что работали быстрее.

Почему AI замедлил, а не ускорил

Исследователи выделили несколько механизмов.

Низкий acceptance rate. Принимались менее 44% генераций AI. Больше половины сгенерированного кода отвергалось, но перед этим уходило время на чтение, тестирование и редактирование. Каждый rejected suggestion — потерянное время с нулевым выхлопом.

Высокие стандарты. К коду в собственных проектах опытные разработчики предъявляли требования, которые AI не вытягивал. Даже принятые генерации приходилось доводить до уровня, приемлемого для мейнтейнера.

Глубокое знание кодовой базы. Когда архитектуру писал ты сам пять лет назад, преимущества AI в скорости ориентирования нет. Выигрыш на незнакомом коде здесь обнуляется, а overhead на проверку генераций остаётся.

Переключение контекста. Сформулировать промпт, дождаться генерации, прочитать результат, принять или отвергнуть, отредактировать. Цикл прерывает состояние потока и добавляет когнитивную нагрузку, которой нет при обычном написании кода.

Domenic Denicola, один из участников (мейнтейнер jsdom), описал опыт в блоге: работа над проектом длилась месяц, ушло 31.25 часа, оплата — $150/час. Его субъективная оценка ускорения совпала со средней по исследованию: казалось, что AI помогает, хотя объективные данные показали обратное.

Критика и ограничения

Исследование вызвало бурную дискуссию. Основные аргументы критиков.

Малая выборка. 16 разработчиков — мало для обобщений на всю индустрию. METR признаёт это ограничение.

Специфическая популяция. Опытные мейнтейнеры крупных open-source проектов — не типичный разработчик. Для джуниоров на незнакомом коде результаты будут другими.

Инструменты начала 2025 года. Участники использовали Claude 3.5/3.7 Sonnet через Cursor. С тех пор модели и инструменты прошли через несколько поколений.

Привычка к инструментам. Разработчики, годами работавшие без AI, могли не освоить инструменты достаточно глубоко за время исследования.

Обновление: февраль 2026

В феврале 2026 года METR опубликовала обновление. Новый эксперимент стартовал в августе 2025 года с расширенной группой участников и актуальными инструментами, но столкнулся с проблемой: 30–50% приглашённых разработчиков отказались участвовать, потому что не хотели работать без AI. Selection bias сделал выборку нерепрезентативной.

Дополнительно обнаружилось, что многие разработчики в 2026 году запускают несколько AI-агентов параллельно, и «потраченное время» становится методологически плохо измеримым. Организация перестроила дизайн эксперимента и по разговорам с участниками предположила, что ускорение от AI в начале 2026 года выше, чем в начале 2025.

Что это значит для команд

Исследование METR не доказывает, что AI-инструменты бесполезны. Оно показывает три вещи.

Первое: субъективная оценка продуктивности ненадёжна. Разработчики искренне ошибаются в оценке влияния AI на свою скорость. Команды, опирающиеся на опросы «стали ли вы продуктивнее с AI», получат завышенные цифры.

Второе: для экспертов на знакомом коде AI создаёт overhead, который перевешивает пользу. Это связано с метриками DX — когнитивная нагрузка и состояние потока страдают от цикла «промпт → проверка → отклонение». Наибольшую отдачу AI даёт на незнакомых кодовых базах и рутинных задачах.

Третье: ROI от AI измеряется объективно. Экранные записи, время выполнения задач, A/B-тесты на уровне команд — инструменты есть, глава про измерение эффекта разбирает их подробнее.