A/B-тест AI-Shorts 2026: хук, обложка, тайтл за 72 часа

YouTube Test & Compare, TikTok 48–72 часа и TubeBuddy: какие метрики считать и как не выбрать проигравший вариант.

Главное за 30 секунд

В 2026 году у вас есть два бесплатных канала для A/B-теста коротких видео. YouTube Test & Compare с декабря 2025 года поддерживает одновременный тест трёх тайтлов, трёх обложек или их комбинации, и решает победителя по доле watch time, а не по сырому CTR. В TikTok нативного split-теста для органики нет — вместо него работает протокол «один параметр на 48–72 часа», где сравниваются completion rate и likes-to-views, а не клики.

Для платных инструментов выбор узкий: TubeBuddy Legend за $14.50/мес (~₽1 400) умеет тестировать тайтл, обложку, описание и теги; vidIQ за $19/мес A/B-тестов не делает вообще. Sub-$15 в месяц — это пол для серьёзной оптимизации.

Главный сдвиг 2026 года: если ваш Short не получил минимум 30 000 показов за 72 часа, вариант B статистически невалиден. Тестируйте только то, что уже набирает трафик. Для каналов с потоком от 3 видео в день это даёт 6–10 валидных тестов в месяц — больше любому соло-креатору не нужно.

Что меняется в 2026 году

За последние полгода обе платформы перестроили подход к тестированию.

Google в декабре 2025 года выкатил title A/B testing глобально внутри YouTube Studio. До этого тестировали только обложки — теперь можно гонять две-три формулировки тайтла одновременно с тремя обложками. По умолчанию YouTube гоняет тест до 14 дней или пока разница не станет статистически значимой. Метрика победителя — watch time share, то есть «какой вариант принёс больше суммарного просмотра». Это важно: вариант с высоким CTR, но низким удержанием проиграет менее кликабельному, но более «удерживающему».

Для Shorts картина сложнее. Свайповая лента не показывает обложку — пользователь видит первый кадр и подпись. Поэтому в нативном тесте YouTube для Shorts влияет не классический CTR, а доля досмотров (View Rate) и watch-through rate. По данным аналитики YouTube за май 2026 года, средний Shorts CTR на главной и в поиске держится в диапазоне 2–6%, а средний View Rate в ленте Shorts — 35–50% для видео до 30 секунд.

TikTok пошёл другим путём. В мае 2026 года площадка анонсировала AI Outline и Smart Split — это про генерацию, а не про тестирование. Нативный split-test остался только в TikTok Ads Manager и относится к платной рекламе, а не к органике. Для органических креаторов работает старый ручной метод: меняешь один параметр (хук, музыку, CTA, обложку), ждёшь 48–72 часа, смотришь completion rate.

Три плоскости теста

Для AI-Shorts есть ровно три переменные, которые меняют исход в feed'е. Менять их одновременно — самая частая ошибка.

Хук — первые 0,8–1,5 секунды. То, что задерживает свайп. У нас уже разбиралось 12 шаблонов хука с конкретными примерами под алгоритм. В A/B-тесте хука вы меняете либо первое слово/фразу, либо первый визуальный кадр. Хук — это плоскость с самым большим разлётом метрик: разница между «слабым» и «сильным» хуком на одной и той же теме — до 4× в completion rate.

Обложка (custom thumbnail) — работает только для YouTube Shorts на главной странице и в поиске, в самой ленте Shorts не показывается. Поэтому тестировать обложку имеет смысл только если 30%+ трафика приходит «не из ленты». Для нового канала эта плоскость почти не работает — у новичков 90%+ просмотров из feed.

Тайтл — заголовок видео. В YouTube Shorts он показывается под автором; в TikTok это caption (до 4 000 символов, но реально считываются первые 80). Тайтл влияет на два сигнала: первый клик из поиска/рекомендаций и search-friendly retention (если человек пришёл по запросу — он смотрит дольше).

Золотое правило: один тест — одна переменная. Если вы меняете и хук, и тайтл — вы не узнаете, что сработало.

72-часовой протокол

Этот протокол отработан на 200+ Shorts русскоязычных каналов в нишах научпоп, кулинария и истории. Цикл — три дня, после третьего дня результат заходит в библиотеку решений.

Шаг 1. Гипотеза (день 0, 20 минут). Запишите одну строчку: «Если я заменю X на Y, completion rate вырастет с A% до B%». Без гипотезы тест превращается в гадание. Хороший пример: «Если первый кадр сменить с long-shot на close-up глаза, completion rate первых 3 секунд вырастет с 62% до 75%».

Шаг 2. Подготовка двух вариантов (день 0, 30–60 минут). Создаёте Variant A (контроль) и Variant B (гипотеза). Все остальные параметры — тайтл, обложка, длина, музыка — идентичны. Через Welder это занимает 5 минут: дублируете storyboard и меняете только параметр первой сцены.

Шаг 3. Запуск (день 0, 1 час). На YouTube — заливаете оба варианта с шагом 24 часа в один и тот же временной слот (например, 19:00 МСК). На TikTok — заливаете Variant A в день 0, Variant B в день 2 в тот же час. Не пускайте оба ролика одновременно в TikTok — алгоритм каннибализирует охват.

Шаг 4. Замер (день 1–3). Считаете три цифры на каждый вариант: View Rate, completion rate (% досмотревших до конца) и «следующее видео» (% перешедших на другой ролик канала). Замеряете на отметке 24 / 48 / 72 часа от заливки каждого.

Шаг 5. Решение (день 3). Победитель — тот, у кого completion rate выше на ≥7 процентных пунктов при сопоставимом охвате (разница в показах не больше 30%). Меньшая разница — шум, не сигнал. Проигравший вариант не удаляете — отправляете в библиотеку для контентного журнала.

Метрики: что считать

Вот сравнительная таблица метрик по платформам и переменным.

Метрика	YouTube Shorts	TikTok	Reels	Что измеряет
View Rate	главный сигнал	главный сигнал	главный сигнал	Хук
Completion rate	да	да	скрыта	Хук + темп
Click-Through Rate	только home/search	нет	скрыта	Обложка + тайтл
Watch time share	метрика Test & Compare	нет	нет	Совокупное удержание
Likes-to-Views	слабый сигнал	важный	слабый	Эмоция
Shares per 1K views	да	важный	да	Виральность
Average view duration	да	да	да	Темп + сценарий

Когда тестируете хук — смотрите View Rate и completion rate первых 3 секунд. Когда тестируете обложку — CTR из home/search. Когда тестируете тайтл — CTR из search и «источники трафика → внешние». Не смешивайте метрики между переменными — это самая частая ошибка.

Порог статистической валидности: 30 000 показов на каждый вариант. Ниже — недостоверно даже при большой разнице.

Инструменты: бесплатное и платное

Бесплатное.

YouTube Test & Compare — внутри Studio, лимит 3 тайтла + 3 обложки на видео, окно до 14 дней. Покрывает 80% потребностей.
TikTok Analytics + ручной журнал — табличка в Notion или Google Sheets, куда вы фиксируете гипотезу, метрики на 24/48/72 ч и победителя.
Reels Insights в Instagram + ручной журнал — то же самое.

Платное.

TubeBuddy Legend $14.50/мес (или ~$27/мес при помесячной оплате) — A/B-тесты тайтла, обложки, описания и тегов с метриками по CTR и watch time. Уникальная фишка против vidIQ.
vidIQ Boost $19/мес — A/B-тестов не делает, но хороший helper по подбору тегов и keyword research.
Thumbnail Test (thumbnailtest.com) — узкий инструмент именно для обложек, $9/мес.
Submagic / Captions / Opus Clip — это не тестировщики, а генераторы; в A/B-логике помогают только в шаге «сделать два варианта быстрее».

Из российских инструментов пока что аналога TubeBuddy не появилось. Если вы делаете AI-Shorts через Welder, то генерация двух вариантов хука занимает 90 секунд — дублируете заявку, меняете параметр первой сцены, отправляете в очередь. С KIE-стороны это два независимых клипа Veo 3.1 по цене одного теста.

Welder vs ручной workflow

Если вы собираете шортс вручную (CapCut + ElevenLabs + Sora 2 / Veo 3 / Runway Gen-4 по отдельности), цикл «гипотеза → два варианта → залив» занимает 4–6 часов. Через Welder с пайплайном «ниша → голос → сценарий → сцены» — 30–40 минут на оба варианта вместе. Это значит, что за месяц соло-креатор успевает прогнать 8–12 валидных тестов вместо 2–3.

Компромиссы честные: Sora 2 даёт лучший общий кадр, Veo 3 — лучшую физику и lip-sync, Runway Gen-4 — лучший контроль камеры. Welder здесь не побеждает в качестве отдельного кадра — он побеждает в скорости перебора гипотез. Для оптимизации канала на 30+ роликов в месяц это решающий фактор.

Типичные ошибки

Пять граблей, на которых тонет каждый второй соло-канал.

Менять две переменные сразу. Тест поменял и хук, и тайтл — результат необъясним. Дисциплина: одна переменная на тест.
Выводить победителя на 5 000 показов. Это шум, не сигнал. Минимум 30 000 показов на вариант.
Сравнивать варианты в разных временных слотах. Видео в 19:00 МСК и в 11:00 МСК — разная аудитория, разный результат. Запускайте в один слот разных дней.
Удалять проигравший вариант. Он валиден для других ниш и других каналов. Сохраняйте в библиотеке.
Тестировать на «холодном» канале. Если канал не вышел из песочницы (меньше 1 000 подписчиков, меньше 10 000 показов в день) — алгоритм не даёт достаточной выборки, и любые выводы недостоверны. См. гайд по первым 30 Shorts.

Куда тесты ведут дальше

Когда у вас есть библиотека из 10–15 валидных тестов, появляется метаслой — паттерны. Например: «на этом канале close-up глаза в первом кадре стабильно даёт +12% completion rate». Это уже не отдельный тест, а правило для всех следующих видео.

С такой библиотекой вы переходите от единичных оптимизаций к франшизе. Дальше — серии: 3 vs 5 vs 7 эпизодов под алгоритм и субтитры с +20% retention — там A/B-логика встраивается уже в производственный процесс, а не идёт отдельным проектом.

Каналы, которые ведут такую библиотеку 3–6 месяцев, выходят на completion rate 75%+ стабильно, а не от случая к случаю. Это разница между MRR ₽20 000 и MRR ₽200 000 от одного канала. Тарифы — тут.

Запустить первый A/B-тест сегодня

Вот минимальный план на ближайшие 72 часа. Возьмите свой последний Short, который набрал больше 10 000 просмотров. Запишите гипотезу о хуке — что бы вы изменили в первой секунде. Сделайте Variant B через Welder за 30 минут. Залейте сегодня в 19:00 в свой обычный слот. Через 72 часа замерьте completion rate.

Это три действия и три дня. Этого достаточно, чтобы выйти из «снимаю и надеюсь» в «снимаю и оптимизирую». Запустить можно прямо сейчас.