Хук первой секунды AI-Shorts 2026: 9 формул retention

Что показать и сказать в первые 1.5 секунды, чтобы удержать выше 80% аудитории — с промптами под Veo 3 и Sora 2.

Главное за 30 секунд

Если первые 3 секунды AI-Shorts удерживают меньше 80% аудитории, алгоритмы TikTok, Reels и YouTube Shorts режут раздачу в 5-10 раз. Видео с 85%+ retention в первые 3 секунды получают в 2.8 раза больше суммарных просмотров, чем те, у кого опускается ниже 60% (по бенчмаркам Shortimize и Retensis за май 2026).

В AI-Shorts ситуация ещё жёстче: зритель листает 140 видео за сессию, и ИИ-картинка часто триггерит «AI-fatigue swipe» — рука сама смахивает, как только мозг распознаёт сгенерированное лицо или сцену. Поэтому хук в первые 1.5 секунды должен делать три вещи одновременно: визуально ломать паттерн, обещать пользу или загадку и стартовать звуком, а не тишиной.

Ниже — 9 формул, которые удерживают AI-Shorts выше 80%, с примерами промптов под Veo 3 и Sora 2, и тем, как Welder это собирает за один проход.

Что считать «хуком» в AI-Shorts

В talking-head хук — это слова автора в кадре. В AI-Shorts кадр у вас сгенерирован, а голос — клонированный или TTS. Поэтому «хук» распадается на четыре слоя, и провал на любом убивает retention.

Открывающий кадр (frame 1). Veo 3.1 позволяет задать его явно через image-to-video, Sora 2 — через reference image, без жёсткого locking первого кадра.
Первое движение (motion 0-0.5 сек). Камера, объект или персонаж — что-то должно сдвинуться сразу.
Первое слово (audio 0-1.5 сек). Не «привет», не «сегодня я расскажу». Конкретное обещание или вопрос.
Текст на экране (overlay 0-2 сек). 3-5 слов, шрифт выше 48pt, читается за 0.4 секунды.

Если все четыре слоя несут одно и то же сообщение, retention в первые 3 секунды растёт на 15-25% по сравнению с одной только устной подачей (наблюдение OpusClip на выборке 3000+ Shorts). Этот эффект называют «layered pattern interrupt».

Бенчмарки retention — куда целиться в 2026

Прежде чем тестить формулы, зафиксируйте, что вы пытаетесь побить.

Платформа	Первые 3 секунды	Середина	Финал (avg view %)	Что значит «провал»
TikTok	70-85%	>50%	>40% (под 60 сек)	<60% в первые 3 сек — раздача отрезается
YouTube Shorts	>80%	>60% (mid)	>70% avg viewed	swipe-away >50% — нет полки Shorts
Instagram Reels	>60% (3s hold)	>45%	>55%	hold <50% — хук провален

Замеряйте в Creator Center / YouTube Studio / Instagram Insights. Если вашей платформы нет в списке (RuTube, VK Клипы) — TikTok-бенчмарки безопасный ориентир для русскоязычной аудитории. Подробнее про сами сигналы и охваты — в алгоритме Reels 2026: 7 сигналов и апдейтах YouTube Shorts.

9 формул хука для AI-Shorts

1. Контр-факт (contradiction + promise)

Открываете утверждением, которое ломает общепринятую истину, и обещаете доказать.

Вербалка: «Длинные Shorts заходят лучше коротких. Сейчас покажу почему.»
Visual: split-screen, слева 15-секундный ролик с низким retention, справа 45-секундный с высоким.
Welder-промпт первого кадра: «Two vertical phones side-by-side, left screen shows 15s timer in red, right screen shows 45s timer in green, dark studio background, 4k cinematic».

Работает потому, что мозг немедленно требует разрешения когнитивного диссонанса.

2. Шок-цифра (numeric jolt)

Конкретное число в первой реплике удерживает на 12-18% лучше, чем абстрактное «много» или «мало» (OpusClip, выборка 1000+ AI-Shorts).

Вербалка: «92% русскоязычных AI-каналов умирают за 30 дней. Вот три причины.»
Visual frame 1: крупный текст «92%» на чёрном фоне, маленькие иконки умирающих каналов рядом.
Sora 2 reference: загружаете заранее свёрстанный в Figma кадр с цифрой как reference, Sora строит вокруг анимацию.

3. Микро-загадка (close-up + reveal)

Старт на close-up необычного объекта без контекста. За 1.5 секунды зритель должен задать себе «что это вообще?» — это критический момент удержания.

Сцена: extreme close-up на капле воды, отражающей город. Через 1.2 секунды камера dolly-out → оказывается, это глаз персонажа.
Veo 3 промпт: «Extreme macro shot of a single water droplet, dolly out reveal, droplet is reflection in human eye, cinematic lighting, 24fps, 9:16 vertical».

Veo 3.1 как раз отличается лучшим контролем над dolly-out и reveal'ами по сравнению с Sora 2, которая склонна к более «свободным» интерпретациям сцены.

4. Прямой стейк (personal high-stakes)

«Я потерял Х», «У меня украли Y», «Меня забанили на Z». Личный риск с конкретикой.

Вербалка: «Я три месяца лил $300 в день на Reels и слил $27 000. Вот что нужно было сделать иначе.»
Visual: персонаж смотрит на разорванный чек или разбитый телефон.
Welder-сборка: ElevenLabs v3 для эмоциональной интонации, Veo 3 для close-up на лице.

5. POV-захват (instant immersion)

Зритель просыпается в сцене. Не наблюдает — участвует.

Сцена: первый кадр — handheld POV, входите в кабинет CEO, он поднимает голову: «Ты опоздал. У тебя 60 секунд, чтобы доказать, почему тебя нельзя уволить.»
Veo 3 промпт: «First-person POV walking into corporate office, executive looks up from desk, handheld camera shake, dramatic backlight, 9:16 vertical».

POV-хуки работают особенно хорошо в микродраме AI-Shorts — формате, где 60-секундные эпизоды собирают по 5-10 млн просмотров.

6. Вопрос-ловушка (curiosity gap question)

Открытый вопрос, на который нельзя ответить, пока не досмотришь.

Пример: «Почему российские AI-каналы поднимают $2K MRR, а американские с теми же роликами — $200?»
Visual: split-screen двух флагов, под каждым — счётчик.

Главное — не задавайте вопрос, на который зритель ответит «не интересно». «Хотите узнать, как делать ролики?» — мёртвый хук. «Почему именно русские AI-каналы платят больше?» — крючок.

7. Пэттерн-интерапт визуальный (visual disruption)

Странный объект, неожиданное движение, инверсия привычной композиции.

Примеры:

Кадр перевёрнут на 180° первые 0.8 секунды, потом резко «прыгает» в нормальное положение.
Полная тишина 1 секунду в стене ролика с громким AI-голосом — мозг автоматически вслушивается.
Очень яркий жёлтый цвет (у Welder это #ffd60a) в первом кадре против общего тёмного фида.

Sora 2 как «физический симулятор» хорошо отыгрывает неестественную физику (предмет падает вверх, отражение не совпадает с реальностью) — это и есть готовый pattern interrupt.

8. Обратный отсчёт (timer promise)

Видимый таймер плюс конкретное обещание.

Вербалка: «У тебя 28 секунд, чтобы запомнить три формулы хука, которые удержат твой Shorts выше 80%.»
Visual: countdown 28→0 в углу кадра, текст в центре.
Сборка в Welder: Veo 3 рендерит фон со студией, нативный редактор накладывает таймер постпродакшеном — на момент мая 2026 ни Veo, ни Sora не умеют надёжно рендерить читаемые UI-цифры (см. наш гайд по камере в промптах).

9. Признание против правил (taboo confession)

«Я делаю то, что вам в школе запретили», «я нарушаю гайдлайны TikTok», «мой канал банили четыре раза».

Вербалка: «YouTube трижды демонетизировал этот канал, и всё равно он приносит ₽280K в месяц. Вот как.»
Visual: скриншот email от YouTube о демонетизации, поверх — большая зелёная сумма.

Работает потому, что нарушение нормы триггерит социальное внимание, а конкретная сумма обещает payoff.

Сравнение генераторов под первый кадр

Модель	Контроль первого кадра	Цена за 8 сек (май 2026)	Длина ролика	Сильная сторона хука
Veo 3.1 (Google DeepMind)	Явный image-to-video, JSON-like prompt	≈$0.50	до 8 сек нативно, композит до 60 сек	Точные reveal'ы, dolly-out, lip-sync
Sora 2 (OpenAI)	Reference image (не locked)	$20/мес ChatGPT Plus	до 20 сек	«Физический» pattern interrupt, нестандартные сцены
Runway Gen-4	Image+text, motion brush	от $15/мес	до 16 сек	Контроль motion в первых кадрах
Kling 1.6 (Kuaishou)	Image-to-video + start/end frames	от $10/мес	до 10 сек	Дешёвый image-to-video для тестов
Welder AI	Сценарий → серии Shorts, Veo 3/2 внутри, ElevenLabs голос	от 290 ₽ за серию	30-60 сек, сборка автоматом	Один промпт-история на 10 роликов, готовый хук в каждом

Welder не заменяет Veo 3 или Sora 2 — он использует их как движки и закрывает то, чего у них нет: сценарий по нише, RU-голоса ElevenLabs v3, сборку серии, обложки и кросс-постинг. Если у вас уже есть навык prompt-engineering на Veo 3, Welder экономит время на оркестрацию пайплайна, а не на сам кадр.

Как тестировать хуки — A/B-протокол

Сделайте 3 версии одного ролика, меняя только первые 3 секунды (например, формулы №2, №3, №6).
Заливайте с интервалом 6-8 часов на один аккаунт, не на разные.
Считайте retention в первые 3 секунды через ровно 24 часа.
Если разница меньше 5 п.п. — хук не виноват, копайте в тему или звук.
Если 10+ п.п. — у вас формула-победитель, делайте на ней серию.

Более широкий протокол A/B-тестов с превью, подписями и оверлеями — в A/B-тестах AI-Shorts 2026.

Что НЕ работает (anti-patterns 2026)

Логотип канала в первом кадре. Минус 8-12% retention в первые 3 секунды (Shortimize, 12 000 Shorts) — мозг распознаёт «реклама», палец смахивает.
«Привет, друзья», «сегодня я расскажу», «не забудь подписаться» в открытии. Просто запретите себе.
Долгая интро-музыка без речи. AI-Shorts с молчащим голосом первые 2 секунды теряют 20-30% retention vs. ролики, где голос стартует на 0.3 секунды.
AI-аватары крупным планом в кадре 1, если канал не нишево-talking-head. HeyGen Avatar IV и Synthesia всё ещё триггерят uncanny valley у >40% русскоязычной аудитории, по нашим замерам.
Слишком быстрый монтаж в первые 0.5 секунды (4+ резки) — мозг не успевает зацепиться, swipe rate растёт.

Чеклист хука перед публикацией

Первый кадр меняется или движется в первые 0.5 секунды.
Первое слово сказано до 0.4 секунды.
Текстовый overlay 3-5 слов, шрифт ≥48pt, контраст AA.
Все 4 слоя (кадр, движение, голос, overlay) несут одно сообщение.
Формула хука выбрана из списка 1-9, не «смесь всего».
Нет логотипа, «привет, друзья», тишины первые 2 секунды.
Замерили retention 3 сек в первый сутки после публикации.

Запустить серию с готовыми хуками

Welder вставляет одну из 9 формул в начало каждого ролика серии — выбираете в интерфейсе, какой паттерн использовать, остальное собирается из вашего сценария и нишы. Цены на серии — на странице тарифов, от 290 ₽ за стартовую серию.

Сделать первое видео с хуком →