Главное за 30 секунд
Хороший AI-сценарист — ChatGPT-5, Claude Sonnet 4.6, Jasper — генерирует слова. Но ритм истории, удерживающий зрителя 30 секунд, ему задаёте вы. Хук = 80% retention, оставшиеся 20% — payoff — а между ними должна быть структура, иначе модель скатывается в перечисление фактов.
Ниже — 9 повторяемых структур истории, которые работают для voiceover-Shorts на TikTok, Reels и YouTube Shorts в 2026 году. Каждая привязана к жанру, к audio-cue для ElevenLabs v3 и к примерному ритму по секундам. Это не теория — это компиляция того, что держит retention выше 60% на наших и публичных voiceover-каналах за апрель–июнь 2026.
Почему структура — главный рычаг
Все ИИ-сценаристы 2026 года генерируют текст плотным потоком: открытие → разворот → развязка. Но эта структура работает для статьи, не для 30-секундного клипа. AI-Shorts требует другой механики — потому что зритель решает «смотреть или скроллить» в первые 1.5 секунды, и каждые 5–8 секунд должен происходить микро-крючок.
ChatGPT-5 и Claude Sonnet 4.6 этого не делают самостоятельно. Если попросить «напиши Short про X» — получите статью на 30 секунд. Если задать структуру — получите рабочий клип. Средняя retention voiceover-Shorts с curiosity-gap структурой 62–68%, без неё — 28–35% (по нашим внутренним прогонам на 312 клипах за май 2026).
Также важно: структура задаёт где модели расставлять audio-теги. Без структуры [whispers] прилетит куда попало, а [excited] на 23-й секунде вместо первой убьёт хук.
Структура 1: Curiosity Gap
Базовая структура для explainer/educational ниш.
| Секунда | Что происходит | Audio-cue ElevenLabs v3 |
|---|---|---|
| 0–3 | Загадка, парадокс, число | [curious] |
| 4–15 | Подъём напряжения, контекст | [pauses] перед поворотом |
| 16–25 | Payoff — раскрытие | [whispers] |
| 26–30 | CTA или next-loop | [excited] |
Пример хука: «Самое успешное приложение 2026 года потратило на маркетинг ровно ноль рублей.» Не давайте ответ сразу — пусть зритель досмотрит, чтобы узнать.
Работает в: образование, технологии, психология, бизнес-кейсы. Плохо работает в: comedy, мини-драмы — там curiosity gap воспринимается как кликбейт.
Структура 2: False Belief → Pivot
Зритель приходит с убеждением, вы его ломаете. False Belief работает в 90% ниш — если придумать правдоподобный «общепринятый» миф.
| Секунда | Что | Audio |
|---|---|---|
| 0–3 | «Все думают, что [X]» | [calm] |
| 4–10 | Подтверждение тезиса | [calm] |
| 11–15 | Pivot: «но…» | [sigh] |
| 16–25 | Альтернативная правда | [whispers] |
| 26–30 | Что с этим делать | [confident] |
Пример: «Все считают, что для AI-канала нужен мощный комп. На самом деле он работает быстрее с минимальным железом, и вот почему.»
Не используйте на горячих темах политики/религии — алгоритм TikTok 2026 даёт за это shadowban, а YouTube Shorts демонетизирует ролик ещё до публикации.
Структура 3: Listicle Reverse
Списки работают всегда — но обычный listicle с 1→5 не держит. Reverse listicle (5→1) держит, потому что №1 всегда обещает максимум.
| Секунда | Что | Audio |
|---|---|---|
| 0–3 | «5 [X] — и №1 вас удивит» | [excited] |
| 4–25 | Countdown 5 → 2 | [calm] на каждом |
| 26–30 | №1 — резко, с разворотом | [excited] или [shocked] |
Listicle Reverse: №1 даёт +35% completion rate по сравнению с прямым counting в наших A/B-прогонах. Зритель досматривает, чтобы узнать топ-1.
Ниши: продуктовые подборки, ошибки, советы, факты. Подходит для marketplace-партнёрок — связка с WB и OZON разобрана в статье про партнёрки маркетплейсов.
Структура 4: Live Roll (narrate-while-doing)
Документальный голос over кадрами процесса. AI-картинка показывает действие, голос комментирует.
| Секунда | Что | Audio |
|---|---|---|
| 0–3 | Что именно делает герой | [calm] |
| 4–20 | Процесс с инсайтами | [softly] |
| 21–30 | Результат + урок | [confident] |
Жанры: tutorial-light, lifestyle, setup video. Аналог food vlog в текстовом мире — но без «hi guys today I'll show you». Сразу к делу: «Кладу фасоль в чугунную сковородку. Никакого масла. Вот почему это меняет вкус.»
Для этой структуры не нужны драматические audio-теги. ElevenLabs v3 на Natural-stability даст идеальный документальный тон. Подробнее про настройку — в сравнении провайдеров TTS.
Структура 5: Reaction / Roast
Голос реагирует на чужой контент (скрин, статья, новость). Можно делать без stitching — просто кадры контента + voiceover.
| Секунда | Что | Audio |
|---|---|---|
| 0–3 | Что вы смотрите/читаете | [shocked] или [mischievously] |
| 4–20 | Реакция + комментарий | [laughs], [sigh] |
| 21–30 | Вердикт | [confident] |
Audio-теги тут — главный инструмент. [laughs] после абсурдного скрина даёт человечность, [mischievously] — оттенок «я знаю что-то». Без этих тегов реакция звучит как робот, читающий пресс-релиз.
Жанры: tech-новости, реакции на тренды, обзор кейсов конкурентов. ВАЖНО: не давайте voiceover читать чужой контент целиком — алгоритм YouTube распознаёт reupload, и Shorts уйдёт в demonetization.
Структура 6: Mini-Drama (3-акт)
Полноценная микро-история с конфликтом. Требует Dialogue Mode ElevenLabs v3.
| Секунда | Что | Audio |
|---|---|---|
| 0–3 | Завязка: герой в ситуации | Голос A: [calm] |
| 4–15 | Конфликт: появляется препятствие | Голос B: [angry] или [confused] |
| 16–25 | Разрешение | [excited] или [softly] |
| 26–30 | Мораль / CTA | Голос A: [confident] |
Жанры: true-crime, finance, lifestyle-конфликты, B2C-сторителлинг. Это самая дорогая в продакшене структура — нужно генерировать два голоса, выровнять интонацию, не сорвать ритм. Но retention в этой нише регулярно 65%+.
Один важный нюанс: Dialogue Mode ElevenLabs v3 биллит обе реплики как два рендера. На тарифе Creator ($22/мес, ~50 минут) разница незаметна, на Pro ($99/мес) добавит 8–10% к расходу.
Структура 7: Tutorial Flash
Очень быстрый how-to в 3 шага. Без отступлений, без вступлений.
| Секунда | Что | Audio |
|---|---|---|
| 0–3 | Обещание навыка («за 30 секунд научу делать X») | [confident] |
| 4–10 | Шаг 1 | [calm] |
| 11–17 | Шаг 2 | [calm] |
| 18–25 | Шаг 3 | [calm] |
| 26–30 | «Теперь ваша очередь» | [excited] |
Работает для: технические гайды, бьюти, кулинария, дизайн, спорт, продуктивность. НЕ работает для: эмоциональные истории, кейсы, аналитика — Tutorial Flash без чёткого навыка превращается в «зачем я это посмотрел».
Главное правило: 3 шага, не 5. Пять шагов не помещаются в 25 секунд без спешки, а спешка убивает retention.
Структура 8: Open Loop (для серий)
Структура из мира TV: оборвать на самом интересном, чтобы зритель смотрел следующий эпизод.
| Секунда | Что | Audio |
|---|---|---|
| 0–3 | Контекст серии | [calm] |
| 4–20 | История | вариативно |
| 21–25 | Подход к кульминации | [hesitates] |
| 26–30 | «Продолжение в следующем» | [whispers] |
Open Loop удваивает CTR на следующий эпизод серии — особенно в связке с Meta Series на Reels и TikTok Series. Если вы запускаете серию из 10–30 эпизодов, эта структура должна быть на эпизодах 1–7 минимум. Связка с TikTok Series разобрана в гайде по серийному AI-каналу.
Антипаттерн: ставить Open Loop на каждом эпизоде. После 3-го клиффхэнгера подряд зритель устаёт и уходит.
Структура 9: Confession
Уязвимый монолог: «я никогда не говорил, но…». Самая интимная структура.
| Секунда | Что | Audio |
|---|---|---|
| 0–3 | «Я никогда никому это не рассказывал…» | [softly] |
| 4–15 | Личная история | [hesitates], [sigh] |
| 16–25 | Урок / инсайт | [whispers] |
| 26–30 | CTA на серию или DM | [softly] |
Жанры: личный бренд, психология, бизнес-сторителлинг, финансовая грамотность. На voiceover-канале без лица отлично работает с женскими голосами в нишах self-help.
Гoтча: если канал faceless, важно НЕ менять голос между эпизодами в этой структуре. Confession-формат требует постоянной голос-идентичности, чтобы построить parasocial-связь. Сменили голос — и зритель чувствует, что это не та же история.
Какую структуру выбрать под нишу
Распределение по 7 главным нишам voiceover-каналов на основе своих и публичных кейсов за весну 2026:
| Ниша | Главные структуры | Резерв |
|---|---|---|
| Образование/наука | Curiosity Gap, False Belief | Tutorial Flash |
| Психология | False Belief, Confession | Curiosity Gap |
| Бизнес/финансы | Mini-Drama, False Belief | Listicle Reverse |
| True-crime | Mini-Drama, Open Loop | Curiosity Gap |
| Tech-новости | Reaction, Listicle Reverse | Curiosity Gap |
| Lifestyle | Live Roll, Confession | Tutorial Flash |
| Кулинария/DIY | Tutorial Flash, Live Roll | Listicle Reverse |
Совет: на канале используйте 2–3 структуры в ротации. Одна структура → канал предсказуем → retention 5-го видео ниже первого. Все 9 → нет узнаваемости, алгоритм не понимает кому показывать.
2–3 структуры в ротации — оптимальное число для retention свыше 60% на горизонте 30 эпизодов.
Стек: где быстро прокручивать структуры
ChatGPT-5 и Claude Sonnet 4.6 без подсказки игнорируют структуру. Решений три:
- Хранить шаблоны структур в кастомных промптах — работает, но требует переключения вручную, и AI всё равно «уплывает» через 2–3 эпизода в одну любимую структуру (chatgpt-5 предпочитает Curiosity Gap, Claude — False Belief).
- Jasper или Copy.ai templates — заточены под маркетинг и landing-копи, не под Shorts; кастомизация под voiceover требует пол-часа на каждый клип.
- Сценарный движок с встроенными структурами — Welder AI с июня 2026 в voiceover-режиме автоматически выбирает структуру под выбранную нишу и расставляет audio-теги ElevenLabs v3 на нужных секундах. Тариф Starter — 990 ₽ в месяц после ребейса 8 июня 2026, включает первое видео. Полное сравнение тарифов — на странице цен.
Антипаттерны голосового хука — отдельная тема: 8 фраз, убивающих retention в первые 3 секунды, разобраны тут. Если вы хотите запустить voiceover-канал без визуального пайплайна Veo/Sora — гайд по быстрому запуску даёт стек целиком за вечер.
Что делать прямо сейчас
Возьмите следующий сценарий, который вы собирались отдать AI-сценаристу. Перед тем, как нажать «генерация»:
- Выберите ОДНУ структуру из этих 9 — под вашу нишу по таблице выше.
- Распишите ритм по секундам (см. таблицы в каждом параграфе) — 0–3, 4–15, 16–25, 26–30.
- Передайте промпт сценаристу с указанием структуры и таймингов. ChatGPT-5 и Claude Sonnet 4.6 хорошо реагируют на формулировку «follow Curiosity Gap structure with 4-second segments».
Результат должен быть жёстко привязан к секундам. Если AI сгенерировал текст без чётких 3/15/25/30-секундных границ — он не знает структуру, и retention упадёт уже на втором эпизоде.
Запустите первое видео в Welder бесплатно — voiceover-движок уже знает все 9 структур, остаётся выбрать нишу и нажать «сгенерировать серию».