Главное за 30 секунд
В мае 2026 у вас есть три рабочих способа собрать двухголосый диалог в вертикальном AI-Shorts: ElevenLabs v3 Dialogue mode (от $22/мес на Creator-тарифе, 250 минут диалога), Veo 3.1 с нативным lip-sync (≈$0.50 за 8-секундный 1080p-клип через Vertex AI) и связка двух раздельных TTS-дорожек с любым видеогенератором (Sora 2, Kling 1.6, Hailuo 02). Welder AI собирает связку «диалог + сцены + субтитры + автопостинг» из коробки — Creator-тариф 5 290 ₽/мес ≈ 50 серий в месяц, и не нужно держать ElevenLabs + Veo + склейку отдельно.
Диалог в Shorts работает не потому что «модно», а потому что мозг зрителя обрабатывает смену голоса как pattern interrupt каждые 2–4 секунды — а это ровно та частота, на которой TikTok и YouTube Shorts алгоритмы решают «оставить или скипнуть». Дальше — конкретно: 4 формата, промпт-формулы под Veo 3.1, audio-теги ElevenLabs v3 и пять типичных провалов.
Почему диалог обгоняет монолог в шортсах
Бенчмарк удержания на TikTok в мае 2026: 65% зрителей, досмотревших первые 3 секунды, останутся как минимум на 10 секунд. Видео с retention первых трёх секунд выше 65% получают в 4–7 раз больше показов в For You — это внутренняя метрика TikTok, о которой публично говорят и Opus, и Submagic. На YouTube Shorts аналогичный порог: 70% intro-retention или контент не вылетает за пределы первого test-batch'а.
Монолог теряет внимание ровно в момент, когда голос становится «монотонным» — обычно к 6–8 секунде. Диалог даёт три встроенных усилителя.
Первое — смена голоса работает как смена кадра без склейки. Мозг считает это новой информацией, и таймер «скоро устану» сбрасывается на ноль. Второе — конфликт двух точек зрения формирует curiosity loop, который очень тяжело собрать в одиночном повествовании. Третье — реплики физически короче абзацев. Средняя длина реплики 5–9 слов попадает в идеальное окно «1 кадр = 1 идея» для шортсов.
Это не теория. Разборы топ-100 viral-роликов в faceless-нишах (история, true-crime, психология) в апреле 2026 показывают, что у диалоговых форматов средний average percentage viewed на 12–18 пунктов выше, чем у монологов той же длины и темы. На 25-секундном ролике это разница между «алгоритм прокачает» и «алгоритм похоронит после первой сотни показов».
Что технически нужно сейчас, в мае 2026
Стек для двухголосого AI-Shorts собирается из трёх блоков. У каждого есть конкретный игрок, который выигрывает по своей метрике.
| Блок | Лидер 2026 | Цена | Что даёт |
|---|---|---|---|
| Озвучка диалога | ElevenLabs v3 Dialogue mode | от $22/мес (Creator) | Multi-speaker JSON, audio-теги [whispers], [laughs], [shouting], prosody matching между репликами |
| Видео с lip-sync | Veo 3.1 Standard | ≈$0.50 за 8 сек 1080p | Нативный lip-sync, latency под 120 мс, апскейл 4K из коробки |
| Видео без lip-sync (B-roll) | Sora 2 / Kling 1.6 / Hailuo 02 | $20–60/мес | Дешевле для cutaway-кадров без говорящих персонажей |
| Сборка пайплайна | Welder AI | 1 690–18 000 ₽/мес | Готовая связка скрипт → реплики → клипы → склейка → субтитры → автопост в TikTok, Reels, Shorts, VK Клипы |
Альтернатива для talking-head — HeyGen Avatar IV: лучшая консистентность аватара через клипы, но всё ещё «студийная» постановка, которая хуже работает в нативном для-тебя-фиде Shorts. Murf и PlayHT тянут monolog-озвучку, но не дают режим диалога с природными паузами и реакциями. OpenAI Voice (TTS-1-HD) в Dialogue-режиме пока проигрывает ElevenLabs v3 по плавности перехода между голосами — на одной фразе разница незаметна, на десятиэпизодной серии слышно.
Если вы хотите взять отдельные инструменты — придётся склеивать руками: ElevenLabs Studio + Veo 3.1 через Vertex AI + DaVinci Resolve или CapCut. На одной серии из 10 эпизодов это 6–8 часов рутины и ≈$15–25 в API-расходах. Welder делает то же самое в один проход — об этом ниже.
Конструкция диалога — 4 формата под Shorts
Из сотен опубликованных в 2026 году диалоговых AI-Shorts устойчиво работают четыре формата. Не пытайтесь играть в кино — короткая форма требует жёсткой структуры.
| Формат | Длина | Кто-кому | Когда работает |
|---|---|---|---|
| Q&A-разрыв | 15–25 сек | Любопытный → Эксперт | Объясняющий контент, факты, образование |
| Конфликт | 20–35 сек | Скептик ↔ Сторонник | Hot takes, мифы, спорные темы |
| Допрос | 20–30 сек | Журналист → Свидетель | True-crime, история, расследования |
| Скетч | 25–40 сек | Два равных персонажа | Юмор, бытовые ситуации, скетчи |
Q&A-разрыв — самый частый и самый быстрый формат. Первая реплика — вопрос на 4–6 слов, который сразу формулирует curiosity gap. Вторая реплика — ответ, который сам вызывает новый вопрос. Идёт лесенкой 4–6 итераций. Подходит под «5 фактов о…», «почему X?», «что такое Y?».
Длина одной реплики — 5–9 слов. Больше — это уже монолог в форме диалога. Меньше — теряется смысл и зритель не успевает считать речь. Правило проверяется по аудиодорожке: каждая реплика должна укладываться в 1.2–2.5 секунды звука с естественным темпом.
Конфликт даёт лучший engagement через комментарии. Если в реплике одного персонажа есть утверждение, с которым 30%+ аудитории не согласны — ваш CTR в комментарии вырастет на 25–40%. Об этом мы писали отдельно в материале «Комментарии под AI-Shorts 2026: +40% к вовлечённости».
Допрос хорош для серийных каналов — заброшки, исчезновения, авиакатастрофы. Один и тот же «следователь» проходит через 30+ серий, второй персонаж меняется. Канал получает узнаваемость и retention одновременно.
Скетч — самый сложный формат: требует чувства тайминга и юмора в скрипте. Большинство AI-скетчей выглядят натужно. Если канал не нащупал своего скриптора (или не натренировал отдельный LLM-промпт под юмор) — не лезьте.
Промпт-формула для Veo 3.1: реплика как клип
Главная ошибка новичков — пытаться засунуть весь диалог в один Veo-промпт. Veo 3.1 уверенно делает lip-sync только когда одна реплика = один клип. Google в Ultimate prompting guide для Veo 3.1 прямо это рекомендует: turn-taking режется на отдельные генерации.
Пятичастная формула на каждый клип:
[Shot Composition] + [Character Details] + [Dialogue: "..."] +
[Setting/Environment] + [Aesthetics/Mood]
Пример рабочего промпта на одну реплику Q&A-формата:
Medium close-up, slight low angle. A 35-year-old historian in a tweed jacket, dark hair, intense eyes. He says directly to camera: «Никто не строил пирамиды за 20 лет — это математически невозможно». Dim museum hall behind, sandstone artifacts in soft focus. Cinematic, golden-hour key light, shallow depth of field, 24fps.
Имя реплики, длительность ≤2.5 сек, описание персонажа неизменно от клипа к клипу. Veo 3.1 удерживает консистентность лица только если вы дословно повторяете descriptors («35-year-old historian in a tweed jacket, dark hair, intense eyes») в каждом промпте. Поменяете «dark» на «brown» — получите другого человека, и зритель почувствует это за 0.5 секунды.
Для второго персонажа — отдельный набор descriptors, отдельная серия промптов, обычно matching shot (over-the-shoulder или зеркальный close-up). Если оба персонажа в одном кадре — Veo 3.1 справится с двумя статичными лицами, но lip-sync второго персонажа просядет на 15–25% точности. На длинных репликах это превращается в заметный артефакт.
Композиция тоже не остаётся одинаковой: чередуйте medium close-up → over-the-shoulder → wide insert. Минимум три типа композиции в одном диалоге, иначе визуально выглядит как «два говорящих робота в один кадр».
Если нужна детальная разбивка с примерами на 5 ниш — см. наш гайд по раскадровке AI-Shorts на Veo 3.1.
ElevenLabs v3 Dialogue mode: как ставить теги
ElevenLabs v3 вышел из альфы в марте 2026 — теперь это GA-релиз с 70+ языками, включая русский с природной интонацией. Dialogue mode принимает JSON-структуру с несколькими голосами и аудио-тегами:
[
{"voice": "Igor", "text": "[curious] Слушай, а если пирамиды не строили рабы — кто тогда?"},
{"voice": "Mark", "text": "[confident] Свободные ремесленники. Записи в Дейр-эль-Медине доказывают."},
{"voice": "Igor", "text": "[skeptical, slower] Запись 4000-летней давности? Серьёзно?"}
]
Audio-теги [curious], [confident], [skeptical], [whispers], [laughs], [shouting], [sigh] — рабочие подсказки, которые v3 различает. В отличие от v2, теги не съедают аудиовремя, а только влияют на просодию. Можно вкладывать тег в середину реплики — «Запись, [pause] 4000-летней давности?» — это даёт реальную паузу около 350 мс.
Чек-лист на каждую реплику диалога:
- Голос подобран под характер: низкий мужской под «эксперта», более высокий и быстрый под «скептика», возрастной — под «свидетеля». Контраст голосов важнее, чем «красивый» голос каждого.
- Один тег эмоции в начале реплики, максимум второй — посередине длинной реплики.
- Знаки препинания работают как реальная пауза: запятая ≈ 200 мс, тире ≈ 350 мс, точка ≈ 500 мс. Пишите их осмысленно, а не «как привыкли в школе».
- Длина 5–9 слов. Если больше — режьте на две реплики с разными тегами и отдельными клипами.
На Creator-тарифе ($22/мес) включено 250 минут диалога — этого хватает на ≈30 эпизодов по 25–30 секунд. Если ваш канал делает 15 эпизодов/мес, можно укладываться в Starter ($5/мес) и одну дополнительную серию на 3–4 эпизода в месяц.
Глубже про настройку русских голосов и клонирование собственного — в материале «Клонирование голоса в ElevenLabs за 15 минут». Эмоции и стилистика отдельно — в «Эмоции в ИИ-голосе AI-Shorts 2026».
Сборка в пайплайне Welder
Если собирать руками — это связка ElevenLabs API + Veo 3.1 API + FFmpeg-склейка + субтитры (Submagic или CapCut) + загрузчик в TikTok, Reels, Shorts и VK Клипы. На связку из 10 эпизодов уходит 6–8 часов оператора, плюс ≈$15–25 в API-расходах поверх подписок. Каждое звено даёт свои ошибки, и склеивать их в один поток придётся вам.
Welder AI собирает это в один проход:
- Скрипт-генератор берёт нишу и выдаёт 10 диалогов с автоматической разметкой «реплика A / реплика B» и audio-тегами.
- Каждая реплика идёт в ElevenLabs v3 Dialogue mode с подобранными голосами и нужным audio-тегом эмоции.
- На каждую реплику генерируется Veo 3.1 клип с lip-sync под персонажа (descriptors консистентны между клипами).
- Сцены без говорящих (B-roll, переходы, intro/outro) — Sora 2 или Kling 1.6, дешевле и достаточного качества.
- Склейка через FFmpeg в serverless, добавление субтитров с word-level timing.
- Автопост в TikTok, Reels, YouTube Shorts, VK Клипы — по заданному расписанию.
На Creator-тарифе 5 290 ₽/мес включено ≈50 серий в месяц, что покрывает ежедневный канал на полтора месяца. Стартовать удобно с Starter — 1 690 ₽/мес и 15 видео, чтобы протестить формат на одной нише без больших вложений.
Темп монтажа — отдельная тема, но коротко: для диалога держите cut-rate ≈ 1.2 cut/сек, не больше. Подробнее в нашем гайде по темпу монтажа AI-Shorts.
5 типичных провалов и как их обходить
1. «Чужие» лица между клипами. Veo 3.1 теряет персонажа, если в descriptors появляются синонимы. Решение: зафиксируйте описание дословно — длина волос, цвет глаз, одежда, возраст, поза. Сохраните в текстовом файле или промпт-шаблоне и копируйте в каждый промпт без изменений.
2. Lip-sync «плывёт» на репликах длиннее 3 секунд. Это известная граница Veo 3.1 — точность lip-sync падает на длинных репликах. Решение: режьте реплику на две, между ними cutaway-кадр Sora 2, Kling 1.6 или Hailuo 02.
3. Голос «прыгает» между эмоциями. ElevenLabs v3 ругается, когда в одной реплике стоят 3+ тега. Решение: один тег в начале реплики. Если надо больше эмоции — разбейте на две реплики того же персонажа с разными тегами.
4. Однообразная композиция кадра. Все Veo-генерации в одном angle = монолог в визуале. Зритель устаёт от «двух статичных лиц». Решение: чередуйте medium close-up, over-the-shoulder и wide insert. Минимум три типа композиции в одном диалоге.
5. Диалог без визуальной разницы между персонажами. Если персонажи внешне похожи — зритель путается, и retention падает на 15–20%. Решение: контрастируйте по трём параметрам — возраст, одежда, поза. Даже на close-up разница должна считываться за 0.3 секунды, иначе мозг зрителя «глотает» обоих как одного.
Что делать прямо сейчас
Если вы делаете монологовый faceless-канал и хотите проверить диалоговый формат на одной серии — порядок шагов короткий.
Возьмите топ-3 ролика вашего канала по retention за последний месяц. Перепишите сценарий каждого как Q&A-диалог из 4–6 реплик по 5–9 слов. Соберите две серии: одну в монологе (как обычно), вторую — в диалоге с теми же фактами. Опубликуйте с интервалом 2 дня. Сравните average percentage viewed через 72 часа.
В 80% ниш диалог выигрывает 5–15 пунктов retention. В оставшихся 20% (medical, узкая образовательная микро-теория, ASMR-форматы) монолог остаётся лучше. Тест занимает неделю, стоимость — одна-две серии генераций.
Если не хочется собирать ElevenLabs + Veo + FFmpeg + загрузчик отдельно — сделайте первую диалоговую серию в Welder. Сценарий, реплики, lip-sync клипы, склейка, субтитры и автопостинг в четыре платформы — за один проход и без ручной склейки.