Диалог в AI-Shorts 2026: ElevenLabs v3 и Veo 3.1 без брака

4 формата, промпт-формула на реплику, audio-теги и сборка двухголосого диалога без ручной склейки. Тест за неделю.

Главное за 30 секунд

В мае 2026 у вас есть три рабочих способа собрать двухголосый диалог в вертикальном AI-Shorts: ElevenLabs v3 Dialogue mode (от $22/мес на Creator-тарифе, 250 минут диалога), Veo 3.1 с нативным lip-sync (≈$0.50 за 8-секундный 1080p-клип через Vertex AI) и связка двух раздельных TTS-дорожек с любым видеогенератором (Sora 2, Kling 1.6, Hailuo 02). Welder AI собирает связку «диалог + сцены + субтитры + автопостинг» из коробки — Creator-тариф 5 290 ₽/мес ≈ 50 серий в месяц, и не нужно держать ElevenLabs + Veo + склейку отдельно.

Диалог в Shorts работает не потому что «модно», а потому что мозг зрителя обрабатывает смену голоса как pattern interrupt каждые 2–4 секунды — а это ровно та частота, на которой TikTok и YouTube Shorts алгоритмы решают «оставить или скипнуть». Дальше — конкретно: 4 формата, промпт-формулы под Veo 3.1, audio-теги ElevenLabs v3 и пять типичных провалов.

Почему диалог обгоняет монолог в шортсах

Бенчмарк удержания на TikTok в мае 2026: 65% зрителей, досмотревших первые 3 секунды, останутся как минимум на 10 секунд. Видео с retention первых трёх секунд выше 65% получают в 4–7 раз больше показов в For You — это внутренняя метрика TikTok, о которой публично говорят и Opus, и Submagic. На YouTube Shorts аналогичный порог: 70% intro-retention или контент не вылетает за пределы первого test-batch'а.

Монолог теряет внимание ровно в момент, когда голос становится «монотонным» — обычно к 6–8 секунде. Диалог даёт три встроенных усилителя.

Первое — смена голоса работает как смена кадра без склейки. Мозг считает это новой информацией, и таймер «скоро устану» сбрасывается на ноль. Второе — конфликт двух точек зрения формирует curiosity loop, который очень тяжело собрать в одиночном повествовании. Третье — реплики физически короче абзацев. Средняя длина реплики 5–9 слов попадает в идеальное окно «1 кадр = 1 идея» для шортсов.

Это не теория. Разборы топ-100 viral-роликов в faceless-нишах (история, true-crime, психология) в апреле 2026 показывают, что у диалоговых форматов средний average percentage viewed на 12–18 пунктов выше, чем у монологов той же длины и темы. На 25-секундном ролике это разница между «алгоритм прокачает» и «алгоритм похоронит после первой сотни показов».

Что технически нужно сейчас, в мае 2026

Стек для двухголосого AI-Shorts собирается из трёх блоков. У каждого есть конкретный игрок, который выигрывает по своей метрике.

Блок	Лидер 2026	Цена	Что даёт
Озвучка диалога	ElevenLabs v3 Dialogue mode	от $22/мес (Creator)	Multi-speaker JSON, audio-теги `[whispers]`, `[laughs]`, `[shouting]`, prosody matching между репликами
Видео с lip-sync	Veo 3.1 Standard	≈$0.50 за 8 сек 1080p	Нативный lip-sync, latency под 120 мс, апскейл 4K из коробки
Видео без lip-sync (B-roll)	Sora 2 / Kling 1.6 / Hailuo 02	$20–60/мес	Дешевле для cutaway-кадров без говорящих персонажей
Сборка пайплайна	Welder AI	1 690–18 000 ₽/мес	Готовая связка скрипт → реплики → клипы → склейка → субтитры → автопост в TikTok, Reels, Shorts, VK Клипы

Альтернатива для talking-head — HeyGen Avatar IV: лучшая консистентность аватара через клипы, но всё ещё «студийная» постановка, которая хуже работает в нативном для-тебя-фиде Shorts. Murf и PlayHT тянут monolog-озвучку, но не дают режим диалога с природными паузами и реакциями. OpenAI Voice (TTS-1-HD) в Dialogue-режиме пока проигрывает ElevenLabs v3 по плавности перехода между голосами — на одной фразе разница незаметна, на десятиэпизодной серии слышно.

Если вы хотите взять отдельные инструменты — придётся склеивать руками: ElevenLabs Studio + Veo 3.1 через Vertex AI + DaVinci Resolve или CapCut. На одной серии из 10 эпизодов это 6–8 часов рутины и ≈$15–25 в API-расходах. Welder делает то же самое в один проход — об этом ниже.

Конструкция диалога — 4 формата под Shorts

Из сотен опубликованных в 2026 году диалоговых AI-Shorts устойчиво работают четыре формата. Не пытайтесь играть в кино — короткая форма требует жёсткой структуры.

Формат	Длина	Кто-кому	Когда работает
Q&A-разрыв	15–25 сек	Любопытный → Эксперт	Объясняющий контент, факты, образование
Конфликт	20–35 сек	Скептик ↔ Сторонник	Hot takes, мифы, спорные темы
Допрос	20–30 сек	Журналист → Свидетель	True-crime, история, расследования
Скетч	25–40 сек	Два равных персонажа	Юмор, бытовые ситуации, скетчи

Q&A-разрыв — самый частый и самый быстрый формат. Первая реплика — вопрос на 4–6 слов, который сразу формулирует curiosity gap. Вторая реплика — ответ, который сам вызывает новый вопрос. Идёт лесенкой 4–6 итераций. Подходит под «5 фактов о…», «почему X?», «что такое Y?».

Длина одной реплики — 5–9 слов. Больше — это уже монолог в форме диалога. Меньше — теряется смысл и зритель не успевает считать речь. Правило проверяется по аудиодорожке: каждая реплика должна укладываться в 1.2–2.5 секунды звука с естественным темпом.

Конфликт даёт лучший engagement через комментарии. Если в реплике одного персонажа есть утверждение, с которым 30%+ аудитории не согласны — ваш CTR в комментарии вырастет на 25–40%. Об этом мы писали отдельно в материале «Комментарии под AI-Shorts 2026: +40% к вовлечённости».

Допрос хорош для серийных каналов — заброшки, исчезновения, авиакатастрофы. Один и тот же «следователь» проходит через 30+ серий, второй персонаж меняется. Канал получает узнаваемость и retention одновременно.

Скетч — самый сложный формат: требует чувства тайминга и юмора в скрипте. Большинство AI-скетчей выглядят натужно. Если канал не нащупал своего скриптора (или не натренировал отдельный LLM-промпт под юмор) — не лезьте.

Промпт-формула для Veo 3.1: реплика как клип

Главная ошибка новичков — пытаться засунуть весь диалог в один Veo-промпт. Veo 3.1 уверенно делает lip-sync только когда одна реплика = один клип. Google в Ultimate prompting guide для Veo 3.1 прямо это рекомендует: turn-taking режется на отдельные генерации.

Пятичастная формула на каждый клип:

[Shot Composition] + [Character Details] + [Dialogue: "..."] +
[Setting/Environment] + [Aesthetics/Mood]

Пример рабочего промпта на одну реплику Q&A-формата:

Medium close-up, slight low angle. A 35-year-old historian in a tweed jacket, dark hair, intense eyes. He says directly to camera: «Никто не строил пирамиды за 20 лет — это математически невозможно». Dim museum hall behind, sandstone artifacts in soft focus. Cinematic, golden-hour key light, shallow depth of field, 24fps.

Имя реплики, длительность ≤2.5 сек, описание персонажа неизменно от клипа к клипу. Veo 3.1 удерживает консистентность лица только если вы дословно повторяете descriptors («35-year-old historian in a tweed jacket, dark hair, intense eyes») в каждом промпте. Поменяете «dark» на «brown» — получите другого человека, и зритель почувствует это за 0.5 секунды.

Для второго персонажа — отдельный набор descriptors, отдельная серия промптов, обычно matching shot (over-the-shoulder или зеркальный close-up). Если оба персонажа в одном кадре — Veo 3.1 справится с двумя статичными лицами, но lip-sync второго персонажа просядет на 15–25% точности. На длинных репликах это превращается в заметный артефакт.

Композиция тоже не остаётся одинаковой: чередуйте medium close-up → over-the-shoulder → wide insert. Минимум три типа композиции в одном диалоге, иначе визуально выглядит как «два говорящих робота в один кадр».

Если нужна детальная разбивка с примерами на 5 ниш — см. наш гайд по раскадровке AI-Shorts на Veo 3.1.

ElevenLabs v3 Dialogue mode: как ставить теги

ElevenLabs v3 вышел из альфы в марте 2026 — теперь это GA-релиз с 70+ языками, включая русский с природной интонацией. Dialogue mode принимает JSON-структуру с несколькими голосами и аудио-тегами:

[
  {"voice": "Igor", "text": "[curious] Слушай, а если пирамиды не строили рабы — кто тогда?"},
  {"voice": "Mark", "text": "[confident] Свободные ремесленники. Записи в Дейр-эль-Медине доказывают."},
  {"voice": "Igor", "text": "[skeptical, slower] Запись 4000-летней давности? Серьёзно?"}
]

Audio-теги [curious], [confident], [skeptical], [whispers], [laughs], [shouting], [sigh] — рабочие подсказки, которые v3 различает. В отличие от v2, теги не съедают аудиовремя, а только влияют на просодию. Можно вкладывать тег в середину реплики — «Запись, [pause] 4000-летней давности?» — это даёт реальную паузу около 350 мс.

Чек-лист на каждую реплику диалога:

Голос подобран под характер: низкий мужской под «эксперта», более высокий и быстрый под «скептика», возрастной — под «свидетеля». Контраст голосов важнее, чем «красивый» голос каждого.
Один тег эмоции в начале реплики, максимум второй — посередине длинной реплики.
Знаки препинания работают как реальная пауза: запятая ≈ 200 мс, тире ≈ 350 мс, точка ≈ 500 мс. Пишите их осмысленно, а не «как привыкли в школе».
Длина 5–9 слов. Если больше — режьте на две реплики с разными тегами и отдельными клипами.

На Creator-тарифе ($22/мес) включено 250 минут диалога — этого хватает на ≈30 эпизодов по 25–30 секунд. Если ваш канал делает 15 эпизодов/мес, можно укладываться в Starter ($5/мес) и одну дополнительную серию на 3–4 эпизода в месяц.

Глубже про настройку русских голосов и клонирование собственного — в материале «Клонирование голоса в ElevenLabs за 15 минут». Эмоции и стилистика отдельно — в «Эмоции в ИИ-голосе AI-Shorts 2026».

Сборка в пайплайне Welder

Если собирать руками — это связка ElevenLabs API + Veo 3.1 API + FFmpeg-склейка + субтитры (Submagic или CapCut) + загрузчик в TikTok, Reels, Shorts и VK Клипы. На связку из 10 эпизодов уходит 6–8 часов оператора, плюс ≈$15–25 в API-расходах поверх подписок. Каждое звено даёт свои ошибки, и склеивать их в один поток придётся вам.

Welder AI собирает это в один проход:

Скрипт-генератор берёт нишу и выдаёт 10 диалогов с автоматической разметкой «реплика A / реплика B» и audio-тегами.
Каждая реплика идёт в ElevenLabs v3 Dialogue mode с подобранными голосами и нужным audio-тегом эмоции.
На каждую реплику генерируется Veo 3.1 клип с lip-sync под персонажа (descriptors консистентны между клипами).
Сцены без говорящих (B-roll, переходы, intro/outro) — Sora 2 или Kling 1.6, дешевле и достаточного качества.
Склейка через FFmpeg в serverless, добавление субтитров с word-level timing.
Автопост в TikTok, Reels, YouTube Shorts, VK Клипы — по заданному расписанию.

На Creator-тарифе 5 290 ₽/мес включено ≈50 серий в месяц, что покрывает ежедневный канал на полтора месяца. Стартовать удобно с Starter — 1 690 ₽/мес и 15 видео, чтобы протестить формат на одной нише без больших вложений.

Темп монтажа — отдельная тема, но коротко: для диалога держите cut-rate ≈ 1.2 cut/сек, не больше. Подробнее в нашем гайде по темпу монтажа AI-Shorts.

5 типичных провалов и как их обходить

1. «Чужие» лица между клипами. Veo 3.1 теряет персонажа, если в descriptors появляются синонимы. Решение: зафиксируйте описание дословно — длина волос, цвет глаз, одежда, возраст, поза. Сохраните в текстовом файле или промпт-шаблоне и копируйте в каждый промпт без изменений.

2. Lip-sync «плывёт» на репликах длиннее 3 секунд. Это известная граница Veo 3.1 — точность lip-sync падает на длинных репликах. Решение: режьте реплику на две, между ними cutaway-кадр Sora 2, Kling 1.6 или Hailuo 02.

3. Голос «прыгает» между эмоциями. ElevenLabs v3 ругается, когда в одной реплике стоят 3+ тега. Решение: один тег в начале реплики. Если надо больше эмоции — разбейте на две реплики того же персонажа с разными тегами.

4. Однообразная композиция кадра. Все Veo-генерации в одном angle = монолог в визуале. Зритель устаёт от «двух статичных лиц». Решение: чередуйте medium close-up, over-the-shoulder и wide insert. Минимум три типа композиции в одном диалоге.

5. Диалог без визуальной разницы между персонажами. Если персонажи внешне похожи — зритель путается, и retention падает на 15–20%. Решение: контрастируйте по трём параметрам — возраст, одежда, поза. Даже на close-up разница должна считываться за 0.3 секунды, иначе мозг зрителя «глотает» обоих как одного.

Что делать прямо сейчас

Если вы делаете монологовый faceless-канал и хотите проверить диалоговый формат на одной серии — порядок шагов короткий.

Возьмите топ-3 ролика вашего канала по retention за последний месяц. Перепишите сценарий каждого как Q&A-диалог из 4–6 реплик по 5–9 слов. Соберите две серии: одну в монологе (как обычно), вторую — в диалоге с теми же фактами. Опубликуйте с интервалом 2 дня. Сравните average percentage viewed через 72 часа.

В 80% ниш диалог выигрывает 5–15 пунктов retention. В оставшихся 20% (medical, узкая образовательная микро-теория, ASMR-форматы) монолог остаётся лучше. Тест занимает неделю, стоимость — одна-две серии генераций.

Если не хочется собирать ElevenLabs + Veo + FFmpeg + загрузчик отдельно — сделайте первую диалоговую серию в Welder. Сценарий, реплики, lip-sync клипы, склейка, субтитры и автопостинг в четыре платформы — за один проход и без ручной склейки.