Главное за 30 секунд
Сшить 10 AI-сцен в один связный ролик — это не про "сделать 10 промптов и склеить". Это про дисциплину пяти параметров: персонаж, освещение, объектив, цвет, ритм. Если хоть один плывёт между клипами, retention падает на 20–35% уже к 4-й секунде — зритель чувствует "склейку" даже если не видит её осознанно.
В мае 2026 для multi-clip AI-видео есть три рабочих пайплайна: Veo 3.1 с нативным scene extension (до 20 чейн-клипов, 140+ секунд), Sora 2 со склейкой по seed и cinematic shot-list, и Runway Gen-4 с image-anchor через первый кадр. Ниже — конкретные шаблоны, какие seeds работают, что писать в негативе и где сэкономит Welder поверх ручной сборки.
Почему scene-склейки рушатся: 4 типа джампов
Когда зритель пишет "ИИ-видео палится" — он почти всегда имеет в виду один из четырёх дефектов.
1. Identity drift. Персонаж "плывёт": нос, рот, очки, причёска меняют форму между сценами. Veo 3.1 без image-якоря уже к 3-й сцене даёт идентифицируемое лицо с расхождением ~15% по landmark-метрике; Sora 2 при разных seeds — до 22%.
2. Lighting jump. Источник света меняет угол, температура цвета прыгает с 3200К на 5600К. Это убивает континуити сильнее, чем смена лица, потому что мозг читает свет раньше, чем успевает прочитать форму.
3. Lens mismatch. Один кадр был 24mm с глубиной фокуса, следующий — 85mm с боке. Геометрия лиц меняется, и склейка читается как "разные камеры".
4. Motion break. Персонаж шёл влево в финале клипа A — и идёт влево же на старте клипа B, но скорость и поза не стыкуются. Зритель моргает.
Каждый из четырёх дефектов лечится отдельно. Дальше — по порядку.
Якорь сцены: 5 параметров, которые держат continuity
Прежде чем писать первый промпт, зафиксируйте якорь — короткий блок, который буквально копируется в начало каждого клипа серии. Без него seed не спасёт.
| Параметр | Что фиксировать | Пример (поле "якоря") |
|---|---|---|
| Subject | Возраст, телосложение, причёска, одежда, 1–2 уникальные детали | "мужчина 35, славянский тип, тёмные коротко стриженые волосы, бородка 3 дня, серая толстовка с молнией, очки в чёрной оправе" |
| Lighting | Источник, направление, время суток, температура | "soft key light from camera-left, warm 3400K, fill 1:3, golden hour through window" |
| Lens | Фокусное расстояние, диафрагма, формат | "35mm, f/2.8, full-frame, slight handheld" |
| Palette | 2–3 доминирующих цвета, контраст | "moody teal & amber, low contrast, slight film grain" |
| Pace | Темп сцены | "slow dolly, 24fps cinematic, no whip-pans" |
Якорь должен быть 60–90 слов и копироваться слово-в-слово — без перефраза. Veo 3.1 и Sora 2 одинаково чувствительны к точной формулировке: "warm 3400K" и "warm tungsten light" дадут визуально разные кадры даже с одинаковым seed.
Если делаете серию — заведите Notion-табличку "Series anchor", и пусть весь канал тянется из неё. Подробно про serial-производство писали в гайде Серия из 30 Shorts за вечер.
Промпт-шаблон для multi-clip Veo 3.1
Veo 3.1 с марта 2026 поддерживает встроенный scene extension: вы передаёте previous_clip_id и модель продолжает с последнего кадра. Это лучший out-of-the-box инструмент для continuity на рынке — но он не магия.
Базовый шаблон чейн-клипа (Veo 3.1 Fast, $0.15/сек):
[ANCHOR: subject + lighting + lens + palette + pace, 60-90 слов, копируется без изменений]
[SCENE N/10]: <конкретное действие в 1-2 фразы>
[CAMERA]: <одно движение — track left, dolly in, static, handheld>
[BRIDGE]: <первые 0.5 сек продолжают последнее движение клипа N-1>
[NEGATIVE]: face morph, hands artifacts, text overlay, watermark, flicker, exposure change
Несколько правил, которые мы вытащили из 200+ серий продакшена через Welder:
- Не больше одного нового элемента на сцену. Сцена N может ввести новый объект ИЛИ сменить локацию ИЛИ изменить освещение — но не два сразу. Если три — модель "перезапустит" концепцию и continuity рассыпется.
- BRIDGE-фраза обязательна. Это первые 0.5–1.0 секунды нового клипа, которые повторяют моушн предыдущего. Без неё на склейке появляется едва заметный "взрыв" — мозг его регистрирует.
- Seed фиксируем на серии, не на клипе. Один seed на 10 клипов держит вектор лучше, чем 10 разных. Если seed забыли — Veo возьмёт случайный и identity drift начнётся со второго клипа.
- Audio prompt отдельно. Veo 3.1 пишет звук, но мы редко используем его — серию лучше озвучивать в ElevenLabs v3 одним голосом через все 10 клипов.
Лимит Veo 3.1 на чейн — 20 клипов или 140 секунд, что наступит раньше. После 8-го клипа identity drift включается даже с правильным якорем — закладывайте либо ребрейк сюжета, либо смену сцены, чтобы новое лицо читалось как "новый персонаж", а не как "дрифт того же".
Sora 2: scene-by-scene без extension API
У Sora 2 нативного scene extension нет — но есть сильнейший в индустрии cinematography parser и идеальный синк аудио (15–25 сек на клип, $0.10/сек на 720p в API, либо ChatGPT Plus за $20/мес).
Подход здесь принципиально другой: вы не "продолжаете" клип, а пишете каждый как отдельный shot из общего shot-list.
Шаблон Sora 2 для multi-clip:
SHOT N OF 10 — director's storyboard for [series anchor in 1 line]
SCENE: <локация + время суток>
SUBJECT: <якорный персонаж — точно те же 5–8 слов, что и в SHOT N-1>
ACTION: <одно действие, 1–2 фразы, заканчивается стоп-кадром>
CAMERA: <тип кадра + движение в кино-терминах: "medium close-up, slow push-in, 50mm lens">
LIGHTING: <якорный свет>
GRADING: <якорная палитра + 1 деталь под сцену>
SOUND: <"ambient only, no dialogue" — мы озвучим отдельно>
OpenAI в Sora 2 Cookbook (актуально на май 2026) сами рекомендуют этот формат — "director's storyboard" даёт лучшую согласованность, чем абзацный промпт.
Где Sora 2 выигрывает у Veo 3.1: Sora 2 удерживает identity на 7–8 клипов подряд при одинаковом seed без image-якоря; Veo 3.1 на отсутствии image-якоря рассыпается уже к 4-му. Где проигрывает: Sora 2 не понимает "продолжение моушна" с прошлого клипа — каждый shot для неё новый, и BRIDGE-фразу нужно заворачивать в первое предложение ACTION.
Если уже привыкли к Sora-промптам, но хотите native chaining — мы расписали маршрут в Плане миграции с Sora на Veo 3.1.
Сравнительная таблица: чем каждая модель держит continuity
| Параметр | Veo 3.1 Fast | Sora 2 (720p) | Runway Gen-4 | Kling 3 | Welder поверх Veo |
|---|---|---|---|---|---|
| Native chaining | да, до 20 клипов | нет (только seed) | через image-anchor | ограничено | автомат |
| Identity hold без image | 4 клипа | 7–8 клипов | 3 клипа | 5 клипов | 10 клипов* |
| Audio sync | нативно | нативно | отдельно | отдельно | ElevenLabs v3 |
| Длина клипа | 8 с | 4/8/12/15/25 с | 10 с | 6–10 с | 8 с × N |
| Цена за сек (1080p) | $0.15 (Fast) / $0.40 | $0.30 (Pro) | ~$0.20 | ~$0.10 | от 290 ₽/серия |
| Контроль ракурса | высокий | очень высокий | средний | средний | средний |
| Vertical 9:16 | да | да | да | да | да |
* — за счёт автоматического переноса seed + анкера + bridge-фраз между клипами; на ручной сборке через CLI выходит 5–6 клипов стабильно.
Welder не "лучше" Veo по картинке — Welder рендерит через ту же Veo 3.1, но автоматизирует якорь, seed и bridge, чтобы вы писали один сюжет, а не 10 промптов. Это разница не в качестве модели, а в часах работы. Если делаете 1 ролик в месяц — пишите вручную в Vertex AI. Если 30 — экономия выйдет $200–600 рабочих часов.
Более широкий бенчмарк моделей под image-to-video разбирали в обзоре Image-to-Video 2026: Kling 3, Hailuo, Luma vs Veo 3.1.
Seeds и негативы: что писать, чтобы лицо не плыло
Seed — это integer, который фиксирует "стартовый шум" модели. При одинаковом seed + одинаковом промпте картинка повторяется с точностью ~95%. На разных seed-ах identity drift почти гарантирован.
Практика 2026:
- Veo 3.1: seed передаётся в
parameters.seedAPI. Один seed на серию (например, 42 для канала "Древний Рим"). Если делаете 3 канала — 3 фиксированных seed-а, занесите в Notion. - Sora 2: API не отдаёт явный seed-параметр на майскую версию, но если работаете через ChatGPT Plus — продолжайте генерацию в одном чате; внутри сессии Sora держит контекст и identity лучше, чем при перезаписи диалога.
- Runway Gen-4: seed виден в UI, фиксируется кнопкой "lock seed". Используйте image-anchor (стартовый кадр одного и того же лица) — это сильнее seed-а.
Универсальный негатив для continuity (вставлять в каждый клип):
NEGATIVE: face morph between frames, hand mutation, extra fingers,
text overlay, watermark, logo, subtitle, flicker, lens flare change,
exposure shift, color grade jump, character outfit change, wrong number of people
Негативный промпт работает в Veo и Runway, в Sora 2 он игнорируется — там используем формулировку "consistent throughout: " внутри основного промпта
. Это поведение задокументировано в OpenAI Cookbook на май 2026 — Sora 2 не парсит negative-блок отдельно.
Бридж-кадры: техника на 2 секунды, которая чинит 80% джампов
Бридж-кадр (bridge frame) — это короткая 1–2 секундная вставка между двумя scene-клипами, которая не показывает лиц или ключевых деталей. Обычно это:
- крупный план руки, листающей предмет;
- движение камеры по локации без героя в кадре;
- close-up на текстуру (бумага, ткань, вода);
- быстрый whip-pan, который "съедает" склейку моушн-блюром.
Зачем это нужно: мозг при просмотре видео обновляет "идентификационный кэш" каждые 1.5–2 секунды. Если между двумя кадрами героя есть бридж длиной ≥1 секунды — drift в его лице/одежде между этими кадрами зрителем не считывается. Это известный приём из кино (Эдвард Дмитрик описал его ещё в 50-х), который теперь становится критичным для AI-видео.
Промпт под бридж-кадр в Veo 3.1:
[ANCHOR: только lighting + lens + palette, БЕЗ subject — субъект здесь не нужен]
[BRIDGE SHOT]: close-up on <деталь>, slow horizontal pan, no faces in frame, 2 seconds, soft motion blur
Бридж-кадр стоит $0.30 при Veo 3.1 Fast (2 секунды × $0.15). За цикл из 10 сцен ставьте 3–4 бриджа в "слабых" точках — между сценами, где меняется локация или одежда. На ролике 90 секунд это +$0.90 к рендеру, но retention к 60-й секунде обычно вырастает на 8–15%.
Welder vs ручная склейка: когда вручную имеет смысл
Не стоит притворяться, что Welder — серебряная пуля. Есть три сценария, где ручная сборка через прямой Vertex AI или OpenAI выйдет рациональнее.
1. Разовый клиентский проект на $5K+. Если делаете один премиум-ролик, в котором нужны нестандартные эффекты, авторский саунд-дизайн и точечная работа в After Effects — Welder тут не профильный. Берите Veo 3.1 Standard ($0.40/сек, 1080p) или Sora 2 Pro ($0.50/сек, 1024p), монтируйте руками.
2. Эксперименты с новыми моделями. Если хотите потестить Pika 2.0, Luma Ray2 или Hailuo MiniMax 02 на своём сюжете — это удобнее делать напрямую через API провайдеров. Welder сейчас работает поверх Veo 3 / Veo 2 / ElevenLabs.
3. Lip-sync talking-head с готовым человеком в кадре. Тут профильные продукты — HeyGen Avatar IV и Synthesia — дают лучшую continuity лица именно потому, что lip-sync делает поверх одного и того же снимка/аватара. Welder в этом сценарии — оверкилл.
Во всех остальных случаях — серийный faceless-канал, ИИ-сериал, бренд-интеграции на 30 единиц контента в месяц — Welder экономит часы на якоре, seed-менеджменте и bridge-кадрах. И озвучку через ElevenLabs делает в один клик.
Чек-лист на сегодня
Прежде чем рендерить следующий ролик из 6+ сцен:
- Якорь зафиксирован: 60–90 слов, скопирован в каждый промпт.
- Seed выбран и записан (один на серию).
- Bridge-кадры запланированы в 3–4 точках смены локации/одежды.
- Negative блок вставлен (для Veo/Runway) или "consistent throughout" (для Sora 2).
- Озвучка планируется одним голосом через серию — а не отдельным TTS на клип.
- После 8-го клипа — сюжетный ребрейк, не пытайтесь продолжать тот же кадр.
Если у вас 30+ серий в производстве в месяц — ручной менеджмент якорей съест 40–60 часов, при средней ставке монтажёра $25/час это $1000–$1500. Welder делает то же самое автоматически от 290 ₽ за серию — посмотрите тарифы.
Запустите первую continuity-серию через Welder — пайплайн автоматически прокинет якорь, seed и bridge-кадры через 10 клипов, а ElevenLabs-голос ляжет одним проходом на всю серию.