Главное за 30 секунд
В мае 2026 у вас есть четыре способа удержать одно лицо героя на 30 роликах подряд: Veo 3.1 «Ingredients to Video» (до 4 референс-картинок, анонс Google от января 2026), Sora 2 Cameos (персистентный эмбеддинг персонажа из 1–3 фото), Runway Gen-4 References (≈95% идентичности с одной картинки) и Welder AI — пайплайн поверх Veo 3.1 и Veo 2, который автоматически вшивает референс героя в каждую сцену серии и докручивает голосом ElevenLabs.
Veo 3.1 побеждает в lip-sync и физике. Sora 2 — в композиции кадра. Runway Gen-4 — в скорости (одна картинка на вход). Welder — единственный из четвёрки, кто берёт «герой Иван, ниша «история техники», 30 эпизодов» и возвращает готовую серию вертикальных роликов с озвучкой и обложками. Ниже — какие ошибки ломают консистентность и пошаговый workflow для каждой модели.
Откуда «другое лицо в каждой сцене»
Классический сценарий боли: вы делаете faceless-канал, но герой нужен — рассказчик с лицом, повторяющийся персонаж в микродраме, маскот бренда. Берёте Veo 3 без референса, генерите 10 сцен с промптом «молодой мужчина, тёмные волосы, очки». На выходе — 10 разных людей. Подписчик видит склейку и теряет ощущение «это один канал, один автор».
Проблема называется identity drift — каждый кадр модель синтезирует из текста заново, и латентное пространство расходится. До 2025-го это лечили только через ComfyUI + LoRA + сотни часов обучения. В 2026-м у каждой большой модели появился свой механизм референса, и вопрос сместился с «возможно ли это» на «какой инструмент под мой кейс».
Для коротких видео это критично по трём причинам. Retention первой секунды зависит от узнаваемости героя — алгоритм Reels и YouTube Shorts любит серии, где зритель сразу понимает «это тот же канал». Подробнее про сигналы алгоритма мы разбирали в гайде по алгоритму Reels. Второе — монетизация через партнёрки и спонсоров требует «лица канала», под которое бренд готов платить. Третье — в микродраме без консистентного актёра история разваливается за два сезона.
Reference-image арсенал 2026 — сравнение
Вот что умеют четыре главные модели по состоянию на май 2026.
| Модель | Референсов на вход | Длительность 1 клипа | Цена за 8 сек | Сильная сторона | Слабая сторона |
|---|---|---|---|---|---|
| Veo 3.1 (Ingredients) | до 4 | до 8 сек, 4K, 9:16 native | ≈$0.50 (Vertex AI) | Lip-sync, физика, нативный 9:16 | Очередь рендера, требует Google Cloud |
| Sora 2 (Cameos) | 1–3 фото для embedding | до 20 сек (Pro) | внутри ChatGPT Plus $20/мес | Композиция, киношная картинка | Закрыта в РФ, нужна карта/VPN |
| Runway Gen-4 References | 1 картинка | до 10 сек | ≈$0.95 (Standard) | Скорость, single-image identity | Слабее lip-sync, watermark на Free |
| Welder (поверх Veo 3.1) | 1 фото героя + style guide | серия из 10–30 клипов | от 290 ₽ за серию | Авто-инжект в каждую сцену + ElevenLabs голос | Нет ручного контроля каждого кадра |
Цифры по Veo и Sora — из официального блога Google и публичной документации OpenAI Sora 2 на 2026 год. Runway Gen-4 — по тарифам на runwayml.com (Pro план, тариф per-second).
Раньше эту нишу делил с большими моделями только китайский Kling 3.0 и Hailuo 2.3. Они тоже умеют image-to-video с консистентностью, но в РФ их сильно усложняет оплата и ToS, поэтому в этом гайде мы держим их за скобками — отдельный разбор есть в сравнении image-to-video моделей. На практике для русскоязычного канала комбинация Veo 3.1 + ElevenLabs покрывает 90% сценариев, и переходить на китайские модели имеет смысл только если упёрлись в очередь рендера или в специфический визуальный стиль (например, аниме-эстетика лучше у Kling).
Workflow на Veo 3.1 Ingredients to Video
Это, по нашим тестам, самый предсказуемый путь в мае 2026.
Шаг 1. Соберите character sheet из 3–4 фото. Один портрет анфас, нейтральное выражение, нейтральный фон. Один кадр в три четверти, тот же свет. Один полный рост, та же одежда. Опционально — четвёртая картинка «характерный жест» или «фирменный лук». Все 4 кадра — одной цветовой температуры, иначе модель решит, что свет меняется по сюжету.
Шаг 2. В Vertex AI / Flow откройте Ingredients to Video. Загрузите 3–4 референса, в поле описания не повторяйте внешность словами — это вредит. Описывайте только действие, эмоцию, локацию: «персонаж говорит на камеру в кафе у окна, мягкий вечерний свет, средний план, лёгкая улыбка». Это контринтуитивно, но текстовое описание лица в промпте даёт модели «второй сигнал», который дерётся с референсом.
Шаг 3. Фиксируйте seed. В одной серии используйте один seed для всех сцен, где герой в одном «настроении». Меняйте только если меняется акт сюжета.
Шаг 4. Рендерите в 9:16 нативно. 4K-кроп из 16:9 убивает мимику — лица становятся «мыльными», в Shorts это ловится глазом за полсекунды. Veo 3.1 с января 2026 умеет вертикаль нативно, не теряйте качество на upscale.
Шаг 5. Держите промпт-стек серии. Заведите шаблон-документ: четыре референса лежат отдельной папкой, общий style-блок (одежда, локация, палитра, lens) — отдельной строкой, и в каждый промпт вы меняете только action-блок. Это спасает от ситуации, когда на 17-м эпизоде вы случайно описали героя в другой куртке и серия «потекла».
Полный список параметров камеры (ракурс, фокусное, движение) мы держим в отдельном гайде про камеру в промптах Veo 3 и Sora 2 — комбинируйте оттуда.
Sora 2 Cameos и Runway Gen-4 References — кратко
Sora 2 Cameos. Создаёте профиль cameo в ChatGPT (Plus или Pro), загружаете 1–3 фото героя. Внутри промпта вызываете персонажа по короткому имени. Огромный плюс — embedding живёт между сессиями, не нужно каждый раз пере-аплоадить картинки. Минус для РФ — нужен иностранный платёжный метод и стабильный VPN; легитимного пути «из коробки» нет.
Runway Gen-4 References. Единственная картинка, ≈95% идентичности по их собственным бенчмаркам. Лучшая скорость рендера в категории: 10-секундный клип за ~40 сек на Pro-тарифе. Минус — lip-sync объективно слабее Veo 3.1, для talking-head лучше брать пару Runway (картинка) + Hedra или Captions Sync (озвучка) — это мы разбирали в тесте lip-sync инструментов.
Если стоит выбор между всеми тремя — мы провели тест на 12 промптах между Welder, Sora 2 и Veo 3, там сводная по качеству и цене.
Что добавляет Welder поверх референсов
Честно: Welder не побеждает Veo 3.1 в качестве отдельного кадра. Мы и не пытаемся — мы используем Veo 3.1 и Veo 2 как движок. Что Welder добавляет:
- Авто-инжект референса в каждую сцену серии. Загрузили фото героя один раз — он попадает в Ingredients-промпт каждой из 30 сцен серии без вашего участия.
- Согласование одежды и сеттинга. Style guide серии (одежда, локация, цветовая палитра) фиксируется в шаблоне серии и подсыпается в каждый промпт автоматически.
- ElevenLabs-голос привязан к персонажу. Один голос на весь канал, клонирование за 30 секунд, RU/EN/+23 языка — это даёт второй слой консистентности, который зритель считывает быстрее, чем лицо.
- Раскадровка из текста. Дайте тему — Welder сам режет на 6–10 сцен (мы это подробно разобрали в гайде по раскадровке за 30 минут) и каждой сцене вызывает Veo с правильным референсом.
Цена — от 290 ₽ за серию на стартовом тарифе, актуальные пакеты — на странице цен. Для сравнения, прямой доступ к Veo 3.1 через Vertex AI на серию из 10 клипов выйдет примерно $5–7 без учёта голоса и сборки.
6 ошибок, которые ломают консистентность
- Описывать лицо словами в промпте при наличии референса. Veo и Sora начинают «голосовать большинством» между текстом и картинкой и плывут. Текст оставьте для действия и сеттинга.
- Смешивать ракурсы в character sheet. Все референсы должны быть в одном свете и одной цветовой температуре. Один кадр со студийным светом + один с уличным дают модели сигнал «персонаж меняется по ходу».
- Менять seed внутри одной сцены. Если переснимаете дубль — держите seed, меняйте только промпт-описание действия.
- Использовать апскейл вместо нативного 9:16. Лицо мылится, мимика теряется, retention падает. Veo 3.1 умеет 9:16 нативно с января 2026 — используйте.
- Менять голос между эпизодами. Голос — это половина узнавания канала за первую секунду. Один клон на серию, не «разнообразим» сменой ElevenLabs voice id.
- Гонять короткие референсы. Если фото героя — 512×512, не ждите 4K-консистентности. Минимум 1024×1024, RAW по возможности.
Чек-лист: сезон из 30 роликов с одним героем
Прежде чем нажать «рендер» на 30 сцен, пройдитесь по списку. Каждый пункт здесь стоит минимум одного потерянного ролика, если его пропустить.
- Character sheet: 3–4 фото в одном свете, ≥1024×1024.
- Style guide серии: одежда героя, локация, палитра.
- Один голос (ElevenLabs или клон) — записан, протестирован на 3 фразах.
- Раскадровка из 6–10 сцен на эпизод, текст действий без описания лица.
- Один seed на эпизод, новый — только при смене акта.
- Рендер нативно в 9:16, без апскейла.
- Тест на 1 эпизоде до запуска оставшихся 29 — экономит и токены, и нервы.
- План локализации, если канал на 2+ языка (наш гайд по локализации за вечер экономит здесь день работы).
Если весь чек-лист выглядит как «много шагов» — это нормально. Именно поэтому существует Welder: мы каждый из этих пунктов оборачиваем в один шаблон серии.
Сделайте первого героя за 15 минут
Загрузите 3 фото, выберите голос, опишите нишу и сюжет первого эпизода — Welder соберёт серию с консистентным персонажем на Veo 3.1 без ручной настройки референсов.
Дальше — повторяйте шаблон 30 раз, и у вас сезон.