Консистентный персонаж в AI-Shorts 2026: Veo, Sora, Runway

Как сохранить одно лицо, голос и одежду героя на 30 роликах подряд: рабочий пайплайн с референсами и реальными промптами.

Главное за 30 секунд

В мае 2026 у вас есть четыре способа удержать одно лицо героя на 30 роликах подряд: Veo 3.1 «Ingredients to Video» (до 4 референс-картинок, анонс Google от января 2026), Sora 2 Cameos (персистентный эмбеддинг персонажа из 1–3 фото), Runway Gen-4 References (≈95% идентичности с одной картинки) и Welder AI — пайплайн поверх Veo 3.1 и Veo 2, который автоматически вшивает референс героя в каждую сцену серии и докручивает голосом ElevenLabs.

Veo 3.1 побеждает в lip-sync и физике. Sora 2 — в композиции кадра. Runway Gen-4 — в скорости (одна картинка на вход). Welder — единственный из четвёрки, кто берёт «герой Иван, ниша «история техники», 30 эпизодов» и возвращает готовую серию вертикальных роликов с озвучкой и обложками. Ниже — какие ошибки ломают консистентность и пошаговый workflow для каждой модели.

Откуда «другое лицо в каждой сцене»

Классический сценарий боли: вы делаете faceless-канал, но герой нужен — рассказчик с лицом, повторяющийся персонаж в микродраме, маскот бренда. Берёте Veo 3 без референса, генерите 10 сцен с промптом «молодой мужчина, тёмные волосы, очки». На выходе — 10 разных людей. Подписчик видит склейку и теряет ощущение «это один канал, один автор».

Проблема называется identity drift — каждый кадр модель синтезирует из текста заново, и латентное пространство расходится. До 2025-го это лечили только через ComfyUI + LoRA + сотни часов обучения. В 2026-м у каждой большой модели появился свой механизм референса, и вопрос сместился с «возможно ли это» на «какой инструмент под мой кейс».

Для коротких видео это критично по трём причинам. Retention первой секунды зависит от узнаваемости героя — алгоритм Reels и YouTube Shorts любит серии, где зритель сразу понимает «это тот же канал». Подробнее про сигналы алгоритма мы разбирали в гайде по алгоритму Reels. Второе — монетизация через партнёрки и спонсоров требует «лица канала», под которое бренд готов платить. Третье — в микродраме без консистентного актёра история разваливается за два сезона.

Reference-image арсенал 2026 — сравнение

Вот что умеют четыре главные модели по состоянию на май 2026.

Модель	Референсов на вход	Длительность 1 клипа	Цена за 8 сек	Сильная сторона	Слабая сторона
Veo 3.1 (Ingredients)	до 4	до 8 сек, 4K, 9:16 native	≈$0.50 (Vertex AI)	Lip-sync, физика, нативный 9:16	Очередь рендера, требует Google Cloud
Sora 2 (Cameos)	1–3 фото для embedding	до 20 сек (Pro)	внутри ChatGPT Plus $20/мес	Композиция, киношная картинка	Закрыта в РФ, нужна карта/VPN
Runway Gen-4 References	1 картинка	до 10 сек	≈$0.95 (Standard)	Скорость, single-image identity	Слабее lip-sync, watermark на Free
Welder (поверх Veo 3.1)	1 фото героя + style guide	серия из 10–30 клипов	от 290 ₽ за серию	Авто-инжект в каждую сцену + ElevenLabs голос	Нет ручного контроля каждого кадра

Цифры по Veo и Sora — из официального блога Google и публичной документации OpenAI Sora 2 на 2026 год. Runway Gen-4 — по тарифам на runwayml.com (Pro план, тариф per-second).

Раньше эту нишу делил с большими моделями только китайский Kling 3.0 и Hailuo 2.3. Они тоже умеют image-to-video с консистентностью, но в РФ их сильно усложняет оплата и ToS, поэтому в этом гайде мы держим их за скобками — отдельный разбор есть в сравнении image-to-video моделей. На практике для русскоязычного канала комбинация Veo 3.1 + ElevenLabs покрывает 90% сценариев, и переходить на китайские модели имеет смысл только если упёрлись в очередь рендера или в специфический визуальный стиль (например, аниме-эстетика лучше у Kling).

Workflow на Veo 3.1 Ingredients to Video

Это, по нашим тестам, самый предсказуемый путь в мае 2026.

Шаг 1. Соберите character sheet из 3–4 фото. Один портрет анфас, нейтральное выражение, нейтральный фон. Один кадр в три четверти, тот же свет. Один полный рост, та же одежда. Опционально — четвёртая картинка «характерный жест» или «фирменный лук». Все 4 кадра — одной цветовой температуры, иначе модель решит, что свет меняется по сюжету.

Шаг 2. В Vertex AI / Flow откройте Ingredients to Video. Загрузите 3–4 референса, в поле описания не повторяйте внешность словами — это вредит. Описывайте только действие, эмоцию, локацию: «персонаж говорит на камеру в кафе у окна, мягкий вечерний свет, средний план, лёгкая улыбка». Это контринтуитивно, но текстовое описание лица в промпте даёт модели «второй сигнал», который дерётся с референсом.

Шаг 3. Фиксируйте seed. В одной серии используйте один seed для всех сцен, где герой в одном «настроении». Меняйте только если меняется акт сюжета.

Шаг 4. Рендерите в 9:16 нативно. 4K-кроп из 16:9 убивает мимику — лица становятся «мыльными», в Shorts это ловится глазом за полсекунды. Veo 3.1 с января 2026 умеет вертикаль нативно, не теряйте качество на upscale.

Шаг 5. Держите промпт-стек серии. Заведите шаблон-документ: четыре референса лежат отдельной папкой, общий style-блок (одежда, локация, палитра, lens) — отдельной строкой, и в каждый промпт вы меняете только action-блок. Это спасает от ситуации, когда на 17-м эпизоде вы случайно описали героя в другой куртке и серия «потекла».

Полный список параметров камеры (ракурс, фокусное, движение) мы держим в отдельном гайде про камеру в промптах Veo 3 и Sora 2 — комбинируйте оттуда.

Sora 2 Cameos и Runway Gen-4 References — кратко

Sora 2 Cameos. Создаёте профиль cameo в ChatGPT (Plus или Pro), загружаете 1–3 фото героя. Внутри промпта вызываете персонажа по короткому имени. Огромный плюс — embedding живёт между сессиями, не нужно каждый раз пере-аплоадить картинки. Минус для РФ — нужен иностранный платёжный метод и стабильный VPN; легитимного пути «из коробки» нет.

Runway Gen-4 References. Единственная картинка, ≈95% идентичности по их собственным бенчмаркам. Лучшая скорость рендера в категории: 10-секундный клип за ~40 сек на Pro-тарифе. Минус — lip-sync объективно слабее Veo 3.1, для talking-head лучше брать пару Runway (картинка) + Hedra или Captions Sync (озвучка) — это мы разбирали в тесте lip-sync инструментов.

Если стоит выбор между всеми тремя — мы провели тест на 12 промптах между Welder, Sora 2 и Veo 3, там сводная по качеству и цене.

Что добавляет Welder поверх референсов

Честно: Welder не побеждает Veo 3.1 в качестве отдельного кадра. Мы и не пытаемся — мы используем Veo 3.1 и Veo 2 как движок. Что Welder добавляет:

Авто-инжект референса в каждую сцену серии. Загрузили фото героя один раз — он попадает в Ingredients-промпт каждой из 30 сцен серии без вашего участия.
Согласование одежды и сеттинга. Style guide серии (одежда, локация, цветовая палитра) фиксируется в шаблоне серии и подсыпается в каждый промпт автоматически.
ElevenLabs-голос привязан к персонажу. Один голос на весь канал, клонирование за 30 секунд, RU/EN/+23 языка — это даёт второй слой консистентности, который зритель считывает быстрее, чем лицо.
Раскадровка из текста. Дайте тему — Welder сам режет на 6–10 сцен (мы это подробно разобрали в гайде по раскадровке за 30 минут) и каждой сцене вызывает Veo с правильным референсом.

Цена — от 290 ₽ за серию на стартовом тарифе, актуальные пакеты — на странице цен. Для сравнения, прямой доступ к Veo 3.1 через Vertex AI на серию из 10 клипов выйдет примерно $5–7 без учёта голоса и сборки.

6 ошибок, которые ломают консистентность

Описывать лицо словами в промпте при наличии референса. Veo и Sora начинают «голосовать большинством» между текстом и картинкой и плывут. Текст оставьте для действия и сеттинга.
Смешивать ракурсы в character sheet. Все референсы должны быть в одном свете и одной цветовой температуре. Один кадр со студийным светом + один с уличным дают модели сигнал «персонаж меняется по ходу».
Менять seed внутри одной сцены. Если переснимаете дубль — держите seed, меняйте только промпт-описание действия.
Использовать апскейл вместо нативного 9:16. Лицо мылится, мимика теряется, retention падает. Veo 3.1 умеет 9:16 нативно с января 2026 — используйте.
Менять голос между эпизодами. Голос — это половина узнавания канала за первую секунду. Один клон на серию, не «разнообразим» сменой ElevenLabs voice id.
Гонять короткие референсы. Если фото героя — 512×512, не ждите 4K-консистентности. Минимум 1024×1024, RAW по возможности.

Чек-лист: сезон из 30 роликов с одним героем

Прежде чем нажать «рендер» на 30 сцен, пройдитесь по списку. Каждый пункт здесь стоит минимум одного потерянного ролика, если его пропустить.

Character sheet: 3–4 фото в одном свете, ≥1024×1024.
Style guide серии: одежда героя, локация, палитра.
Один голос (ElevenLabs или клон) — записан, протестирован на 3 фразах.
Раскадровка из 6–10 сцен на эпизод, текст действий без описания лица.
Один seed на эпизод, новый — только при смене акта.
Рендер нативно в 9:16, без апскейла.
Тест на 1 эпизоде до запуска оставшихся 29 — экономит и токены, и нервы.
План локализации, если канал на 2+ языка (наш гайд по локализации за вечер экономит здесь день работы).

Если весь чек-лист выглядит как «много шагов» — это нормально. Именно поэтому существует Welder: мы каждый из этих пунктов оборачиваем в один шаблон серии.

Сделайте первого героя за 15 минут

Загрузите 3 фото, выберите голос, опишите нишу и сюжет первого эпизода — Welder соберёт серию с консистентным персонажем на Veo 3.1 без ручной настройки референсов.

Дальше — повторяйте шаблон 30 раз, и у вас сезон.