Один герой во всех Shorts: consistent character 2026

Как сделать единого персонажа в AI-Shorts через MidJourney v7, Flux LoRA и Veo 3.1 reference: 9 приёмов и пайплайн на 2026.

Главное за 30 секунд

В мае 2026 четыре из пяти AI-Shorts с одним персонажем «плывут» уже к третьему ролику серии: лицо меняется, костюм теряет детали, рост скачет на полголовы. Зритель чувствует подмену быстрее, чем формулирует — и уходит на 0:03.

Решение — не «писать промпт получше». Решение — пайплайн из трёх слоёв: референс-лицо (MidJourney v7 Omni-Reference или Flux LoRA), reference-режим в видео-модели (Veo 3.1 reference image или Runway Gen-4.5 character ref), фиксированный голос (ElevenLabs voice clone). Без этого консистентности не будет — ни на трёх роликах, ни на тридцати.

Дальше — анатомия проблемы и рабочий пайплайн на 2026, с конкретными инструментами, ценами и приёмами, которые правда держат героя.

Почему герой «плывёт»: три причины

Первая — модель не помнит вас. Veo 3.1, Runway Gen-4.5 и Kling 1.6 не сохраняют персонажа между генерациями. Каждый запуск — это новая «монетка»: модель синтезирует лицо с нуля по описанию. Слова «молодой курьер с татуировкой на шее» — слишком слабый якорь. Отсюда — чужие лица в каждой сцене.

Вторая — текстовое описание не способно удержать визуальную идентичность. Лицо человека описывается тысячами параметров в латентном пространстве модели, а текст переносит дай бог пятьдесят. Поэтому даже самый детальный промпт даст «похожее, но другое».

Третья — отсутствие пост-контроля. Большинство креаторов берут первый удачный шот и едут дальше. Через две недели у героя в feed-е три разных лица, два роста и четыре стрижки. Алгоритм TikTok и Reels это видит как «новый канал каждые три ролика» и режет органику.

Анатомия консистентности: пять слоёв

Чтобы герой держался, нужно зафиксировать пять слоёв одновременно:

Лицо — форма черепа, расстояние между глазами, форма носа, подбородок. Самое заметное.
Тело и пропорции — рост, телосложение, осанка. Часто игнорируется, но именно это делает «другого человека».
Костюм и аксессуары — куртка, очки, серьга, татуировка. Самый простой слой для удержания.
Голос — тембр, темп, акцент, манера. Без фиксированного голоса герой раздваивается даже при идеальной картинке.
Движение — походка, жесты, мимика. Уже advanced-уровень, но в долгих сериях критично.

Если зафиксированы только 1 и 3 — герой выглядит как «брат-близнец, который иногда заходит на канал». Если 1, 3, 4 — это уже настоящая консистентность для Shorts. Слои 2 и 5 — для тех, кто целится в сериал на 12+ эпизодов.

Пайплайн 2026: пять шагов от референса до серии

Шаг 1 — референс-лицо в Midjourney v7 или Flux. Сгенерируйте 6–10 портретов персонажа с разных ракурсов: фронт, 3/4, профиль, крупный план, средний план, в полный рост. MidJourney Omni-Reference с одним стартовым изображением даёт около 80% консистентности; Flux 1.1 Pro + LoRA, обученная на 12–20 портретах, — около 95%, но требует 20 минут тренировки и порядка $1 за прогон.

Шаг 2 — выберите hero shot. Один портрет, который станет «эталонным лицом» для всех будущих сцен. Тестируйте 3 кандидата на людях — спрашивайте, который запоминается. Это не косметика, это маркетинг: канал растёт, когда у него узнаваемый герой.

Шаг 3 — передайте референс в видео-модель. Veo 3.1 в режиме reference image принимает до трёх изображений и держит лицо на 8-секундных клипах с потерей около 10% сходства. Runway Gen-4.5 character ref — лидер по физике движения, но пока берёт только один референс. Kling 1.6 — дешевле ($0.10–$0.20 за клип), но «съедает» детали лица заметнее.

Шаг 4 — зафиксируйте голос в ElevenLabs. Запишите 30 секунд чистой речи (или сгенерируйте через GPT-5.5 + TTS, потом склонируйте обратно — да, так делают), сохраните как Voice ID. Этот ID идёт во все будущие ролики. Альтернативы — OpenAI Voice Realtime (теплее, но клонирование платное), Resemble AI (дешевле, но качество ниже).

Шаг 5 — сборка. Welder AI подхватывает референс-изображение героя и Voice ID и прогоняет всю серию через Veo 3.1 / Veo 2 одним батчем — десять роликов за вечер вместо двух дней ручного клика по Vertex AI. Если делаете руками — Vertex AI + ElevenLabs + DaVinci, готовьтесь к 3 часам на 60-секундный ролик.

Инструменты 2026: сравнение по консистентности

Цифры на май 2026, проверены по официальным прайсам и собственным тестам.

Инструмент	Слой	Сходство лица	Цена	Лучше всего для
MidJourney v7 (Omni-Reference)	Референс-лицо	~85%	$30/мес unlim	Стилизованные персонажи
Flux 1.1 Pro + LoRA	Референс-лицо	~95%	~$1/прогон + $5 LoRA	Реалистичные люди
Ideogram 3.0	Референс-лицо	~75%	$20/мес	Текст в кадре + лицо
Veo 3.1 (reference image)	Видео	~90%	$0.50/сек video / $0.75 с аудио	Кинематографичные сцены
Veo 3.1 Fast	Видео	~85%	$0.10/сек	Бюджетные серии
Runway Gen-4.5 (character ref)	Видео	~88%	$0.05–$0.12/сек	Сложное движение, физика
Kling 1.6 Pro	Видео	~75%	$0.20/клип	Жёсткий бюджет
HeyGen Avatar IV	Talking-head	~98%	$29–$89/мес	Фронтальный говорящий герой
Hedra Character-2	Talking-head + lip-sync	~92%	$10–$30/мес	Стилизованный аватар + речь
ElevenLabs v3	Голос	~95% (clone)	$22–$99/мес	RU/EN voice clone
OpenAI Voice (Realtime)	Голос	~90%	$0.06/мин input	Эмоция, диалоги

Что отсюда стоит вынести: MidJourney + Veo 3.1 + ElevenLabs — самый частый стек для рунет-креаторов в 2026. Flux + LoRA — для тех, кто работает с реальным «лицом канала» и готов платить за тренировку. HeyGen — отдельная категория для talking-head-форматов, не путайте.

Стоит упомянуть и тех, кого больше нет. Sora 2: потребительское приложение OpenAI закрылось 26 апреля 2026, API живёт до 24 сентября, но без обновлений и без приоритета у разработчиков. Если вы строили пайплайн на Sora 2 — пора перевозиться на Veo 3.1 или Runway 4.5.

Девять приёмов, которые реально держат героя

Один эталонный портрет, не «папка с 30 вариантами». Выбрали лицо — все референсы строятся от него. Папка нужна только для разных ракурсов того же лица.
Описывайте героя одинаковой фразой во всех промптах. Не «молодой парень-курьер», а «Артём, 24 года, славянский тип, тёмные волосы средней длины, чёрная куртка-парка с шевроном, серебряная серьга в правом ухе» — слово в слово, во всех 10 промптах серии.
Костюм — главный якорь. Если лицо «дышит» на 5%, костюм с уникальной деталью (татуировка, шрам, нашивка) спасает узнаваемость. Зритель опознаёт героя по силуэту за полсекунды.
Фиксируйте кадрирование. Medium shot и крупный план дают больше деталей лица — и больше шансов на сходство. Дальние планы прощают модели вольности, но лучше избегать их в первых трёх секундах.
Освещение — постоянное. Если в первой сцене у героя «золотой час, контровый», а во второй — «студия, плоский свет», лицо будет читаться как другое, даже если черты совпадают.
Один Voice ID на всю серию. Серьёзно, не «попробуем другой голос для эмоциональных сцен» — переключение голоса убивает героя быстрее, чем смена лица.
Сетка повторных тестов. Раз в 5 роликов прогоняйте «эталонный кадр» (тот же план, тот же свет) — сравнивайте. Дрейф ловится глазом за секунду.
Negative prompts на конец. В Veo 3.1 негативы работают, если они короткие и в конце: «no facial drift, no costume changes, no background characters». Длинные негативы модель игнорирует.
Не миксуйте модели в одной серии. Половина роликов в Veo 3.1, половина в Kling — гарантированный «двойник». Если бюджет жмёт, держите всю серию на Veo 3.1 Fast или всю на Kling, но не вперемешку.

Где это ломается: четыре типичных провала

Провал 1. Слишком абстрактный референс. «Девушка-блогер из Москвы, 25 лет» — это не референс, это бриф для кастинга. Модели нужно изображение, не текст.

Провал 2. Героя видно меньше 60% хронометража. Если в ролике 8 секунд природы и 2 секунды героя — узнаваемость не накапливается, и канал не строит связь со зрителем. Минимум 60% экранного времени с героем.

Провал 3. Меняется арт-стиль. Если первая серия — фотореализм, вторая — аниме, третья — 3D-рендер: даже с одним лицом это будет восприниматься как три разных канала. Стиль фиксируется один раз и держится 30+ роликов.

Провал 4. Голос-клон без эмоции. ElevenLabs v3 умеет в эмоцию, если её прописать ([whispering], [excited], [sad]). Без тегов голос звучит ровно — герой кажется «мёртвым». Зритель уходит даже при идеальной картинке.

Сериал из 30 видео: чек-лист на старте

Перед тем как делать первый ролик новой серии, прогоните по чек-листу:

Эталонный портрет утверждён (1 изображение, не «папка»).
Описание героя в одну фразу сохранено в Notion или промпт-шаблоне.
Voice ID создан в ElevenLabs (или эквиваленте) и протестирован на 3 разных эмоциях.
Базовый стиль освещения зафиксирован (например, «soft daylight, slight rim, no harsh shadows»).
Тест-ролик 8 секунд прошёл — лицо и голос узнаются.
Шаблон промпта собран (subject + action + scene + camera + style + audio + negatives).
Канал сценариев оформлен франшизой — серия из 20–30 эпизодов с одинаковым cold open и outro.

Если делать это руками не хочется, пайплайн уже зашит в Welder AI — задаёте героя, голос и нишу один раз, дальше получаете готовые ролики из Veo 3 / Veo 2 прямо в Telegram-боте, без VPN и иностранной карты. Подробнее про Veo 3 в Телеграме — на странице Veo 3 в Telegram без VPN. Тарифы — на странице цен.

Если интересен соседний слой — анатомия промптов для Veo 3.1, чтобы и сцена тоже не «плыла», — есть отдельный гайд: Промпты Veo 3.1 для AI-Shorts 2026: 12 рабочих шаблонов. Тем, кто хочет понимать, зачем вообще делать сериал, а не разовые ролики, — пригодится материал Сериал из AI-Shorts: как франшиза растит канал.

Что делать сейчас

Если у вас уже есть канал и герой «плывёт» — начните с одного: зафиксируйте эталонный портрет и Voice ID. Это решает 70% проблемы. Дальше — два-три тестовых ролика, чтобы проверить дрейф. Только после этого — масштаб.

Если канала ещё нет — не начинайте без героя. Faceless ≠ безликий: даже маскот, нарисованная лиса или 3D-аватар работают как persona, и алгоритм их любит. ИИ-канал без узнаваемого центра — это ai-slop, и он умирает к десятому ролику.

Соберите первого героя сегодня — на это уйдёт час, а отдача будет идти месяцами. Запустите серию в Welder AI и проверьте дрейф уже на первой пятёрке роликов.