Главное за 30 секунд
В мае 2026 четыре из пяти AI-Shorts с одним персонажем «плывут» уже к третьему ролику серии: лицо меняется, костюм теряет детали, рост скачет на полголовы. Зритель чувствует подмену быстрее, чем формулирует — и уходит на 0:03.
Решение — не «писать промпт получше». Решение — пайплайн из трёх слоёв: референс-лицо (MidJourney v7 Omni-Reference или Flux LoRA), reference-режим в видео-модели (Veo 3.1 reference image или Runway Gen-4.5 character ref), фиксированный голос (ElevenLabs voice clone). Без этого консистентности не будет — ни на трёх роликах, ни на тридцати.
Дальше — анатомия проблемы и рабочий пайплайн на 2026, с конкретными инструментами, ценами и приёмами, которые правда держат героя.
Почему герой «плывёт»: три причины
Первая — модель не помнит вас. Veo 3.1, Runway Gen-4.5 и Kling 1.6 не сохраняют персонажа между генерациями. Каждый запуск — это новая «монетка»: модель синтезирует лицо с нуля по описанию. Слова «молодой курьер с татуировкой на шее» — слишком слабый якорь. Отсюда — чужие лица в каждой сцене.
Вторая — текстовое описание не способно удержать визуальную идентичность. Лицо человека описывается тысячами параметров в латентном пространстве модели, а текст переносит дай бог пятьдесят. Поэтому даже самый детальный промпт даст «похожее, но другое».
Третья — отсутствие пост-контроля. Большинство креаторов берут первый удачный шот и едут дальше. Через две недели у героя в feed-е три разных лица, два роста и четыре стрижки. Алгоритм TikTok и Reels это видит как «новый канал каждые три ролика» и режет органику.
Анатомия консистентности: пять слоёв
Чтобы герой держался, нужно зафиксировать пять слоёв одновременно:
- Лицо — форма черепа, расстояние между глазами, форма носа, подбородок. Самое заметное.
- Тело и пропорции — рост, телосложение, осанка. Часто игнорируется, но именно это делает «другого человека».
- Костюм и аксессуары — куртка, очки, серьга, татуировка. Самый простой слой для удержания.
- Голос — тембр, темп, акцент, манера. Без фиксированного голоса герой раздваивается даже при идеальной картинке.
- Движение — походка, жесты, мимика. Уже advanced-уровень, но в долгих сериях критично.
Если зафиксированы только 1 и 3 — герой выглядит как «брат-близнец, который иногда заходит на канал». Если 1, 3, 4 — это уже настоящая консистентность для Shorts. Слои 2 и 5 — для тех, кто целится в сериал на 12+ эпизодов.
Пайплайн 2026: пять шагов от референса до серии
Шаг 1 — референс-лицо в Midjourney v7 или Flux. Сгенерируйте 6–10 портретов персонажа с разных ракурсов: фронт, 3/4, профиль, крупный план, средний план, в полный рост. MidJourney Omni-Reference с одним стартовым изображением даёт около 80% консистентности; Flux 1.1 Pro + LoRA, обученная на 12–20 портретах, — около 95%, но требует 20 минут тренировки и порядка $1 за прогон.
Шаг 2 — выберите hero shot. Один портрет, который станет «эталонным лицом» для всех будущих сцен. Тестируйте 3 кандидата на людях — спрашивайте, который запоминается. Это не косметика, это маркетинг: канал растёт, когда у него узнаваемый герой.
Шаг 3 — передайте референс в видео-модель. Veo 3.1 в режиме reference image принимает до трёх изображений и держит лицо на 8-секундных клипах с потерей около 10% сходства. Runway Gen-4.5 character ref — лидер по физике движения, но пока берёт только один референс. Kling 1.6 — дешевле ($0.10–$0.20 за клип), но «съедает» детали лица заметнее.
Шаг 4 — зафиксируйте голос в ElevenLabs. Запишите 30 секунд чистой речи (или сгенерируйте через GPT-5.5 + TTS, потом склонируйте обратно — да, так делают), сохраните как Voice ID. Этот ID идёт во все будущие ролики. Альтернативы — OpenAI Voice Realtime (теплее, но клонирование платное), Resemble AI (дешевле, но качество ниже).
Шаг 5 — сборка. Welder AI подхватывает референс-изображение героя и Voice ID и прогоняет всю серию через Veo 3.1 / Veo 2 одним батчем — десять роликов за вечер вместо двух дней ручного клика по Vertex AI. Если делаете руками — Vertex AI + ElevenLabs + DaVinci, готовьтесь к 3 часам на 60-секундный ролик.
Инструменты 2026: сравнение по консистентности
Цифры на май 2026, проверены по официальным прайсам и собственным тестам.
| Инструмент | Слой | Сходство лица | Цена | Лучше всего для |
|---|---|---|---|---|
| MidJourney v7 (Omni-Reference) | Референс-лицо | ~85% | $30/мес unlim | Стилизованные персонажи |
| Flux 1.1 Pro + LoRA | Референс-лицо | ~95% | ~$1/прогон + $5 LoRA | Реалистичные люди |
| Ideogram 3.0 | Референс-лицо | ~75% | $20/мес | Текст в кадре + лицо |
| Veo 3.1 (reference image) | Видео | ~90% | $0.50/сек video / $0.75 с аудио | Кинематографичные сцены |
| Veo 3.1 Fast | Видео | ~85% | $0.10/сек | Бюджетные серии |
| Runway Gen-4.5 (character ref) | Видео | ~88% | $0.05–$0.12/сек | Сложное движение, физика |
| Kling 1.6 Pro | Видео | ~75% | $0.20/клип | Жёсткий бюджет |
| HeyGen Avatar IV | Talking-head | ~98% | $29–$89/мес | Фронтальный говорящий герой |
| Hedra Character-2 | Talking-head + lip-sync | ~92% | $10–$30/мес | Стилизованный аватар + речь |
| ElevenLabs v3 | Голос | ~95% (clone) | $22–$99/мес | RU/EN voice clone |
| OpenAI Voice (Realtime) | Голос | ~90% | $0.06/мин input | Эмоция, диалоги |
Что отсюда стоит вынести: MidJourney + Veo 3.1 + ElevenLabs — самый частый стек для рунет-креаторов в 2026. Flux + LoRA — для тех, кто работает с реальным «лицом канала» и готов платить за тренировку. HeyGen — отдельная категория для talking-head-форматов, не путайте.
Стоит упомянуть и тех, кого больше нет. Sora 2: потребительское приложение OpenAI закрылось 26 апреля 2026, API живёт до 24 сентября, но без обновлений и без приоритета у разработчиков. Если вы строили пайплайн на Sora 2 — пора перевозиться на Veo 3.1 или Runway 4.5.
Девять приёмов, которые реально держат героя
- Один эталонный портрет, не «папка с 30 вариантами». Выбрали лицо — все референсы строятся от него. Папка нужна только для разных ракурсов того же лица.
- Описывайте героя одинаковой фразой во всех промптах. Не «молодой парень-курьер», а «Артём, 24 года, славянский тип, тёмные волосы средней длины, чёрная куртка-парка с шевроном, серебряная серьга в правом ухе» — слово в слово, во всех 10 промптах серии.
- Костюм — главный якорь. Если лицо «дышит» на 5%, костюм с уникальной деталью (татуировка, шрам, нашивка) спасает узнаваемость. Зритель опознаёт героя по силуэту за полсекунды.
- Фиксируйте кадрирование. Medium shot и крупный план дают больше деталей лица — и больше шансов на сходство. Дальние планы прощают модели вольности, но лучше избегать их в первых трёх секундах.
- Освещение — постоянное. Если в первой сцене у героя «золотой час, контровый», а во второй — «студия, плоский свет», лицо будет читаться как другое, даже если черты совпадают.
- Один Voice ID на всю серию. Серьёзно, не «попробуем другой голос для эмоциональных сцен» — переключение голоса убивает героя быстрее, чем смена лица.
- Сетка повторных тестов. Раз в 5 роликов прогоняйте «эталонный кадр» (тот же план, тот же свет) — сравнивайте. Дрейф ловится глазом за секунду.
- Negative prompts на конец. В Veo 3.1 негативы работают, если они короткие и в конце: «no facial drift, no costume changes, no background characters». Длинные негативы модель игнорирует.
- Не миксуйте модели в одной серии. Половина роликов в Veo 3.1, половина в Kling — гарантированный «двойник». Если бюджет жмёт, держите всю серию на Veo 3.1 Fast или всю на Kling, но не вперемешку.
Где это ломается: четыре типичных провала
Провал 1. Слишком абстрактный референс. «Девушка-блогер из Москвы, 25 лет» — это не референс, это бриф для кастинга. Модели нужно изображение, не текст.
Провал 2. Героя видно меньше 60% хронометража. Если в ролике 8 секунд природы и 2 секунды героя — узнаваемость не накапливается, и канал не строит связь со зрителем. Минимум 60% экранного времени с героем.
Провал 3. Меняется арт-стиль. Если первая серия — фотореализм, вторая — аниме, третья — 3D-рендер: даже с одним лицом это будет восприниматься как три разных канала. Стиль фиксируется один раз и держится 30+ роликов.
Провал 4. Голос-клон без эмоции. ElevenLabs v3 умеет в эмоцию, если её прописать ([whispering], [excited], [sad]). Без тегов голос звучит ровно — герой кажется «мёртвым». Зритель уходит даже при идеальной картинке.
Сериал из 30 видео: чек-лист на старте
Перед тем как делать первый ролик новой серии, прогоните по чек-листу:
- Эталонный портрет утверждён (1 изображение, не «папка»).
- Описание героя в одну фразу сохранено в Notion или промпт-шаблоне.
- Voice ID создан в ElevenLabs (или эквиваленте) и протестирован на 3 разных эмоциях.
- Базовый стиль освещения зафиксирован (например, «soft daylight, slight rim, no harsh shadows»).
- Тест-ролик 8 секунд прошёл — лицо и голос узнаются.
- Шаблон промпта собран (subject + action + scene + camera + style + audio + negatives).
- Канал сценариев оформлен франшизой — серия из 20–30 эпизодов с одинаковым cold open и outro.
Если делать это руками не хочется, пайплайн уже зашит в Welder AI — задаёте героя, голос и нишу один раз, дальше получаете готовые ролики из Veo 3 / Veo 2 прямо в Telegram-боте, без VPN и иностранной карты. Подробнее про Veo 3 в Телеграме — на странице Veo 3 в Telegram без VPN. Тарифы — на странице цен.
Если интересен соседний слой — анатомия промптов для Veo 3.1, чтобы и сцена тоже не «плыла», — есть отдельный гайд: Промпты Veo 3.1 для AI-Shorts 2026: 12 рабочих шаблонов. Тем, кто хочет понимать, зачем вообще делать сериал, а не разовые ролики, — пригодится материал Сериал из AI-Shorts: как франшиза растит канал.
Что делать сейчас
Если у вас уже есть канал и герой «плывёт» — начните с одного: зафиксируйте эталонный портрет и Voice ID. Это решает 70% проблемы. Дальше — два-три тестовых ролика, чтобы проверить дрейф. Только после этого — масштаб.
Если канала ещё нет — не начинайте без героя. Faceless ≠ безликий: даже маскот, нарисованная лиса или 3D-аватар работают как persona, и алгоритм их любит. ИИ-канал без узнаваемого центра — это ai-slop, и он умирает к десятому ролику.
Соберите первого героя сегодня — на это уйдёт час, а отдача будет идти месяцами. Запустите серию в Welder AI и проверьте дрейф уже на первой пятёрке роликов.