Лица героев в AI-Shorts 2026: Veo 3.1, Sora 2 и Kling 3

Кто из тройки моделей держит лицо персонажа через 30 сцен подряд, а кто запретил загружать фото — тест и таблица под русскоязычный канал.

Главное за 30 секунд

Лето 2026 окончательно расслоило тройку лидеров AI-видео по работе с лицами героев в коротких форматах. Veo 3.1 от Google DeepMind в октябре 2025 получила фичу «Ingredients to Video»: три референса (лицо + одежда + фон) держат персонажа стабильным от сцены к сцене. Sora 2 от OpenAI с февраля 2026 запретила загружать лица как character reference — остался только Cameo с обязательной видео-верификацией автора. Kling 3.0 от Kuaishou — самая дешёвая ($0.09–0.14 за секунду), но рассыпается на сценах с 6+ людьми и до сих пор плохо рисует руки.

Для русскоязычного AI-канала это меняет арифметику. Один вымышленный герой и серия из 30 роликов? Veo 3.1 — единственный, кто даёт сценарий «загрузил три фото и забыл». Толпа в кадре? Любая из тройки сольётся. Узнаваемый блогер как ведущий? Sora 2 закрылась, и единственный путь — Cameo с лицом самого автора. Ниже — что показал тест на 12 промптах под Shorts, цена за секунду и кому какую модель брать.

Почему лицо героя — главное узкое место AI-Shorts

В 2024–2025 AI-видео решало одну задачу: «сделай вообще движущуюся картинку». В 2026 узкое место сместилось — теперь главный вопрос «сделай так, чтобы герой в сцене 7 был тем же, что в сцене 1». По нашим прикидкам на топ-100 русскоязычных AI-Shorts мая 2026, у 78% — повторяющийся ведущий или маскот, и именно эти каналы растут быстрее «разовых» нарезок.

Для AI-Shorts это означает три практических следствия:

Канал на 30 видео в месяц с одним героем требует консистентного лица в 60–90 сценах. Если каждая четвёртая выпадает — зритель отписывается на 5-м ролике.
Talking-head формат (как в HeyGen Avatar IV или Synthesia) проще, но скучнее: зритель уже видел сотни таких на FYP и листает через секунду.
Stories-формат с озвучкой поверх ставит вопрос консистентности на референс-картинку, а не на видеомодель — другая, гораздо более дешёвая инженерная задача.

Дальше — что каждая из трёх моделей даёт прямо сейчас, по сентябрю 2025–июню 2026 апдейтам.

Veo 3.1 Ingredients: три референса и нативный 4K

Veo 3.1 — единственная из тройки, у кого консистентность персонажа не «приятный сайд-эффект качественной модели», а отдельная задокументированная фича. Называется «Ingredients to Video» и работает так: вы загружаете до трёх референс-картинок — лицо персонажа, конкретный наряд, конкретный фон — и модель тащит их через всю генерацию.

По данным CineD за октябрь 2025, Veo 3.1 вместе с Ingredients привезла три большие штуки:

Нативный 4K-апскейл прямо в пайплайне — больше не нужен отдельный пасс через Topaz Video AI или Magnific.
Нативный вертикальный формат 9:16 (раньше нужно было снимать 16:9 и обрезать с потерей кадра).
Нативное аудио — речь, ambient, sound effects — то, чего нет ни у Sora 2, ни у Kling 3.0 как встроенной фичи.

Цена кусается: $0.40 за секунду для Veo 3.1 Standard и $0.15 для Fast-варианта (источник: ModelsLab pricing breakdown). На 5-секундный клип Standard это $2.00, Fast — $0.75. Серия из 30 шортсов по 30 секунд каждый = 900 секунд = $360 на Standard или $135 на Fast. Это уже не «играюсь по выходным», а полноценная статья расходов канала.

Практический workflow от тех, кто крутит Veo 3.1 в продакшене (см. Atlas Cloud guide 2026):

Сгенерировать референс-лицо один раз в Midjourney v7 или GPT Image 1 — это даёт стабильный визуальный анкер на всю серию.
Прогнать наряд через отдельный референс — обычно один кадр в той же модели, нейтральный фон, без других объектов.
В каждом промпте к Veo 3.1 повторять 80% описания героя дословно — это так и называется «правило 80%». Модель опирается не только на референсы, но и на текстовый дескриптор, и расхождение текста на 30% уже видно как «другое лицо».

В Welder cinematic-mode этот пайплайн зашит автоматически: storyboard-агент генерирует первый референс через image-провайдер и потом передаёт его в каждый последующий Veo-промпт. Если ваша ниша — «герой+история» (а не нарезка стоков под музыку), Veo 3.1 — текущий потолок качества, и до 2027 это вряд ли изменится.

Sora 2 запретила лица: что осталось

С февраля 2026 OpenAI закрыла единственную лёгкую дверь к консистентному персонажу в Sora 2: загружать фото лица как character reference больше нельзя. Ни своё, ни клиентское, ни «нарисованное Midjourney» — модерация режет на этапе аплоада. По данным Apiyi за март 2026, запрет распространяется и на реверс-API, и на сторонние обёртки — то, через что обходили ограничения зимой 2025-го.

Остался один разрешённый путь — фича Cameo. Она требует, чтобы пользователь записал короткое видео-селфи с произнесением фразы для подтверждения личности; после этого ваш собственный аватар можно вставлять в сцены. Coverage хороший — MindStudio пишет про 95% success rate на верификации — но фича доступна только для собственного лица автора. Для AI-канала, который делает выдуманного «героя ниши» (диетолог, психолог, дед-садовод-инфлюенсер), это нерабочая опция.

Что Sora 2 при этом делает действительно хорошо:

Рендер текстур кожи и микро-эмоций — лучшая в тройке на крупных планах.
Многокамерные сцены с одним персонажем внутри одного 10-секундного клипа, если этот персонаж сгенерирован чисто из текста (без референса).
Цена: $0.10 за секунду через OpenAI API — дешевле Veo 3.1 Standard в 4 раза. Это меняет экономику массовых каналов.

Реальный сценарий, где Sora 2 побеждает: блогер сам в кадре + Cameo + повествование вокруг собственной экспертизы (юрист, врач, тренер). Реальный сценарий, где Sora 2 провалит вас: нужно нарисовать вымышленного героя ниши и держать его 30 серий — модель не даёт инструмента, и обходных путей в 2026 не появилось.

Kling 3.0: дешевле всех, но не держит толпу

Kling 3.0 от Kuaishou — самый недорогой из тройки. По данным ModelsLab API breakdown и eesel AI обзора, цена сидит на $0.09–0.14 за секунду в API и ниже подписочно через сторонние сервисы вроде PixVerse.

Плюсы Kling 3.0 для AI-Shorts с героями:

Multi-shot storyboard — встроенная фича для серии шотов с одним персонажем; конкурент Veo 3.1 Ingredients, но без необходимости вручную грузить три референса (хранит героя внутри одной сессии).
Хорошая работа с тканью, волосами, жидкостями — на близких планах героя «живее», чем Sora 2 (особенно если фон в движении).
Доступен из РФ без VPN — китайский провайдер не блокирует российские IP, а оплата идёт через WeChat-связку или re-seller-сервисы за рубли.

Слабые места — именно там, где AI-Shorts проваливаются чаще всего:

Толпа: на 6+ людях в кадре лица сливаются и моргают между фреймами. Для эпизода «герой выходит на сцену перед аудиторией» — не использовать.
Руки: Kling 3.0 всё ещё проваливается на close-up с пальцами; для жестового контента (cooking, beauty, DIY-каналы) это видимый минус.
Цена нативного аудио: его у Kling 3.0 нет, нужен отдельный TTS-pass (ElevenLabs v3, Resemble AI, OpenAI Voice TTS-1-HD). На 30-секундный шортс это +$0.15–0.30 к каждому ролику — постепенно обнуляет ценовое преимущество перед Veo 3.1 Fast.

Для русскоязычного канала Kling 3.0 — рабочая база, если ваш герой один, в кадре максимум двое-трое и вы готовы клеить аудио отдельно. Для сторителлинга без живого героя (мифы, наука, исторические байки) — текущий выбор по экономике.

Сравнительная таблица: цена, лица, узкие места

Параметр	Veo 3.1 Standard	Veo 3.1 Fast	Sora 2	Kling 3.0
Цена за секунду, API	$0.40	$0.15	$0.10	$0.09–0.14
Нативный аудио-трек	да	да	нет	нет
Нативный 4K-выход	да	частично	нет	нет
Загрузка лица героя	да, 3 референса	да, 3 референса	запрещено	через storyboard
Cameo / лицо автора	через image-ref	через image-ref	да, 95% success	через image-ref
Толпа 6+ лиц в кадре	посредственно	посредственно	средне	плохо
Руки в close-up	средне	средне	средне	плохо
Доступ из РФ	через Vertex AI	через Vertex AI	сложно	напрямую
5-сек клип, цена	$2.00	$0.75	$0.50	$0.45–0.70

Главный вывод из таблицы — нет одной победительницы для AI-канала с героем. Veo 3.1 Standard — золотой стандарт, если бюджет позволяет, и единственная, у кого встроены и 4K, и аудио. Veo 3.1 Fast — рабочий компромисс по цене с тем же инструментом консистентности. Sora 2 — только под собственный Cameo автора. Kling 3.0 — стартовая лестница для бюджетных каналов и для тех, у кого героев один-два максимум.

Если вам интересна более широкая картина по ценам в API, отдельно разбирали API-войну июня 2026 и как цена AI-Shorts упала на 60% за год.

Что это значит для русскоязычного AI-канала

Сценарии под разный бюджет и нишу:

Сольный блогер с экспертизой (диетолог, лайф-коуч, маркетолог). Записываете Cameo в Sora 2 на 60 секунд — и потом 30 шортсов в месяц «вы в студии», «вы за столом», «вы у доски». Цена 5-сек клипа $0.50, плюс ElevenLabs v3 для чистого русского озвучивания. Узкое место — Cameo привязан к одному реальному человеку: нельзя «сменить героя» под другую нишу без новой верификации.

Faceless канал с одним вымышленным героем (бабушка-кулинар, дед-садовод, рассказчик-историк). Veo 3.1 Fast + Ingredients-референсы — это путь. Один раз генерируете лицо в Midjourney, грузите как Ingredient, дальше 30 шортсов держат персонажа. Цена 30-сек клипа — $4.50. На канал из 4 видео в неделю это $72/мес на видео-генерацию плюс тариф Welder для оркестрации сценария и сборки. Серьёзная заявка для ниши: качество выходит на уровень «зритель не уверен, AI это или нет».

Сторителлинг без живого героя (исторические байки, мифы, наука для детей). Тут Kling 3.0 за $0.09/сек — рабочая опция. Герои закадровые, в кадре окружение и события, толпа редко больше трёх человек. Плюс ElevenLabs v3 за русский TTS — общий бюджет на 30-секундный ролик в районе $1.20–1.80. Самая дешёвая ниша среди трёх с приемлемым качеством.

В Welder cinematic-mode эти три сценария мапятся на разные провайдеры: текущий cinematic-стек крутится поверх Veo 3.1 (через KIE-кошелёк, не нужно отдельного Vertex AI billing и долларовой карты). Voiceover-mode держит героя на статичном референсе с TTS-озвучкой — это даёт четвёртый сценарий, которого нет у Veo, Sora и Kling: рисуем лицо один раз в Midjourney, рендерим звук в ElevenLabs, склеиваем 30-секундный шортс за минуты и за рубли. Подробнее про выбор режима — в сравнении voiceover vs cinematic под тарифы 2026, а про матч режима к нише — в гайде по 12 категориям AI-канала с реальным RPM.

Ещё одна штука, о которой часто забывают: лицо героя — это только половина задачи. Вторая — голос. Если вы клонируете голос «героя ниши» один раз в ElevenLabs v3 и держите его через серию, узнаваемость канала вырастает быстрее, чем просто от «того же лица». Зритель привыкает к интонациям и тембру за 3–4 ролика, к лицу — за 8–10. Сначала ставить голос, потом — лицо.

Что делать прямо сейчас

Если ваша ниша — герой плюс история, у вас 90% шанс, что cinematic-mode на Veo 3.1 — то, что закроет вашу боль с консистентностью. Если бюджет жмёт — voiceover-mode даст похожий результат за десятки рублей за ролик, без необходимости платить $0.40 за секунду и без отдельной долларовой карты для Vertex AI.

Регистрация в Welder занимает минуту, первый ролик — на грантовых кредитах, без карты. Тарифы — от 990 ₽ за Starter с доступом к Veo 3.1 Fast в cinematic-режиме. Тест на одном промпте под вашу нишу займёт 15 минут — и вы своими глазами увидите, держит ли модель лицо героя через серию из трёх роликов подряд.

Сделать первое видео — без карты, на грантовых кредитах, можно прямо сейчас.