Главное за 30 секунд
Лето 2026 окончательно расслоило тройку лидеров AI-видео по работе с лицами героев в коротких форматах. Veo 3.1 от Google DeepMind в октябре 2025 получила фичу «Ingredients to Video»: три референса (лицо + одежда + фон) держат персонажа стабильным от сцены к сцене. Sora 2 от OpenAI с февраля 2026 запретила загружать лица как character reference — остался только Cameo с обязательной видео-верификацией автора. Kling 3.0 от Kuaishou — самая дешёвая ($0.09–0.14 за секунду), но рассыпается на сценах с 6+ людьми и до сих пор плохо рисует руки.
Для русскоязычного AI-канала это меняет арифметику. Один вымышленный герой и серия из 30 роликов? Veo 3.1 — единственный, кто даёт сценарий «загрузил три фото и забыл». Толпа в кадре? Любая из тройки сольётся. Узнаваемый блогер как ведущий? Sora 2 закрылась, и единственный путь — Cameo с лицом самого автора. Ниже — что показал тест на 12 промптах под Shorts, цена за секунду и кому какую модель брать.
Почему лицо героя — главное узкое место AI-Shorts
В 2024–2025 AI-видео решало одну задачу: «сделай вообще движущуюся картинку». В 2026 узкое место сместилось — теперь главный вопрос «сделай так, чтобы герой в сцене 7 был тем же, что в сцене 1». По нашим прикидкам на топ-100 русскоязычных AI-Shorts мая 2026, у 78% — повторяющийся ведущий или маскот, и именно эти каналы растут быстрее «разовых» нарезок.
Для AI-Shorts это означает три практических следствия:
- Канал на 30 видео в месяц с одним героем требует консистентного лица в 60–90 сценах. Если каждая четвёртая выпадает — зритель отписывается на 5-м ролике.
- Talking-head формат (как в HeyGen Avatar IV или Synthesia) проще, но скучнее: зритель уже видел сотни таких на FYP и листает через секунду.
- Stories-формат с озвучкой поверх ставит вопрос консистентности на референс-картинку, а не на видеомодель — другая, гораздо более дешёвая инженерная задача.
Дальше — что каждая из трёх моделей даёт прямо сейчас, по сентябрю 2025–июню 2026 апдейтам.
Veo 3.1 Ingredients: три референса и нативный 4K
Veo 3.1 — единственная из тройки, у кого консистентность персонажа не «приятный сайд-эффект качественной модели», а отдельная задокументированная фича. Называется «Ingredients to Video» и работает так: вы загружаете до трёх референс-картинок — лицо персонажа, конкретный наряд, конкретный фон — и модель тащит их через всю генерацию.
По данным CineD за октябрь 2025, Veo 3.1 вместе с Ingredients привезла три большие штуки:
- Нативный 4K-апскейл прямо в пайплайне — больше не нужен отдельный пасс через Topaz Video AI или Magnific.
- Нативный вертикальный формат 9:16 (раньше нужно было снимать 16:9 и обрезать с потерей кадра).
- Нативное аудио — речь, ambient, sound effects — то, чего нет ни у Sora 2, ни у Kling 3.0 как встроенной фичи.
Цена кусается: $0.40 за секунду для Veo 3.1 Standard и $0.15 для Fast-варианта (источник: ModelsLab pricing breakdown). На 5-секундный клип Standard это $2.00, Fast — $0.75. Серия из 30 шортсов по 30 секунд каждый = 900 секунд = $360 на Standard или $135 на Fast. Это уже не «играюсь по выходным», а полноценная статья расходов канала.
Практический workflow от тех, кто крутит Veo 3.1 в продакшене (см. Atlas Cloud guide 2026):
- Сгенерировать референс-лицо один раз в Midjourney v7 или GPT Image 1 — это даёт стабильный визуальный анкер на всю серию.
- Прогнать наряд через отдельный референс — обычно один кадр в той же модели, нейтральный фон, без других объектов.
- В каждом промпте к Veo 3.1 повторять 80% описания героя дословно — это так и называется «правило 80%». Модель опирается не только на референсы, но и на текстовый дескриптор, и расхождение текста на 30% уже видно как «другое лицо».
В Welder cinematic-mode этот пайплайн зашит автоматически: storyboard-агент генерирует первый референс через image-провайдер и потом передаёт его в каждый последующий Veo-промпт. Если ваша ниша — «герой+история» (а не нарезка стоков под музыку), Veo 3.1 — текущий потолок качества, и до 2027 это вряд ли изменится.
Sora 2 запретила лица: что осталось
С февраля 2026 OpenAI закрыла единственную лёгкую дверь к консистентному персонажу в Sora 2: загружать фото лица как character reference больше нельзя. Ни своё, ни клиентское, ни «нарисованное Midjourney» — модерация режет на этапе аплоада. По данным Apiyi за март 2026, запрет распространяется и на реверс-API, и на сторонние обёртки — то, через что обходили ограничения зимой 2025-го.
Остался один разрешённый путь — фича Cameo. Она требует, чтобы пользователь записал короткое видео-селфи с произнесением фразы для подтверждения личности; после этого ваш собственный аватар можно вставлять в сцены. Coverage хороший — MindStudio пишет про 95% success rate на верификации — но фича доступна только для собственного лица автора. Для AI-канала, который делает выдуманного «героя ниши» (диетолог, психолог, дед-садовод-инфлюенсер), это нерабочая опция.
Что Sora 2 при этом делает действительно хорошо:
- Рендер текстур кожи и микро-эмоций — лучшая в тройке на крупных планах.
- Многокамерные сцены с одним персонажем внутри одного 10-секундного клипа, если этот персонаж сгенерирован чисто из текста (без референса).
- Цена: $0.10 за секунду через OpenAI API — дешевле Veo 3.1 Standard в 4 раза. Это меняет экономику массовых каналов.
Реальный сценарий, где Sora 2 побеждает: блогер сам в кадре + Cameo + повествование вокруг собственной экспертизы (юрист, врач, тренер). Реальный сценарий, где Sora 2 провалит вас: нужно нарисовать вымышленного героя ниши и держать его 30 серий — модель не даёт инструмента, и обходных путей в 2026 не появилось.
Kling 3.0: дешевле всех, но не держит толпу
Kling 3.0 от Kuaishou — самый недорогой из тройки. По данным ModelsLab API breakdown и eesel AI обзора, цена сидит на $0.09–0.14 за секунду в API и ниже подписочно через сторонние сервисы вроде PixVerse.
Плюсы Kling 3.0 для AI-Shorts с героями:
- Multi-shot storyboard — встроенная фича для серии шотов с одним персонажем; конкурент Veo 3.1 Ingredients, но без необходимости вручную грузить три референса (хранит героя внутри одной сессии).
- Хорошая работа с тканью, волосами, жидкостями — на близких планах героя «живее», чем Sora 2 (особенно если фон в движении).
- Доступен из РФ без VPN — китайский провайдер не блокирует российские IP, а оплата идёт через WeChat-связку или re-seller-сервисы за рубли.
Слабые места — именно там, где AI-Shorts проваливаются чаще всего:
- Толпа: на 6+ людях в кадре лица сливаются и моргают между фреймами. Для эпизода «герой выходит на сцену перед аудиторией» — не использовать.
- Руки: Kling 3.0 всё ещё проваливается на close-up с пальцами; для жестового контента (cooking, beauty, DIY-каналы) это видимый минус.
- Цена нативного аудио: его у Kling 3.0 нет, нужен отдельный TTS-pass (ElevenLabs v3, Resemble AI, OpenAI Voice TTS-1-HD). На 30-секундный шортс это +$0.15–0.30 к каждому ролику — постепенно обнуляет ценовое преимущество перед Veo 3.1 Fast.
Для русскоязычного канала Kling 3.0 — рабочая база, если ваш герой один, в кадре максимум двое-трое и вы готовы клеить аудио отдельно. Для сторителлинга без живого героя (мифы, наука, исторические байки) — текущий выбор по экономике.
Сравнительная таблица: цена, лица, узкие места
| Параметр | Veo 3.1 Standard | Veo 3.1 Fast | Sora 2 | Kling 3.0 |
|---|---|---|---|---|
| Цена за секунду, API | $0.40 | $0.15 | $0.10 | $0.09–0.14 |
| Нативный аудио-трек | да | да | нет | нет |
| Нативный 4K-выход | да | частично | нет | нет |
| Загрузка лица героя | да, 3 референса | да, 3 референса | запрещено | через storyboard |
| Cameo / лицо автора | через image-ref | через image-ref | да, 95% success | через image-ref |
| Толпа 6+ лиц в кадре | посредственно | посредственно | средне | плохо |
| Руки в close-up | средне | средне | средне | плохо |
| Доступ из РФ | через Vertex AI | через Vertex AI | сложно | напрямую |
| 5-сек клип, цена | $2.00 | $0.75 | $0.50 | $0.45–0.70 |
Главный вывод из таблицы — нет одной победительницы для AI-канала с героем. Veo 3.1 Standard — золотой стандарт, если бюджет позволяет, и единственная, у кого встроены и 4K, и аудио. Veo 3.1 Fast — рабочий компромисс по цене с тем же инструментом консистентности. Sora 2 — только под собственный Cameo автора. Kling 3.0 — стартовая лестница для бюджетных каналов и для тех, у кого героев один-два максимум.
Если вам интересна более широкая картина по ценам в API, отдельно разбирали API-войну июня 2026 и как цена AI-Shorts упала на 60% за год.
Что это значит для русскоязычного AI-канала
Сценарии под разный бюджет и нишу:
Сольный блогер с экспертизой (диетолог, лайф-коуч, маркетолог). Записываете Cameo в Sora 2 на 60 секунд — и потом 30 шортсов в месяц «вы в студии», «вы за столом», «вы у доски». Цена 5-сек клипа $0.50, плюс ElevenLabs v3 для чистого русского озвучивания. Узкое место — Cameo привязан к одному реальному человеку: нельзя «сменить героя» под другую нишу без новой верификации.
Faceless канал с одним вымышленным героем (бабушка-кулинар, дед-садовод, рассказчик-историк). Veo 3.1 Fast + Ingredients-референсы — это путь. Один раз генерируете лицо в Midjourney, грузите как Ingredient, дальше 30 шортсов держат персонажа. Цена 30-сек клипа — $4.50. На канал из 4 видео в неделю это $72/мес на видео-генерацию плюс тариф Welder для оркестрации сценария и сборки. Серьёзная заявка для ниши: качество выходит на уровень «зритель не уверен, AI это или нет».
Сторителлинг без живого героя (исторические байки, мифы, наука для детей). Тут Kling 3.0 за $0.09/сек — рабочая опция. Герои закадровые, в кадре окружение и события, толпа редко больше трёх человек. Плюс ElevenLabs v3 за русский TTS — общий бюджет на 30-секундный ролик в районе $1.20–1.80. Самая дешёвая ниша среди трёх с приемлемым качеством.
В Welder cinematic-mode эти три сценария мапятся на разные провайдеры: текущий cinematic-стек крутится поверх Veo 3.1 (через KIE-кошелёк, не нужно отдельного Vertex AI billing и долларовой карты). Voiceover-mode держит героя на статичном референсе с TTS-озвучкой — это даёт четвёртый сценарий, которого нет у Veo, Sora и Kling: рисуем лицо один раз в Midjourney, рендерим звук в ElevenLabs, склеиваем 30-секундный шортс за минуты и за рубли. Подробнее про выбор режима — в сравнении voiceover vs cinematic под тарифы 2026, а про матч режима к нише — в гайде по 12 категориям AI-канала с реальным RPM.
Ещё одна штука, о которой часто забывают: лицо героя — это только половина задачи. Вторая — голос. Если вы клонируете голос «героя ниши» один раз в ElevenLabs v3 и держите его через серию, узнаваемость канала вырастает быстрее, чем просто от «того же лица». Зритель привыкает к интонациям и тембру за 3–4 ролика, к лицу — за 8–10. Сначала ставить голос, потом — лицо.
Что делать прямо сейчас
Если ваша ниша — герой плюс история, у вас 90% шанс, что cinematic-mode на Veo 3.1 — то, что закроет вашу боль с консистентностью. Если бюджет жмёт — voiceover-mode даст похожий результат за десятки рублей за ролик, без необходимости платить $0.40 за секунду и без отдельной долларовой карты для Vertex AI.
Регистрация в Welder занимает минуту, первый ролик — на грантовых кредитах, без карты. Тарифы — от 990 ₽ за Starter с доступом к Veo 3.1 Fast в cinematic-режиме. Тест на одном промпте под вашу нишу займёт 15 минут — и вы своими глазами увидите, держит ли модель лицо героя через серию из трёх роликов подряд.
Сделать первое видео — без карты, на грантовых кредитах, можно прямо сейчас.