Главное за 30 секунд
С 24 сентября 2026 года Sora 2 API закрывается, и для серьёзного AI-Shorts остаётся четыре фронта: Veo 3.1 (Google DeepMind, январь 2026), Kling 3.0 (Kuaishou), Hailuo 02 (MiniMax) и Runway Gen-4. Если вы делаете вертикальные ролики на русском под TikTok, Reels и YouTube Shorts, дефолт сейчас — Veo 3.1: 8 секунд нативного синхронного аудио, диалоги в кавычках, точный отклик на язык камеры.
Проблема одна: модели, которые приходят с Vertex AI или из бот-обёрток, не прощают «эпично, кинематографично, в стиле Кубрика». Они прощают конкретный кадр, конкретный свет и одну доминирующую силу в кадре. Дальше — 12 шаблонов, которые работают на проде в июне 2026, плюс 6 фраз, которые гарантированно выкидывают ваш промпт в галлюцинации.
Структура промпта Veo 3.1: 5 частей
Google DeepMind в официальном гайде формулирует базу так: Camera + Subject + Action + Setting + Style/Audio. Любая пропущенная часть превращается в галлюцинацию: модель угадывает, и угадывает неправильно чаще, чем хотелось бы.
Идеальная длина — 75–125 слов. Меньше — нет деталей, больше 175 — модель начинает противоречить сама себе. Это не догма, но в проде так и есть: длиннее 200 слов промпт чаще ломается, чем хвалит вас за объём.
| Часть | Что писать | Пример |
|---|---|---|
| Camera | Тип кадра, движение, оптика | «Slow dolly-in, medium close-up, 35mm anamorphic» |
| Subject | Кто или что в кадре, ОДНА сущность | «A bearded barista in his late thirties, charcoal apron» |
| Action | ОДНА доминирующая сила, активный глагол | «Pours espresso into a glass cup, steam rising» |
| Setting | Локация плюс время суток плюс детали | «Tokyo specialty café at 7:12 AM, rain on the windows» |
| Style/Audio | Стиль кадра, звук, диалог | «35mm film grain. Ambient hiss of steam wand. He says, "First one's on me."» |
Эта же пятёрка — основа стораборда в Welder. Пайплайн раскладывает ваш сюжет на 8-секундные шоты ровно по этим полям, потом склеивает в ролик с озвучкой и обложкой.
12 рабочих шаблонов для Shorts
Каждый — на 8 секунд, под вертикаль 9:16 (Veo 3.1 это умеет нативно с октября 2025-го). Подставьте свой субъект.
| # | Шаблон | Когда брать |
|---|---|---|
| 1 | Slow dolly-in + monologue — медленный наезд, герой произносит фразу в кавычках | Хук «остановись и посмотри», цитаты, мотивация |
| 2 | Static close-up + ASMR — статика, крупный план, дикий звук без музыки | Кулинария, ремесло, продакт-демо |
| 3 | Tracking shot follow — камера ведёт героя сбоку, естественные шаги | Истории, путешествия, инструкции в движении |
| 4 | Whip-pan reveal — резкий пан, потом раскрытие объекта | Сравнения «было/стало», твисты в середине |
| 5 | Crane up from low angle — низкий старт, подъём камеры | Эпик, продакт-плейсмент, открытие сцены |
| 6 | Locked-off wide + dialogue — широкий статический кадр, диалог двух персонажей | Скетчи, диалоговые форматы, обучающие сцены |
| 7 | Macro pull-back — макро деталь, отъезд к контексту | Обзоры техники, химия, наука |
| 8 | Handheld documentary — лёгкая дрожь, как у репортёра | True crime, новости, эмоциональные истории |
| 9 | Drone descend + voiceover — сверху вниз, нарратор за кадром | География, тревел, исторические форматы |
| 10 | Over-the-shoulder POV — за плечом героя, его действие в кадре | Туториалы, гейминг, продуктивность |
| 11 | Insert + foley — макро-вставка с акцентным звуком | Монтажный шот в середине серии |
| 12 | Reverse zoom + reveal — обратный зум до контекста | Раскрытия, заголовочные шоты |
Эти двенадцать покрывают около 85% всех монтажных задач Shorts. Остальные 15% — стилистические эксперименты (анимация, абстракция), и там Veo 3.1 уступает Kling 3.0 и Hailuo 02, у которых «нарисуй как акварель» работает из коробки.
Камера: вокабуляр, который реально работает
Главное наблюдение инженеров LTX и Google: термины движения камеры — самый сильный сигнал в промпте Veo 3.1. «Dolly», «crane», «tracking», «whip pan», «push-in», «pull-back» — модель распознаёт каждое и выдаёт предсказуемый кадр.
Что НЕ работает:
- «Эпический ракурс» / «epic shot» — модель тащит обобщённую «эпичность», и движение получается дрожащим
- «Динамичная съёмка» / «dynamic shot» — кадр в 60% случаев ломается на середине
- «В стиле {имя режиссёра}» — Veo 3.1 узнаёт буквально нескольких (Wes Anderson, Kubrick), и даже их интерпретирует поверхностно
Что РАБОТАЕТ — отдельное предложение про движение камеры, не вшитое в описание действия:
Bad: «The camera moves around as a man walks down the street looking sad.»
Good: «A man in his thirties walks down a rainy street. The camera tracks him from the side in a slow, steady dolly. 35mm lens, anamorphic.»
Разделите камеру и действие — и точность кадра поднимется в разы. Конкретно про язык кинокамеры в Shorts мы разбирали Higgsfield DoP, Veo 3.2 (внутренний leak Google от 18 января 2026, кодовое имя Snowbunny) и Runway Gen-4 в отдельной статье.
Свет, оптика и аспект: где скачок качества
Описание света — самая высокоэффективная добавка к промпту Veo 3.1. Не «красивое освещение», а конкретное:
- Golden hour — тёплый прямой свет, длинные тени, оранжевое небо
- Chiaroscuro — резкие контрасты светотени, тёмные провалы, акцент на лице
- Volumetric — лучи света через дым или туман, объёмные
- Practical lights — лампы в кадре как источник света
- Hard window light — резкий боковой через окно
- Blue hour — холодный сумеречный, сине-серый, без солнца
Оптика — следующий уровень. «35mm anamorphic», «50mm prime», «macro 100mm» — Veo 3.1 различает их и держит линию. Добавьте плёнку: «35mm film grain», «Kodak Portra», «Super 16 vintage» — модель тянет фактуру в нужную сторону.
Аспект кадра для Shorts/Reels/TikTok — 9:16 vertical. Veo 3.1 это умеет нативно; не пишите «cropped to vertical», пишите сразу «vertical 9:16 framing». Нативное вертикальное — это разница между чистой композицией и фейковым кропом, в котором голова героя срезана сверху.
Аудио, диалог и саунд-дизайн в одном промпте
То, чем Veo 3.1 объективно сильнее всех остальных моделей на середину 2026-го — синхронное генерируемое аудио в одном проходе. По тесту Tom's Guide против Sora 2 на семи аудио-промптах Veo выиграл в пяти из семи (диалог, foley, амбиент); Sora 2 был лучше в общей атмосфере и хаотичности.
Три уровня аудио в одном промпте:
- Диалог в кавычках —
He says, "We have to leave now."Veo произнесёт это голосом, синхронным с губами. Длина — максимум 8–10 слов на 8-секундный шот; больше — модель режет фразу. - Foley / sound effects — «Coffee cup clinks against the saucer. Steam wand hisses for 2 seconds.» Конкретный звук, привязанный к действию в кадре.
- Ambient — «Faint sound of rain on the window. Distant traffic.» Фон, без которого ролик звучит мёртво.
Что НЕ работает: «cinematic music», «epic soundtrack». Veo музыку генерирует слабо. Для саундтрека всё равно отдельный сервис — Suno v4, Udio или Mubert. Полноценная RU-озвучка тоже отдельный пайплайн: Veo английский голос делает прилично, русский всё ещё слабо. Для RU-канала ставьте ElevenLabs v3 или Yandex SpeechKit поверх немой генерации.
6 анти-паттернов: что выкидывайте сразу
Запомните и не пишите:
- «Кинематографично, эпично, профессионально» — нулевая семантика, занимают токены. Замените на конкретику: «35mm anamorphic, hard chiaroscuro, ambient hum».
- Стек действий в одном предложении — «He picks up the cup, walks to the window, looks outside, smiles». Veo сожмёт это в кашу. Одно доминирующее действие на промпт.
- «В стиле какого-то режиссёра» — модель узнаёт от силы пятерых, и даже их интерпретирует наугад. Лучше описать стиль вручную: «desaturated palette, hard symmetry, static frames».
- Длинные косвенные описания — «a man who has been waiting for hours and is starting to lose patience while» — Veo не философ. Конвертируйте в действие: «A man checks his watch sharply, jaw tense».
- «В разрешении 4K, HDR, киноуровень» — это атрибуты файла, не кадра. Тратите токены. Veo 3.1 рендерит в 1080p нативно; 4K — апскейл отдельным шагом.
- «Множественные камеры», «split screen», «two angles» — Veo не умеет генерировать мультикам в одном промпте. Делайте отдельным шотом и склеивайте на монтаже.
Те же грабли мы недавно разбирали для текстовых хуков — оказалось, что 8 шаблонных фраз убивают retention быстрее любых других ошибок монтажа.
Промпт против пайплайна: где Welder берёт работу на себя
Хороший промпт — это 30% качества кадра. Остальные 70% — что вы делаете ДО и ПОСЛЕ:
- До: сценарий с хуком в первые 1.2 секунды, story arc на 30–60 секунд, единый персонаж сквозь серию шотов (Veo 3.1 теряет лицо между 8-секундными кусками без референса)
- Во время: 6–10 промптов под свой кадр каждый, плюс character reference image для сохранения внешности
- После: монтаж, RU-озвучка, обложка с акцентом, заголовок, расписание автопостинга в TikTok, Reels и YouTube Shorts
Если вы делаете один ролик в неделю — этим можно жить вручную. Если 30 роликов в неделю на серийный канал — нужен пайплайн.
Welder AI делает оба режима из коробки: cinematic — Veo 3.1 многошотовая склейка с character ref, RU-озвучкой через ElevenLabs v3 или Yandex, обложкой и автопостингом; voiceover — TikTok-style stills плюс RU-голос плюс жжёные субтитры для тех, у кого Veo пока не по бюджету. Промпт пишет сам Welder — вы даёте только нишу и сюжет, дальше пайплайн раскладывает сюжет на шоты по 5-частевой формуле, генерирует, склеивает и публикует.
Старт — 990 ₽/мес на Starter-плане (5 серий в месяц), без VPN и без американской карты. Полные тарифы — на странице цен.
Итог: что делать с этим завтра
- Сохраните 5-частевую формулу и 12 шаблонов из таблицы выше
- Перепишите свои текущие промпты, выкинув 6 анти-паттернов
- Тестируйте на Veo 3.1: одно действие, одно движение камеры, конкретный свет, диалог в кавычках
- Если рутина не по бюджету — соберите первую серию через Welder, пайплайн возьмёт сборку на себя
Sora 2 уйдёт в сентябре, мы писали, на что мигрировать. Veo 3.1 остаётся главной ставкой до конца 2026-го, и эти 12 шаблонов будут работать пока модель не сменится.