Veo 3.1 промпт для AI-Shorts 2026: 12 рабочих структур

Камера, дикий звук, диалоги в кавычках и точный свет — рецепты, которые не выкидывают ваш промпт в гадание.

Главное за 30 секунд

С 24 сентября 2026 года Sora 2 API закрывается, и для серьёзного AI-Shorts остаётся четыре фронта: Veo 3.1 (Google DeepMind, январь 2026), Kling 3.0 (Kuaishou), Hailuo 02 (MiniMax) и Runway Gen-4. Если вы делаете вертикальные ролики на русском под TikTok, Reels и YouTube Shorts, дефолт сейчас — Veo 3.1: 8 секунд нативного синхронного аудио, диалоги в кавычках, точный отклик на язык камеры.

Проблема одна: модели, которые приходят с Vertex AI или из бот-обёрток, не прощают «эпично, кинематографично, в стиле Кубрика». Они прощают конкретный кадр, конкретный свет и одну доминирующую силу в кадре. Дальше — 12 шаблонов, которые работают на проде в июне 2026, плюс 6 фраз, которые гарантированно выкидывают ваш промпт в галлюцинации.

Структура промпта Veo 3.1: 5 частей

Google DeepMind в официальном гайде формулирует базу так: Camera + Subject + Action + Setting + Style/Audio. Любая пропущенная часть превращается в галлюцинацию: модель угадывает, и угадывает неправильно чаще, чем хотелось бы.

Идеальная длина — 75–125 слов. Меньше — нет деталей, больше 175 — модель начинает противоречить сама себе. Это не догма, но в проде так и есть: длиннее 200 слов промпт чаще ломается, чем хвалит вас за объём.

Часть	Что писать	Пример
Camera	Тип кадра, движение, оптика	«Slow dolly-in, medium close-up, 35mm anamorphic»
Subject	Кто или что в кадре, ОДНА сущность	«A bearded barista in his late thirties, charcoal apron»
Action	ОДНА доминирующая сила, активный глагол	«Pours espresso into a glass cup, steam rising»
Setting	Локация плюс время суток плюс детали	«Tokyo specialty café at 7:12 AM, rain on the windows»
Style/Audio	Стиль кадра, звук, диалог	«35mm film grain. Ambient hiss of steam wand. He says, "First one's on me."»

Эта же пятёрка — основа стораборда в Welder. Пайплайн раскладывает ваш сюжет на 8-секундные шоты ровно по этим полям, потом склеивает в ролик с озвучкой и обложкой.

12 рабочих шаблонов для Shorts

Каждый — на 8 секунд, под вертикаль 9:16 (Veo 3.1 это умеет нативно с октября 2025-го). Подставьте свой субъект.

#	Шаблон	Когда брать
1	Slow dolly-in + monologue — медленный наезд, герой произносит фразу в кавычках	Хук «остановись и посмотри», цитаты, мотивация
2	Static close-up + ASMR — статика, крупный план, дикий звук без музыки	Кулинария, ремесло, продакт-демо
3	Tracking shot follow — камера ведёт героя сбоку, естественные шаги	Истории, путешествия, инструкции в движении
4	Whip-pan reveal — резкий пан, потом раскрытие объекта	Сравнения «было/стало», твисты в середине
5	Crane up from low angle — низкий старт, подъём камеры	Эпик, продакт-плейсмент, открытие сцены
6	Locked-off wide + dialogue — широкий статический кадр, диалог двух персонажей	Скетчи, диалоговые форматы, обучающие сцены
7	Macro pull-back — макро деталь, отъезд к контексту	Обзоры техники, химия, наука
8	Handheld documentary — лёгкая дрожь, как у репортёра	True crime, новости, эмоциональные истории
9	Drone descend + voiceover — сверху вниз, нарратор за кадром	География, тревел, исторические форматы
10	Over-the-shoulder POV — за плечом героя, его действие в кадре	Туториалы, гейминг, продуктивность
11	Insert + foley — макро-вставка с акцентным звуком	Монтажный шот в середине серии
12	Reverse zoom + reveal — обратный зум до контекста	Раскрытия, заголовочные шоты

Эти двенадцать покрывают около 85% всех монтажных задач Shorts. Остальные 15% — стилистические эксперименты (анимация, абстракция), и там Veo 3.1 уступает Kling 3.0 и Hailuo 02, у которых «нарисуй как акварель» работает из коробки.

Камера: вокабуляр, который реально работает

Главное наблюдение инженеров LTX и Google: термины движения камеры — самый сильный сигнал в промпте Veo 3.1. «Dolly», «crane», «tracking», «whip pan», «push-in», «pull-back» — модель распознаёт каждое и выдаёт предсказуемый кадр.

Что НЕ работает:

«Эпический ракурс» / «epic shot» — модель тащит обобщённую «эпичность», и движение получается дрожащим
«Динамичная съёмка» / «dynamic shot» — кадр в 60% случаев ломается на середине
«В стиле {имя режиссёра}» — Veo 3.1 узнаёт буквально нескольких (Wes Anderson, Kubrick), и даже их интерпретирует поверхностно

Что РАБОТАЕТ — отдельное предложение про движение камеры, не вшитое в описание действия:

Bad: «The camera moves around as a man walks down the street looking sad.»

Good: «A man in his thirties walks down a rainy street. The camera tracks him from the side in a slow, steady dolly. 35mm lens, anamorphic.»

Разделите камеру и действие — и точность кадра поднимется в разы. Конкретно про язык кинокамеры в Shorts мы разбирали Higgsfield DoP, Veo 3.2 (внутренний leak Google от 18 января 2026, кодовое имя Snowbunny) и Runway Gen-4 в отдельной статье.

Свет, оптика и аспект: где скачок качества

Описание света — самая высокоэффективная добавка к промпту Veo 3.1. Не «красивое освещение», а конкретное:

Golden hour — тёплый прямой свет, длинные тени, оранжевое небо
Chiaroscuro — резкие контрасты светотени, тёмные провалы, акцент на лице
Volumetric — лучи света через дым или туман, объёмные
Practical lights — лампы в кадре как источник света
Hard window light — резкий боковой через окно
Blue hour — холодный сумеречный, сине-серый, без солнца

Оптика — следующий уровень. «35mm anamorphic», «50mm prime», «macro 100mm» — Veo 3.1 различает их и держит линию. Добавьте плёнку: «35mm film grain», «Kodak Portra», «Super 16 vintage» — модель тянет фактуру в нужную сторону.

Аспект кадра для Shorts/Reels/TikTok — 9:16 vertical. Veo 3.1 это умеет нативно; не пишите «cropped to vertical», пишите сразу «vertical 9:16 framing». Нативное вертикальное — это разница между чистой композицией и фейковым кропом, в котором голова героя срезана сверху.

Аудио, диалог и саунд-дизайн в одном промпте

То, чем Veo 3.1 объективно сильнее всех остальных моделей на середину 2026-го — синхронное генерируемое аудио в одном проходе. По тесту Tom's Guide против Sora 2 на семи аудио-промптах Veo выиграл в пяти из семи (диалог, foley, амбиент); Sora 2 был лучше в общей атмосфере и хаотичности.

Три уровня аудио в одном промпте:

Диалог в кавычках — He says, "We have to leave now." Veo произнесёт это голосом, синхронным с губами. Длина — максимум 8–10 слов на 8-секундный шот; больше — модель режет фразу.
Foley / sound effects — «Coffee cup clinks against the saucer. Steam wand hisses for 2 seconds.» Конкретный звук, привязанный к действию в кадре.
Ambient — «Faint sound of rain on the window. Distant traffic.» Фон, без которого ролик звучит мёртво.

Что НЕ работает: «cinematic music», «epic soundtrack». Veo музыку генерирует слабо. Для саундтрека всё равно отдельный сервис — Suno v4, Udio или Mubert. Полноценная RU-озвучка тоже отдельный пайплайн: Veo английский голос делает прилично, русский всё ещё слабо. Для RU-канала ставьте ElevenLabs v3 или Yandex SpeechKit поверх немой генерации.

6 анти-паттернов: что выкидывайте сразу

Запомните и не пишите:

«Кинематографично, эпично, профессионально» — нулевая семантика, занимают токены. Замените на конкретику: «35mm anamorphic, hard chiaroscuro, ambient hum».
Стек действий в одном предложении — «He picks up the cup, walks to the window, looks outside, smiles». Veo сожмёт это в кашу. Одно доминирующее действие на промпт.
«В стиле какого-то режиссёра» — модель узнаёт от силы пятерых, и даже их интерпретирует наугад. Лучше описать стиль вручную: «desaturated palette, hard symmetry, static frames».
Длинные косвенные описания — «a man who has been waiting for hours and is starting to lose patience while» — Veo не философ. Конвертируйте в действие: «A man checks his watch sharply, jaw tense».
«В разрешении 4K, HDR, киноуровень» — это атрибуты файла, не кадра. Тратите токены. Veo 3.1 рендерит в 1080p нативно; 4K — апскейл отдельным шагом.
«Множественные камеры», «split screen», «two angles» — Veo не умеет генерировать мультикам в одном промпте. Делайте отдельным шотом и склеивайте на монтаже.

Те же грабли мы недавно разбирали для текстовых хуков — оказалось, что 8 шаблонных фраз убивают retention быстрее любых других ошибок монтажа.

Промпт против пайплайна: где Welder берёт работу на себя

Хороший промпт — это 30% качества кадра. Остальные 70% — что вы делаете ДО и ПОСЛЕ:

До: сценарий с хуком в первые 1.2 секунды, story arc на 30–60 секунд, единый персонаж сквозь серию шотов (Veo 3.1 теряет лицо между 8-секундными кусками без референса)
Во время: 6–10 промптов под свой кадр каждый, плюс character reference image для сохранения внешности
После: монтаж, RU-озвучка, обложка с акцентом, заголовок, расписание автопостинга в TikTok, Reels и YouTube Shorts

Если вы делаете один ролик в неделю — этим можно жить вручную. Если 30 роликов в неделю на серийный канал — нужен пайплайн.

Welder AI делает оба режима из коробки: cinematic — Veo 3.1 многошотовая склейка с character ref, RU-озвучкой через ElevenLabs v3 или Yandex, обложкой и автопостингом; voiceover — TikTok-style stills плюс RU-голос плюс жжёные субтитры для тех, у кого Veo пока не по бюджету. Промпт пишет сам Welder — вы даёте только нишу и сюжет, дальше пайплайн раскладывает сюжет на шоты по 5-частевой формуле, генерирует, склеивает и публикует.

Старт — 990 ₽/мес на Starter-плане (5 серий в месяц), без VPN и без американской карты. Полные тарифы — на странице цен.

Итог: что делать с этим завтра

Сохраните 5-частевую формулу и 12 шаблонов из таблицы выше
Перепишите свои текущие промпты, выкинув 6 анти-паттернов
Тестируйте на Veo 3.1: одно действие, одно движение камеры, конкретный свет, диалог в кавычках
Если рутина не по бюджету — соберите первую серию через Welder, пайплайн возьмёт сборку на себя

Sora 2 уйдёт в сентябре, мы писали, на что мигрировать. Veo 3.1 остаётся главной ставкой до конца 2026-го, и эти 12 шаблонов будут работать пока модель не сменится.

Сделать первое видео →