Промпт для Veo 3 в 2026: 8 паттернов для виральных Shorts

Структура запроса, которую парсит Veo 3 и Veo 3.1: субъект, движение, кадр, свет и звук. С примерами под TikTok и Reels.

Главное за 30 секунд

В мае 2026 Veo 3.1 от Google DeepMind стоит $0.50 за секунду без звука и $0.75 со звуком на Vertex AI — то есть 8-секундный клип со звуком обойдётся в $6. Sora 2 от OpenAI идёт по $0.10 за секунду в 720p (около $0.80 за 8 секунд), а внутри ChatGPT Plus за $20/мес даёт 1000 кредитов в месяц с лимитом ~30 в сутки. Цена ошибки в обеих моделях измеряется в долларах за каждый перегенеренный клип — поэтому промпт пишут не «потоком сознания», а по структуре.

Этот гайд — 8 паттернов, которые в 2026 действительно дают предсказуемый кадр в Veo 3 и Veo 3.1. Все примеры тестировались на 8-секундных вертикальных клипах для Shorts, Reels и TikTok. Где Veo 3 и Sora 2 ведут себя по-разному — отдельный блок в конце.

Главный принцип: Veo 3 не «понимает идею», он парсит слоты. Промпт без структуры — это просьба «сделать как-нибудь». Промпт по слотам — это бриф режиссёру.

Анатомия промпта: 6 слотов, которые читает Veo 3

DeepMind в официальном гайде рекомендует структуру из шести элементов:

Субъект — кто или что в кадре. Лицо, объект, среда.
Действие — что делает субъект. Глагол, движение.
Контекст — где это происходит, что вокруг.
Камера — план, ракурс, движение объектива.
Свет и атмосфера — источник света, время суток, погода.
Стиль и звук — эстетика, формат, диалог, амбиент.

Оптимальная длина — 100–200 слов, или 3–6 предложений. Меньше — модель домысливает за вас, больше — путается и теряет начальные тезисы. Реальная боль в том, что русскоязычные промпты Veo 3 переводит во внутреннее представление с заметной просадкой по точности; в 2026 году рекомендуемая практика — писать промпт на английском, даже если ваш канал на русском.

Если не хочется тратить часы на запоминание этих слотов и переводы, есть путь через пайплайн вроде Welder — он берёт сценарий на русском и сам формирует Veo-промпты по слотам. Об этом писали в гайде «Промпт ≠ серия: 5 проблем прямого доступа к нейронкам».

Паттерн 1: Subject-Action-Lens

Самый простой и самый недооценённый. Сначала называете субъект, потом действие, потом тип объектива.

A young woman in a yellow raincoat walks through a neon-lit Tokyo
alley at night. Medium shot, 35mm lens, slight handheld shake.

Почему работает: Veo 3 обучен на датасете, где кадры размечены тегами фокусных расстояний и типов плана (medium shot, close-up, wide). Когда вы называете объектив — модель цепляется за этот тег и держит композицию.

Никогда не оставляйте слот «камера» пустым. Если не указали кадр — Veo 3 поставит «медиум по умолчанию», и через 4 секунды композиция поплывёт. В нашем тесте на 12 промптах это была главная причина брака — см. отчёт «Sora 2 vs Veo 3 vs Welder: тест на 12 промптах в 2026».

Паттерн 2: Lighting-First

Свет — самый сильный рычаг в Veo 3. Один и тот же субъект под «golden hour» и «harsh noon sun» выглядит как два разных ролика, даже если всё остальное в промпте одинаковое.

Golden hour, side rim light, soft haze. A bald monk in saffron
robes sits on a wooden bridge over a misty river. Static wide
shot, 50mm.

Всегда называйте источник света явно: «neon sign», «cracked doorway», «overcast sky», «candlelight». Это не украшение, а физический якорь, от которого Veo 3.1 строит тени и блики. Без явного источника модель ставит «общий мягкий свет» и теряет драматизм.

Лайфхак: если хотите, чтобы лицо субъекта читалось — добавьте отдельную фразу про «key light on the face» или «soft side light from camera-left». Veo 3 учитывает позицию источника и ставит правильные тени на лице.

Паттерн 3: Locked Subject (защита от дрифта лица)

Главная боль AI-видео — лица «плывут» между секундами. У Veo 3 это лечится фронт-локом: всё, что описывает субъекта, идёт в самом начале промпта, без пауз и оговорок.

Плохо:

A man walks through a forest. He is around 40, has a grey beard
and wears a brown leather coat. The trees are tall.

Хорошо:

A 40-year-old man with a short grey beard, deep green eyes,
wearing a brown leather trench coat. He walks through a misty
pine forest. Tracking shot from behind, 35mm, overcast diffused
light.

В первом случае Veo 3 уже «выбрал» внешность мужчины, когда вы дали детали — и потом будет их подгонять. Во втором — модель сначала зафиксировала субъект, потом строит вокруг него сцену.

Паттерн 4: Camera Move-In

Двигайте камеру осознанно. Veo 3.1 понимает терминологию: dolly in, push in, tracking shot, crane up, orbit, whip pan. Не пишите «камера медленно приближается» — пишите dolly in.

Static establishing shot, then slow dolly in toward subject's
face. A teenage chess player concentrates over the board.
Tournament hall, warm tungsten lighting. 50mm lens, shallow
depth of field.

Sora 2 здесь ведёт себя иначе. Она моделирует физику первой и часто игнорирует прямые команды камере, зато лучше держит сложные траектории и парallax. Если важна точная камера — Veo 3.1 предсказуемее. Если важна «правдоподобная физика» — Sora 2 Pro выигрывает.

Runway Gen-4 в 2026 идёт третьим: камера у него «своевольнее» Veo, но дешевле в эксплуатации, плюс отдельный режим Camera Control с пресетами движения.

Паттерн 5: Audio-Anchor

Veo 3 — единственная из топ-моделей, которая генерирует синхронный звук вместе с видео. Это плата $0.25 за секунду сверху ($0.75 vs $0.50 у video-only), но это разница между «ролик с фоновой музыкой в CapCut» и «готовая сцена с диалогом и амбиентом».

Subject: a barista in a small Lisbon café.
Action: he steams milk, glancing up at a customer.
Camera: medium shot, 35mm, slight handheld.
Lighting: morning light through a foggy window.
Audio: espresso machine hissing, distant chatter, jazz on radio.
Dialogue: the barista says "On the house today" with a soft smile.

Диалог в Veo 3 должен укладываться в 8 секунд — это около 14–18 слов на английском. Длиннее — модель обрежет или сожмёт, появятся артефакты губ. Аудио-блок описывайте отдельным предложением, иначе модель смешает его со стилем.

Sora 2 в 2026 тоже умеет аудио, но синхрон губ слабее, особенно на эмоциональных репликах. Runway Gen-4 и Pika 2.0 синхронного аудио не дают вообще — звук там добавляется отдельным шагом через ElevenLabs или Suno v4. Если вам нужен говорящий персонаж в одном клике — Veo 3.1 пока единственный вариант среди публичных моделей.

Паттерн 6: Negative-Space без negative prompt

Veo 3 не понимает классического negative prompt («--no text, --no watermark»), как Stable Diffusion или ранние диффузионные модели. Вместо этого работает явное отсутствие — описать, что вы хотите видеть, а не что не хотите.

Плохо: no text, no watermark, no people in background.

Хорошо: Empty background, clean composition, single subject in frame, blurred bokeh behind, no signage.

Та же логика для «не плывёт лицо»: вместо «no face morphing» пишете consistent subject, locked features, stable proportions. Это не магия — это слова, которые модель связывает с обучающими тегами «стабильного» видео.

Паттерн 7: Style Reference

Если хотите конкретную эстетику, не пишите «красиво» или «эстетично». Назовите референс по имени стиля.

Что хочется	Что писать в промпте
Кино-нуар	high-contrast black and white, deep shadows, venetian blind light
Wes Anderson	symmetrical composition, pastel colour palette, centred subject
90s VHS	low-resolution, scan lines, slight chromatic aberration, faded colours
Японский аниме	cel-shaded, hard outlines, vibrant colour palette, soft motion blur
Документальный	handheld, natural light, no colour grading, observational distance
Studio Ghibli	hand-painted backgrounds, soft natural lighting, gentle motion

Veo 3.1 в 2026 поддерживает референс-картинки в Google AI Studio: загружаете кадр — модель пытается воспроизвести стиль. Если у вашего канала есть устоявшаяся палитра, загрузка одного «ключевого кадра» даёт больше консистентности, чем 200 слов описания в промпте.

Kling 1.6 от Kuaishou и Hailuo 02 от MiniMax работают похоже, но требуют референс прямо в API-запросе и хуже понимают западные стилевые термины — для них надёжнее показать, чем рассказать.

Паттерн 8: Storyboard Chain

Для серии Shorts недостаточно одного промпта — нужен план из 3–5 кадров, где каждый продолжает предыдущий. Veo 3.1 теперь поддерживает multi-shot prompting (несколько последовательных промптов с одним субъектом). Структура:

Establishing shot — широкий план, показать мир и субъект.
Action shot — средний, главное действие.
Reaction shot — close-up, эмоция.
Resolution shot — уход, разрешение, петля.

Для каждого кадра — отдельный промпт по слотам, но субъект описывается идентично слово в слово во всех четырёх. Любое изменение формулировки = другой человек на выходе. Если в первом кадре написано «a 40-year-old man with a short grey beard, deep green eyes, wearing a brown leather trench coat» — то и в реакции, и в финале те же слова в том же порядке.

Эта механика — главная причина, почему серию из 30 Shorts вручную через Veo 3 за вечер не сделать. Welder и подобные пайплайны (см. «Серия из 30 Shorts за вечер: шаблон ИИ-канала 2026») автоматически копируют локированный субъект в каждый кадр серии — иначе на ручной копипасте между Vertex и AI Studio уйдут часы.

Veo 3.1 vs Sora 2 vs Welder: что важно знать про синтаксис

Параметр	Veo 3.1	Sora 2	Welder
Цена 8-сек со звуком	~$6 (Vertex API)	~$0.80 (API 720p) или $20/мес ChatGPT Plus	от 290 ₽ за серию из 10
Длина клипа	8 сек на запрос	10 сек (Plus) / 25 сек (Pro)	серия из 8-сек кусков
Аудио вместе с видео	да, синхрон высокий	да, синхрон средний	да, через Veo 3 + ElevenLabs v3
Промпт	строгая структура, EN-предпочтительно	свободная форма, понимает физику	бриф на русском, под капотом — Veo
Камера	очень предсказуемая	«своевольная», симулирует физику	через слот в брифе
Multi-shot	поддерживается	ограниченно	автоматически для серий
Сильнее всего в	контролируемые кинематичные клипы	сложные сцены с физикой	серии для каналов на RU

По данным наших тестов и сравнения Veo 3.1 и Sora 2 в 2026, Sora 2 выигрывает на промпт-адхеренсе при коротких промптах — она лучше угадывает намерение из 1–2 предложений. Но проигрывает Veo 3.1, когда нужен точный кадр с предсказуемой композицией.

Welder не конкурирует с Veo 3.1 на уровне модели. Welder использует Veo 3 / Veo 2 под капотом и берёт на себя то, что выше: сценарий, голос на ElevenLabs v3, серийность, монтаж, обложки. Если вы хотите один шедевральный 8-секундный клип — берите Veo 3.1 напрямую через Vertex AI. Если 30 роликов в неделю под канал — пайплайн дешевле и быстрее. Цены и тарифы — на странице тарифов Welder.

Чек-лист перед «Сгенерировать»

Прежде чем нажать кнопку и потратить $6 на 8 секунд:

Промпт на английском (или вы проверили, что русский даёт нормальный результат для вашего стиля).
Субъект описан в первой четверти промпта, без сюрпризов в середине.
Камера явно названа: shot type + lens + (опционально) movement.
Свет имеет явный источник — не «красивый свет», а «golden hour, side rim light».
Длина 100–200 слов, 3–6 предложений.
Аудио в отдельном предложении, диалог не длиннее 8 секунд произнесения.
Никаких «no X, no Y» — только позитивные описания того, что должно быть в кадре.
Если это часть серии — субъект описан слово в слово как в предыдущих кадрах.

Если хоть один пункт пропущен — на выходе будет лотерея, а не результат. На третьей перегенерации вы потратите столько же, сколько стоит месяц ChatGPT Plus или подписка на пайплайн.

Что делать дальше

Лучший способ почувствовать разницу между прямым доступом к модели и пайплайном — взять один и тот же сценарий и прогнать его двумя путями: руками в Veo 3 через Vertex AI и через готовый пайплайн на том же сценарии. Через 20 минут станет понятно, в каком из режимов вы хотите работать каждый день.

Если хочется попробовать пайплайн на конкретном промпте без Vertex AI и долларов за неудачные дубли — заходите в Welder и сделайте первый ролик за пару минут.