Главное за 30 секунд
В мае 2026 Veo 3.1 от Google DeepMind стоит $0.50 за секунду без звука и $0.75 со звуком на Vertex AI — то есть 8-секундный клип со звуком обойдётся в $6. Sora 2 от OpenAI идёт по $0.10 за секунду в 720p (около $0.80 за 8 секунд), а внутри ChatGPT Plus за $20/мес даёт 1000 кредитов в месяц с лимитом ~30 в сутки. Цена ошибки в обеих моделях измеряется в долларах за каждый перегенеренный клип — поэтому промпт пишут не «потоком сознания», а по структуре.
Этот гайд — 8 паттернов, которые в 2026 действительно дают предсказуемый кадр в Veo 3 и Veo 3.1. Все примеры тестировались на 8-секундных вертикальных клипах для Shorts, Reels и TikTok. Где Veo 3 и Sora 2 ведут себя по-разному — отдельный блок в конце.
Главный принцип: Veo 3 не «понимает идею», он парсит слоты. Промпт без структуры — это просьба «сделать как-нибудь». Промпт по слотам — это бриф режиссёру.
Анатомия промпта: 6 слотов, которые читает Veo 3
DeepMind в официальном гайде рекомендует структуру из шести элементов:
- Субъект — кто или что в кадре. Лицо, объект, среда.
- Действие — что делает субъект. Глагол, движение.
- Контекст — где это происходит, что вокруг.
- Камера — план, ракурс, движение объектива.
- Свет и атмосфера — источник света, время суток, погода.
- Стиль и звук — эстетика, формат, диалог, амбиент.
Оптимальная длина — 100–200 слов, или 3–6 предложений. Меньше — модель домысливает за вас, больше — путается и теряет начальные тезисы. Реальная боль в том, что русскоязычные промпты Veo 3 переводит во внутреннее представление с заметной просадкой по точности; в 2026 году рекомендуемая практика — писать промпт на английском, даже если ваш канал на русском.
Если не хочется тратить часы на запоминание этих слотов и переводы, есть путь через пайплайн вроде Welder — он берёт сценарий на русском и сам формирует Veo-промпты по слотам. Об этом писали в гайде «Промпт ≠ серия: 5 проблем прямого доступа к нейронкам».
Паттерн 1: Subject-Action-Lens
Самый простой и самый недооценённый. Сначала называете субъект, потом действие, потом тип объектива.
A young woman in a yellow raincoat walks through a neon-lit Tokyo
alley at night. Medium shot, 35mm lens, slight handheld shake.
Почему работает: Veo 3 обучен на датасете, где кадры размечены тегами фокусных расстояний и типов плана (medium shot, close-up, wide). Когда вы называете объектив — модель цепляется за этот тег и держит композицию.
Никогда не оставляйте слот «камера» пустым. Если не указали кадр — Veo 3 поставит «медиум по умолчанию», и через 4 секунды композиция поплывёт. В нашем тесте на 12 промптах это была главная причина брака — см. отчёт «Sora 2 vs Veo 3 vs Welder: тест на 12 промптах в 2026».
Паттерн 2: Lighting-First
Свет — самый сильный рычаг в Veo 3. Один и тот же субъект под «golden hour» и «harsh noon sun» выглядит как два разных ролика, даже если всё остальное в промпте одинаковое.
Golden hour, side rim light, soft haze. A bald monk in saffron
robes sits on a wooden bridge over a misty river. Static wide
shot, 50mm.
Всегда называйте источник света явно: «neon sign», «cracked doorway», «overcast sky», «candlelight». Это не украшение, а физический якорь, от которого Veo 3.1 строит тени и блики. Без явного источника модель ставит «общий мягкий свет» и теряет драматизм.
Лайфхак: если хотите, чтобы лицо субъекта читалось — добавьте отдельную фразу про «key light on the face» или «soft side light from camera-left». Veo 3 учитывает позицию источника и ставит правильные тени на лице.
Паттерн 3: Locked Subject (защита от дрифта лица)
Главная боль AI-видео — лица «плывут» между секундами. У Veo 3 это лечится фронт-локом: всё, что описывает субъекта, идёт в самом начале промпта, без пауз и оговорок.
Плохо:
A man walks through a forest. He is around 40, has a grey beard
and wears a brown leather coat. The trees are tall.
Хорошо:
A 40-year-old man with a short grey beard, deep green eyes,
wearing a brown leather trench coat. He walks through a misty
pine forest. Tracking shot from behind, 35mm, overcast diffused
light.
В первом случае Veo 3 уже «выбрал» внешность мужчины, когда вы дали детали — и потом будет их подгонять. Во втором — модель сначала зафиксировала субъект, потом строит вокруг него сцену.
Паттерн 4: Camera Move-In
Двигайте камеру осознанно. Veo 3.1 понимает терминологию: dolly in, push in, tracking shot, crane up, orbit, whip pan. Не пишите «камера медленно приближается» — пишите dolly in.
Static establishing shot, then slow dolly in toward subject's
face. A teenage chess player concentrates over the board.
Tournament hall, warm tungsten lighting. 50mm lens, shallow
depth of field.
Sora 2 здесь ведёт себя иначе. Она моделирует физику первой и часто игнорирует прямые команды камере, зато лучше держит сложные траектории и парallax. Если важна точная камера — Veo 3.1 предсказуемее. Если важна «правдоподобная физика» — Sora 2 Pro выигрывает.
Runway Gen-4 в 2026 идёт третьим: камера у него «своевольнее» Veo, но дешевле в эксплуатации, плюс отдельный режим Camera Control с пресетами движения.
Паттерн 5: Audio-Anchor
Veo 3 — единственная из топ-моделей, которая генерирует синхронный звук вместе с видео. Это плата $0.25 за секунду сверху ($0.75 vs $0.50 у video-only), но это разница между «ролик с фоновой музыкой в CapCut» и «готовая сцена с диалогом и амбиентом».
Subject: a barista in a small Lisbon café.
Action: he steams milk, glancing up at a customer.
Camera: medium shot, 35mm, slight handheld.
Lighting: morning light through a foggy window.
Audio: espresso machine hissing, distant chatter, jazz on radio.
Dialogue: the barista says "On the house today" with a soft smile.
Диалог в Veo 3 должен укладываться в 8 секунд — это около 14–18 слов на английском. Длиннее — модель обрежет или сожмёт, появятся артефакты губ. Аудио-блок описывайте отдельным предложением, иначе модель смешает его со стилем.
Sora 2 в 2026 тоже умеет аудио, но синхрон губ слабее, особенно на эмоциональных репликах. Runway Gen-4 и Pika 2.0 синхронного аудио не дают вообще — звук там добавляется отдельным шагом через ElevenLabs или Suno v4. Если вам нужен говорящий персонаж в одном клике — Veo 3.1 пока единственный вариант среди публичных моделей.
Паттерн 6: Negative-Space без negative prompt
Veo 3 не понимает классического negative prompt («--no text, --no watermark»), как Stable Diffusion или ранние диффузионные модели. Вместо этого работает явное отсутствие — описать, что вы хотите видеть, а не что не хотите.
Плохо: no text, no watermark, no people in background.
Хорошо: Empty background, clean composition, single subject in frame, blurred bokeh behind, no signage.
Та же логика для «не плывёт лицо»: вместо «no face morphing» пишете consistent subject, locked features, stable proportions. Это не магия — это слова, которые модель связывает с обучающими тегами «стабильного» видео.
Паттерн 7: Style Reference
Если хотите конкретную эстетику, не пишите «красиво» или «эстетично». Назовите референс по имени стиля.
| Что хочется | Что писать в промпте |
|---|---|
| Кино-нуар | high-contrast black and white, deep shadows, venetian blind light |
| Wes Anderson | symmetrical composition, pastel colour palette, centred subject |
| 90s VHS | low-resolution, scan lines, slight chromatic aberration, faded colours |
| Японский аниме | cel-shaded, hard outlines, vibrant colour palette, soft motion blur |
| Документальный | handheld, natural light, no colour grading, observational distance |
| Studio Ghibli | hand-painted backgrounds, soft natural lighting, gentle motion |
Veo 3.1 в 2026 поддерживает референс-картинки в Google AI Studio: загружаете кадр — модель пытается воспроизвести стиль. Если у вашего канала есть устоявшаяся палитра, загрузка одного «ключевого кадра» даёт больше консистентности, чем 200 слов описания в промпте.
Kling 1.6 от Kuaishou и Hailuo 02 от MiniMax работают похоже, но требуют референс прямо в API-запросе и хуже понимают западные стилевые термины — для них надёжнее показать, чем рассказать.
Паттерн 8: Storyboard Chain
Для серии Shorts недостаточно одного промпта — нужен план из 3–5 кадров, где каждый продолжает предыдущий. Veo 3.1 теперь поддерживает multi-shot prompting (несколько последовательных промптов с одним субъектом). Структура:
- Establishing shot — широкий план, показать мир и субъект.
- Action shot — средний, главное действие.
- Reaction shot — close-up, эмоция.
- Resolution shot — уход, разрешение, петля.
Для каждого кадра — отдельный промпт по слотам, но субъект описывается идентично слово в слово во всех четырёх. Любое изменение формулировки = другой человек на выходе. Если в первом кадре написано «a 40-year-old man with a short grey beard, deep green eyes, wearing a brown leather trench coat» — то и в реакции, и в финале те же слова в том же порядке.
Эта механика — главная причина, почему серию из 30 Shorts вручную через Veo 3 за вечер не сделать. Welder и подобные пайплайны (см. «Серия из 30 Shorts за вечер: шаблон ИИ-канала 2026») автоматически копируют локированный субъект в каждый кадр серии — иначе на ручной копипасте между Vertex и AI Studio уйдут часы.
Veo 3.1 vs Sora 2 vs Welder: что важно знать про синтаксис
| Параметр | Veo 3.1 | Sora 2 | Welder |
|---|---|---|---|
| Цена 8-сек со звуком | ~$6 (Vertex API) | ~$0.80 (API 720p) или $20/мес ChatGPT Plus | от 290 ₽ за серию из 10 |
| Длина клипа | 8 сек на запрос | 10 сек (Plus) / 25 сек (Pro) | серия из 8-сек кусков |
| Аудио вместе с видео | да, синхрон высокий | да, синхрон средний | да, через Veo 3 + ElevenLabs v3 |
| Промпт | строгая структура, EN-предпочтительно | свободная форма, понимает физику | бриф на русском, под капотом — Veo |
| Камера | очень предсказуемая | «своевольная», симулирует физику | через слот в брифе |
| Multi-shot | поддерживается | ограниченно | автоматически для серий |
| Сильнее всего в | контролируемые кинематичные клипы | сложные сцены с физикой | серии для каналов на RU |
По данным наших тестов и сравнения Veo 3.1 и Sora 2 в 2026, Sora 2 выигрывает на промпт-адхеренсе при коротких промптах — она лучше угадывает намерение из 1–2 предложений. Но проигрывает Veo 3.1, когда нужен точный кадр с предсказуемой композицией.
Welder не конкурирует с Veo 3.1 на уровне модели. Welder использует Veo 3 / Veo 2 под капотом и берёт на себя то, что выше: сценарий, голос на ElevenLabs v3, серийность, монтаж, обложки. Если вы хотите один шедевральный 8-секундный клип — берите Veo 3.1 напрямую через Vertex AI. Если 30 роликов в неделю под канал — пайплайн дешевле и быстрее. Цены и тарифы — на странице тарифов Welder.
Чек-лист перед «Сгенерировать»
Прежде чем нажать кнопку и потратить $6 на 8 секунд:
- Промпт на английском (или вы проверили, что русский даёт нормальный результат для вашего стиля).
- Субъект описан в первой четверти промпта, без сюрпризов в середине.
- Камера явно названа: shot type + lens + (опционально) movement.
- Свет имеет явный источник — не «красивый свет», а «golden hour, side rim light».
- Длина 100–200 слов, 3–6 предложений.
- Аудио в отдельном предложении, диалог не длиннее 8 секунд произнесения.
- Никаких «no X, no Y» — только позитивные описания того, что должно быть в кадре.
- Если это часть серии — субъект описан слово в слово как в предыдущих кадрах.
Если хоть один пункт пропущен — на выходе будет лотерея, а не результат. На третьей перегенерации вы потратите столько же, сколько стоит месяц ChatGPT Plus или подписка на пайплайн.
Что делать дальше
Лучший способ почувствовать разницу между прямым доступом к модели и пайплайном — взять один и тот же сценарий и прогнать его двумя путями: руками в Veo 3 через Vertex AI и через готовый пайплайн на том же сценарии. Через 20 минут станет понятно, в каком из режимов вы хотите работать каждый день.
Если хочется попробовать пайплайн на конкретном промпте без Vertex AI и долларов за неудачные дубли — заходите в Welder и сделайте первый ролик за пару минут.