Главное за 30 секунд
В мае 2026 Veo 3.1 читает промпт как сценарий и пытается отыграть каждое слово, описывающее кадр. Если вы пишете «эпично», «красиво», «кинематографично» — модель додумывает за вас, и каждый рендер выходит другим. Если вы пишете «medium close-up, 50mm, slow dolly-in, golden-hour key light at 4500K, shallow DOF, foreground bokeh» — Veo выдаёт примерно один и тот же кадр 7 из 10 запусков.
Это разница между «крутишь промпт до победы» и «снимаешь по раскадровке». Для серии из 30 Shorts в неделю — критично: десять перегенераций одного клипа съедают месячный бюджет на токены.
Ниже — десять параметров, которые DP контролируют на площадке, и как сформулировать каждый из них в промпте под Veo 3.1, Sora 2 и Kling 3.0. В конце — финальный шаблон 10-в-1, сравнительная таблица моделей и чек-лист самопроверки перед рендером.
Почему «сделай кинематографично» не работает
«Cinematic» — это результат, а не инструкция. Команда Google Cloud в своём гайде по Veo 3.1 написала ровно это в первой главе: модель отлично понимает терминологию director of photography, но не умеет читать ваши мысли.
Веб-индекс, на котором обучали Veo 3, содержит миллионы кадров с разметкой shot type, lens, lighting, mood. Когда вы говорите «dolly shot», Veo достаёт не один пример, а тысячу — и берёт усреднённый. Чем больше параметров вы прибиваете словами из этой разметки, тем меньше у модели свободы импровизировать. Меньше свободы — выше повторяемость кадра. Выше повторяемость — меньше перегенераций.
Sora 2 от OpenAI работает иначе. Она лучше чувствует сложные физические сцены — кувырки, удары волн, дождь по стеклу — но любит подменять вашу композицию своей, если в промпте не прибита камера. По данным Artlist на февраль 2026, Veo 3.1 выигрывает в «direct camera control», Sora 2 — в «realistic physics». Kling 3.0 (релиз февраль 2026) уверенно держит tracking-shot и multi-shot storyboard на 6 сцен, но требует ещё более точной терминологии.
Вывод: общий язык трёх моделей — язык DP. Дальше — что именно он должен описать.
10 параметров одного кадра
Порядок «снаружи внутрь»: сначала общий план и движение, потом оптика и фокус, потом свет и цвет, потом композиция и атмосфера, потом — что делает герой и в каком темпе. В таком же порядке выкладывайте слова в промпте: Veo и Kling дают приоритет ранним токенам.
1. Shot size — крупность плана
Самый сильный параметр. Пять рабочих градаций:
- Extreme wide / establishing — пейзаж, локация, контекст.
- Wide — фигура целиком и окружение.
- Medium — поясной план, диалог, продукт в руках.
- Close-up — лицо, эмоция, фокус на детали.
- Extreme close-up / macro — глаз, текстура, циферблат, капля.
В промпте — первая позиция: extreme close-up of …. Veo 3.1 и Sora 2 чёткие на extreme wide и close-up. Medium у обеих моделей периодически плывёт в close-up — подкрепляйте расстоянием («2 metres from subject») или фокусным.
2. Camera move — движение камеры
Камера в 2026 — полноценный актёр. Минимальный словарь:
- Static — без движения, штатив.
- Pan / tilt — поворот на штативе влево-вправо или вверх-вниз.
- Dolly in / dolly out — наезд или отъезд с параллаксом.
- Truck — параллельное движение вместе с объектом.
- Crane / boom — вертикальный взлёт или спуск.
- Orbit — круговое движение вокруг объекта.
- Handheld — лёгкое подрагивание, документальный стиль.
- Whip-pan / crash zoom — резкие, для перехода между сценами.
Главное правило: один кадр — одно движение. Если вы пишете «slow dolly in, then orbit, then crane up» — Veo 3.1 склеит хаос. Разбейте на два клипа и потом склейте через match-cut.
Veo 3.1 хорошо понимает «slow dolly-in from waist-level to product close-up, 6 seconds» — модель буквально интерпретирует «6 seconds» как темп. Sora 2 любит лаконичные формулировки: «cinematic dolly push» без чисел, скорость она выбирает сама и часто угадывает. Kling 3.0 требует точное слово из словаря: «whip-pan», «shoulder-cam drift», «crash zoom», «dolly push» — иначе скатывается к обобщённому «camera moves».
3. Lens & DOF — фокусное и глубина резкости
Veo 3.1, по полевому тесту Sider, реально слушает фокусные длины:
- 35mm — широкоугольный, документальный, лёгкое искажение по краям.
- 50mm — нейтральный «человеческий» взгляд, portrait, рабочий стандарт.
- 85mm — телевик для лица, эмоций, мягкого bokeh.
- 135mm и длиннее — сильное сжатие плана, drama, news look.
К фокусному всегда прибиваем диафрагму: 85mm, f/1.8 даст растворённый фон, 85mm, f/8 оставит сцену в фокусе. И ключевые слова: shallow DOF для размытия, deep focus для всего в резкости.
Sora 2 фокусные читает хуже Veo, но прекрасно понимает «shallow depth of field», «creamy bokeh», «35mm anamorphic». Kling 3.0 на оптике слабее: лучше слушает результат («blurred background», «sharp foreground»), чем технический термин.
4. Focus behavior — поведение фокуса
Если в кадре два плана, скажите модели, что происходит с фокусом во времени:
- Rack focus from foreground to background — переброс фокуса.
- Pull focus on subject — фокус «ловит» героя.
- Snap focus — резкая фиксация.
- Maintain sharp focus on subject — фокус заблокирован на герое.
Один из лучших инструментов, чтобы за 6 секунд задать драматургию: рука героя в фокусе → rack focus → лицо в фокусе. Veo 3.1 интерпретирует rack focus наиболее предсказуемо из трёх моделей; Kling 3.0 на этом часто промахивается и просто меняет план.
5. Lighting — свет и схема
После shot size — самый сильный параметр. Подробно про свет — в материале «Кино-свет в AI-Shorts 2026: 7 промптов под Veo 3.1». Краткая шпаргалка:
- Time of day: golden hour, blue hour, harsh midday, overcast, blue night.
- Source: hard sunlight, soft window light, neon practicals, candle, single LED panel.
- Direction: top-down, side-lit, backlit, key from camera-left.
- Quality: hard / soft, high / low contrast.
- Colour temperature: 3200K (tungsten), 4500K (golden), 5600K (daylight), 7500K (cold blue).
Самая частая ошибка — забыть направление света. «Soft light» без направления Veo рисует со всех сторон, плоско. «Soft key light from camera-left at 4500K» даёт ту самую тень-граничную полоску по щеке, как в кино.
6. Colour — палитра и температура цвета
Палитра диктует настроение за 200 миллисекунд. Промпт-словарь:
- Warm palette, orange and teal — голливудский summer blockbuster.
- Cool palette, blues and steel — sci-fi, thriller, корпоратив.
- Desaturated, almost monochrome — drama, документалка.
- High-saturation pop colours — TikTok teen content.
- Pastels, soft pinks and creams — lifestyle, beauty.
Sora 2 на палитру отвечает лучше Veo — стиль ловится из одного слова «pastel». Veo 3.1 требует пары: «warm palette of orange and teal, slight film grain, Kodak Portra look». Kling 3.0 хорошо тянет «cinematic colour grading, low contrast, lifted blacks» — film look из коробки.
7. Composition — композиция кадра
Минимум, который надо сказать:
- Subject placement: centered, left third, right third, low in frame.
- Negative space: «leave breathing room on the right for caption text».
- Rule of thirds: «subject on left third, horizon on lower third».
- Frame within a frame: «shot through doorway».
- Leading lines: «road leading from foreground to subject».
Для вертикали 9:16 правило простое: верхняя четверть и нижняя пятая часть кадра уйдут под subtitles, hook-текст и UI платформы. Не ставьте важное лицо или текст в эти зоны. Перед рендером сверьте safe-zone — это разбирали в «Safe-zone AI-Shorts 2026: 9:16 для YT, TT, Reels, VK».
8. Atmosphere — атмосфера
Маленькая, но мощная категория:
- Volumetric light / god rays — лучи через окно или ветки.
- Atmospheric haze / fog — слой воздуха, добавляет глубину.
- Particles — пыль, снег, искры, листья.
- Rain / wet surfaces — отражения, ночь, драма.
- Heat shimmer — пустыня, асфальт в полдень.
Эти слова повышают восприятие «дорогой картинки» на 30–40% даже без других изменений — по визуальным тестам сообщества Veo на февраль 2026. Sora 2 — лидер по физически достоверной атмосфере. Hailuo 02 от MiniMax тоже сильна на влажности, искрах и материалах.
9. Subject motion — движение объекта
Что делает герой. Глагол + темп + микро-эмоция:
- Slow turn of the head, half-smile, eyes meeting camera.
- Hand gestures while speaking, animated but not frantic.
- Walking towards camera with steady pace.
- Standing still, only breathing visible.
- Reaching for the cup, then pausing.
Эта часть промпта определяет, удержит ли клип внимание после первой секунды. Без неё Veo рисует «manequin challenge» — фигуры замирают. С ней — живое поведение.
Sora 2 — лучшая на сложной механике (паркур, спорт, акробатика). Veo 3.1 — лучшая на сдержанных микро-движениях и эмоциях лица. Kling 3.0 — между ними, плюс держит lip-sync до 5 секунд из коробки.
10. Tempo — темп клипа
Часто забываемый параметр: за сколько секунд камера и герой делают всё движение.
- 6-second clip, slow contemplative pace, no fast cuts.
- 3-second clip, snappy, fast subject action.
- 8 seconds, slow build-up, action peaks at second 6.
Veo 3.1 в 2026 поддерживает клипы до 8 секунд из API; Sora 2 — до 20 секунд; Kling 3.0 — до 10 секунд в Pro. Темп заставляет модель распределять движение по таймлайну. Без него — рваный ритм и обрывы на ничём.
Veo 3.1 vs Sora 2 vs Kling 3.0 на этих параметрах
| Параметр | Veo 3.1 | Sora 2 | Kling 3.0 |
|---|---|---|---|
| Shot size | ★★★★★ | ★★★★ | ★★★★ |
| Camera move | ★★★★★ | ★★★ | ★★★★ |
| Lens / focal | ★★★★ | ★★★ | ★★ |
| Focus behavior | ★★★★ | ★★★ | ★★ |
| Lighting | ★★★★★ | ★★★★ | ★★★★ |
| Colour palette | ★★★ | ★★★★ | ★★★★ |
| Composition | ★★★★ | ★★★ | ★★★★ |
| Atmosphere | ★★★ | ★★★★★ | ★★★★ |
| Subject motion (сложное) | ★★★ | ★★★★★ | ★★★★ |
| Tempo / макс. длина | до 8 сек | до 20 сек | до 10 сек (Pro) |
Если важна повторяемость кадра и контроль камеры — Veo 3.1. Если нужен один эпичный shot с физикой — Sora 2. Если строите длинную сцену со сменой ракурсов — Kling 3.0.
Шаблон финального промпта 10-в-1
Копируете и подставляете под свою сцену. Порядок слов имеет значение — Veo даёт приоритет ранним токенам.
[1 Shot size] [2 Camera move] of [9 Subject + motion],
[3 Lens, focal length, aperture], [4 Focus behavior].
[5 Lighting: time of day + source + direction + temperature],
[6 Colour palette + grading reference].
[7 Composition: subject placement + negative space],
[8 Atmosphere: haze/particles/weather].
[10 Tempo: clip length + pace].
Пример под travel-канал:
Medium close-up, slow dolly-in of a young woman standing on a
wet pier looking out at the sea, half-smile, hair moving with wind,
50mm lens, f/2.0, shallow DOF, rack focus from foreground rope
to her face.
Golden hour key light from camera-left at 4500K, soft fill,
backlit hair.
Warm palette of orange and teal, slight Kodak Portra grain.
Subject on right third, negative space left for caption.
Light atmospheric haze, faint sea spray particles.
6-second clip, slow contemplative pace.
Этот промпт даёт примерно один и тот же кадр у Veo 3.1 в 7 из 10 запусков. Без указанных параметров — 2 из 10. Разница — 3.5×, и она напрямую конвертируется в счёт за токены.
Чек-лист самопроверки перед рендером
Прежде чем нажать generate, пройдитесь по 10 пунктам:
- Shot size назван словом (close-up / wide / extreme).
- Camera move — одно движение, не три.
- Focal length плюс диафрагма указаны.
- Focus behavior — статичный или с переходом.
- Lighting: время дня, источник, направление, температура.
- Палитра названа (warm, cool, desaturated, pastel).
- Композиция: где субъект и что в негативном пространстве.
- Атмосфера — хотя бы один элемент.
- Действие героя — глагол, темп, микро-эмоция.
- Длительность клипа и общий темп.
Если больше 4 пунктов пустые — модель досочинит, и каждый рендер будет другим. Не повторите чужую серию из 30 кликов «попробуем ещё раз». Один контролируемый кадр стоит десяти случайных — на тарифах Welder это переводится в реальные деньги: вместо месячного пакета на 4 серии вы будете укладываться в недельный.
Что делать прямо сейчас
Откройте свой последний промпт. Пройдитесь по 10 параметрам. Заполните недостающие. Сгенерируйте тот же кадр повторно. Сравните consistency.
Если делаете серию — продолжите подход в «Раскадровка AI-Shorts 2026: 6 шагов до Veo 3.1 без брака», а потом склейте кадры через «Match-cut в AI-Shorts 2026: 7 техник Veo, Sora, Kling».
Welder под капотом пишет такие промпты автоматически из вашей текстовой идеи и собирает серию из 6–10 готовых вертикальных кадров с RU-голосом ElevenLabs, музыкой и обложкой. Если хочется попробовать без ручного промпт-инженеринга — сделать первое видео.