Главное за 30 секунд
В мае 2026 у вас три способа сделать AI-Shorts через Veo 3.1: тариф Lite (≈$0.05/сек на Vertex AI), Fast (≈$0.10/сек) и Standard (≈$0.35/сек, до $0.50–0.75/сек с нативным аудио). Без правильного промпта даже Standard выдаёт «плавающие» лица, мыльный фон и неестественное движение — и каждый перегон стоит реальных денег.
Хороший промпт для Veo 3.1 — это не «сделай красивое видео», а сценарная карточка из 5 блоков: камера, субъект, действие, окружение, свет и атмосфера. Модель отвечает на структурированные команды режиссёра, а не на художественные эпитеты. Ниже — формула, 9 шаблонов под разные жанры, негативные промпты, цены и сравнение с Sora 2 и Runway Gen-4.5.
Формула, на которую отвечает Veo 3.1
Google и большинство профильных гайдов сходятся на одной структуре:
[Камера/план] + [Субъект] + [Действие] + [Окружение] + [Свет/атмосфера]
В развёрнутом виде это выглядит так: «крупный план с лёгким зумом → молодая женщина в чёрном пальто → пишет на запотевшем окне → старая парижская кофейня, дождь за стеклом → утренний серый свет от окна, плёночное зерно».
Veo 3.1 официально описывает себя как модель, которой можно отдавать команды на уровне shot list. Это значит:
- Камеру называйте честно: medium shot, close-up, dolly-in, slow pan, handheld POV, drone aerial. Литературные «зрительные перспективы» модель игнорирует.
- Свет нужен мотивированный: «освещённая неоновой вывеской справа», «бледный свет из окна слева», «свечи на столе». Если света нет в промпте, Veo 3.1 ставит «студийный» — плоско и фейково.
- Одно ведущее действие на клип: 8-секундный клип не вмещает «идёт, говорит, машет рукой и оборачивается». Invideo показывает, что Veo рассыпается на конфликте действий — физика начинает плыть.
Каждый блок промпта = одна управляющая ручка. Уберите блок — Veo додумает наугад.
По опыту, оптимальная длина промпта: 40–60 слов для одиночного 8-секундного клипа, 100–150 слов если в сцене нужен диалог, JSON на 200–400 токенов для серии из 5+ сцен (см. ниже). Диалог пишите в кавычках, коротко, в одно дыхание: says: "Ты опоздал на пятнадцать секунд." Veo 3.1 нативно синхронит губы под русский и английский, но длинные реплики обрезаются на 6-й секунде.
9 рабочих шаблонов с примерами
Эти шаблоны прогоняли на десятках типов ИИ-каналов — от мифологии до true crime. Подставляйте свой субъект и место.
1. Talking-head с эмоцией (educational, мнения, объяснялки)
Medium close-up, slow push-in. [SUBJECT — описание внешности и одежды],
looking directly at camera, [EMOTION action — e.g. raises eyebrow, smirks,
leans forward]. [LOCATION — e.g. cluttered home office].
Soft window light from the left, slight film grain, 35mm lens.
Says: "[LINE — до 12 слов]"
Пример: «Medium close-up, slow push-in. A 35-year-old woman with messy dark hair and a grey hoodie, looks at camera and smirks. Cluttered home office with a corkboard behind her. Soft window light from the left, slight film grain. Says: "Я знала, что вы это спросите."»
Если связываете это с гайдом по хукам первой секунды, берите «smirk» или «raises eyebrow» в первом кадре — оба читаются за 200 мс.
2. Кинематографичный B-roll (для true crime, мистики, мифологии)
[CAMERA — slow dolly across / aerial drone shot / static wide].
[ATMOSPHERIC SUBJECT — old building, foggy lake, abandoned road].
[TIME OF DAY — dusk / blue hour / overcast morning].
[LIGHT SOURCE — single streetlight / moonlight through clouds].
35mm film, slight grain, no people in frame.
Пример: «Slow dolly across a 1970s soviet apartment block, dusk, single yellow streetlight illuminating the entrance, fog at ground level, 35mm film, slight grain, no people in frame.» Видео автоматически читается как открывающий кадр для тру-крайма — кейсы мифологического канала построены ровно на таких B-roll.
3. Историческая реконструкция
Wide cinematic shot, 35mm anamorphic lens. [HISTORICAL FIGURE —
описание костюма и черт], [ACTION — короткое и одно].
[HISTORICAL SETTING — конкретные детали эпохи].
[LIGHT SOURCE — candles / oil lamps / torches].
Dust particles in the air, deep shadows, painterly composition.
Главное правило исторических сцен — называть конкретный год и материалы. «Russian noble of the 18th century» — расплывчато. «Russian noble in dark green velvet caftan with gold embroidery, 1790s» — модель собирает костюм правильно.
4. Городской POV (urban storytelling, лайфстайл)
First-person POV, handheld camera, slight shake. Walking through
[STREET DESCRIPTION] at [TIME]. Cars passing, [SOUND — distant
traffic / rain on pavement]. [WEATHER — wet asphalt reflecting
neon signs / heavy snowfall]. 25mm wide lens, natural color grade.
POV-шорты держат внимание лучше talking-head на 12–18%. Veo 3.1 отлично подсасывает «wet asphalt reflecting neon signs» — это конкретная физическая метка, которая делает кадр живым.
5. Анимированный 3D-персонаж
3D Pixar-style animation, [CHARACTER DESCRIPTION — animal/object
with human traits]. [ACTION — exaggerated movement].
[SETTING — stylized interior]. Bright saturated colors,
soft global illumination, shallow depth of field.
Для детских и обучающих каналов. Pixar-style работает лучше «3d cartoon» — у Veo 3.1 датасет смещён в сторону Pixar/Disney эстетики. Mascot-каналы на этой стилистике крутят сотни тысяч за месяц — у нас разобран кейс агентства с 6 ИИ-каналами, один из них именно mascot.
6. Драматическая погода
[CAMERA — locked-off / slow handheld]. [SUBJECT in motion].
[WEATHER — heavy rain / blizzard / sandstorm], wind visible
through [hair / clothing / debris]. [LOCATION].
Volumetric lighting, water/dust particles in the air, 24fps.
Погода — самый надёжный способ скрыть слабости Veo 3.1 в физике мелких объектов. Дождь и снег «маскируют» артефакты.
7. Хэндхелд документалка
Handheld documentary style, [DISTANCE — close / medium], slight
camera shake, natural breathing rhythm. [SUBJECT speaking off-axis],
[LOCATION — real-feeling, not glossy]. Natural daylight,
no color grade, 16mm look, slight chromatic aberration.
Этот стиль выигрывает у вылизанной «студии» в Reels по комментариям. Veo 3.1 хорошо имитирует 16mm плёнку через «slight chromatic aberration» — добавьте эту фразу в любой документальный промпт.
8. Транзишн «до/после»
Single take, locked-off camera. [SUBJECT in BEFORE state —
clear visual marker]. Whip pan / match cut at frame 60.
[SAME SUBJECT in AFTER state — same framing, different time/state].
Consistent lighting between halves.
Транзишены типа «до/после» — рабочая лошадка для лайфстайл и фитнес-каналов. Veo 3.1 их понимает буквально, если описать «match cut at frame 60» — но генерируйте две сцены отдельно и склейте в монтажке. Один клип на 16 секунд модель пока не тянет.
9. Атмосферный пейзаж
[AERIAL / WIDE LANDSCAPE]. [LOCATION] in [SEASON / WEATHER].
[MOVEMENT — birds flying / mist rolling / leaves blowing].
Golden hour / blue hour, [SPECIFIC COLOR PALETTE],
cinematic 2.39:1 aspect framing within 9:16.
Для медитативных, мотивационных и travel-ниш. Атмосферные кадры идут отлично для B-roll-вставок в talking-head ролики.
Сводная таблица: шаблон под жанр
| Жанр канала | Лучший шаблон | Длина клипа | Что добавить в негатив |
|---|---|---|---|
| True crime | B-roll + хэндхелд | 6–8 сек | bright colors, smiling faces |
| Мифология | Историческая реконструкция | 8 сек | modern objects, plastic |
| Объяснялки / edu | Talking-head | 8 сек | text overlays, watermarks |
| Лайфстайл / travel | POV + пейзаж | 8 сек | tourists, distorted hands |
| Mascot / детский | 3D-персонаж | 8 сек | realistic textures, low quality |
| Фитнес / до-после | Транзишн | 2×8 сек | inconsistent lighting |
| Мотивация / цитаты | Пейзаж | 8 сек | people, text |
Негативные промпты — то, что Veo 3.1 рисует «по умолчанию»
В Vertex AI есть отдельное поле Negative prompt. В Gemini Web — нет, но фразы можно вписать в основной промпт через «No: …».
Базовый негативный набор для AI-Shorts в 2026:
No: cartoon style (если хотите реализм), distorted hands, extra
fingers, blurry face, motion blur, text overlays, watermarks,
low quality, oversaturated colors, plastic skin, dead eyes,
asymmetrical features, multiple people speaking at once.
Для каждого жанра добавьте 2–3 специфичные строчки — выше в таблице есть подсказки. Negative prompts не магия, но снижают долю «брака» с примерно 35% до 12–18% — экономия по чистому времени рендера выходит на 1.5–2 тарифа Welder в месяц.
JSON-промпт для серии видео
Если делаете серию (5+ роликов в одном каноне), переходите на JSON. Veo 3.1 понимает структурированные данные и держит «character bible» намного стабильнее, чем повторение текста.
Каркас:
{
"global_style": "35mm film, slight grain, anamorphic lens",
"character_bible": {
"name": "Anna",
"appearance": "30y, dark wavy hair to shoulders, grey wool coat, hazel eyes",
"voice": "calm, low register"
},
"scene": {
"shot_type": "medium close-up",
"camera_move": "slow push-in over 6 seconds",
"action": "speaks one line, then looks down",
"setting": "rainy Paris cafe, morning, foggy windows",
"lighting": "soft window light from left, candle on table",
"audio": "rain on glass, distant traffic",
"dialogue": "Я знала, что ты опоздаешь."
}
}
Главное в JSON — блок character_bible. Опишите героя один раз — и копируйте этот блок во все сцены серии. Без него лицо «плывёт» каждые 2–3 клипа. Если работаете с реальным актёром, в Vertex AI и Gemini API доступна фича reference images (Ingredients) — 1–3 фото героя поднимают консистентность до 85–90% против 60% на чисто текстовом промпте.
Veo 3.1 vs Sora 2 vs Runway Gen-4.5: где промптить иначе
В 2026 это три серьёзных модели для коротких видео. По опыту тестов и сравнительных гайдов, каждая «думает» по-своему:
| Модель | Сильна в | Промптить как | Цена за 8-сек клип |
|---|---|---|---|
| Veo 3.1 Standard | Структура, режиссура, синхрон | Shot list из 5 блоков | ≈$2.80 (+аудио до $4) |
| Sora 2 | Причинно-следственная физика | Описание мира и логики | от $0.10 в ChatGPT Plus ($20/мес) |
| Runway Gen-4.5 | Движение, камера, motion | Вектора движения и силы | ≈$2.00–3.50 |
| Kling 1.6 / 3.0 | Лица, восточно-европейский колорит | Длинные описательные промпты | ≈$0.50–1.20 |
Sora 2, по оценке профильных сравнений, лучше держит логику мира — например, если стакан упал, он разобьётся; если человек поднимает предмет, он становится тяжелее. Veo 3.1 в этом проигрывает: модель может уронить стакан и оставить его целым. Зато Veo 3.1 безусловно выигрывает в синхроне губ под русский и в управляемости через JSON. Если ваш контент — talking-head или мифология, оставайтесь на Veo 3.1. Если хочется «вирусной» физической комедии — попробуйте Sora 2.
Подробнее про варианты тарифов мы разбирали в гайде Veo 3.1 Lite vs Fast vs Standard.
Сколько это стоит на чистых API
Если генерируете напрямую через Vertex AI или Gemini API:
- Veo 3.1 Lite: ≈$0.05/сек → 8-сек клип $0.40 (без аудио)
- Veo 3.1 Fast: ≈$0.10/сек → клип $0.80
- Veo 3.1 Standard: ≈$0.35/сек → клип $2.80, с нативным аудио до $4–6
- Перегон при браке: ×2–4 от номинала, потому что вы платите за каждый рендер, а не за «удачный»
Шорт из 6 клипов на Standard с аудио = $24–36 чистого расхода без учёта брака. Это и есть причина, по которой мы в Welder упаковываем Veo 3.1 в тарифы от ₽1,690 — Starter закрывает 20–30 готовых шортов в месяц с подбором стиля, голосом ElevenLabs и сборкой под 9:16. На прямом API без оптимизации это вышло бы в ₽15–40K за тот же объём.
Что делает Welder поверх промпта
- Вы даёте идею на русском: «канал про мифы Древней Греции, 60 секунд, голос мужской глубокий».
- Welder разбивает идею на 8 сцен и для каждой генерирует промпт по той самой 5-блочной формуле — с камерой, светом, негативами.
- Стилевой пресет держит визуальную консистентность (тот же character bible, та же палитра).
- Озвучка ElevenLabs v3 на русском + музыка Suno v4 (по желанию) собираются автоматически.
- Сборка под 9:16 с safe zone (подробнее в нашем гайде по формату) уходит на выгрузку в TikTok / Reels / Shorts.
Это не значит «промпт не нужен» — просто 80% механической работы делает пайплайн, а вы держите редакторский контроль (правите хук, переснимаете отдельные сцены, меняете голос). Для команд это в среднем экономит 4–6 часов на ролик против ручного флоу через Vertex AI + DaVinci.
Чек-лист и следующий шаг
Прежде чем тратить кредиты, проверьте промпт по этому списку:
- В промпте есть все 5 блоков: камера, субъект, действие, окружение, свет
- Названо одно ведущее действие (а не три)
- Указан конкретный источник света («окно слева», «неоновая вывеска»)
- Длина диалога — до 12 слов, в кавычках, в одно дыхание
- Прописан негативный промпт (минимум: distorted hands, motion blur, text)
- Если серия — есть JSON с character_bible
- Для важных героев — загружено 1–3 reference image
- Промпт — не литература, а sheet режиссёра
Если все галочки стоят — вы экономите 50–70% перегонов и получаете предсказуемый результат с первого-второго прогона. Если работаете на API напрямую — это ещё и реальные деньги.
Самый быстрый способ проверить эти шаблоны на своём канале — не идти в Vertex AI, а собрать первый ролик за 20 минут в Welder, где формула уже зашита в пайплайн. Подставляете тему, выбираете стиль, дальше промпты по 5 блокам генерируются сами — а вы решаете, что оставить в финале. Если результат не нравится, переделать сцену стоит копейки, а не $3 за каждый рендер на голом API.