Главное за 30 секунд
В мае 2026 у вас есть три серьёзных способа сделать AI-Short длиннее 8 секунд: дождаться Veo 3.2 «Snowbunny» с заявленной 30-секундной нативной генерацией (леджит-утечка от 18 января 2026, блог Google пока молчит), использовать Kling 3 Multi-Shot c шестью склейками по 15 секунд в одном проходе, либо собирать ролик из 8-секундных Veo 3.1 / Veo 2 кусков в конвейере вроде Welder.
Sora 2 из этого списка выпала — OpenAI закрыла публичный доступ в апреле, мы разбирали миграцию в отдельной статье. Runway Gen-4 Aleph мощно редактирует уже снятое, но плохо подходит для генерации с нуля. Hailuo 02 и Pika 2.5 остаются дешёвыми точечными решениями для 6–10-секундных сцен.
Дальше — детальный разбор, кто из этих моделей реально вытягивает длительность, сколько стоит секунда и где встроенный мульти-шот заменяет ручную склейку. Цифры и поведение перепроверены на 12 промптах в первой половине мая 2026.
Почему 8 секунд — это потолок не у одной модели
Технически 8-секундный лимит у Veo 3.1 — это не маркетинг. Один 8-секундный 1080p-клип Veo — это 192 кадра на 24 FPS, каждый рендерится диффузионной моделью с латентным состоянием на 5–7 ГБ (так пишет Google AI for Developers). Удлинение в два раза квадратично растит память сцены, фоновых объектов и аудио-дорожки.
То же самое — у Runway Gen-4 Turbo (5–10 сек), Pika 2.5 (5–10 сек в стандарте), Hailuo 02 (6 или 10 сек). Производители идут двумя путями:
- Стабилизировать ещё длиннее в одном проходе — Veo 3.2, Kling 3.
- Дать API на склейку «end-frame → start-frame» — Veo 3.1 Extend, Pika Pikaframes, Runway Aleph.
Второй путь даёт длинные ролики ценой потери цельности: персонаж дрейфует, освещение скачет, аудио рассыпается. Первый — пока работает только на свежих моделях и не для каждого жанра.
Veo 3.2 «Snowbunny»: что реально утекло
18 января 2026 утечка от @bedros_p показала скриншот: «Veo 3.2 has made its way into some services — to be added to Workspace». Дальнейшие разборы у SuperMaker AI и GLBGPT сошлись на трёх ключевых апгрейдах:
- Нативная 30-секундная генерация через Enhanced Spacetime Patches вместо склейки 8-секундных блоков.
- Нативный 4K — не апскейл, а реконструкция волос, пор, капель за счёт нового движка Artemis.
- Контекстно-аккуратное аудио и lip-sync на нескольких спикерах в одной сцене.
Дата релиза в публичный доступ официально не объявлена. На основании прошлой каденции (Veo 3.1 → 3.1 Fast → 3.1 Lite за 4 месяца) разумно ждать API-доступ в Vertex AI к концу Q2 2026. Цена пока не озвучена; Veo 3.1 Lite, для отсылки, стоит около $0.5 за 8-секундный ролик при API-доступе. Если 3.2 пойдёт по аналогичной экономике на 30 секунд, это ≈ $1.5–2 за клип.
Для AI-канала это значит одно: формат «один проход — одна сцена на 30 секунд» становится новым стандартом, и любой Welder/InVideo/Pictory будет интегрировать Veo 3.2 в первый месяц после релиза. Сейчас, в мае 2026, эта модель пока недоступна публично — поэтому планировать на неё контент-план под Q2 рискованно.
Kling 3 Multi-Shot: 15 секунд и 6 камер в одном проходе
Kling 3.0 от Kuaishou закрыл лимит не за счёт длины, а за счёт сторибординга. По гиду на Cliprise и обзору на Higgsfield:
- Длительность: 3, 5, 10, 15 секунд на выбор.
- Native 4K, 60 FPS.
- До шести камер в Multi-Shot режиме внутри одной 15-секундной генерации — с независимыми ракурсами, движением камеры и описанием сцены для каждого куска.
- Image-to-Video с reference-картинкой (один и тот же герой переходит между сценами без визуального дрейфа).
Что это даёт креатору: классическая «AI-сцена → склейка в CapCut» заменяется одним API-вызовом с шестью шорт-промптами. Lip-sync пока хуже, чем у Veo 3 / 3.1, но визуально модель сильна на статичных кадрах с лёгким движением.
Цена в РФ — через прокси или KIE-обёртки, ориентир 90–150 ₽ за 15-секундный 1080p-клип. Это вдвое дороже одного Veo 3.1 Lite (≈ 45–55 ₽ через прокси на 8 сек), зато меньше ручной работы и без склеечных артефактов на стыках.
Главное ограничение: Kling 3 плохо держит сложный текст в кадре и хуже Veo воспроизводит русскую речь синхронно. Поэтому в Welder мы оставляем Veo как дефолтный генератор аудио-сцен, а Kling подключаем точечно — для стори-кусков, где важна киношная композиция.
Hailuo, Runway Aleph, Pika 2.5 и Welder: четыре альтернативы
Тройка догоняющих и наш собственный конвейер. Каждый занимает узкую нишу.
Hailuo 02 (MiniMax) в трёх вариантах: 768p / 6 сек, 768p / 10 сек, 1080p / 6 сек. Цена API по официальной таблице MiniMax: $0.045/сек на 768p, $0.08/сек на 1080p. Получается $0.27 за 6-секундный 768p-клип и $0.48 за 1080p — самый дешёвый игрок на рынке. Слабые места: текст и руки рассыпаются, мультиперсонажные сцены даются плохо, lip-sync только англоязычный.
Runway Gen-4 Aleph — это не генератор, а in-context video editor. Берёт ваш существующий клип (хоть Veo-кусок, хоть стоковый) и переделывает по тексту: убирает объекты, меняет фон, добавляет камеру. Стоит $0.18 за секунду, по данным Runway, то есть 30-секундный ролик пересборки = $5.40. Полезно как доводчик, не как генератор. Параллельно у Runway есть Gen-4 Turbo (5–10 сек нативно), но он визуально проигрывает Veo 3.1 и Kling 3 по нашим тестам.
Pika 2.5 даёт стандартный 5–10 сек и Pikaframes с расширением до 20–25 секунд через интерполяцию ключевых кадров. Цена в подписке: $8/мес базовый, $28/мес Pro с 2,300 кредитов (примерно 28 десятисекундных 1080p-генераций). API-доступ не у всех, в РФ — через Pikaframes-фронтенд. Сильное место — стилизованные клипы, аниме, иллюстративная анимация. Слабое — фотореализм и lip-sync.
Welder — не отдельная модель, а конвейер. Автоматически собирает 4–8 кусков Veo 3.1 / Veo 2 в один 30–90-секундный AI-Short с проброшенным состоянием персонажа, голоса ElevenLabs и звукового фона. Идея: вы даёте промпт уровня «история про археологическую находку в Сибири для TikTok», получаете 10 готовых вертикальных роликов с RU-озвучкой. Welder раскладывает сюжет на сцены по 6–8 секунд, держит описание героя единым, прокидывает реф-кадр и собирает финальный 1080×1920 MP4 с субтитрами. Чего Welder не делает — пока не выдаёт нативного 30-секундного непрерывного кадра. Если ваш жанр требует одного кинематографического куска (танец, длинный пролёт камерой), вам нужен Kling 3 Multi-Shot или ожидание Veo 3.2. Подробнее про экономику Welder vs прямой доступ к Veo разбирали в гиде по тарифам Veo 3.1.
Сравнительная таблица
| Модель | Native длина | Макс длина | Цена за клип | Multi-shot | Аудио | Сильная сторона |
|---|---|---|---|---|---|---|
| Veo 3.2 (леджит) | 30 сек | 30 сек | ≈ $1.5–2 (прогноз) | Через Spacetime Patches | Native lip-sync | Кинокачество, 4K |
| Veo 3.1 Standard | 8 сек | 148 сек (Extend) | ≈ $0.75–1.5 | Через Ingredients | Native | Лучший lip-sync RU/EN |
| Veo 3.1 Lite | 8 сек | 56 сек (Extend) | ≈ $0.5 | Нет | Native | Цена за качество |
| Kling 3.0 | 15 сек | 15 сек | ≈ $1–1.5 | До 6 камер | Опционально | Сторибординг в один проход |
| Hailuo 02 1080p | 6 сек | 10 сек | $0.27–$0.48 | Нет | Слабый | Самая дешёвая секунда |
| Runway Aleph | редактор | до 30 сек | $5.40 за 30 сек | Нет | Сохраняет | Пересборка готового |
| Pika 2.5 Pikaframes | 10 сек | 25 сек | подписка $8–28 | Нет | Слабый | Стилизация, аниме |
| Welder (конвейер) | 30–90 сек | 90+ сек | от 290 ₽ за серию | Авто-склейка 4–8 кусков | ElevenLabs RU | RU-первичный пайплайн |
Цены — на 12 мая 2026, для API/прямого доступа. В РФ через прокси-обёртки добавляйте 30–50% маржи; для оплаты картой РФ удобнее заходить через Welder или сравнить тарифы.
Какая модель под какой жанр
Кратко, по жанрам AI-Shorts:
Истории с озвучкой 30–60 сек (научпоп, тру-крайм, психология) — Welder поверх Veo 3.1 Lite. RU-озвучка, склейка сцен, низкий бюджет (от ₽15–30 за 60-секундный ролик). Если важен один длинный кинематографический кадр — ждите Veo 3.2 или генерите Kling 3 на 15 сек и склейте две порции вручную.
Кинематографические шоты, рекламные пре-роллы 10–15 сек — Kling 3 Multi-Shot. Один промпт, 6 камер, native 4K. Особенно хорош, когда нужен «трейлер-вайб».
Аниме, иллюстративная анимация, стилизация — Pika 2.5. Никто из остальных не делает стилизацию так чисто.
Талкинг-хед, эксперт говорит на камеру — не эти модели. Здесь HeyGen Avatar IV или Synthesia Express. Veo 3.1 lip-sync на статичной фигуре работает, но дороже HeyGen в 4–6 раз за минуту.
Точечные эффекты — убрать объект, поменять фон, добавить пролёт камеры — Runway Aleph поверх готового материала. Не для генерации с нуля.
Бюджетные сцены без аудио для фоновых вставок — Hailuo 02 768p. $0.27 за 6 сек — это бесконечный поток B-roll за копейки.
4 типичные ошибки при склейке длинных AI-Shorts
Мы видели их в десятках каналов клиентов в апреле–мае 2026, и каждая стоит ретеншена.
Ошибка 1. Склейка кусков с разным освещением. Veo 3.1 в каждом 8-секундном проходе сам выбирает световую схему. Если не зафиксировать «золотой час, контровой свет» в каждом промпте, между склейками возникает мигание. Лечится единым шаблоном описания света на все сцены и обязательным image-ref.
Ошибка 2. Дрейф персонажа без реф-кадра. Без передачи последнего кадра предыдущей сцены или фиксированного character-ref модель к четвёртому куску забывает, как герой одет. Решение — Veo 3.1 Ingredients, Kling 3 References или Welder character pack. Глубже разобрали в гиде по консистентному персонажу.
Ошибка 3. Несинхронная озвучка поверх native-аудио. Если Veo 3 уже сгенерил «крик», а вы накладываете сверху ElevenLabs-голос, получается каша. Либо отключайте native-аудио в API, либо используйте Veo 2 (без аудио) под внешний голос.
Ошибка 4. Прыгающий темп монтажа. 8 сек + 8 сек + 8 сек подряд = монотонно. Нужна вариативность: 5 + 8 + 12 + 5 секунд с разными планами. Welder автоматически разбивает сюжет с такой сеткой; в ручной склейке держите её в голове и режьте куски на финальном этапе.
Что выбрать в мае 2026 и собрать первый длинный Short
Краткий план:
- Нужен длинный нативный кадр 30+ сек прямо сейчас и готовы платить — Kling 3 Multi-Shot, единственная публично доступная модель.
- Делаете AI-Shorts серию 30–60 сек с озвучкой и небольшим бюджетом — Welder. Конвейер из Veo 3.1 кусков + ElevenLabs закрывает 80% жанров и сэкономит вам 8–12 часов ручной работы в неделю.
- Ждёте кинокачество в один проход — отслеживайте релиз Veo 3.2 через Vertex AI. Реалистичный таргет — июнь–июль 2026.
- Нужна сборка фоновых сцен пачкой — Hailuo 02 768p, дешевле никого нет.
- Дорабатываете готовый материал — Runway Aleph, других вменяемых in-context-редакторов в 2026-м нет.
Главная мысль: длина больше не главный параметр выбора модели в мае 2026. Главным стал контроль персонажа, цельность сцены и стоимость минуты готового вертикального ролика. Welder для серии RU-Shorts с озвучкой и Kling 3 для одного кинокадра закрывают ≈ 90% задач AI-канала.
Если выбираете конвейер вместо ручной склейки — попробуйте Welder. Загрузите тему канала, выберите голос и тон, получите 10 готовых вертикальных AI-Shorts длиной 30–90 секунд с RU-озвучкой за один проход. Без After Effects, без CapCut, без VPN. Войти в Welder и собрать первую серию.