Главное за 30 секунд
В мае 2026 ваш ИИ-канал на Shorts приносит $0.75–2.50 RPM, а такой же контент в формате 8+ минут на основной ленте YouTube — $15–25 RPM в нишевых вертикалях вроде финансов и AI/tech. Разница в выручке — 10–30×, и ключ к ней — одна цифра: 8 минут. Это граница, после которой YouTube разрешает mid-roll ads. Один mid-roll увеличивает RPM на 40–60%, два-три — до 2–3×, по данным FluxNote на февраль 2026.
Проблема: Veo 3.1 генерирует 8 секунд за клип, Sora 2 — до 20 секунд, Runway Gen-4 — до 21 секунды. Чтобы собрать связный 8-минутный ролик, нужно склеить 30–60 сцен, держать одного героя, не сломать звук и выдержать темп. Этот гайд показывает, как сделать это за один вечер на пайплайне Veo 3.1 + Sora 2 + ElevenLabs v3 + Welder AI, и какие подводные камни ждут на каждом шаге.
Почему именно 8 минут — порог денег
До 8 минут видео получает ровно одну рекламную вставку — pre-roll. Это значит, что 3-минутный ролик и 7-минутный приносят примерно один и тот же доход за просмотр, потому что показывается тот же один баннер. Перешагнув отметку 8:00, вы открываете до трёх mid-roll слотов, и каждый из них — отдельная монетизационная единица.
Конкретные цифры по нише «AI/tech» в США на май 2026 (данные MilX):
| Длина видео | Рекламные слоты | RPM (AI/tech) | Доход с 100K просмотров |
|---|---|---|---|
| 0:60 (Shorts) | Доля Shorts ad pool | $1.20 | $120 |
| 4:30 (long-form) | 1× pre-roll | $5–7 | $500–700 |
| 8:30 (long-form) | pre-roll + 1× mid-roll | $11–14 | $1 100–1 400 |
| 12:00 (long-form) | pre-roll + 2× mid-roll | $15–22 | $1 500–2 200 |
Для русскоязычной аудитории RPM ниже в 2–4× (рынок «прочие страны» в YouTube). Но если канал на английском с американо-европейской аудиторией — цифры в таблице ваши. Это и есть аргумент в пользу пайплайна, который умеет переключать голос на en-US без перерисовки сцен — об этом ниже.
Длинный ролик = 30+ коротких клипов: где взять метраж
Самое серьёзное архитектурное ограничение AI-видео-2026 — длина одного клипа. Вот свежий стейт по флагманским моделям:
- Veo 3.1 (Google DeepMind, через Vertex AI или Welder): 8 секунд за клип, $0.40–0.60 за рендер. Лучший lip-sync и понимание физики.
- Sora 2 (OpenAI, в ChatGPT Plus за $20/мес): до 20 секунд за клип, лучшее качество кадра, но мягкий контроль персонажа.
- Runway Gen-4 (через runwayml.com): 21 секунда, $0.05–0.10/сек, сильная стилизация.
- Kling 1.6 (Kuaishou): до 10 секунд бесплатно, неплохой image-to-video.
- Hailuo 02 (MiniMax): до 6 секунд, дёшево и быстро для проходных сцен.
Арифметика на 8-минутный ролик: чтобы получить 480 секунд итогового материала, нужно сгенерировать 30 клипов по 16 секунд или 60 клипов по 8 секунд. Чистый Veo 3.1 = 60 клипов × $0.50 = $30 за видео в материале. Sora 2 — около $8 (внутри подписки), но без жёсткого character lock.
Практический микс, который работает в 2026:
- B-roll и атмосферные сцены — Hailuo или Kling (дёшево, не критично к персонажу).
- Сюжетные сцены с героем — Veo 3.1 (lock через image reference).
- Эффектные кадры-«крючки» — Sora 2 (где нужно «вау»).
- Talking-head вставки — HeyGen Avatar IV или Synthesia (если нужен живой ведущий 2–3 минуты).
Как держать одного героя через 30 сцен — отдельная техника, которую мы разбирали в гайде Continuity AI-видео: сшить 10 сцен Veo 3.1 и Sora 2. Применительно к long-form: фиксируйте character reference в первом кадре и переподтверждайте его на каждой 3-й сцене.
Голос: ElevenLabs v3, OpenAI Voice или YouTube auto-dubbing
Для 8-минутного ролика нужно ~1100 слов диктора (темп 130–140 wpm — оптимум для удержания). Это около 8 минут чистого голоса. Базовые опции:
- ElevenLabs v3 — поддерживает 70+ языков, включая русский, английский, немецкий, испанский и арабский. Цена на Creator-плане ($22/мес): 100 000 знаков, далее $0.30 за 1K. 8-минутный скрипт ≈ 7K знаков, то есть в подписку влезает 14 роликов в месяц. По данным ElevenLabs на 2026, v3 даёт самые натуральные интонации в русском среди всех TTS.
- OpenAI Voice (TTS-1-HD) — $0.015 за 1K знаков, проще ставится в Python-пайплайн, но эмоциональный диапазон уже, чем у ElevenLabs.
- Murf — $19/мес, 24 часа TTS, корпоративные голоса. Не для виральной подачи.
Отдельная история — YouTube Auto-Dubbing, который с 4 февраля 2026 раскатили на всех креаторов (YouTube Blog). Платформа сама делает дубляж на 27 языков, в т.ч. через «Expressive Speech» (звучит почти как живой диктор) на восьми основных. Это означает, что вы можете снять ролик один раз на русском и закрыть EN/ES/PT/DE без своей команды локализаторов — но и без контроля над качеством.
Если пайплайн англоязычный с нуля — лучше озвучивать ElevenLabs v3 со своим клонированным голосом и не зависеть от автодубляжа. Детальное сравнение TTS-движков мы дали в обзоре Озвучка AI-Shorts 2026: ElevenLabs v3 vs OpenAI vs Murf — параметры те же, но для long-form критично выдерживать ровный тембр на 8 минутах без срывов в роботизированный режим (это известная болячка OpenAI TTS на длинных репликах).
Welder vs Sora 2 vs Veo 3.1 vs HeyGen — что выбрать для long-form
Ни один из «чистых» генераторов кадра в 2026 не делает 8-минутное видео сам по себе. Они отдают вам клипы. Дальше нужен оркестратор, который превратит скрипт в раскадровку, выдаст эти клипы по очереди и склеит с голосом и музыкой. Сравнение по этой роли:
| Параметр | Welder AI | Sora 2 | Veo 3.1 | HeyGen Avatar IV |
|---|---|---|---|---|
| Стартовая цена RU | от 290 ₽ за серию | $20/мес ChatGPT Plus | ≈$30 API за ролик | от $24/мес |
| Скрипт → сцены | да, авто | нет | нет | частично |
| Сборка 30+ сцен | да | вручную | вручную | до 8 мин talking-head |
| RU-озвучка | ElevenLabs v3 | базовая | через API | средне |
| Контроль персонажа | reference + lock | мягкий | сильный | максимум (аватар) |
| Длинные ролики 8+ мин | да | руками | руками | да (один спикер) |
| Mid-roll кадры | автомаркеры | нет | нет | нет |
Welder в одном прогоне раскадровывает скрипт, расставляет голос и склеивает 30+ клипов, но качество отдельной сцены упирается в Veo 3.1 / Veo 2 под капотом — поэтому если вам нужна одна 20-секундная «вау-сцена», вы всё равно идёте в Sora 2 руками. Для серии из 30 фоновых сцен Welder экономит 8–12 часов ручной работы за один эпизод.
Честно про слабости: в Welder сейчас нет нативной поддержки лица-аватара уровня HeyGen — если ваш формат «голова в углу», HeyGen лучше. Если формат «голос + кинематографичные сцены под нарратив» — Welder. Полное сравнение пайплайн-сервисов лежит в обзоре AI-видео под ключ 2026: Captions, InVideo, Pictory, Welder.
Шаблон пайплайна на 8 минут за один вечер
План рассчитан на ~5 часов работы человека и ~$8–12 чистых затрат на рендер.
Шаг 1. Скрипт (45 минут). Берёте тему, прогоняете через Claude 4.7 или GPT-5 по формуле «hook 0–15 сек → setup 15–60 → 3 проблемы → 3 решения → reframe → CTA». Целевая длина — 1050–1150 слов. Подробнее про структуру нарратива см. Сценарии для AI-Shorts: 7 структур на 60 секунд — для long-form берёте структуру #4 (problem-stack) и растягиваете её в 5–6 актов.
Шаг 2. Раскадровка (40 минут). Делите скрипт на 30 сцен по ~16 секунд. Каждой сцене присваиваете: визуальный промпт, эмоцию голоса, переход. Welder делает это автоматически за один POST.
Шаг 3. Рендер сцен (90 минут параллельно). В Welder ставите всю партию в очередь и идёте делать обложку. Альтернатива — параллельные API-запросы в Veo 3.1 через Vertex AI (но тогда вам самим биллить).
Шаг 4. Озвучка (20 минут). ElevenLabs v3 с клонированным голосом — 1 рендер на весь скрипт. Не нарезайте на куски: TTS лучше держит интонацию, когда видит контекст 200+ слов вокруг.
Шаг 5. Сборка и mid-roll маркеры (40 минут). Склейка по таймкодам, добавление 2–3 mid-roll меток через YouTube Studio: ставьте mid-roll на 2:55, 5:40, 7:50 — это перед смысловыми переходами, не внутри них. Реклама в середине предложения убивает retention.
Шаг 6. Обложка и заголовок (30 минут). CTR на long-form решает всё. Принципы — те же, что для Shorts: лицо/объект + одно слово на превью, контраст 2 цветов. Гайд по этому шагу — Обложки AI-Shorts 2026: CTR с первого кадра.
Шаг 7. Публикация и описание. Описание ≥250 слов с ключевыми фразами, 5–8 тегов, кастомный thumbnail, end screen с CTA на следующий ролик. Если вы делаете канал на международную аудиторию — включайте YouTube Auto-Dubbing на испанский и португальский: Latin America это +189 млн пользователей с двузначным ростом 2026, при этом конкуренция за разы ниже, чем в англоязычном сегменте.
Если весь стек оформляете через Welder, оплата идёт по серии: тарифы — на странице /pricing. Один эпизод 8 минут укладывается в Starter-серию при умеренном микс-рендере.
Топ-3 ошибки, которые убивают длинный ИИ-ролик
- Растягивание ради 8 минут. Если ваш материал тянет на 5:30, не нужно лить воду до 8:01. YouTube алгоритм смотрит на average view duration, и длинное видео с 35% AVD проиграет короткому с 70% AVD. Сначала выберите тему, которая честно тянет на 8–10 минут, потом считайте монетизацию.
- Один персонаж в 30 сценах без reference lock. Без жёсткой привязки к референс-изображению Veo 3.1 даст вам 30 разных людей. Зритель этого не простит — это считывается как «AI-slop» за 3 секунды. Решение — image reference на каждой сцене, и контрольная пересборка через Continuity-пайплайн.
- Сцена 16 сек + реплика 8 сек. Голос ElevenLabs не пауза-устойчив на длинных хвостах. Если в раскадровке диктор говорит 8 секунд, а сцена идёт 16, последние 8 секунд получают «мёртвую тишину» или плохо синхронизированный b-roll. Сводите длительность сцены = длительности реплики ±10%.
Два бонусных подводных камня: не лейте видео сразу после публикации в Boost-сеть — алгоритм YouTube первые 48 часов читает «органику», и накрутка ломает кривую. И не делайте 4 mid-roll на 8-минутный ролик в попытке выжать максимум: после трёх вставок RPM начинает падать из-за отписок в комментариях и роста skip-rate.
Запустите первый эпизод за вечер
Long-form на ИИ — это не «когда-нибудь, когда модели станут лучше». В мае 2026 модели уже там: Veo 3.1 держит героя, ElevenLabs v3 держит голос на 8 минутах, YouTube Auto-Dubbing закрывает локализацию на 27 языков, а пайплайн вроде Welder склеивает 30 сцен в один POST.
Начните с одной темы из вашей текущей Shorts-сетки, которую вы пробовали в коротком формате и которая заходила. Распакуйте её в 8 минут по шаблону выше, поставьте mid-roll маркеры и запустите параллельно с публикацией оригинального Shorts. Через 60–90 дней вы поймёте, как соотношение Shorts (для роста аудитории) и long-form (для AdSense) работает в вашей нише.
Что делать прямо сейчас
Откройте дашборд Welder, загрузите скрипт на 1100 слов, выберите шаблон «long-form 8+ минут» и поставьте партию сцен в очередь. К утру у вас будет готовый ролик, который попадает под mid-roll правила YouTube и приносит RPM выше, чем все Shorts-публикации этого месяца вместе взятые.