Главное за 30 секунд
В начале мая 2026 я взял одну тему — короткий шортс «3 неочевидных факта про античную Спарту» — и собрал его двумя способами. Первый: ручная сборка через ChatGPT (сценарий), ElevenLabs (голос), Pixverse через Telegram-бот (видео), CapCut (монтаж). Второй: один прогон в Welder.
Ручной стек: 4 разных интерфейса, 4 подписки, 2 часа 47 минут чистой работы, ~620 ₽ суммарно. Welder: один интерфейс, один тариф ₽2 075/мес, 7 минут до готового вертикального ролика с озвучкой.
Качество финального видео — сопоставимое. Разница в производственных затратах — в 24 раза по времени. Дальше — пошагово, что и сколько заняло, и где ручной стек реально интересен.
Условия теста
Входные данные:
- Тема: «3 неочевидных факта про древнюю Спарту».
- Формат: вертикальный ролик 9:16, длительность ~45 секунд.
- Голос: мужской, спокойный, русский.
- Стиль: кинематографичный, тёплая палитра, исторический сеттинг.
- Цель: минимально пригодный для публикации в TikTok / Reels материал.
Я не профессиональный монтажёр. Базовое владение CapCut и ChatGPT, оплата всех сервисов с карты Мир через российские прокси-боты или прямые российские интеграции. Засекал время телефонным таймером, фиксировал каждый шаг.
Прогон 1: ручная сборка через 4 сервиса
Шаг 1. Сценарий через ChatGPT (через ChadGPT-бот). 24 минуты.
Открыл ChadGPT в Telegram, попросил сценарий шортса с тремя фактами про Спарту. Получил три варианта. Первый звучал как Википедия, второй — как ученический пересказ, третий — слишком «жёлтый».
Довёл руками: переписал хук, сократил длинные предложения, разбил на 4 чанка по ~10 секунд. Ушло 24 минуты — из них 15 на сценарий и 9 на нарезку под раскадровку.
Затраты: подписка ChadGPT 290 ₽/мес, использовал примерно на 30 ₽ токенов.
Шаг 2. Голос через ElevenLabs. 38 минут.
Зашёл в ElevenLabs (через VPN, бесплатный план не позволяет нормальный экспорт). Подобрал русский мужской профиль — потратил ~10 минут, потому что нативные русские голоса в v3 я раньше не настраивал. Сгенерировал 4 фрагмента озвучки.
В двух местах модель неправильно поставила ударение в имени «Леонид». Перегенерировал. В одном фрагменте интонация прозвучала уставшей — поднял эмоцию, перегенерировал. Скачал 4 MP3.
Затраты: подписка ElevenLabs Starter $5/мес = ~450 ₽. Время: 38 минут (включая возню с VPN).
Шаг 3. Видео через Pixverse-бот в Telegram. 51 минута.
На каждый чанк сценария — отдельный промпт в Pixverse-бота. Четыре сцены: спартанский тренировочный лагерь, поле битвы при Фермопилах, спартанские женщины, ночной город Спарты.
Каждая генерация — 60–90 секунд. На каждой второй сцене модель «съезжала» по стилю: то бронзовый оттенок брони, то стальной; то солнечный день, то сумерки. Пересоздавал 3 сцены из 4. Итого 7 генераций.
Затраты: пакет в боте ~1 690 ₽ за 680 токенов, израсходовал ~140 токенов = ~350 ₽. Время: 51 минута.
Шаг 4. Сборка в CapCut. 54 минуты.
Скачал 4 видео + 4 голосовых файла. Загрузил в CapCut на десктопе. Кадрировал каждый под 1080×1920 (вручную, потому что Pixverse выдал 16:9). Расставил по таймлайну, синхронизировал с голосом — на двух местах пришлось подрезать, потому что видео заканчивалось раньше, чем фраза.
Добавил субтитры (CapCut auto-subs, поправил три ошибки). Поставил простой переход между сценами. Сделал обложку в Canva (отдельная вкладка, ещё 8 минут). Экспортировал.
Затраты: CapCut бесплатный, Canva Free. Время: 54 минуты.
Итог по ручной сборке
- Суммарное время: 2 часа 47 минут на один ролик.
- 4 разных интерфейса, 5 переключений контекста на каждый чанк.
- Подписки: ChadGPT (290 ₽), ElevenLabs ($5 ≈ 450 ₽), Pixverse-токены (~350 ₽). На один ролик пришлось ~620 ₽ маржинальной стоимости (если учесть, что подписки идут на месяц).
- Качество — приемлемое для публикации, но «дрейф» стиля заметен между сценами.
Если я масштабирую этот процесс до 30 шортсов в месяц, мне нужно 80+ часов ручной работы. Это полноценная работа на 2 рабочие недели. Без выходных.
Прогон 2: Welder за один проход
Открыл Welder, выбрал нишу «история», подвид «античность». Указал длительность 45 секунд, тон «спокойный кинематографичный», голос — мужской русский профиль.
Дальше платформа сама:
- Сгенерировала 3 варианта сценария по проверенным формулам хука. Я выбрал тот, что зашёл.
- Закрепила персонажа (спартанский воин) и стилистику (тёплый закат, бронза, песок) — чтобы держались между сценами.
- Прогнала 5 чанков через Veo 3 с фиксированным сидом стиля.
- Озвучила через ElevenLabs v3 русским профилем.
- Собрала вертикалку 9:16 с субтитрами и обложкой.
Я за это время выпил кофе и проверил два сообщения в Telegram. Через ~7 минут на экране был готовый шортс — без CapCut, без Canva, без VPN.
Качество: сопоставимое с ручной сборкой по визуалу, но стиль гораздо более стабильный — все 5 сцен выглядят как один автор. Голос в одном тембре по всему ролику. Субтитры были без ошибок (видимо, синхронизированы со сценарием, а не транскрибированы Whisper'ом).
Если честно — в ручной сборке мне больше понравились две сцены из четырёх. Pixverse выдал атмосферную ночную Спарту, которую Welder сделал чуть «чище». Это не значит, что одна модель «лучше» другой — у разных диффузионных моделей разный почерк, и иногда он лучше попадает в вашу задачу. Но это тот случай, когда платишь часами работы за конкретные эстетические нюансы — они есть, но обычно не решают судьбу канала.
Где Welder реально выигрывает — это не визуальная отделка, а отсутствие микрорутины. У меня не было момента «ой, забыл скачать MP3» или «ой, голос обрезался». Сборка прошла одним проходом, и это самое ценное, когда таких роликов в месяц 30, а не 1.
Затраты: ₽2 075/мес на Creator-плане, в нём это ~6 серий по 5–8 роликов = около 40 роликов. То есть маржинальная стоимость одного шортса в составе плана — около 50 ₽.
Сводная таблица: цифры теста
| Параметр | Ручной стек (4 сервиса) | Welder Creator |
|---|---|---|
| Время на 1 ролик | 2 ч 47 мин | ~7 мин |
| Время на 30 роликов в мес | ~80 часов | один вечер |
| Подписки | 3 (ChadGPT + ElevenLabs + Pixverse) | 1 (Welder) |
| Маржинальная цена ролика | ~620 ₽ | ~50 ₽ (в составе плана) |
| Консистентность стиля | плавает между сценами | держится |
| Голос (RU) | вручную выбирать каждый раз | один профиль на серию |
| Вертикалка 9:16 | вручную в CapCut | автоматически |
| Обложка | Canva отдельно | автоматически |
Где ручная сборка реально интересна
Я не пишу этот текст, чтобы убедить вас, что ручной стек — это плохо. Он отличный — для определённых задач:
- Эксперимент. Хотите попробовать новую модель видео — Pixverse, Kling, Hailuo, Pika — ручной стек гибче. Меняете один сервис в цепочке и смотрите результат.
- Один ролик. Если вам нужен один промо-ролик в квартал, экономика «620 ₽ vs 2 075 ₽/мес» очевидна.
- Кастомные сценарии. Свадебное видео, корпоратив, спецпроект с уникальной визуалкой — у пайплайна нет таких пресетов, ручная сборка тут впереди.
- Учебный процесс. Когда вы изучаете, как устроены LLM, TTS, диффузия видео и монтаж — ручной стек это лучшая школа.
Это похоже на разницу между сборкой бургера дома и заказом доставки. Дома вы знаете каждый ингредиент и можете крутить рецепт как хотите. Доставка экономит время и стабильно даёт предсказуемый результат. Если вам нужен бургер раз в год для эксперимента — собирайте дома. Если нужно кормить 30 человек в месяц регулярно — есть смысл подумать про доставку.
И ещё один важный момент про ручной стек. Когда вы работаете в одиночку, набор подписок ChadGPT + ElevenLabs + Pixverse + CapCut Pro в сумме даёт ~3 000 ₽/мес плюс цена ваших часов. Креатор-новичок часто думает «ну ChatGPT же бесплатный, ElevenLabs free-tier есть» — и не считает скрытые расходы: VPN, Canva Pro для нормальных обложек, отдельную подписку на музыку без копирайт-страйков, иногда плата за скачивание из стоков. К концу третьего месяца стек обрастает 5–7 микро-подписками, каждая из которых забирает 200–700 ₽. Это нормальная часть «индихакерского» подхода, но к ней лучше быть готовым заранее.
Детальный разбор того, что именно ломается при ручной сборке серии и почему пайплайн закрывает это системно, — в гайде по 5 проблемам прямого доступа к нейронкам. А прямое сравнение Telegram-ботов с Veo 3 — в материале по 6 ботам vs Welder.
Если вы агентство и собираете 6 каналов параллельно, эта арифметика даёт ещё более жёсткий ответ. Подробный разбор экономики мульти-канального формата — в кейсе агентства с 6 ИИ-каналами.
Что я сделаю в следующий раз
Для одного эксперимента — ручной стек. Для канала — Welder. Простой критерий: если я буду выпускать 1–2 шортса в неделю под одну нишу, каждый сэкономленный час прямо превращается в новый ролик или новую тему.
Ещё один практический вывод. После часа работы с CapCut и переключений между ChatGPT, ElevenLabs, Pixverse и Canva я почти не помнил, какую тему собирался брать следующей. У ручного стека высокая когнитивная цена: вы тратите внимание не на содержание канала, а на координацию инструментов. Через пайплайн я успевал между сериями ещё придумывать новые темы — голова не была забита микрооперациями.
Если хотите повторить тест на своей теме — берите пробный доступ Welder без карты и одну вашу подписку на бот. Один и тот же сценарий через два пайплайна — за 3 часа у вас будут собственные цифры. Всё остальное — рассуждения. Полный список тарифов и расчёт под ваш канал — на странице Welder Pricing. Запишите время на каждый шаг, посчитайте итоговую стоимость с учётом всех подписок и сравните визуальный «дрейф» стиля по 5 финальным роликам.