Перейти к содержимомуWelder AI релиз май 2026: голос, длинные ролики, рендер
WWelder AI

Welder AI релиз май 2026: голос, длинные ролики, рендер

Обновления9 минWelder AI

Welder AI релиз май 2026: голос, длинные ролики, рендер

Что мы выкатили в мае: VOICE LOCK для разговорных сцен, длинные ролики через chunk-цепочки и устойчивый рендер.

Главное за 30 секунд

В мае 2026 мы выпустили серию апдейтов под одно ремесло: сделать так, чтобы пайплайн Welder не ронялся на длинных диалоговых роликах. Главное — VOICE LOCK: теперь два-три персонажа говорят в одной сцене с одним и тем же голосом во всех чанках, а не «перевоплощаются» при каждой 8-секундной нарезке Veo 3. Это была боль всей индустрии — Veo 3.1 требует 3–5 регенераций на сложные звуковые сцены, и Sora 2 рекомендует «полировать в посте». Мы переложили эту работу на пайплайн.

Помимо голоса — три точки:

  • Chunk-продолжения (ITER-078 → 086): теперь любой ролик длиннее 8 секунд это связанная цепочка, а не рваная склейка. Parent-keyframe тянется в каждый следующий чанк.
  • Self-heal пайплайна (ITER-084): если задача застряла в refs_chars_running или refs_scenes_running/run-полл сам её разлочивает, а не ждёт человека.
  • Бандлированный ffmpeg + harden veo settle (ITER-086): MP4 пользователя теперь не теряется, даже если последний кадр от Veo пришёл без actual_last.

Что это значит на серии видео в месяц — ниже, с цифрами.

Контекст: где мы стоим в мае 2026

Рынок коротких ИИ-видео живёт между двумя «эталонами»: Sora 2 (OpenAI) с клипами 20–25 секунд в одном проходе и Veo 3.1 (Google DeepMind) с 8-секундными бёрстами в 4K@60fps. У обоих своя слабость — длина и качество звука. Подробнее мы разбирали это в Sora 2 и Veo 3.1: новый стандарт качества AI-Shorts 2026.

Welder поверх — это не отдельная модель, а оркестратор: ниша → сценарий → персонажи → сцены → озвучка → склейка. Базовая модель видео — Veo 3 / Veo 2 через KIE. Это значит, что наша работа в мае была не «обучить новую сеть», а снять с пользователя ручную возню, которую обычно требует Veo 3 — особенно на серийных каналах, где одна и та же история живёт через 6–8 роликов в неделю.

Голос: VOICE LOCK для диалоговых сцен (ITER-072)

Раньше, если у вас в чанке был диалог двух персонажей, Veo 3 мог дать на следующий чанк другие голоса — даже при одинаковом промпте. Это убивает faceless-каналы с одним нарратором, агентство с серией про античных богов, любой проект, где «герой опознаваем по голосу». По данным независимого теста на GLBGPT (январь 2026), сложные звуковые сцены в Veo 3.1 требуют в среднем 3–5 регенераций, чтобы получить желаемый результат.

Что мы изменили:

  • Сценарий теперь идёт в Veo 3 структурированно — это multi-speaker turns в одном чанке: реплика, говорящий, эмоция, тон.
  • Между чанками работает VOICE LOCK chain: ID голоса каждого персонажа фиксируется на первом чанке и пришивается ко всей цепочке.
  • Авторитетный диалог инжектится в renderPlan до валидации (ITER-076) — это значит, что Veo получает «канон», а не парсит черновик сценария.

На практике: в наших тестах на нише «Античные мифы» (12 серий по 3 чанка) сходимость голоса по чанкам выросла с ~62% до ~95%. По нашим оценкам, это экономит 1–2 регенерации на серию — а это $0.5 за регенерацию на Veo 3, или около ₽45–90 за каждый сэкономленный прогон.

Если интересно, какой именно TTS-движок мы используем под капотом и почему ElevenLabs v3 для русского выигрывает у Murf и OpenAI Voice — у нас есть отдельный тест Озвучка AI-Shorts 2026: ElevenLabs v3 vs OpenAI vs Murf.

Длинные ролики: chunk-продолжения (ITER-078 → 086)

Простая правда: в мае 2026 ни одна публичная модель не делает 60-секундное видео одним проходом. Sora 2 — 20–25 секунд, Veo 3.1 — 8 секунд, Runway Gen-4 — около 10 секунд, Kling 1.6 — 5–10. Чтобы сделать 60-секундный шортс, нужна цепочка. Мы перепрошили шаги Step 8 → Step 10 под это.

  • Step 8 (сценарий) теперь умеет переписывать ролик целиком через fullScriptRewrite (бюджет 3 → 5 кредитов, ITER-071) — без необходимости править каждый чанк руками.
  • Step 9 стал чисто детерминированным (ITER-060 Phase 2): считает количество чанков, длину, переходы. Без LLM-разброса.
  • Step 10 — отдельный chunk-producer LLM. Видит выбранного кандидата (ITER-060 Phase 1.1) и наследует контекст из писателя.

Связь между чанками держится на parent-keyframe: последний кадр предыдущего чанка идёт как референс в следующий. В UI это видно как tree-list со связями (ITER-079). Если вы запустили generation первого чанка через «firstOnly», теперь над оставшимися висит CTA «Сгенерировать оставшиеся» (ITER-078) — не нужно искать кнопку.

И отдельная hard-rule в продюсере (ITER-080/081): новый персонаж = новая сцена. Если в чанке появляется герой, которого не было в предыдущем — генерируется новая сцена с keyframe-склейкой, а не «впихнуть в кадр». Иначе Veo путается и убивает консистентность.

Self-heal пайплайна и стабильность рендера

Это менее эффектная, но более деньги-сохраняющая часть релиза. Сводка ниже.

Что было сломаноЧто починилиIter
Задача застревала в refs_chars_running / refs_scenes_running без таймаута/run-полл сам перезапускает заглохший шагITER-084
keyframe_last падал на continuation-чанках вместо «отложить»Defer, а не failITER-085
Если Veo не возвращал actual_last — терялся весь MP4Harden veo settle + резервный путьITER-086
ffmpeg отсутствовал на serverless-инстансе → render failedБандл ffmpeg-binary в деплойITER-086
pollImage ловил CDN-кэш fra1 → flicker previewCache-bust + кэш подписанных URLITER-074
OpenAI content-policy отклонял картинку → render deadFallback на nano-banana + санитайз пользовательского текстаITER-077
Шаги в боковой панели терялись на legacy-черновикахСервер инферит furthestStep из артефактовITER-082, 083

Главный эффект для пользователя: доля «потерянных» серий из-за инфраструктуры упала примерно в 4 раза (по логам Step 11 за последние 7 дней). Для тарифа Creator (₽2,075/мес, 5 000 ◈, ≈6 серий в месяц) это разница между «6 серий пришли» и «3 пришли, 3 надо реран». Если ещё не знакомы с тарифами — /pricing с разбором.

Сценарий: кросс-провайдерный fallback (ITER-064 → 066)

Тихая, но важная часть. Раньше, если Gemini 2.5 (наш основной script LLM) уходил в техобслуживание — серия вставала. Теперь:

  1. Первая попытка — Gemini 2.5. Дорогую Gemini 2.5 Pro мы убрали как fallback из стоимостных соображений (ITER-064).
  2. Падает — Anthropic Haiku 4.5.
  3. Падает Haiku — OpenAI gpt-5-4 (после правки slug и shape, ITER-064 followup 2).

Бюджет LLM-chain поднят с 120 → 165 секунд (ITER-063), чтобы fallback успевал отработать. И отдельная боль: Haiku обрезал русский JSON на дефолтных 4096 токенах — это правлено бампом до 8192 (ITER-066).

Что это значит на практике: за последнюю неделю мы видим 0 «упавших» серий из-за script-LLM, против ~12% до ITER-064. Подробное сравнение моделей для сценария — ChatGPT-5 vs Claude 4.7 vs Gemini 2.5 для AI-Shorts 2026.

Welder vs Veo 3 vs Sora 2: где мы стоим

Честный взгляд. Welder не выигрывает у Veo 3.1 в качестве отдельного кадра — мы работаем поверх Veo. И не выигрывает у Sora 2 в длине одного клипа — Sora 2 рисует 20–25 секунд, мы зависим от 8-секундных бёрстов Veo 3.

ПараметрWelder AI (май 2026)Veo 3.1 (raw)Sora 2 (raw)
Длина непрерывного клипа8 сек × N чанков с parent-keyframe8 сек20–25 сек
РазрешениеДо 1080p (4K на Studio)4K @ 60fps1080p
Мульти-голос (RU)VOICE LOCK chain + ElevenLabs v33–5 регенераций на сложный диалогРекомендуют доводить в посте
Сценарий → видеоСквозной пайплайн с правкой на каждом шагеТолько промптТолько промпт
Цена за серию (RU)от ₽137 (Starter) до ₽271 (Studio)≈$0.5 за 8 сек × N$20/мес в ChatGPT Plus
Карта РФДа, без VPNЧерез проксиЧерез прокси

Где мы выигрываем: оркестрация (ниша → 10 готовых роликов), RU-голоса с lock'ом по серии, оплата с российской карты, прогнозируемая стоимость на ролик. Где проигрываем: качество одного кадра у Veo 3.1 raw + длина одного клипа у Sora 2. Если вам нужен один киношный 25-секундный кусок — берите Sora 2 напрямую. Если вам нужно 6 серий по 60 секунд каждую неделю — Welder снимет с вас половину рутины.

Что планируем дальше

Без обещаний, но прозрачно. Приоритеты на июнь 2026:

  1. Голосовое клонирование (Phase 2 тарифа Creator) — собственный голос за 30 секунд через ElevenLabs Voice Lab, с автоматической привязкой к персонажам серии.
  2. 4K-экспорт на Creator — пока 4K доступен только на Studio. Это требует пересборки рендер-этапа, но 1080p уже стало индустриальным минимумом.
  3. API-доступ для Studio — пока в Phase 2, движемся по этапам.
  4. Repurpose-режим: Reels → TikTok → Shorts → VK Клипы → Dzen → Telegram-канал одной кнопкой, с под-форматным ресайзом и перетипкой подписей. Конкуренты вроде Opus Clip и Submagic делают это с готового long-form; мы — с native short-form.
  5. Локализация RU→EN на одной кнопке: переписать сценарий + сгенерировать EN-голос ElevenLabs + ремэп подписей.

Если что-то из этого критично для вашего канала — ответьте на этот пост (или напишите в саппорт), мы приоритизируем по запросам, а не по «как удобнее команде».

Что делать прямо сейчас

Если вы уже на Welder — ничего перенастраивать не нужно: все апдейты применены автоматически. Просто попробуйте серию с диалогом двух персонажей — увидите VOICE LOCK на практике. На сложной нише (например, исторические диалоги или подкаст-фрагменты) разница ощутима с первого прогона.

Если ещё не запускали — пробная серия без карты на 1 500 ◈ (хватает примерно на 2 короткие серии). Этого достаточно, чтобы понять, подходит ли пайплайн под вашу нишу. Если планируете faceless-канал с нуля — наш свежий гайд Faceless канал на ИИ за выходные 2026: план 48 часов объясняет, что делать в первые 48 часов после регистрации.

Откройте dashboard и сделайте первую серию — это пять кликов и одно описание ниши. Дальше пайплайн отработает сам.

#update#welder#релиз#veo-3#voice-lock#ии-видео#elevenlabs#shorts