Главное за 30 секунд
В июне 2026 «сгенерировать кадр» больше не главная задача — главная задача исправить один кадр и не сломать остальные. t2i-генерация стала commodity; настоящие деньги теперь в i2i-редакторах, которые понимают инструкцию «убери людей с заднего плана» и не превращают сцену в новую сцену.
Шесть инструментов реально работают в продакшен-пайплайне AI-Shorts на сегодня: Flux Kontext Pro от Black Forest Labs (инструкция-редактор), Runway Gen-4 Aleph (in-context video editor, 15 кредитов/сек), Sora 2 Storyboard от OpenAI (frame-by-frame в ChatGPT Pro), Higgsfield Soul ID 2.0 (character-лок на сотне кадров), Veo 3.1 Object Edit в Google Flow и Nano Banana Pro (Gemini 3 Pro Image). Седьмой — Welder true i2i внутри пайплайна voiceover-серий, с релиза 13 июня.
Дальше — кто что умеет, сколько стоит в реальных деньгах, где ломается и как собрать рабочий стек под канал на ИИ.
Почему i2i победил t2i к лету 2026
Год назад типичный AI-канал работал так: придумал промпт → нагенерил 10 вариантов → выбрал → если не подошёл, переписал промпт → ещё 10 вариантов. Цена переделки одного кадра — целый новый рендер плюс полная потеря визуальной преемственности.
К июню 2026 ситуация перевернулась. У зрителя глаз натренирован отличать «AI-slop» — однообразные лица, ватные руки, плывущая геометрия — за 0,8 секунды. Когда каналу нужна серийность (один герой, один стиль, одна вселенная на сотне роликов), кадр нужно редактировать точечно, а не перегенерировать целиком.
«i2i» в 2026 — это уже не «image-to-image variation» 2023 года, когда модель брала картинку и выдавала «похожую». Современный i2i-редактор берёт картинку плюс текстовую инструкцию и меняет только то, что попросили. Лицо героя, поза руки, фон, освещение — каждое можно править отдельно, остальное остаётся посимвольно тем же.
Это и есть гонка года: чей i2i-редактор быстрее, дешевле и точнее на длинной серии.
Flux Kontext Pro: инструкция вместо нового промпта
Flux Kontext Pro от Black Forest Labs — фактический стандарт инструкционного i2i в 2026. Модель обучена не на «вот промпт, дай картинку», а на «вот картинка, вот инструкция, дай ту же картинку с этим изменением».
В отличие от классических редакторов Midjourney V7 и Stable Diffusion, где для замены объекта нужно нарисовать маску, Kontext Pro понимает запросы вида «замени красную чашку на синюю», «убери второго человека слева», «измени время суток на закат» — и делает только это. Согласно официальной документации Black Forest Labs, модель работает примерно в 8 раз быстрее GPT-Image-1 для типичных правок и сохраняет неизменными «свет, композицию, настроение».
Минусы конкретные: цена через fal.ai или Replicate — около $0.04 за правку 1 МП кадра, что при 30 ключевых кадрах серии даёт ~$1.2 одной итерации. Плюс модель не работает с видео; для коротких роликов вы редактируете отдельные ключевые кадры и потом скармливаете их в video-генератор.
Где это критично сейчас: персонажные обложки, ремонт лиц в первой секунде ролика, замена логотипов под бренд-интеграцию без полной пересборки сцены.
Sora 2 Storyboard: кадр-за-кадром, но в одной экосистеме
Sora 2 от OpenAI в актуальной редакции 2026 года вместо «обычного i2i-редактора» предлагает Storyboard — режим, где вы покадрово конструируете видео внутри ChatGPT Pro ($20/мес).
В Storyboard каждый кадр — отдельный таймлайн-блок. Вы можете заменить один блок, оставив остальные нетронутыми, или попросить Sora «достроить» промежуточные кадры между двумя ключевыми. Модель синхронно генерирует аудио и держит 15–25 секунд непрерывной сцены — против 6 секунд в первой версии.
Плюс честный: никаких дополнительных счетов. Storyboard входит в подписку ChatGPT Pro. Для соло-креатора, которому нужно 5–10 роликов в неделю, это рекордно дёшево по сравнению с pay-per-second у Runway.
Минусы тоже честные. Контроль над персонажем грубый — у Sora 2 нет character lock, каждый Storyboard живёт сам по себе, и герой во втором ролике серии может оказаться «похожим, но другим лицом». Для серии из 30 роликов под одного героя это убийственно. Кроме того, Sora 2 в РФ напрямую недоступна — нужен зарубежный аккаунт + способ оплаты, что в 2026 году означает либо VPN-крюк, либо посредника.
Runway Gen-4 Aleph: единственный честный video-in-video редактор
Runway Gen-4 Aleph — другой полюс. Это in-context video editor: вы загружаете уже готовый клип, пишете инструкцию, опционально подкидываете reference image, и Aleph меняет конкретный объект внутри клипа, сохраняя движение и тайминги.
Согласно официальному changelog Runway, Aleph умеет четыре операции в одном клике: добавлять и удалять объекты, заменять персонажей, синтезировать другой ракурс камеры из той же сцены, переделывать освещение и цветокоррекцию. Цена — 15 кредитов за секунду отредактированного видео, что на платном тарифе Pro даёт около $0.30 за секунду.
В числах для канала: серия из 30 роликов по 15 секунд = 450 секунд = ~$135 если пересобирать всё. Но это только если редактируете каждую секунду. Реалистичный сценарий — править 1–2 ключевые секунды каждого ролика, и тогда счёт ~$15 за серию.
Серьёзный минус: Aleph задаёт высокую планку «исходник должен быть нормально снят». Если в исходном клипе уже плывёт персонаж, Aleph не починит — он только локально подменит объект на референс. Поэтому Aleph идеален не для «фиксеров AI-slop», а для перепаковки уже снятых клипов под новый сюжет или бренд.
Higgsfield Soul ID 2.0: герой не плывёт на сотне кадров
Higgsfield Soul ID 2.0 решает другую задачу — не «отредактируй один кадр», а «не дай персонажу плыть на сотне кадров подряд». Модель обучается на 20+ фотографиях вашего героя за 3 минуты, после чего каждая генерация в любом стиле и под любым ракурсом сохраняет идентичность.
Это история про серийность. Если у вас канал с одним рекуррентным героем — например, «гид по Старой Москве» или «учительница из 90-х» — без character lock серия развалится после 5-го ролика. Soul ID 2.0 в обзорах сообщества признают самым надёжным character-консистентным решением 2026 года.
Минусы. Soul ID работает на image-to-image слое, не на видео. Для серии вы готовите ключевые кадры через Soul ID, потом отдаёте их в Veo 3.1 или Runway — лишний шаг, лишняя подписка. Базовый тариф Higgsfield — от $9/мес, но реалистичный объём для канала на 30+ роликов выйдет ближе к $29–49/мес.
Если у вашего канала уже выстроен кастомный стиль через одну картинку-референс, Soul ID становится опциональным — стиль и так держит героя в узнаваемом каноне.
Veo 3.1 Object Edit и Nano Banana Pro: что у крупняка
Veo 3.1 внутри Google Flow Editor умеет object-level editing: добавить и убрать объект в готовом видео-клипе на 4, 6 или 8 секунд, при сохранении сцены и аудио. Доступ — через Google AI Studio (включён в Gemini Pro/Ultra-подписки) или Vertex AI API (~$0.50 за клип 8 сек в 1080p).
Для AI-Shorts это сильный аргумент, если вы уже сидите на Google-стеке. Veo 3.1 особо хорошо понимает физику движения, а lip-sync — лучший из всех t2v-моделей в 2026 (по тестам Artlist и RunDiffusion).
Nano Banana Pro — это Gemini 3 Pro Image, релиз июнь 2026. Image-only редактор, но с фантастически точным пониманием инструкций. «Сделай тень мягче», «убери логотип на футболке», «измени фон на ночной город» — каждая команда исполняется и не трогает остальное.
В сетке инструментов 2026 года Nano Banana Pro — прямой конкурент Flux Kontext, но дешевле через Gemini API (~$0.01 за вызов) и быстрее в среднем. Минус — на сложных композициях иногда «теряет понимание ракурса», что для редактуры кинематографических кадров критично.
Сравнительная таблица: 7 инструментов, 6 параметров
| Инструмент | Сфера | Цена | Character lock | Video-in-video | RU-доступ |
|---|---|---|---|---|---|
| Flux Kontext Pro | image-only | ~$0.04 / правка | через char-ref | нет | через fal.ai |
| Sora 2 Storyboard | image+video | $20/мес ChatGPT Pro | нет | покадрово | сложный |
| Runway Gen-4 Aleph | video-in-video | ~$0.30 / сек | через reference image | да | через посредника |
| Higgsfield Soul ID 2.0 | image-only | от $9/мес | да, лучший | нет | напрямую |
| Veo 3.1 Object Edit | video-in-video | ~$0.50 за клип | через first/last frame | да | через Google Cloud |
| Nano Banana Pro | image-only | ~$0.01 / вызов | средне | нет | через Google AI Studio |
| Welder true i2i | в пайплайне | от 290 ₽ за серию | да, через стиль-референс | в voiceover-сериях | напрямую, RU-карта |
Полные тарифы Welder, включая i2i-правку и character-консистенцию, лежат на странице /pricing.
Welder true i2i: правка кадра внутри пайплайна, без двух подписок
В обновлении 13 июня 2026 мы переключили регенерацию сцен в режиме voiceover на настоящий i2i. Когда вы пишете «убери людей на фоне» или «3 персика вместо 4» поверх готового кадра, движок берёт КОНКРЕТНО ваш текущий кадр и редактирует его, а не пересобирает с нуля из char-ref.
До июня регенерация молча уходила в t2i из стиль-референса, и пользовательская правка терялась — кадр «успешно» обновлялся, но изменения, которые попросил пользователь, в новой версии не появлялись. Теперь поведение прямое: инструкция применяется поверх кадра, который вы видите на экране.
В сравнении с конкурентами:
- Flux Kontext или Nano Banana Pro — внешние редакторы, нужно выкачивать кадр, править и закачивать обратно, плюс отдельная подписка/счёт.
- Runway Aleph или Veo 3.1 Object Edit — умеют видео-в-видео, но не управляют сценарием, голосом, обложкой и расписанием — это всё остаётся вам.
- Higgsfield Soul ID — герой держится отлично, но за сюжет, монтаж и публикацию отвечаете вы.
Welder склеивает четыре слоя в одном пайплайне: сценарий (LLM с маршрутизацией под Claude/GPT/Gemini), char-ref (стиль-консистенция, через сторибординг-логику), i2i-правка кадра и сборка с озвучкой ElevenLabs + субтитрами. Это единственный пайплайн в 2026 году, где правка одного кадра не требует переключения между 3–4 сервисами.
Минус честный: Welder не редактирует видео-в-видео как Aleph. Если у вас уже снятый материал и нужно подменить объект внутри готового клипа — это не наша задача, идите к Runway.
Какой стек собрать под канал в июне 2026
Три типичных сценария.
Соло-креатор, бюджет 5000 ₽/мес. Welder Pro на базу + Nano Banana Pro через Google AI Studio только для ручной правки обложек YouTube long-form, когда CTR важнее i2i внутри ролика. Storyboard у Sora 2 — мираж для РФ: без зарубежной карты и постоянной работы с VPN это не масштабируется на 5 роликов в день.
Агентство, 6 каналов и больше. Welder для серийной автогенерации основного потока + Runway Gen-4 Aleph для финальной правки топ-5% роликов, которые идут в платный трафик. Higgsfield Soul ID 2.0 — если у канала есть рекуррентный «лицевой» герой, например, узнаваемый ведущий-аватар.
Студия на Google-стеке. Veo 3.1 Object Edit в Flow Editor + Nano Banana Pro для статики + Welder поверх — для сериализации публикаций. Veo один отлично делает кадры, но не управляет автопостингом и серийностью.
Общее правило для всех: i2i-редактор стоит ровно столько, сколько стоит остаться в одном пайплайне. Каждое переключение в новый сервис — это 30 минут на повтор формата, цвет-коррекции и UTM-меток. На серии из 100 роликов это ~50 часов в год просто на «склейку» сервисов.
Действие на сегодня
Откройте свой следующий ролик и выпишите одно: где конкретно «AI-slop» подрывает retention. Лицо героя? Фон второй секунды? Движение в кадре?
Под каждый из этих диагнозов в 2026 есть точный инструмент, и три из них работают без зарубежных карт и VPN-крюков — Welder, Higgsfield Soul ID 2.0 и Nano Banana Pro через Google AI Studio.
Запустите первый ролик в Welder и посмотрите, как true i2i правит один кадр без пересборки серии. Это самый дешёвый способ понять, нужен ли вам ещё и внешний редактор сверху.