i2i-редактор кадра AI-Shorts 2026: 6 инструментов в тесте

Flux Kontext, Sora 2, Runway Aleph, Higgsfield Soul ID, Veo 3.1 и Welder — кто реально правит один кадр и не разваливает остальные.

Главное за 30 секунд

В июне 2026 «сгенерировать кадр» больше не главная задача — главная задача исправить один кадр и не сломать остальные. t2i-генерация стала commodity; настоящие деньги теперь в i2i-редакторах, которые понимают инструкцию «убери людей с заднего плана» и не превращают сцену в новую сцену.

Шесть инструментов реально работают в продакшен-пайплайне AI-Shorts на сегодня: Flux Kontext Pro от Black Forest Labs (инструкция-редактор), Runway Gen-4 Aleph (in-context video editor, 15 кредитов/сек), Sora 2 Storyboard от OpenAI (frame-by-frame в ChatGPT Pro), Higgsfield Soul ID 2.0 (character-лок на сотне кадров), Veo 3.1 Object Edit в Google Flow и Nano Banana Pro (Gemini 3 Pro Image). Седьмой — Welder true i2i внутри пайплайна voiceover-серий, с релиза 13 июня.

Дальше — кто что умеет, сколько стоит в реальных деньгах, где ломается и как собрать рабочий стек под канал на ИИ.

Почему i2i победил t2i к лету 2026

Год назад типичный AI-канал работал так: придумал промпт → нагенерил 10 вариантов → выбрал → если не подошёл, переписал промпт → ещё 10 вариантов. Цена переделки одного кадра — целый новый рендер плюс полная потеря визуальной преемственности.

К июню 2026 ситуация перевернулась. У зрителя глаз натренирован отличать «AI-slop» — однообразные лица, ватные руки, плывущая геометрия — за 0,8 секунды. Когда каналу нужна серийность (один герой, один стиль, одна вселенная на сотне роликов), кадр нужно редактировать точечно, а не перегенерировать целиком.

«i2i» в 2026 — это уже не «image-to-image variation» 2023 года, когда модель брала картинку и выдавала «похожую». Современный i2i-редактор берёт картинку плюс текстовую инструкцию и меняет только то, что попросили. Лицо героя, поза руки, фон, освещение — каждое можно править отдельно, остальное остаётся посимвольно тем же.

Это и есть гонка года: чей i2i-редактор быстрее, дешевле и точнее на длинной серии.

Flux Kontext Pro: инструкция вместо нового промпта

Flux Kontext Pro от Black Forest Labs — фактический стандарт инструкционного i2i в 2026. Модель обучена не на «вот промпт, дай картинку», а на «вот картинка, вот инструкция, дай ту же картинку с этим изменением».

В отличие от классических редакторов Midjourney V7 и Stable Diffusion, где для замены объекта нужно нарисовать маску, Kontext Pro понимает запросы вида «замени красную чашку на синюю», «убери второго человека слева», «измени время суток на закат» — и делает только это. Согласно официальной документации Black Forest Labs, модель работает примерно в 8 раз быстрее GPT-Image-1 для типичных правок и сохраняет неизменными «свет, композицию, настроение».

Минусы конкретные: цена через fal.ai или Replicate — около $0.04 за правку 1 МП кадра, что при 30 ключевых кадрах серии даёт ~$1.2 одной итерации. Плюс модель не работает с видео; для коротких роликов вы редактируете отдельные ключевые кадры и потом скармливаете их в video-генератор.

Где это критично сейчас: персонажные обложки, ремонт лиц в первой секунде ролика, замена логотипов под бренд-интеграцию без полной пересборки сцены.

Sora 2 Storyboard: кадр-за-кадром, но в одной экосистеме

Sora 2 от OpenAI в актуальной редакции 2026 года вместо «обычного i2i-редактора» предлагает Storyboard — режим, где вы покадрово конструируете видео внутри ChatGPT Pro ($20/мес).

В Storyboard каждый кадр — отдельный таймлайн-блок. Вы можете заменить один блок, оставив остальные нетронутыми, или попросить Sora «достроить» промежуточные кадры между двумя ключевыми. Модель синхронно генерирует аудио и держит 15–25 секунд непрерывной сцены — против 6 секунд в первой версии.

Плюс честный: никаких дополнительных счетов. Storyboard входит в подписку ChatGPT Pro. Для соло-креатора, которому нужно 5–10 роликов в неделю, это рекордно дёшево по сравнению с pay-per-second у Runway.

Минусы тоже честные. Контроль над персонажем грубый — у Sora 2 нет character lock, каждый Storyboard живёт сам по себе, и герой во втором ролике серии может оказаться «похожим, но другим лицом». Для серии из 30 роликов под одного героя это убийственно. Кроме того, Sora 2 в РФ напрямую недоступна — нужен зарубежный аккаунт + способ оплаты, что в 2026 году означает либо VPN-крюк, либо посредника.

Runway Gen-4 Aleph: единственный честный video-in-video редактор

Runway Gen-4 Aleph — другой полюс. Это in-context video editor: вы загружаете уже готовый клип, пишете инструкцию, опционально подкидываете reference image, и Aleph меняет конкретный объект внутри клипа, сохраняя движение и тайминги.

Согласно официальному changelog Runway, Aleph умеет четыре операции в одном клике: добавлять и удалять объекты, заменять персонажей, синтезировать другой ракурс камеры из той же сцены, переделывать освещение и цветокоррекцию. Цена — 15 кредитов за секунду отредактированного видео, что на платном тарифе Pro даёт около $0.30 за секунду.

В числах для канала: серия из 30 роликов по 15 секунд = 450 секунд = ~$135 если пересобирать всё. Но это только если редактируете каждую секунду. Реалистичный сценарий — править 1–2 ключевые секунды каждого ролика, и тогда счёт ~$15 за серию.

Серьёзный минус: Aleph задаёт высокую планку «исходник должен быть нормально снят». Если в исходном клипе уже плывёт персонаж, Aleph не починит — он только локально подменит объект на референс. Поэтому Aleph идеален не для «фиксеров AI-slop», а для перепаковки уже снятых клипов под новый сюжет или бренд.

Higgsfield Soul ID 2.0: герой не плывёт на сотне кадров

Higgsfield Soul ID 2.0 решает другую задачу — не «отредактируй один кадр», а «не дай персонажу плыть на сотне кадров подряд». Модель обучается на 20+ фотографиях вашего героя за 3 минуты, после чего каждая генерация в любом стиле и под любым ракурсом сохраняет идентичность.

Это история про серийность. Если у вас канал с одним рекуррентным героем — например, «гид по Старой Москве» или «учительница из 90-х» — без character lock серия развалится после 5-го ролика. Soul ID 2.0 в обзорах сообщества признают самым надёжным character-консистентным решением 2026 года.

Минусы. Soul ID работает на image-to-image слое, не на видео. Для серии вы готовите ключевые кадры через Soul ID, потом отдаёте их в Veo 3.1 или Runway — лишний шаг, лишняя подписка. Базовый тариф Higgsfield — от $9/мес, но реалистичный объём для канала на 30+ роликов выйдет ближе к $29–49/мес.

Если у вашего канала уже выстроен кастомный стиль через одну картинку-референс, Soul ID становится опциональным — стиль и так держит героя в узнаваемом каноне.

Veo 3.1 Object Edit и Nano Banana Pro: что у крупняка

Veo 3.1 внутри Google Flow Editor умеет object-level editing: добавить и убрать объект в готовом видео-клипе на 4, 6 или 8 секунд, при сохранении сцены и аудио. Доступ — через Google AI Studio (включён в Gemini Pro/Ultra-подписки) или Vertex AI API (~$0.50 за клип 8 сек в 1080p).

Для AI-Shorts это сильный аргумент, если вы уже сидите на Google-стеке. Veo 3.1 особо хорошо понимает физику движения, а lip-sync — лучший из всех t2v-моделей в 2026 (по тестам Artlist и RunDiffusion).

Nano Banana Pro — это Gemini 3 Pro Image, релиз июнь 2026. Image-only редактор, но с фантастически точным пониманием инструкций. «Сделай тень мягче», «убери логотип на футболке», «измени фон на ночной город» — каждая команда исполняется и не трогает остальное.

В сетке инструментов 2026 года Nano Banana Pro — прямой конкурент Flux Kontext, но дешевле через Gemini API (~$0.01 за вызов) и быстрее в среднем. Минус — на сложных композициях иногда «теряет понимание ракурса», что для редактуры кинематографических кадров критично.

Сравнительная таблица: 7 инструментов, 6 параметров

Инструмент	Сфера	Цена	Character lock	Video-in-video	RU-доступ
Flux Kontext Pro	image-only	~$0.04 / правка	через char-ref	нет	через fal.ai
Sora 2 Storyboard	image+video	$20/мес ChatGPT Pro	нет	покадрово	сложный
Runway Gen-4 Aleph	video-in-video	~$0.30 / сек	через reference image	да	через посредника
Higgsfield Soul ID 2.0	image-only	от $9/мес	да, лучший	нет	напрямую
Veo 3.1 Object Edit	video-in-video	~$0.50 за клип	через first/last frame	да	через Google Cloud
Nano Banana Pro	image-only	~$0.01 / вызов	средне	нет	через Google AI Studio
Welder true i2i	в пайплайне	от 290 ₽ за серию	да, через стиль-референс	в voiceover-сериях	напрямую, RU-карта

Полные тарифы Welder, включая i2i-правку и character-консистенцию, лежат на странице /pricing.

Welder true i2i: правка кадра внутри пайплайна, без двух подписок

В обновлении 13 июня 2026 мы переключили регенерацию сцен в режиме voiceover на настоящий i2i. Когда вы пишете «убери людей на фоне» или «3 персика вместо 4» поверх готового кадра, движок берёт КОНКРЕТНО ваш текущий кадр и редактирует его, а не пересобирает с нуля из char-ref.

До июня регенерация молча уходила в t2i из стиль-референса, и пользовательская правка терялась — кадр «успешно» обновлялся, но изменения, которые попросил пользователь, в новой версии не появлялись. Теперь поведение прямое: инструкция применяется поверх кадра, который вы видите на экране.

В сравнении с конкурентами:

Flux Kontext или Nano Banana Pro — внешние редакторы, нужно выкачивать кадр, править и закачивать обратно, плюс отдельная подписка/счёт.
Runway Aleph или Veo 3.1 Object Edit — умеют видео-в-видео, но не управляют сценарием, голосом, обложкой и расписанием — это всё остаётся вам.
Higgsfield Soul ID — герой держится отлично, но за сюжет, монтаж и публикацию отвечаете вы.

Welder склеивает четыре слоя в одном пайплайне: сценарий (LLM с маршрутизацией под Claude/GPT/Gemini), char-ref (стиль-консистенция, через сторибординг-логику), i2i-правка кадра и сборка с озвучкой ElevenLabs + субтитрами. Это единственный пайплайн в 2026 году, где правка одного кадра не требует переключения между 3–4 сервисами.

Минус честный: Welder не редактирует видео-в-видео как Aleph. Если у вас уже снятый материал и нужно подменить объект внутри готового клипа — это не наша задача, идите к Runway.

Какой стек собрать под канал в июне 2026

Три типичных сценария.

Соло-креатор, бюджет 5000 ₽/мес. Welder Pro на базу + Nano Banana Pro через Google AI Studio только для ручной правки обложек YouTube long-form, когда CTR важнее i2i внутри ролика. Storyboard у Sora 2 — мираж для РФ: без зарубежной карты и постоянной работы с VPN это не масштабируется на 5 роликов в день.

Агентство, 6 каналов и больше. Welder для серийной автогенерации основного потока + Runway Gen-4 Aleph для финальной правки топ-5% роликов, которые идут в платный трафик. Higgsfield Soul ID 2.0 — если у канала есть рекуррентный «лицевой» герой, например, узнаваемый ведущий-аватар.

Студия на Google-стеке. Veo 3.1 Object Edit в Flow Editor + Nano Banana Pro для статики + Welder поверх — для сериализации публикаций. Veo один отлично делает кадры, но не управляет автопостингом и серийностью.

Общее правило для всех: i2i-редактор стоит ровно столько, сколько стоит остаться в одном пайплайне. Каждое переключение в новый сервис — это 30 минут на повтор формата, цвет-коррекции и UTM-меток. На серии из 100 роликов это ~50 часов в год просто на «склейку» сервисов.

Действие на сегодня

Откройте свой следующий ролик и выпишите одно: где конкретно «AI-slop» подрывает retention. Лицо героя? Фон второй секунды? Движение в кадре?

Под каждый из этих диагнозов в 2026 есть точный инструмент, и три из них работают без зарубежных карт и VPN-крюков — Welder, Higgsfield Soul ID 2.0 и Nano Banana Pro через Google AI Studio.

Запустите первый ролик в Welder и посмотрите, как true i2i правит один кадр без пересборки серии. Это самый дешёвый способ понять, нужен ли вам ещё и внешний редактор сверху.