ElevenLabs v3 vs OpenAI vs Yandex: AI-озвучка Shorts 2026

Тест семи движков на 12 русскоязычных промптах: цена за минуту, эмоциональный диапазон, длительность рендера. Что брать под faceless-канал, B2B и контент для РФ.

Главное за 30 секунд

В июне 2026 года рынок русскоязычной AI-озвучки распался на три лагеря. ElevenLabs v3 (GA с февраля 2026) стал стандартом для эмоциональных faceless-каналов: audio-теги [whispers] и [excited] пишутся прямо в скрипте, рендер длится 6–9 секунд на минуту озвучки, цена — ≈$0.20 за минуту на тарифе Creator ($22/мес за 100 000 символов).

OpenAI gpt-4o-mini-tts (анонс март 2025) — самый дешёвый в нише: $0.015 за минуту озвучки. Но Russian-голоса звучат как «слабая» Алиса 2022-го, и эмоций через instructions по-русски почти не вытянуть. Yandex SpeechKit с голосами Алёна и Джейн остаётся главным «легальным по ФЗ-152» вариантом для офлайн-бизнеса и подкастов на территории РФ; Sber SaluteSpeech даёт семь голосов и эмоции, но в пайплайн Shorts вшивается тяжелее.

PlayHT в 2026-м закрылся, миграция официально рекомендована в ElevenLabs или Resemble. Resemble AI остался enterprise-only с ватермарками и deepfake-детектором. Murf поддерживает русский, но голосов — три, и все «фоновые». Suno v5.5 (март 2026) клонирует голос, но только для пения — для нарратива не подходит.

Если коротко: для AI-Shorts на русском в 2026 году 99% задач закрывают два движка — ElevenLabs v3 для контента и OpenAI mini-tts для B2B-роботов. Всё остальное — нишевые случаи. Дальше — детальный тест.

Что мы тестировали

Взяли 12 промптов из реальных faceless-ниш, по которым в блоге уже разбирали кейсы — инженерные катастрофы, история бокса, биохакинг, кораблекрушения. Каждый промпт — 80–120 секунд закадрового текста с тремя обязательными эмоциональными точками: вступление (драйв), середина (анализ), финал (ставка или вопрос).

Метрики:

Натуральность по-русски — слепой опрос 40 RU-носителей, шкала 1–10, по каждой записи случайно три голоса из шести
Длительность рендера — секунды от POST до готового MP3 для минуты озвучки
Цена за минуту озвучки — в долларах и рублях, с учётом overage за лимиты подписки
Эмоциональный диапазон — отличает ли движок шёпот от крика, грусть от радости
Длина за раз — сколько секунд можно сгенерить одним вызовом без склейки
API-готовность — есть ли SDK, документация, стабильность на нагрузке

Все семь движков прогоняли в один день — 4 июня 2026 года — чтобы сравнить честно. Голоса для каждого подбирали по их же документации, не самые экспериментальные.

Сравнительная таблица — 7 движков

Движок	Версия	Натуральность RU (10)	Эмоции	Цена за минуту	Длина за раз	Лучше всего для
ElevenLabs v3	GA фев 2026	9.1	Audio-теги, шёпот → крик	$0.20 (Creator) / $0.10 (Pro)	до 10 мин	Faceless Shorts, истории, документалки
OpenAI gpt-4o-mini-tts	март 2025	6.8	Steerable через `instructions`, слабо по-RU	≈$0.015	до 2.5 мин (2000 токенов)	B2B-роботы, длинные подкасты на бюджет
Yandex SpeechKit	API v3	8.4	5 эмоций, Алёна и Джейн	≈$0.30 (≈390 ₽ за 1М симв)	до 5000 симв	Подкасты для РФ, госконтент, ФЗ-152
Sber SaluteSpeech	2026	8.0	4 эмоции, 7 голосов RU/EN	≈$0.25 (≈300 ₽ за 1М симв)	до 4000 симв	Корпоратив, IVR, Telegram-боты
Resemble AI	Localize 2026	8.7	8 эмоций, watermark + детектор	≈$0.40 (от Pro $99/мес)	до 5 мин	Enterprise с юр-отчётностью
Murf AI	v3	6.1	Базовые pace и pitch	≈$0.25 (Pro $19/мес)	до 3 мин	Презентации, обучающие ролики
Suno v5.5	март 2026	n/a (поёт)	Через жанр и стиль	≈$0.08 за трек	4–8 мин трек	Музыкальный фон, jingle, openings

Сразу заметно: ни один из «топовых» зарубежных движков не дотянул до 9.5 по натуральности на длинных RU-текстах. Лучший показатель — ElevenLabs v3 (9.1), и берёт он не безупречной фонетикой, а контролем эмоций через audio-теги.

ElevenLabs v3 — премиум за эмоции

ElevenLabs v3 вышел в публичную альфу 5 июня 2025-го и получил GA-статус в феврале 2026-го. Ключевое нововведение — audio tags: вы пишете в скрипте [whispers] это нельзя рассказывать [normal] но я расскажу. [excited] слушай!, и модель отыгрывает эти инструкции с почти актёрской точностью. Для коротких роликов это меняет всё: вместо четырёх дублей вы пишете теги и отдаёте на рендер.

Тариф Creator — $22/мес за 100 000 символов на Multilingual v3, что приблизительно равно 130 минутам озвучки. Pro даёт 500 000 символов за $99/мес и снижает overage до $0.24 за 1000 символов. На объёме одного активного faceless-канала (10 роликов в день, ~25 минут озвучки) Creator закрывает потребность с запасом; на сетке из 4 каналов нужен Pro.

Поддержка RU прошла серьёзный апгрейд: голоса вроде «Aleksandr Rovinskiy» и «Anastasia» (свободно доступны в библиотеке) звучат без характерного «иностранного» акцента. Audio-теги работают на русском частично — [laughs], [sighs], [whispers] отрабатываются стабильно; [excited] и [sad] — в 70% случаев попадает в тон.

Минус: оплата по символам, а не по словам. Длинное русское слово «достопримечательностей» — 22 символа против 5 английских. Для одинаковой минуты озвучки русский текст обходится примерно в 1.3× дороже, чем английский.

API стабильный: SDK для Node, Python, Go, webhook-нотификации, стриминг через WebSocket для realtime-сценариев. Для faceless-канала всё это избыточно — обычный синхронный вызов через REST на 60 секунд отрабатывает за 8 секунд. Тариф и план подписки можно дополнительно сверить в нашем разборе цен, где встроенная в Welder озвучка пересчитана в стоимость серии.

OpenAI gpt-4o-mini-tts — копейки за минуту, но без надрыва

OpenAI gpt-4o-mini-tts — анонс март 2025, самый дешёвый из «топовых» в 2026-м: $0.60 за 1М input-токенов + $12 за 1М audio-output-токенов, что в пересчёте даёт ≈$0.015 за минуту. 13 голосов, 50+ языков, и главная фишка — steerable tone через параметр instructions: можно написать «Speak in a warm, reassuring tone with occasional pauses for emphasis», и модель адаптирует подачу.

На бумаге звучит идеально. На практике с русским — провал по эмоциональному диапазону. Голос Onyx читает русский текст разборчиво, но монотонно: вы можете попросить «excited tone in Russian», и модель выдаст ту же интонацию с чуть приподнятыми концами фраз. Это уровень Алисы 2022 года, а не ElevenLabs v3.

Где OpenAI оправдан:

Длинные подкасты (40+ минут) на бюджет — за минуту берёт $0.015 против $0.20 у ElevenLabs Creator
B2B-роботы и IVR — где не нужна актёрская игра, нужна разборчивость
Прототипирование ниши — пока тестируете идею, не имеет смысла платить $22/мес

Лимит на запрос — 2000 токенов (≈2.5 минуты озвучки за вызов). Для Shorts на 40–60 секунд это не проблема. Для длинных нарративов нужна склейка из 3–4 кусков, что добавляет +10 секунд к пайплайну на рендер.

Отдельный плюс — нет «тарифа за подписку», только pay-as-you-go. Подходит студиям, которые не хотят держать $99/мес ElevenLabs Pro в простое летом, когда нагрузка падает.

Yandex SpeechKit и SaluteSpeech — где платить рублём

В РФ есть два аргумента в пользу отечественных TTS: ФЗ-152 (персональные данные не покидают страну) и оплата прямо рублями с НДС. Для офлайн-бизнеса, региональных каналов и контента под госзакупки это критично.

Yandex SpeechKit в 2026-м — это API v3 с голосами Алёна, Джейн, Эрмиль и пятью режимами эмоций (neutral, good, evil, friendly, whisper). Тарификация — по символам, ≈390 ₽ за 1М символов на premium-голоса. Это близко к ElevenLabs Pro по доллару за минуту, но в рублях, с прозрачным счётом-фактурой и поддержкой на русском в чате.

Ограничения:

Только русский и английский — никаких 70+ языков, как у ElevenLabs
Лимит 5000 символов на запрос — для Shorts хватает, для аудиокниг нужна склейка
Качество эмоций уступает audio-тегам ElevenLabs — evil звучит театрально, whisper — почти прошёптано, но без полутонов между крайностями

Sber SaluteSpeech — конкурирующее решение от Сбера с семью голосами на русском и английском и четырьмя режимами эмоций. Тариф мягче (~300 ₽ за 1М символов), есть бесплатные квоты на старте. Для Telegram-ботов и корпоративных IVR — отличный выбор; для AI-Shorts с эмоциональной подачей — слабее ElevenLabs v3.

Когда брать Yandex или Sber, а не ElevenLabs: если ваш заказчик — банк, госкорпорация, медицинская клиника, или вы строите контент с целевой РФ-аудиторией (включая B2B-агентство, которое позже захочет участвовать в тендере). Во всех остальных случаях ElevenLabs v3 даёт больше актёрской выразительности при сопоставимой цене за минуту.

Resemble, Murf и почему PlayHT можно вычеркнуть

Resemble AI позиционируется как enterprise-grade платформа: высокая точность клонирования голоса, встроенные watermarking и deepfake-детекция, API-first архитектура. Голос на русском — есть, качество — 8.7 по нашей шкале (близко к Yandex). Цена — от $99/мес тариф Pro, на минуту выходит ≈$0.40. Брать имеет смысл, если вашему клиенту нужна юридическая отчётность по AI-голосу: кто его сгенерировал, можно ли отследить, не используется ли для мошенничества. Для faceless-канала на TikTok — overkill.

Murf AI — старичок рынка. В 2026-м поддерживает русский, но всего три голоса, все в нарративном стиле. Качество 6.1 — годится для презентаций и обучающих видео, но для Shorts проигрывает даже SaluteSpeech. Цена нормальная ($19/мес Pro), но смысла нет, если вы целитесь в Reels и TikTok с быстрой подачей.

PlayHT — закрылся в 2026-м. Официальная рекомендация миграции: ElevenLabs (для качества) или Resemble (для безопасности). Если у вас остался pipeline на PlayHT — переезжайте сейчас, пока их API ещё отвечает 200-ми.

Сравнительная картинка по затратам: на 100 минут озвучки в месяц на русском вы потратите $20 на ElevenLabs Creator, $1.5 на OpenAI mini-tts, ≈1170 ₽ на Yandex SpeechKit, ≈900 ₽ на SaluteSpeech, $40 на Resemble Pro, $19 на Murf Pro. Разброс в 25× между OpenAI и Resemble показывает, насколько сильно расходник зависит от выбранного движка.

Какой движок под какую нишу — решающая матрица

Сценарий	Движок	Почему
Faceless YouTube Shorts, истории, документалки	ElevenLabs v3	Эмоции через audio-теги, аутентичный русский
TikTok-каналы на бюджет, серии 50+ роликов в день	OpenAI gpt-4o-mini-tts	$0.015/мин делает Reels рентабельными при низком CPM
Подкасты, длинные нарративы для РФ-аудитории	Yandex SpeechKit	ФЗ-152 + натуральная Алёна
Корпоративный контент, IVR, обучение	SaluteSpeech	Дешевле Яндекса, 7 голосов, эмоции
Enterprise с audit trail и юр-отчётностью	Resemble AI	Watermark + deepfake-детектор
Музыкальный фон для роликов	Suno v5.5	Лучшее AI-музыка, см. наш разбор
Презентации и обучающие видео	Murf AI или Sber	Стабильный нарратив без претензий

Не пытайтесь выбрать «один универсальный движок» — этого нет в 2026 году. Faceless-сетка обычно держит две подписки: ElevenLabs v3 (Pro $99) для основного нарратива и OpenAI mini-tts для длинных ассетов и фонов.

Если вы только начинаете, не закладывайтесь на enterprise-инструменты. Купите ElevenLabs Creator за $22 и проведите свой первый месяц на нём. Когда наберёте 4 канала или начнёте упираться в лимит 100К символов — поднимайтесь на Pro или переключайтесь на пакетную озвучку в Welder.

Как мы делаем это в Welder

В Welder AI voiceover-режим — это сборка коротких роликов: ниша → скрипт → ElevenLabs v3 → сцены → выгоренные субтитры → автопостинг. Мы не реселлим ElevenLabs — мы оптимизируем пайплайн так, чтобы:

Скрипт генерится на русском через GPT-5.5 и Claude Opus 4.7 — без английского посередине, без машинных артефактов. Подробно об этом — в нашем сравнении AI-сценаристов
Voice picker предлагает RU-голоса первыми — вы не листаете 200 английских акцентов, чтобы найти Aleksandra
Audio-теги вставляются автоматически на основе анализа эмоциональной арки скрипта — в местах, где скрипт «гавкнул» сильнее, добавляется [excited], где затих — [whispers]
Готовое аудио уходит в композитор, где синхронизируется с burnt-in субтитрами; чтобы понять, какие субтитры реально вытягивают retention, см. разбор AI-субтитров
Первая секунда — отдельный pass: хук пишется так, чтобы выдержать audience drop в первые 1.5 секунды, и озвучка стартует с правильной эмоциональной точкой; шаблоны хуков — в материале 11 шаблонов первой секунды под Veo 3.1

В июне 2026 мы выпустили восемь фиксов voiceover-постинга, включая правильное определение Google-канала при подключении YouTube и self-heal привязки соцсетей при работе с несколькими аккаунтами. Если вы строите faceless-сетку и хотите забыть про ручную загрузку — Welder делает это за вас, через ElevenLabs под капотом.

Тариф у нас прозрачный — от 290 ₽ за серию из 10 роликов с озвучкой, обложками и автопостингом в TikTok, Reels и YouTube Shorts. На этом этапе вам не нужно держать $22/мес отдельной подпиской ElevenLabs — расходник уже встроен в стоимость серии.

С чего начать сегодня

Если вы сегодня впервые подходите к русской AI-озвучке для коротких роликов — план на 7 дней:

Сделайте свой первый видеоролик через Welder за вечер — без подписок и API-ключей. Зайти в дашборд и запустить серию из 5 роликов на любой нише занимает ~25 минут
Параллельно зарегистрируйтесь во Free ElevenLabs (10 000 символов в месяц) и сгенерите тот же сценарий с разными голосами — почувствуйте разницу между Aleksandr Rovinskiy и Mikhail
Через неделю, если контент пошёл и есть первые просмотры, переключитесь на Creator $22/мес — он закрывает потребность одного активного канала
Через месяц, если запустили вторую нишу, переходите на Pro $99/мес или (рекомендуем) на Welder, где озвучка идёт пакетом с генерацией сцен и постингом

Главный совет за 2500 слов: не платите за движок, у которого нет голоса, который вам нравится. Послушайте 4–6 кандидатов до подписки и фиксируйте выбор только тогда, когда два голоса звучат для вас «как человек, которого хочется слушать 60 секунд подряд». Всё остальное — техника, и в 2026 году она у топовых движков уже достаточно ровная.

Сделать первое видео с озвучкой через ElevenLabs v3 в один клик — welderai.ru/dashboard.