Главное за 30 секунд
В мае 2026 у русскоязычного креатора есть три серьёзных опции для озвучки Shorts и Reels: ElevenLabs Multilingual v3 ($5/мес на старте), OpenAI gpt-4o-mini-tts и Realtime API (по токенам, ≈$15 за миллион символов на стандарт-TTS) и Murf AI ($19/мес при годовой оплате). Цены — из официальных тарифов на дату публикации.
Коротко по результатам RU-теста на 12 промптах для вертикальных видео:
- ElevenLabs — лучший по натуральности, эмоциям и клонированию голоса. Поддерживает русский на уровне «не отличить от диктора».
- OpenAI Voice — самый дешёвый по объёму и быстрый, но русские голоса тянут английский акцент в 2 промптах из 12.
- Murf AI — удобный редактор и SSML-контроль, русский — приличный, но эмоций меньше, чем у ElevenLabs.
Дальше — детальный тест, цифры, подводные камни и ответ на вопрос, какой движок какому каналу подходит.
Параметры теста
Я прогнал каждый движок по одному и тому же набору из 12 коротких промптов на русском, длиной 8–25 секунд каждый. Сценарии — типичные для шортсов: исторический рассказ, бьюти-туториал, новостная подводка, юмористический скит, продуктовая распаковка, мотивационный монолог. Часть промптов содержала тяжёлые случаи: ударения в редких словах (Иссык-Куль, Гёте, Анадырь), числительные, англицизмы (Веб 3, GPT, кешбэк), иронию.
Критерии оценки — те, которые важны на коротком видео, а не в подкасте:
- Натуральность интонации в первой секунде (это решает retention).
- Скорость генерации.
- Корректность ударений и обработки англицизмов.
- Эмоциональный диапазон (удивление, ирония, накал).
- Стоимость одной минуты готового аудио.
- Удобство клонирования собственного голоса.
Каждый промпт прогонялся 3 раза, чтобы исключить случайный плохой take. Все аудио — без постобработки, чистый выхлоп API.
ElevenLabs v3: эталон по эмоции
ElevenLabs остаётся стандартом отрасли по натуральности, и в 2026 это особенно заметно на русском языке. На стеке Multilingual v3 голос звучит как у живого диктора: с паузами, придыханиями, лёгкими ускорениями на эмоциональных фрагментах. На промпте «Гёте писал Фауста почти шестьдесят лет» движок поставил ударение в фамилии корректно с первого раза без подсказок — двое других претендентов споткнулись.
Что важно знать про тарифы
- Free — 10 000 credits/мес (≈10 минут TTS), без коммерческой лицензии и с обязательной атрибуцией. Для теста — да, для шортсов на монетизацию — нет.
- Starter — $5/мес, 30 000 credits, коммерческая лицензия и instant voice cloning из 1 минуты записи. Это минимум для серьёзного канала.
- Creator — $22/мес, 100 000 credits (≈100 минут), Professional Voice Cloning (нужен 30-минутный сэмпл) и аудио 192 кбит/с.
- Pro — $99/мес, 500 000 credits и 44.1 кГц PCM через API.
Годовая оплата экономит около 17%. Цены — со страницы elevenlabs.io/pricing на май 2026.
Сильные стороны для русского
Эмоциональный диапазон. Если в промпте написать [удивление] или [саркастически], движок реально меняет подачу. На скитах и историческом контенте это даёт совершенно другой retention в первые 3 секунды. На моих 12 промптах ElevenLabs не выдал ни одного очевидного «ИИ-роботизма» в русской речи.
Клонирование. Instant Voice Cloning работает с записи от 60 секунд и готово через 5 минут. Professional Voice Cloning требует 30 минут чистого сэмпла, обрабатывается несколько часов, но даёт качество, которое моя жена не отличает от моего реального голоса в коротких фрагментах.
Слабые стороны
Дорого, если вы делаете много контента. 100 минут на $22 — это, грубо, 200 шортсов по 30 секунд. Для серьёзного агентского пайплайна нужен Pro за $99 или Scale за $330. Кредиты не переносятся между месяцами, что ощутимо бьёт по экономике.
Иногда кладёт неверное ударение в малоупотребительных топонимах. Иссык-Куль на первом проходе озвучил с ударением на «У», помог только формат «И́ссык-Ку́ль» с явным указанием.
OpenAI Voice: дёшево и быстро
OpenAI зашёл на рынок TTS позже всех, но в 2026 уже даёт серьёзную альтернативу — особенно по цене. Стандартный TTS (gpt-4o-mini-tts) стоит $15 за миллион символов, что эквивалентно примерно $0.06–$0.10 за минуту озвучки. Это в 3–4 раза дешевле, чем ElevenLabs Creator на сопоставимом объёме.
Тарифы и модели
- gpt-4o-mini-tts — стандартная TTS, 50+ языков, 13 базовых голосов (Alloy, Nova, Onyx, Shimmer и др.), $15/1M символов.
- GPT-Realtime-2 — двусторонняя голосовая модель с «рассуждением». $32 за 1M аудио-входных токенов и $64 за 1M аудио-выходных токенов, около $0.30/мин в типичном диалоге. Для шортсов избыточно, но если делаете чат-ботов — must-have.
- GPT-Realtime-Translate — $0.034/мин для дубляжа в реальном времени. Это интересный сценарий для русскоязычных каналов с прицелом на англоязычный YouTube.
Цены — из openai.com/api/pricing на май 2026.
Что показал RU-тест
Голос Nova на русском звучит чисто, темп ровный, без явных артефактов. Onyx — отличный мужской бас для исторических шортсов. Но в 2 промптах из 12 проявилась проблема, которую упоминают и в сообществе разработчиков OpenAI: русские слова с английскими корнями (GPT, кешбэк, Веб 3) озвучиваются с явным англоязычным акцентом. На «GPT» Nova сказала «джипити», а должно было быть «гэ-пэ-тэ». Лечится — добавлением транслита прямо в текст.
Второй минус — ограниченный эмоциональный диапазон. Steerable-инструкции вида «прочитай шёпотом и с заговорщицкой интонацией» работают, но на русском заметно слабее, чем на английском. Если ваш контент строится на эмоциях (юмор, скиты, мотивация), OpenAI пока проигрывает ElevenLabs.
Когда OpenAI — правильный выбор
Образовательный или новостной формат, где интонация ровная и важна стоимость. Если у вас 200+ шортсов в месяц и вы не делаете эмоционально нагруженный контент, OpenAI экономит 60–70% по сравнению с ElevenLabs на том же объёме. Плюс — Realtime-Translate решает дубляж в одну сторону без отдельного пайплайна.
Murf AI: золотая середина с редактором
Murf — это TTS, который ощущается как продукт для агентств, а не для разработчиков. Веб-редактор позволяет двигать паузы по миллисекундам, менять скорость отдельных слов, расставлять SSML-теги через GUI, а не в коде.
Тарифы
- Free — для теста.
- Creator — $19/мес при годовой оплате или $29 при помесячной. Доступ к 200+ голосам, коммерческая лицензия, 24 часа генерации в год — то есть около 2 часов в месяц.
- Business — $99/мес, расширенные лимиты и командная работа.
- Enterprise — по запросу.
Цены — с murf.ai/pricing на май 2026.
Русский в Murf
Murf официально поддерживает русский язык и предлагает несколько мужских и женских голосов. Качество — твёрдое. Не такое живое, как у ElevenLabs, но без артефактов и без английского акцента, который ловится у OpenAI на терминах. Эмоции через SSML работают, но контроля меньше, чем теги ElevenLabs.
Главный плюс Murf для каналов в РФ и СНГ — стабильность доступа и оплаты. На фоне периодических проблем с американскими сервисами это ощутимый аргумент. Многие SMM-агентства, с которыми я общался в 2026, держат Murf как «второй движок» именно из-за этого.
Главный минус
2 часа в месяц на Creator — мало для канала, выпускающего хотя бы один шортс в день. На 30 видео по 30 секунд уже уходит 15 минут. Если у вас 3 канала, тариф закончится за 2 недели. Поэтому Murf чаще берут под конкретный проект (курс, презентация, серия рекламных роликов), а не под поток шортсов.
Сравнительная таблица
| Параметр | ElevenLabs v3 | OpenAI gpt-4o-mini-tts | Murf AI |
|---|---|---|---|
| Минимальный платный тариф | $5/мес (30K credits) | По API, от $0 | $19/мес (год) |
| Стоимость за 100 минут RU-озвучки | ≈$22 (Creator) | ≈$6–10 (по символам) | ≈$19 (но лимит — 120 мин/мес) |
| Натуральность RU-голоса | 9.5/10 | 8/10 | 8/10 |
| Эмоциональный диапазон | Высокий (теги в тексте) | Средний (steerable) | Средний (SSML) |
| Клонирование голоса | Instant + Professional | Нет (в публичном API) | Custom Voice (Enterprise) |
| Поддержка ударений RU | Хорошая, иногда требует подсказок | Средняя, англицизмы хромают | Хорошая |
| Скорость API | 1–3 сек на 15 сек аудио | 1–2 сек | 2–4 сек |
| Лучше всего для | Эмоциональный контент, скиты, история | Большой объём, ровный нарратив | Презентации, e-learning, реклама |
Подводные камни клонирования RU-голоса
Клонирование собственного голоса — это то, ради чего креаторы платят за топовые тарифы. Несколько уроков, которых не пишут в документации:
1. Запись для PVC должна быть однотипной. Если 30 минут содержат 10 минут спокойного чтения и 20 минут эмоциональных скитов, модель путается и средне выходит и там, и там. Записывайте отдельно «нейтральный голос» для нарратива и отдельно «эмоциональный» под скиты.
2. Микрофон важнее, чем кажется. Запись на петличке Boya за 2000 ₽ даёт PVC уровня «слышно артефакты», запись на Shure SM7B — уровня «не отличить». Если планируете монетизировать клон, не экономьте на железе.
3. Русский требует чистоты речи. Все «эээ», «нуу», лишние придыхания — модель копирует их. Снижайте темп при записи и переписывайте плохие куски, не надейтесь, что «нейросеть исправит».
4. Юридический момент. ElevenLabs требует подтверждения согласия на клонирование (читаете контрольную фразу). Для клонирования чужого голоса нужно письменное разрешение. С 2025 года в США уже есть несколько судебных прецедентов по unauthorized voice cloning, в РФ судебная практика только формируется, но рисковать не стоит.
Деталей по выбору модели голоса под формат я касался в нашем гайде по серии из 30 шортсов — там разобрано, как одним голосом тянуть длинную сюжетную линию без выгорания зрителя.
Какой движок под ваш сценарий
Соло-креатор, 1–3 видео в день, эмоциональный контент. Берёте ElevenLabs Starter за $5 первый месяц, через 30 дней апгрейд до Creator за $22. Этого хватит на 100 минут готового аудио = ~200 шортсов. Профит от качества окупает разницу в цене относительно OpenAI за счёт retention.
Агентство или серийная фабрика, 100+ видео в неделю. Гибрид. ElevenLabs Pro за $99 для эмоциональных проектов, OpenAI gpt-4o-mini-tts для нарративного потока. Экономия — десятки тысяч рублей в месяц по сравнению с тем, чтобы всё гнать через ElevenLabs.
Образовательный канал или e-learning. Murf — за счёт SSML-редактора и удобства правок. Если у вас сценарист отдельно от технического редактора, GUI важнее API.
Канал с прицелом на международку. OpenAI Realtime-Translate за $0.034/мин — самый простой способ дублировать русский шортс на английский без отдельного пайплайна. Качество перевода — на уровне профессиональной озвучки, но интонация перевода менее живая, чем у оригинального ElevenLabs.
Деталей по экономике контента я касался в разборе монетизации ИИ-канала в 2026 — там есть таблица, во сколько обходится секунда контента в каждой из связок.
Где здесь Welder AI
Welder под капотом использует ElevenLabs для русской озвучки и кастомный pipeline для синхронизации с видео из Veo 3 и Veo 2. Это значит: вы не платите ElevenLabs отдельно, не возитесь с API, не считаете кредиты — голос идёт пакетом со сценарием, кадрами и сборкой.
Для сравнения: на тарифе Welder Creator за 2 075 ₽/мес вы получаете 5 000 ◈ (≈6 серий по 10 коротких видео = 60 шортсов), все 12 стилей, клонирование голоса и 4K-экспорт. Если посчитать в лоб: при сопоставимом объёме у ElevenLabs придётся платить $22 (Creator), плюс отдельно за видео-движок (Veo 3 в Vertex AI ≈ $0.50 за 8 секунд × 60 видео × 4 клипа = ~$120). Welder складывает это в один тариф.
Если вам важен полный контроль и вы не против собирать пайплайн вручную — берите ElevenLabs + Veo 3 + ваш монтаж. Если важно нажать кнопку и получить серию готовых вертикалок — Welder. Глубокий тест видео-стороны мы публиковали в сравнении Sora 2, Veo 3 и Welder на 12 промптах.
Что делать прямо сейчас
Если у вас уже есть канал и вы тратите 3–5 часов в день на монтаж и озвучку — попробуйте сначала самый быстрый путь. Зарегистрируйтесь в Welder, создайте серию из 10 шортсов с RU-голосом и посмотрите, как это смотрится в вашей нише. Это 10 минут, которые экономят дни на рутине.
Если уже всё знаете и нужен только голос — берите ElevenLabs Starter за $5 на месяц, прогоните 5 промптов в день, и через неделю станет ясно, нужно ли вам Creator или хватит этого тарифа.
Главное — не делайте полугодовой ресёрч. В 2026 в этой нише выигрывают те, кто запускает первое видео сегодня вечером.