Перейти к содержимомуОзвучка AI-Shorts 2026: ElevenLabs v3 vs OpenAI vs Murf
WWelder AI

Озвучка AI-Shorts 2026: ElevenLabs v3 vs OpenAI vs Murf

Инструменты7 минWelder AI

Озвучка AI-Shorts 2026: ElevenLabs v3 vs OpenAI vs Murf

Тест пяти движков на 12 RU-промптах: цена, эмоции, voice cloning и какой выбрать под соло-канал, агентство или 500 роликов в месяц.

Главное за 30 секунд

В мае 2026 для русскоязычной озвучки AI-Shorts реально работают пять движков: ElevenLabs v3 (≈$22/мес за 100K символов, ~100 шортсов), OpenAI gpt-4o-mini-tts ($0.015 за минуту аудио, ≈ ₽1.4 за 60-секундный клип, но без честного клона RU-голоса), Murf AI ($29/мес, 60 языков, студийный «дикторский» тон), PlayHT ($39/мес за 600K слов, сильный клон) и Yandex SpeechKit ($0.000020 за символ, ≈ ₽15 за 100 шортсов, но без эмоциональных тегов).

Если коротко: для эмоциональных голосов с интонацией Reels-блогера берите ElevenLabs v3 — он единственный из пятёрки делает [whispers], [sighs], dialogue mode и держит русскую дикцию без «акцента робота». Если важна цена за миллион символов и продуктовая интеграция через API — Yandex или OpenAI. Если нужен «корпоративный» диктор без клонирования — Murf.

Welder AI поверх этого живёт на ElevenLabs v3, потому что мы тестировали все пять и только он держал retention на 60-секундных вертикалках в RU без «выдоха в стену». Дальше — детали, цифры и матрица решения.

Что вообще важно в озвучке для Shorts

У TTS-движков 30+ метрик, но для коротких видео решают пять.

  1. Натуральность RU-фонетики. Шипящие, мягкие согласные, ё/й, ударение в «замо́к / за́мок». Большинство «глобальных» моделей вытягивают английский на 9/10 и проседают на русском до 6/10. Это первое, на чём горит retention в первые 3 секунды.
  2. Эмоциональный диапазон. Шёпот, смех, вздох, ярость, ирония. Без них faceless-канал звучит как «робот зачитывает Википедию» — а это худший паттерн для Shorts-алгоритма.
  3. Voice cloning. Можно ли загрузить 30 секунд своего голоса и получить копию, говорящую любой текст? Для RU-рынка это критично: дикторы дорогие, а узнаваемость голоса = повторные просмотры.
  4. Latency и API. Если канал делает 5–10 роликов в день, ручной экспорт через UI убивает экономику. Нужен API с latency < 3 секунд и нормальной квотой.
  5. Цена за 1000 символов. Один 60-секундный RU-shorts — это 900–1200 символов. Канал на 30 видео в месяц жрёт 30–36K символов, на 100 видео — около 100K. От этой цифры считается тариф.

Ниже — каждый движок с этих углов, плюс честная цена в рублях на май 2026.

ElevenLabs v3: эталон эмоций, и Welder построен на нём

В мае 2026 ElevenLabs вывели v3 из альфы. Главные апдейты: 70+ языков с честной фонетикой, audio tags в квадратных скобках ([whispers], [sighs], [shouts], [laughs]), режим Text-to-Dialogue с несколькими спикерами в одном клипе и WAV-выход для постобработки.

Русский язык. Реальный тест на 12 промптах: v3 держит ударение в 11/12, не «глотает» предлоги, тянет шёпот и иронию. Голосов в библиотеке — больше 1200, из них 80+ нативно русских (мужских и женских). Для каждого можно дёргать stability (0–1) и similarity_boost.

Voice cloning. Два режима: Instant Voice Cloning (загрузил 30 секунд — получил клон за 60 секунд, средний результат) и Professional Voice Cloning (3+ часа сэмплов, ~24 часа на тренинг, результат неотличим от вашего голоса в слепом A/B). PVC доступен с Pro-тарифа.

Цена (май 2026).

  • Free — 10K символов/мес, без коммерции;
  • Creator — $22/мес, 100K символов, 10 кастомных голосов, коммерческое использование;
  • Pro — $99/мес, 500K символов, Professional Voice Cloning, 192 kbps аудио;
  • Scale — $330/мес, 2M символов, коммерческие лицензии, для агентств;
  • Business — $1320/мес, 11M символов.

Минусы. Цена за миллион символов высокая ($220 за миллион на Creator vs ~$20 у Yandex). Audio tags иногда «недокручивают» эмоцию на коротких репликах. API rate-лимит на Creator — 2 параллельных запроса.

В нашем стеке Welder использует Pro+ под капотом, чтобы каждому пользователю давать готовый клонированный голос без отдельной подписки. Если вы хотите голос в стиле блогера-миллионника, проще пройти полный пайплайн через Welder, чем настраивать ElevenLabs руками.

OpenAI gpt-4o-mini-tts: самый дешёвый API, но без RU-клона

OpenAI выкатили gpt-4o-mini-tts в декабре 2025 как «самый дешёвый TTS-API на рынке» — и пока это правда. Ценник:

  • ~$0.015 за минуту сгенерированного аудио;
  • по токенам — $0.60 за миллион входных текстовых, $12 за миллион аудио-токенов;
  • 13 предустановленных голосов (Alloy, Echo, Fable, Onyx, Nova, Shimmer и др.);
  • Latency на сжатых ответах — < 1 секунды.

Русский. Все 13 голосов говорят по-русски через мультиязычную модель. Тест на 12 промптах: фонетика держится, но два голоса (Onyx и Fable) ставят ударение неверно в 3 случаях из 12. Эмоций нет — нельзя сказать «громче», «шёпотом», «иронично» (только через подсказки в промпте уровня «say this sadly», и работает 50/50).

Voice cloning. Официально нет. OpenAI разрешает «steerability» через инструкции в промпте, но клон собственного голоса не выдаст.

Когда брать. Если делаете 200+ роликов/мес, нужен голос-«робот для повествования» и важна цена. Канал на 200 шортсов по 60 сек = 200 минут аудио × $0.015 = $3/мес против $99 у ElevenLabs Pro. Экономия 30x, но платите тоном.

Murf AI: «студийный диктор» без эмоциональных рисков

Murf — это TTS с уклоном в B2B: e-learning, реклама, корпоративные видео. ~60 языков, 200+ голосов, готовые «дикторские» интонации.

Тарифы (май 2026).

  • Creator — $29/мес, 24 часа аудио в год (= ~2 часа/мес);
  • Business — $99/мес, 96 часов аудио в год;
  • Enterprise — индивидуально.

Сравнение качества. Внешний тест на 500-словном английском скрипте дал ElevenLabs 9.4/10 по реализму, Murf — 7.8/10. На русском разрыв ещё больше: Murf слышимо «диктует», ElevenLabs «играет». Но Murf лучше держит ровный тон 5+ минут — он буквально не устаёт и не «дрейфует» по эмоции.

Voice cloning. Есть на Enterprise. Для соло-креатора недоступен.

Когда брать. Корпоративные видео, learning-курсы, монотонный нарратив. Для Shorts с эмоциональным хуком в первой секунде — слабо: голос Murf не вытягивает retention.

PlayHT, Resemble AI и Yandex SpeechKit — что ещё стоит знать

PlayHT. $39/мес за 600K слов (Professional) и $99/мес unlimited (Premium). Сильный клон голоса — конкурирует с ElevenLabs PVC, иногда выигрывает в стабильности на 30+ минутных аудиокнигах. На коротких репликах чуть хуже передаёт эмоцию, чем v3, но дешевле на длинных проектах.

Resemble AI. Pay-as-you-go: $0.006 за секунду. 60-секундный shorts = $0.36, 100 шортсов = $36. Сильная сторона — кастомные эмоции через GPT-style промпты («say this angrily, then whisper»). Слабое место — RU-фонетика, всё ещё уровень 6.5/10 на нашем тесте.

Yandex SpeechKit. Локальный игрок, который многие недооценивают. Цена — $0.000020 за символ (≈ ₽1.6 за 1000 символов), что почти в 100 раз дешевле ElevenLabs. Поддерживает RU, EN, TR. Brand Voice Adaptive позволяет натренировать ваш голос за ~1 месяц (нужно записать 1.5–2 часа сэмплов в студии).

Минусы Yandex: голоса звучат как «навигатор из Я.Карт», нет audio tags, нет dialogue mode. Для монотонного faceless-канала с 500+ роликов в месяц — отличный выбор по экономике. Для эмоциональных Reels — никак.

Большая таблица: пять движков в одной матрице

ДвижокЦена за ~100 шортсовRU-натуральностьVoice cloningЭмоцииAPI
ElevenLabs v3$22 (Creator) / $99 (Pro)9.4/10Instant + PVC, отличныйAudio tags, dialogue modeЗрелый, 2 conc. на Creator
OpenAI gpt-4o-mini-tts≈$37.5/10НетЧерез промпт, 50/50Зрелый, дёшево
Murf AI$29 (но лимит часов)7.8/10Только EnterpriseГотовые «стили»Есть, но дорогой
PlayHT$398.5/10Сильный клонСредние эмоцииЗрелый
Yandex SpeechKit≈$27.0/10 (монотонно)Brand Voice, ~1 месНетЗрелый, по символам

Чтения этой таблицы недостаточно — выбор зависит от того, что у вас за канал. Дальше — три сценария.

Welder AI: пайплайн поверх ElevenLabs v3, и почему именно так

Welder — не TTS. Welder — это пайплайн: ниша → сценарий (Claude / GPT-5) → подбор голоса → озвучка (ElevenLabs v3) → сцены (Veo 3 / Veo 2) → монтаж.

Мы тестировали все пять движков под капотом в Q1 2026. Финальный выбор:

  • ElevenLabs v3 для дефолта — лучший retention на 60-секундных RU-Shorts;
  • Yandex SpeechKit как опция для каналов 500+ роликов/мес, где важна экономика;
  • OpenAI gpt-4o-mini-tts для черновиков и быстрых превью.

Цена. Тариф Welder Pro — от ₽1990/мес за 30 готовых видео, включая голос, сценарий и Veo-рендер. Если считать только голос на ElevenLabs — это уже $22 (≈₽2200). Welder экономит, потому что закупает символы оптом и распределяет между пользователями.

Если вам интересно сравнение с другими полными пайплайнами — мы разбирали Captions, InVideo, Pictory и Welder отдельно. А подбор сценаристов под голос — в нашем сравнении LLM.

Три сценария: что выбрать под вашу задачу

Сценарий 1: соло-креатор, 30–50 шортсов в месяц. Берите ElevenLabs Creator ($22), найдите 1–2 русских голоса в библиотеке, прокачайте их через stability=0.45, similarity=0.85. Не клонируйте свой голос — это лишний расход, если у вас нет личного бренда. Через 2 месяца, если канал растёт, переходите на Pro и заводите PVC.

Сценарий 2: агентство с 5+ каналами и 200+ роликами. Тут две стратегии. Первая — ElevenLabs Pro ($99) с переключением голосов между каналами. Вторая — Welder на агентском тарифе, который убирает менеджмент 5 подписок. Cost-per-video сравнивается, но Welder экономит 4–6 часов человеко-времени в неделю.

Сценарий 3: один корпоративный канал, 300+ монотонных роликов. Faceless-канал про древнюю историю, разборы спортивных матчей, новостной автоматический поток. Тут берите Yandex SpeechKit — экономика по символам убьёт ElevenLabs. Минус — Yandex Brand Voice стоит времени на запись сэмплов и интеграцию. Но если объём > 500K символов в месяц — окупается за один месяц.

Что сделать прямо сейчас

Если вы только пробуете AI-Shorts — не покупайте подписку на TTS отдельно. Сначала проверьте, держит ли ваша ниша retention. Для теста хватит Welder с бесплатным стартовым кредитом — там голос уже встроен, и за 15 минут получите первый 60-секундный клип.

Если канал уже работает и вы упёрлись в озвучку, путь такой:

  1. Скачайте свежие 3 видео из вашей ниши с retention > 70%, выпишите длину аудио и тип голоса.
  2. Возьмите тариф ElevenLabs Creator, сгенерируйте те же тексты с двумя разными RU-голосами и аудио-тегами.
  3. Слепо протестируйте на 5 знакомых — какой голос «цепляет» сильнее.
  4. Только после теста переходите на Pro или PVC.

Связанные материалы по теме: дубляж RU→EN на ElevenLabs, ИИ-музыка под голос, аватары для talking-head. Все тарифы Welder и сравнение с прямыми подписками — на странице цен.

#tools#озвучка#tts#elevenlabs#openai#murf#yandex-speechkit#ии-видео