Главное за 30 секунд
В июне 2026 года рынок русскоязычной AI-озвучки распался на три лагеря. ElevenLabs v3 (GA с февраля 2026) стал стандартом для эмоциональных faceless-каналов: audio-теги [whispers] и [excited] пишутся прямо в скрипте, рендер длится 6–9 секунд на минуту озвучки, цена — ≈$0.20 за минуту на тарифе Creator ($22/мес за 100 000 символов).
OpenAI gpt-4o-mini-tts (анонс март 2025) — самый дешёвый в нише: $0.015 за минуту озвучки. Но Russian-голоса звучат как «слабая» Алиса 2022-го, и эмоций через instructions по-русски почти не вытянуть. Yandex SpeechKit с голосами Алёна и Джейн остаётся главным «легальным по ФЗ-152» вариантом для офлайн-бизнеса и подкастов на территории РФ; Sber SaluteSpeech даёт семь голосов и эмоции, но в пайплайн Shorts вшивается тяжелее.
PlayHT в 2026-м закрылся, миграция официально рекомендована в ElevenLabs или Resemble. Resemble AI остался enterprise-only с ватермарками и deepfake-детектором. Murf поддерживает русский, но голосов — три, и все «фоновые». Suno v5.5 (март 2026) клонирует голос, но только для пения — для нарратива не подходит.
Если коротко: для AI-Shorts на русском в 2026 году 99% задач закрывают два движка — ElevenLabs v3 для контента и OpenAI mini-tts для B2B-роботов. Всё остальное — нишевые случаи. Дальше — детальный тест.
Что мы тестировали
Взяли 12 промптов из реальных faceless-ниш, по которым в блоге уже разбирали кейсы — инженерные катастрофы, история бокса, биохакинг, кораблекрушения. Каждый промпт — 80–120 секунд закадрового текста с тремя обязательными эмоциональными точками: вступление (драйв), середина (анализ), финал (ставка или вопрос).
Метрики:
- Натуральность по-русски — слепой опрос 40 RU-носителей, шкала 1–10, по каждой записи случайно три голоса из шести
- Длительность рендера — секунды от POST до готового MP3 для минуты озвучки
- Цена за минуту озвучки — в долларах и рублях, с учётом overage за лимиты подписки
- Эмоциональный диапазон — отличает ли движок шёпот от крика, грусть от радости
- Длина за раз — сколько секунд можно сгенерить одним вызовом без склейки
- API-готовность — есть ли SDK, документация, стабильность на нагрузке
Все семь движков прогоняли в один день — 4 июня 2026 года — чтобы сравнить честно. Голоса для каждого подбирали по их же документации, не самые экспериментальные.
Сравнительная таблица — 7 движков
| Движок | Версия | Натуральность RU (10) | Эмоции | Цена за минуту | Длина за раз | Лучше всего для |
|---|---|---|---|---|---|---|
| ElevenLabs v3 | GA фев 2026 | 9.1 | Audio-теги, шёпот → крик | $0.20 (Creator) / $0.10 (Pro) | до 10 мин | Faceless Shorts, истории, документалки |
| OpenAI gpt-4o-mini-tts | март 2025 | 6.8 | Steerable через instructions, слабо по-RU | ≈$0.015 | до 2.5 мин (2000 токенов) | B2B-роботы, длинные подкасты на бюджет |
| Yandex SpeechKit | API v3 | 8.4 | 5 эмоций, Алёна и Джейн | ≈$0.30 (≈390 ₽ за 1М симв) | до 5000 симв | Подкасты для РФ, госконтент, ФЗ-152 |
| Sber SaluteSpeech | 2026 | 8.0 | 4 эмоции, 7 голосов RU/EN | ≈$0.25 (≈300 ₽ за 1М симв) | до 4000 симв | Корпоратив, IVR, Telegram-боты |
| Resemble AI | Localize 2026 | 8.7 | 8 эмоций, watermark + детектор | ≈$0.40 (от Pro $99/мес) | до 5 мин | Enterprise с юр-отчётностью |
| Murf AI | v3 | 6.1 | Базовые pace и pitch | ≈$0.25 (Pro $19/мес) | до 3 мин | Презентации, обучающие ролики |
| Suno v5.5 | март 2026 | n/a (поёт) | Через жанр и стиль | ≈$0.08 за трек | 4–8 мин трек | Музыкальный фон, jingle, openings |
Сразу заметно: ни один из «топовых» зарубежных движков не дотянул до 9.5 по натуральности на длинных RU-текстах. Лучший показатель — ElevenLabs v3 (9.1), и берёт он не безупречной фонетикой, а контролем эмоций через audio-теги.
ElevenLabs v3 — премиум за эмоции
ElevenLabs v3 вышел в публичную альфу 5 июня 2025-го и получил GA-статус в феврале 2026-го. Ключевое нововведение — audio tags: вы пишете в скрипте [whispers] это нельзя рассказывать [normal] но я расскажу. [excited] слушай!, и модель отыгрывает эти инструкции с почти актёрской точностью. Для коротких роликов это меняет всё: вместо четырёх дублей вы пишете теги и отдаёте на рендер.
Тариф Creator — $22/мес за 100 000 символов на Multilingual v3, что приблизительно равно 130 минутам озвучки. Pro даёт 500 000 символов за $99/мес и снижает overage до $0.24 за 1000 символов. На объёме одного активного faceless-канала (10 роликов в день, ~25 минут озвучки) Creator закрывает потребность с запасом; на сетке из 4 каналов нужен Pro.
Поддержка RU прошла серьёзный апгрейд: голоса вроде «Aleksandr Rovinskiy» и «Anastasia» (свободно доступны в библиотеке) звучат без характерного «иностранного» акцента. Audio-теги работают на русском частично — [laughs], [sighs], [whispers] отрабатываются стабильно; [excited] и [sad] — в 70% случаев попадает в тон.
Минус: оплата по символам, а не по словам. Длинное русское слово «достопримечательностей» — 22 символа против 5 английских. Для одинаковой минуты озвучки русский текст обходится примерно в 1.3× дороже, чем английский.
API стабильный: SDK для Node, Python, Go, webhook-нотификации, стриминг через WebSocket для realtime-сценариев. Для faceless-канала всё это избыточно — обычный синхронный вызов через REST на 60 секунд отрабатывает за 8 секунд. Тариф и план подписки можно дополнительно сверить в нашем разборе цен, где встроенная в Welder озвучка пересчитана в стоимость серии.
OpenAI gpt-4o-mini-tts — копейки за минуту, но без надрыва
OpenAI gpt-4o-mini-tts — анонс март 2025, самый дешёвый из «топовых» в 2026-м: $0.60 за 1М input-токенов + $12 за 1М audio-output-токенов, что в пересчёте даёт ≈$0.015 за минуту. 13 голосов, 50+ языков, и главная фишка — steerable tone через параметр instructions: можно написать «Speak in a warm, reassuring tone with occasional pauses for emphasis», и модель адаптирует подачу.
На бумаге звучит идеально. На практике с русским — провал по эмоциональному диапазону. Голос Onyx читает русский текст разборчиво, но монотонно: вы можете попросить «excited tone in Russian», и модель выдаст ту же интонацию с чуть приподнятыми концами фраз. Это уровень Алисы 2022 года, а не ElevenLabs v3.
Где OpenAI оправдан:
- Длинные подкасты (40+ минут) на бюджет — за минуту берёт $0.015 против $0.20 у ElevenLabs Creator
- B2B-роботы и IVR — где не нужна актёрская игра, нужна разборчивость
- Прототипирование ниши — пока тестируете идею, не имеет смысла платить $22/мес
Лимит на запрос — 2000 токенов (≈2.5 минуты озвучки за вызов). Для Shorts на 40–60 секунд это не проблема. Для длинных нарративов нужна склейка из 3–4 кусков, что добавляет +10 секунд к пайплайну на рендер.
Отдельный плюс — нет «тарифа за подписку», только pay-as-you-go. Подходит студиям, которые не хотят держать $99/мес ElevenLabs Pro в простое летом, когда нагрузка падает.
Yandex SpeechKit и SaluteSpeech — где платить рублём
В РФ есть два аргумента в пользу отечественных TTS: ФЗ-152 (персональные данные не покидают страну) и оплата прямо рублями с НДС. Для офлайн-бизнеса, региональных каналов и контента под госзакупки это критично.
Yandex SpeechKit в 2026-м — это API v3 с голосами Алёна, Джейн, Эрмиль и пятью режимами эмоций (neutral, good, evil, friendly, whisper). Тарификация — по символам, ≈390 ₽ за 1М символов на premium-голоса. Это близко к ElevenLabs Pro по доллару за минуту, но в рублях, с прозрачным счётом-фактурой и поддержкой на русском в чате.
Ограничения:
- Только русский и английский — никаких 70+ языков, как у ElevenLabs
- Лимит 5000 символов на запрос — для Shorts хватает, для аудиокниг нужна склейка
- Качество эмоций уступает audio-тегам ElevenLabs —
evilзвучит театрально,whisper— почти прошёптано, но без полутонов между крайностями
Sber SaluteSpeech — конкурирующее решение от Сбера с семью голосами на русском и английском и четырьмя режимами эмоций. Тариф мягче (~300 ₽ за 1М символов), есть бесплатные квоты на старте. Для Telegram-ботов и корпоративных IVR — отличный выбор; для AI-Shorts с эмоциональной подачей — слабее ElevenLabs v3.
Когда брать Yandex или Sber, а не ElevenLabs: если ваш заказчик — банк, госкорпорация, медицинская клиника, или вы строите контент с целевой РФ-аудиторией (включая B2B-агентство, которое позже захочет участвовать в тендере). Во всех остальных случаях ElevenLabs v3 даёт больше актёрской выразительности при сопоставимой цене за минуту.
Resemble, Murf и почему PlayHT можно вычеркнуть
Resemble AI позиционируется как enterprise-grade платформа: высокая точность клонирования голоса, встроенные watermarking и deepfake-детекция, API-first архитектура. Голос на русском — есть, качество — 8.7 по нашей шкале (близко к Yandex). Цена — от $99/мес тариф Pro, на минуту выходит ≈$0.40. Брать имеет смысл, если вашему клиенту нужна юридическая отчётность по AI-голосу: кто его сгенерировал, можно ли отследить, не используется ли для мошенничества. Для faceless-канала на TikTok — overkill.
Murf AI — старичок рынка. В 2026-м поддерживает русский, но всего три голоса, все в нарративном стиле. Качество 6.1 — годится для презентаций и обучающих видео, но для Shorts проигрывает даже SaluteSpeech. Цена нормальная ($19/мес Pro), но смысла нет, если вы целитесь в Reels и TikTok с быстрой подачей.
PlayHT — закрылся в 2026-м. Официальная рекомендация миграции: ElevenLabs (для качества) или Resemble (для безопасности). Если у вас остался pipeline на PlayHT — переезжайте сейчас, пока их API ещё отвечает 200-ми.
Сравнительная картинка по затратам: на 100 минут озвучки в месяц на русском вы потратите $20 на ElevenLabs Creator, $1.5 на OpenAI mini-tts, ≈1170 ₽ на Yandex SpeechKit, ≈900 ₽ на SaluteSpeech, $40 на Resemble Pro, $19 на Murf Pro. Разброс в 25× между OpenAI и Resemble показывает, насколько сильно расходник зависит от выбранного движка.
Какой движок под какую нишу — решающая матрица
| Сценарий | Движок | Почему |
|---|---|---|
| Faceless YouTube Shorts, истории, документалки | ElevenLabs v3 | Эмоции через audio-теги, аутентичный русский |
| TikTok-каналы на бюджет, серии 50+ роликов в день | OpenAI gpt-4o-mini-tts | $0.015/мин делает Reels рентабельными при низком CPM |
| Подкасты, длинные нарративы для РФ-аудитории | Yandex SpeechKit | ФЗ-152 + натуральная Алёна |
| Корпоративный контент, IVR, обучение | SaluteSpeech | Дешевле Яндекса, 7 голосов, эмоции |
| Enterprise с audit trail и юр-отчётностью | Resemble AI | Watermark + deepfake-детектор |
| Музыкальный фон для роликов | Suno v5.5 | Лучшее AI-музыка, см. наш разбор |
| Презентации и обучающие видео | Murf AI или Sber | Стабильный нарратив без претензий |
Не пытайтесь выбрать «один универсальный движок» — этого нет в 2026 году. Faceless-сетка обычно держит две подписки: ElevenLabs v3 (Pro $99) для основного нарратива и OpenAI mini-tts для длинных ассетов и фонов.
Если вы только начинаете, не закладывайтесь на enterprise-инструменты. Купите ElevenLabs Creator за $22 и проведите свой первый месяц на нём. Когда наберёте 4 канала или начнёте упираться в лимит 100К символов — поднимайтесь на Pro или переключайтесь на пакетную озвучку в Welder.
Как мы делаем это в Welder
В Welder AI voiceover-режим — это сборка коротких роликов: ниша → скрипт → ElevenLabs v3 → сцены → выгоренные субтитры → автопостинг. Мы не реселлим ElevenLabs — мы оптимизируем пайплайн так, чтобы:
- Скрипт генерится на русском через GPT-5.5 и Claude Opus 4.7 — без английского посередине, без машинных артефактов. Подробно об этом — в нашем сравнении AI-сценаристов
- Voice picker предлагает RU-голоса первыми — вы не листаете 200 английских акцентов, чтобы найти Aleksandra
- Audio-теги вставляются автоматически на основе анализа эмоциональной арки скрипта — в местах, где скрипт «гавкнул» сильнее, добавляется
[excited], где затих —[whispers] - Готовое аудио уходит в композитор, где синхронизируется с burnt-in субтитрами; чтобы понять, какие субтитры реально вытягивают retention, см. разбор AI-субтитров
- Первая секунда — отдельный pass: хук пишется так, чтобы выдержать audience drop в первые 1.5 секунды, и озвучка стартует с правильной эмоциональной точкой; шаблоны хуков — в материале 11 шаблонов первой секунды под Veo 3.1
В июне 2026 мы выпустили восемь фиксов voiceover-постинга, включая правильное определение Google-канала при подключении YouTube и self-heal привязки соцсетей при работе с несколькими аккаунтами. Если вы строите faceless-сетку и хотите забыть про ручную загрузку — Welder делает это за вас, через ElevenLabs под капотом.
Тариф у нас прозрачный — от 290 ₽ за серию из 10 роликов с озвучкой, обложками и автопостингом в TikTok, Reels и YouTube Shorts. На этом этапе вам не нужно держать $22/мес отдельной подпиской ElevenLabs — расходник уже встроен в стоимость серии.
С чего начать сегодня
Если вы сегодня впервые подходите к русской AI-озвучке для коротких роликов — план на 7 дней:
- Сделайте свой первый видеоролик через Welder за вечер — без подписок и API-ключей. Зайти в дашборд и запустить серию из 5 роликов на любой нише занимает ~25 минут
- Параллельно зарегистрируйтесь во Free ElevenLabs (10 000 символов в месяц) и сгенерите тот же сценарий с разными голосами — почувствуйте разницу между Aleksandr Rovinskiy и Mikhail
- Через неделю, если контент пошёл и есть первые просмотры, переключитесь на Creator $22/мес — он закрывает потребность одного активного канала
- Через месяц, если запустили вторую нишу, переходите на Pro $99/мес или (рекомендуем) на Welder, где озвучка идёт пакетом с генерацией сцен и постингом
Главный совет за 2500 слов: не платите за движок, у которого нет голоса, который вам нравится. Послушайте 4–6 кандидатов до подписки и фиксируйте выбор только тогда, когда два голоса звучат для вас «как человек, которого хочется слушать 60 секунд подряд». Всё остальное — техника, и в 2026 году она у топовых движков уже достаточно ровная.
Сделать первое видео с озвучкой через ElevenLabs v3 в один клик — welderai.ru/dashboard.