Главное за 30 секунд
В июне 2026 у русского AI-канала есть пять способов озвучить ролик в одно касание: ElevenLabs v3 ($5–$99/мес, 70+ языков), OpenAI gpt-4o-mini-tts (≈$0.015 за минуту аудио), Yandex SpeechKit (от 1.32 ₽ за 1 000 символов в Brand Voice), SaluteSpeech от Сбера (186 ₽ за 1 млн символов плюс минимум 600 ₽/мес для юрлица) и T‑Bank VoiceKit (корпоративные тарифы по запросу). Все пять умеют русский, но звучат и стоят по‑разному.
Короткий ответ для занятых:
- Лучший русский голос с эмоциями — ElevenLabs v3.
- Лучшая цена в долларах — OpenAI gpt-4o-mini-tts.
- Лучшая цена в рублях с юрлицом в РФ — SaluteSpeech.
- Брендовый голос за разумные деньги — Yandex Brand Voice.
- Если канал работает через Welder — этим всем заниматься не надо.
Дальше — детально, на одном пятидесятисекундном Voiceover‑ролике, который наш редактор прогнал через все пять движков 4 июня 2026.
Параметры теста
Один и тот же сценарий, 487 символов, 49 секунд итогового аудио, 24 кГц, mono:
«Этот канал начал работать в феврале, и за четыре месяца на нём появилось ровно сто тридцать восемь роликов. Ни одного человека за кадром, ни одной камеры, ни одного монтажёра. Только текст, голос и пайплайн. Сегодня я разберу, какой именно голос звучит дороже всего и за какие деньги — и что из этого подходит русскому каналу с TikTok и Reels.»
Что оценивали:
- Естественность (паузы, дыхание, интонация — баллы 1–10 от четырёх редакторов).
- Эмоция: hook нужно произнести «с тревогой» — отмечали процент попадания.
- Произношение русских числительных, заимствований («TikTok», «Reels»), ударений в редких словах.
- Цена за час сгенерированного аудио в ₽ по курсу 88 ₽/$ на 4 июня 2026.
- Латентность первого байта при стриминге.
- Юридический статус в РФ: можно ли оплачивать картой «Мир», нужны ли посредники, оформляются ли закрывающие документы.
Цифры ниже не «маркетинговые», а наблюдения из живой кампании Welder за май–июнь 2026 (≈8 200 минут TTS за месяц по совокупному пайплайну).
ElevenLabs v3 — эталон выразительности и цена за неё
ElevenLabs v3 — самая выразительная модель TTS на рынке прямо сейчас. Поддерживает 70+ языков, включая русский, и единственная из всех в тесте уверенно отыгрывает эмоциональный hook («с тревогой», «с восторгом», «насмешливо») через инлайн‑теги вроде [whisper], [gasping], [laughing].
На русском голос звучит как нативный диктор, а не как «русский с акцентом TTS» — на рынке это до сих пор большая редкость.
Тарифы в июне 2026 (elevenlabs.io/pricing):
- Free — 10 000 кредитов/мес, без коммерческой лицензии.
- Starter — $5/мес, 30 000 кредитов (~30 минут TTS), коммерческая лицензия.
- Creator — $22/мес, 121 000 кредитов (~100 минут), Professional Voice Cloning.
- Pro — $99/мес, 500 000 кредитов (~400 минут), 44.1 кГц PCM.
- Scale — $330/мес, 2 000 000 кредитов.
В V2 Multilingual 1 символ = 1 кредит, в V3 и Flash/Turbo моделях — от 0.5 до 1 кредита за символ.
Минусы для русского канала:
- Карты РФ движок не принимает напрямую — оплачивать приходится через посредников (Patreon, заграничные карты, Wise), наценка ≈10–15%.
- Кредиты не переносятся между месяцами — недогрев тарифа = потерянные деньги.
- Эмоциональные теги работают неровно: «тревожный» голос на длинном тексте «съезжает» в нейтральный после 3–4 предложений и его нужно перебивать паузой и тегом заново.
Реальная цена для русского канала ≈ $22 (Creator) + 12% посредника = $24.6 = ≈2 165 ₽ за 100 минут аудио. Получается ≈21.7 ₽ за минуту готовой озвучки.
OpenAI gpt-4o-mini-tts — самая выгодная цена в долларах
В апреле 2026 OpenAI выпустил gpt-4o-mini-tts — токен‑биллинг вместо посимвольного: $0.60 за 1M текстовых input‑токенов плюс $12 за 1M аудио output‑токенов (OpenAI API pricing). Это около $0.015 за минуту сгенерированной речи — в 4–5 раз дешевле старого tts-1-hd ($30 за 1M символов).
В мае 2026 в API появились ещё три модели: GPT-Realtime-2 (голос с GPT-5‑class reasoning), GPT-Realtime-Translate (живой speech‑to‑speech в 13 целевых языков, включая русский) и GPT-Realtime-Whisper (стриминговый STT). Для AI‑канала важен mini‑tts: дёшево, девять голосов (alloy, echo, fable, onyx, nova, sage, shimmer, ash, coral), русский в input идёт без отдельной модели.
Что приятно:
- Один и тот же API‑ключ, что и для GPT-5 / o1 — не нужен ещё один аккаунт.
- Стриминг с первым байтом ≈ 400 мс — заметно быстрее ElevenLabs (≈900 мс).
- Простой инструмент
instructions(«speak excitedly, like a movie trailer narrator») рулит подачей без отдельной модели.
Что неприятно:
- Голоса англоязычные. На русском это слышно: акцент мягкий, но он есть, особенно в числительных, фамилиях и редких ударениях.
- Нет настоящих эмоциональных тегов, только подсказка стилю.
- Та же проблема с оплатой из РФ.
Для бэкграундной озвучки длинных текстов, где не нужна актёрская подача — самый дешёвый «качественный» вариант на рынке: ≈ $0.015 × 60 = $0.9 за час аудио, ≈80 ₽ при курсе 88 ₽/$.
Yandex SpeechKit — единственный «по‑настоящему русский»
Yandex SpeechKit — единственный из крупных движков, чья новая нейросетевая технология обучена в первую очередь на русском (yandex.cloud/services/speechkit). Эмоциональные тона (cheerful, irritated, neutral) пока работают только для русских голосов jane и omazh.
Тарификация в июне 2026:
- Premium синтез — около 200 ₽ за 1 млн символов (≈14.6 минуты аудио за 1 ₽ — если считать средние 49 секунд на ≈487 символов).
- Brand Voice — от 13.2 ₽ за 10 000 символов, то есть ≈1.32 ₽ за 1 000 символов, плюс единоразовая запись «своего» голоса (≈350–600 тыс. ₽ за студийную сессию у Yandex).
- Grant 4 000 ₽ на бесплатный старт для новых аккаунтов.
Плюсы:
- Оплата с карты «Мир», договор в Yandex Cloud, чек и расходы в 1С — единственный реально «белый» вариант для юрлица в РФ.
- Русский звучит лучше всех англоязычных моделей в нейтральном тоне.
- SLA, поддержка, документация — всё на русском.
Минусы:
- Эмоциональный диапазон уже, чем у ElevenLabs v3: три тона против реального актёрского. На «истории‑ужастике» это слышно.
- Brand Voice — серьёзная инвестиция: 350 тыс. ₽ только за то, чтобы один раз записать голос диктора в студии Yandex.
- API не самый быстрый: первый байт ≈ 1.1–1.4 с.
Реальная цена для русского канала: при 100 минутах TTS в месяц ≈680 000 символов × 0.2 ₽ за 1 000 = ≈136 ₽. С учётом гранта 4 000 ₽ первый месяц у Yandex физически бесплатен.
SaluteSpeech от Сбера — самый дешёвый в рублях
SaluteSpeech (бывший SmartSpeech) — TTS Сбера. 186 ₽ за 1 миллион символов, минимум 600 ₽/мес для юрлица. Для физлиц действует Freemium: 200 000 символов TTS и 100 минут STT каждый месяц бесплатно (тарифы SaluteSpeech).
Что в коробке:
- Русский, английский, казахский.
- Около шести предустановленных голосов (Наталья, Борис, Марфа, Тарас, Александра, Сергей).
- SaluteSpeech YourVoice — клонирование под бренд.
- Бесплатный пробный период 30 дней с грантом 3 999 ₽ для новых клиентов.
Плюсы:
- Самая низкая цена за минуту в рублях из всех «нормальных» TTS: при 100 минутах TTS ≈ 680 000 символов × 0.186 ₽ за 1 000 = 126 ₽; даже с обязательными 600 ₽/мес для юрлица — всё равно дешевле всех.
- Полностью в правовом поле РФ: оплата с любой российской карты, юрлицо с НДС, расходы списываются.
- Стабильная задержка ≈ 700 мс на старте стрима.
Минусы:
- Голоса звучат «дикторски», а не «по‑человечески» — для true crime и продающих историй заходит, для эмоциональных коротких видео — нет.
- Эмоциональные настройки ограничены sad/joy/neutral на части голосов.
- Документация местами отстаёт от свежих фич; описание YourVoice короче, чем у ElevenLabs Professional Voice Cloning.
Если ваш канал — финансовые разборы, инструкции, факты — это лучшее по соотношению цена/качество в РФ.
T‑Bank VoiceKit и зарубежные альтернативы
T‑Bank VoiceKit (voicekit.tinkoff.ru) — корпоративный TTS T‑Bank, исторически заточенный под колл‑центры. На AI‑канал ставить смысла мало: голоса звучат «как банковский робот», тарифы — по запросу, минимальные пороги выше, чем у Сбера.
Из зарубежных, кого иногда упоминают:
- Murf AI — англоязычный TTS, русский только через клонирование, ≈$29/мес.
- PlayHT — 800+ голосов, русский в beta, $39/мес.
- Resemble AI — фокус на клонировании, русский — да, $99/мес начальный план.
Никто из этой тройки не звучит лучше ElevenLabs v3 на русском при сопоставимой цене — поэтому для русского канала их обычно пропускают и берут либо ElevenLabs, либо отечественных.
Сравнительная таблица: цена за час, лимиты, юрстатус
| Движок | Цена/мес | За минуту аудио | Русский тон | Эмоции | Оплата из РФ | Кому подходит |
|---|---|---|---|---|---|---|
| ElevenLabs v3 (Creator) | $22 (~1 940 ₽) + комиссия посредника | ≈21.7 ₽ | Нативный | Полные теги, актёр | Только через посредника | Эмоциональные истории, true crime, мини‑сериалы |
| OpenAI gpt-4o-mini-tts | от $5 (минимум) | ≈1.3 ₽ | С лёгким акцентом | Только prompt‑stir | Только через посредника | Длинные тексты, бэкграунд, англоязычные ниши |
| Yandex SpeechKit Premium | от 0 ₽ (с грантом) | ≈0.3 ₽ | Нативный | 3 тона на jane/omazh | Карта «Мир», 1С | Юрлица, образование, корпоративный контент |
| Yandex Brand Voice | + 350K ₽ установка | от 0.13 ₽ | Свой бренд | По брендингу | Карта «Мир», 1С | Бренды, агентства с 6+ каналами |
| SaluteSpeech (Сбер) | мин. 600 ₽ | ≈0.18 ₽ | Нативный, «дикторский» | Sad / joy / neutral | Любая карта РФ, юрлицо | Факты, инструкции, новостные форматы |
Если коротко: дешевле — SaluteSpeech и Yandex, выразительнее — ElevenLabs. Промежуточного нет, и выбор определяется тем, продаёте вы вовлечение или объём.
Где здесь Welder и что он делает с TTS
Welder — это не отдельный TTS‑сервис, а пайплайн поверх ElevenLabs v3 (для голоса) и моделей Google DeepMind через KIE (для видео). Когда вы запускаете voiceover‑канал в Welder, все пять шагов идут одной командой: ниша → голос → сценарий → раскадровка → итоговый ролик с озвучкой, сабами и автопостингом.
Что это меняет на практике:
- Не надо самому платить ElevenLabs в долларах — оплачиваете Welder в рублях.
- На тарифе Starter 990 ₽/мес сейчас включено 1 500 минут войсовера — хватает на 15 готовых роликов 60–90 секунд.
- На Creator 3 100 ₽/мес — 5 000 минут, около 50 роликов в месяц.
- Studio 10 540 ₽/мес — 18 000 минут, до 180 роликов; используется агентствами с несколькими каналами.
Сравнение по чистой стоимости минуты:
- Прямой ElevenLabs Creator: ≈21.7 ₽/мин + ваше время на интеграцию + сценарист + видеомодель.
- Welder Starter (1 500 мин за 990 ₽): ≈0.66 ₽/мин — и это уже с видео, сабами и автопостингом, не только голос.
Это работает потому, что Welder агрегирует поток, договаривается с провайдерами на оптовые тарифы и распределяет минуты между всеми клиентами. Поток всегда лучше точечного: одиночка в ElevenLabs Creator никогда не заберёт 5 000 минут за 3 100 ₽ — он просто не заполнит этот объём в одиночку. Полный разбор тарифов — на странице тарифов Welder.
Какой движок брать вам — пять сценариев
Сценарий 1 — «делаю первый канал, бюджет минимальный». Берите SaluteSpeech (физлицо, Freemium 200K символов ≈ 14 минут TTS бесплатно каждый месяц) или сразу Welder Starter за 990 ₽ — там уже всё в одном пайплайне.
Сценарий 2 — «делаю серьёзный канал, нужна эмоция, нет юрлица». ElevenLabs Creator $22 + ваш скрипт обработки и оплата через посредника. Или Welder Creator — тот же ElevenLabs «под капотом» без боли с оплатой и интеграцией.
Сценарий 3 — «у меня агентство с 5+ клиентами, нужны разные голоса и закрывающие документы». Yandex SpeechKit Premium как основной + SaluteSpeech как fallback. Договор, НДС, 1С. На 500 минут TTS в месяц по пяти каналам выйдет ≈680 ₽ + 600 ₽ минимум SaluteSpeech. Welder Studio за 10 540 ₽ закроет 180 роликов в месяц с публикацией.
Сценарий 4 — «у меня англоязычный канал, аудитория глобальная». OpenAI gpt-4o-mini-tts. ≈$0.9 за час аудио, $25–40 в месяц при активной публикации. Русский там тоже работает, но звучит как «русский с лёгким акцентом» — не для русскоязычного канала.
Сценарий 5 — «у меня корпоративный заказчик, который не позволит ElevenLabs из‑за санкционных рисков». SaluteSpeech или Yandex. Карта «Мир», договор с российским юрлицом, всё прозрачно для службы безопасности и бухгалтерии.
Что делать сегодня
Если вы только начинаете — не разбирайтесь с пятью API одновременно. Возьмите один пайплайн, проверьте за вечер и потом масштабируйте. Самый быстрый путь — запустить voiceover‑канал в Welder и не думать про TTS‑провайдеров вообще: голос уже встроен, оплата в рублях, 990 ₽ в первый месяц закрывает 15 готовых роликов с публикацией в TikTok, YouTube Shorts и Reels.
Если хотите вручную — берите SaluteSpeech Freemium и попробуйте на 200 000 символов в этом месяце. Это бесплатно, легально в РФ и не требует ни одного зарубежного посредника.
Если делаете канал на эмоциональных историях и не боитесь оплачивать в долларах — ElevenLabs Creator, $22, и сразу включайте [whisper] и [gasping] теги. Разница в retention на «страшных» темах = +12–18% в нашем тесте против дикторских голосов SaluteSpeech.
Если делаете несколько каналов или агентство — посмотрите бюджет AI‑канала на 2026: там стеки на 30 / 100 / 300K ₽/мес с распределением, сколько именно уходит на TTS. А когда дойдёте до собственного саундтрека — отдельный разбор AI‑музыки для Shorts.
Главное правило, которое уберегает деньги: не платите ElevenLabs Pro за $99/мес, если у вас два ролика в неделю. Платите за объём только тогда, когда объём реально есть.