TTS для AI-Shorts 2026: ElevenLabs, OpenAI, Salute, Yandex

Цены, голос, эмоции и доступ из РФ — тестируем 5 TTS-движков на одном 90-секундном сценарии. Без рекламы и красивых слов.

Главное за 30 секунд

В июне 2026 для русскоязычного AI-Shorts реально работают пять TTS-движков: ElevenLabs v3 (с февраля 2026 в GA, 70+ языков, аудио-теги для эмоций), OpenAI gpt-4o-mini-tts (≈$0.015 за минуту аудио, 13 голосов с поддержкой русского), SaluteSpeech от Сбера (186 ₽ за 1 миллион символов, freemium 200 000 символов в месяц для физлиц), Yandex SpeechKit (от $0.000020 за символ, бюджетный сегмент) и Welder AI — пайплайн поверх ElevenLabs с RU-сценаристом и Veo 3.1, от 1 690 ₽/мес.

Короткий итог. ElevenLabs v3 побеждает по эмоциональности и качеству клона голоса. OpenAI — по цене за минуту. SaluteSpeech — по доступности из РФ: рубли, договор, без VPN. Yandex SpeechKit — по совокупной экономике, если у вас не один канал, а конвейер. Welder снимает разработку: вы получаете готовый ролик с ElevenLabs-озвучкой и не интегрируете API руками.

Дальше — тест на одном и том же 90-секундном сценарии и матрица «что брать под сценарий».

Параметры теста

Один и тот же сценарий через пять движков:

90 секунд аудио, около 1 100 символов исходного текста;
голос — «уверенный мужчина 35–40 лет», спокойная подача с акцентом на ключевых тезисах;
два варианта эмоции: нейтральный и переход «удивлённый → раздражённый» в середине;
русский язык, три сложных слова с нестандартным ударением (имена и термины);
финал с восходящей интонацией под подписку.

Замеряли: качество звучания на слух, корректность ударений, эмоциональный диапазон, скорость генерации, стоимость одного ролика, доступность из РФ (без VPN, оплата с РФ-карты, договор).

ElevenLabs v3: эталон выразительности

В феврале 2026 ElevenLabs перевели модель v3 из альфы в General Availability. Главное нововведение — аудио-теги в квадратных скобках, прямо внутри сценария: [excited], [whispers], [sighs], [sarcastically], даже [gunshot] и [explosion] как звуковые эффекты. Модель меняет интонацию посреди предложения — можно начать спокойно и закончить криком в одной генерации.

Поддержка русского — в числе 70+ языков. Профессиональный клон голоса делается за 30 секунд по 1-минутному сэмплу. Мы протестировали RU-клон собственного голоса: акцент сохраняется, ударения ставятся корректно в 9 случаях из 10, имена собственные читаются как у человека.

Цена. Тариф Creator — $22/мес, 100 000 кредитов, это примерно 100 минут TTS на v2 и 50–100 минут на v3 (Flash-модель внутри Creator дешевле, но менее выразительная). Pro — $99/мес, 500 000 кредитов, 500 минут. Если делаете 30 Shorts по 60 секунд = 30 минут аудио, Creator-тариф закрывает это с двойным запасом.

Минусы для RU-креатора:

оплата только зарубежной картой или через посредника;
v3 заметно медленнее v2: 90-секундный ролик генерится 40–60 секунд против 8–12 у v2;
иногда «съедает» твёрдый знак или путает «ё/е» в редких словах.

Когда брать. Серии под YouTube и TikTok, где голос — актив бренда; talking-head с эмоциональной подачей; озвучка под лонг-форматы.

OpenAI gpt-4o-mini-tts: цена побеждает

OpenAI выпустили gpt-4o-mini-tts в марте 2025, к началу 2026 расширили линейку голосов до 13 против 9 у стандартного tts-1-hd. Русский поддерживается через мультиязычный режим: модель определяет язык по входному тексту.

Биллинг токенный. $0.60 за 1 миллион входных текстовых токенов и $12 за 1 миллион аудио-токенов на выходе. В пересчёте на минуту аудио — около $0.015, то есть ≈1,3 ₽ по курсу 90. Для 90-секундного ролика выходит около 2 ₽.

Качество русского — среднее. Голос «звучит ИИ»: ровный, эмоции не передаёт. Ударения корректны в простых словах; в именах собственных промахивается в 2–3 случаях из 10. Эмоциональный диапазон скудный: можно задать тон через instructions в API («cheerful narrator», «calm explainer»), но переключаться внутри предложения, как у ElevenLabs v3, нельзя.

Плюсы:

самая низкая цена среди всех протестированных движков;
быстрая генерация — 90 секунд готовы за 5–8 секунд;
стриминг работает с первого API-вызова, удобно для real-time чат-ботов и интерактивных сценариев.

Минусы:

голос плосковатый, не подходит под драматичные нарративы;
нет профессионального voice cloning (только pre-built голоса);
оплата только зарубежной картой; доступность из РФ — через посредников.

Когда брать. Бот-озвучка, FAQ-видео, новостной конвейер, где важен трафик и объём, а не уникальный тембр.

SaluteSpeech от Сбера: рубли, freemium, договор

Российский движок. 186 ₽ за 1 миллион символов синтеза, минималка 600 ₽/мес для юрлиц. Физлица получают freemium-тариф: 200 000 символов синтеза в месяц бесплатно. При первом подключении 30 дней действует бонус 3 999 ₽; если не превысили, не платите ничего.

Голоса. Несколько RU-голосов с двумя режимами — строгий и эмоциональный тембр. Эмоциональный диапазон уже, чем у ElevenLabs v3, но шире, чем у OpenAI: можно задать восторг, удивление, спокойствие. Ударения и интонация под русский — лучшие из всех движков в тесте: модель тренирована на русскоязычном датасете, чужих слов в выборке мало.

Плюсы:

оплата с РФ-карты или по договору с НДС;
freemium закрывает мелкий канал бесплатно: 200К символов — это около 3 часов TTS;
интонация под русский на голову выше английских моделей в редких словах и фамилиях.

Минусы:

voice cloning только в рамках корпоративных контрактов, для физлица недоступен;
меньше пресет-голосов, чем у ElevenLabs (около 10 против 60+);
эмоциональные теги задаются не инлайн, а через SSML — для скриптеров неудобно.

Когда брать. AI-канал с фиксированным голосом, монетизируемый в РФ; брендовые озвучки от ИП или ООО; продакшен под госконтракт. Если канал уже зарабатывает на интеграциях — подробно про маркировку и ОРД-ЕРИР мы разобрали в гайде по спонсорству AI-канала.

Yandex SpeechKit: бюджет-конвейер

Тоже российский, тоже в рублях. Цена ≈ $0.000020 за символ в базовом тарифе — это около 1,8 ₽ за 1 000 символов, или около 2 ₽ за 90-секундный ролик в среднем. Поддержка: русский, английский, турецкий.

Голоса. SpeechKit предлагает базовый Standard и премиальный Premium с большей выразительностью. Premium-голоса звучат лучше, чем OpenAI, но проигрывают ElevenLabs v3 по эмоциональности и SaluteSpeech по «русскости» интонации. SSML работает: поддерживаются паузы, ударения, скорость, изменение тембра внутри фразы.

Плюсы:

самая низкая цена среди премиальных движков в РФ;
быстрая генерация — 3–6 секунд на 90 секунд аудио;
стабильная инфраструктура: Yandex Cloud, низкий latency для серверов в Москве и Питере.

Минусы:

эмоциональный диапазон ограничен пресет-голосами; динамика внутри сцены слабая;
нет публичного voice cloning;
интерфейс рассчитан на разработчиков; нет «студии» для редактирования озвучки руками.

Когда брать. Высокообъёмные новостные ленты, telegram-боты, корпоративные обучалки, где важна экономика и стабильность, а не выразительность.

Welder AI: ElevenLabs в комплекте с пайплайном

Welder AI — не движок TTS, а вертикальный пайплайн: ниша → сценарий → голос → сцены → монтаж → готовый Short. Под капотом для голоса работает ElevenLabs (включая v3 в режиме коммерческой лицензии Welder), для видео — Veo 3.1 и Veo 2, для сценария — LLM-цепочка с RU-fine-tuning.

Что вы получаете на тарифах 1 690 ₽ — 18 000 ₽/мес:

Тариф	Цена/мес	Видео в месяц	Минут TTS включено
Starter	1 690 ₽	≈15	1 500
Creator	5 290 ₽	≈50	5 000
Studio	18 000 ₽	≈180	18 000

Лимит «минут TTS» — это сколько голосового контента уже включено в подписку. Если делаете 30 Shorts по 60 сек = 30 минут аудио, Starter покрывает это с 50-кратным запасом.

Плюсы для RU-креатора:

оплата с РФ-карты в рублях — и для физлица, и для юрлица;
ElevenLabs-качество без отдельной подписки и без VPN;
сценарий, голос, сцены и монтаж в одном пайплайне — не нужно собирать API-связку из 5 сервисов;
первая подписка идёт со скидкой −40% на первый месяц по умолчанию в чек-ауте.

Минусы:

нельзя подсунуть собственный клон голоса; используете пресет-набор (10+ RU-голосов от ElevenLabs);
меньше прямого контроля над аудио-тегами v3, чем при работе с ElevenLabs API напрямую;
если нужно только TTS без видео-пайплайна, переплачиваете за неиспользуемые компоненты.

Когда брать. Вы хотите запускать каналы, а не интегрировать API. Подробнее про вертикальный пайплайн — в нашем разборе дубляжа AI-Shorts, где Welder сравнен с ElevenLabs Dubbing, HeyGen и Rask.

Сравнительная таблица: 5 движков для RU-Shorts

Параметр	ElevenLabs v3	OpenAI mini-tts	SaluteSpeech	Yandex SpeechKit	Welder
RU-качество (1–10)	9	6	8	7	9
Эмоции и теги	Лучшие	Средние	Средние	Слабые	Лучшие
Voice cloning физлицу	Да, 30 сек	Нет	Нет	Нет	Пресеты
Цена за 1 мин аудио	≈20 ₽	≈1,3 ₽	≈1,1 ₽	≈1,3 ₽	Включено
Минимальный платёж	$22/мес	Pay-as-you-go	600 ₽/мес (юр.)	Pay-as-you-go	1 690 ₽/мес
Оплата из РФ	VPN + иностр. карта	VPN + иностр. карта	Рубли + договор	Рубли + договор	Рубли
Freemium	Базовый, 10К кредитов	Нет	200К симв./мес	Нет	−40% на 1-й месяц
Скорость 90 сек	40–60 сек	5–8 сек	8–15 сек	3–6 сек	30–50 сек
Готовый пайплайн	Нет	Нет	Нет	Нет	Да

Цены приведены на 02 июня 2026 по официальным прайсам платформ; курс ₽/$ — 90.

Что выбрать под ваш сценарий

Сценарий 1 — один faceless-канал, 30 Shorts/мес, бюджет до 2 000 ₽/мес. Welder Starter. 1 500 минут TTS — это в 50 раз больше вашего объёма; видео-пайплайн снимает разработку; оплата в рублях. Альтернатива: SaluteSpeech freemium плюс ручной монтаж, если у вас есть техническая команда и не жалко времени.

Сценарий 2 — конвейер из 3–6 каналов агентства, 200+ Shorts/мес. Welder Creator или Studio. Сравните: ElevenLabs Pro $99 + Veo 3.1 API (около $0.40 за 8-секундный клип) + сборка ≈ $250–400/мес «голым» API. Welder Studio даёт тот же объём за 18 000 ₽ ≈ $200, и без своей DevOps-команды.

Сценарий 3 — talking-head с собственным голосовым клоном, выраженная актёрская подача. ElevenLabs Creator или Pro напрямую. Клон 30-секундным сэмплом плюс аудио-теги v3 — пока ни один из остальных движков этого физлицам не предлагает.

Сценарий 4 — массовый поток новостных видео, 500+ в месяц, экономика на первом месте. OpenAI gpt-4o-mini-tts или Yandex SpeechKit. 1 час аудио стоит около $0.90 у OpenAI и около 65 ₽ у Yandex. Голос ровный, но для новостей это норма.

Сценарий 5 — корпоративный продакшен под госконтракт или маркетинг с маркировкой. SaluteSpeech. Договор с НДС, оплата по реквизитам, выписка для бухгалтерии. Voice cloning доступен в корпоративных пакетах при объёме от 1 млн символов в месяц.

Тонкости, о которых забывают

Ударения в редких словах. Все движки промахиваются в именах собственных и заимствованиях. Решение: SSML с явным <break> и <emphasis>, плюс ручная транслитерация. Например, «Илон» вместо «Илон Маск» в местах, где модель ставит ударение на второе слово. SaluteSpeech и Yandex переносят это лучше остальных из коробки.

Музыка на фоне. Любая TTS-озвучка проигрывает в SNR против реального актёра, поэтому фоновый трек ставьте ≤ −18 dB к голосу. Подробно про подбор треков — в нашем тесте Suno v5.5, Udio и Stable Audio.

Субтитры обязательны. 70% Shorts смотрятся без звука; даже идеальная озвучка без burned-in captions теряет retention. Стиль captions, тайминги, нюансы платформ — в гайде по субтитрам AI-Shorts 2026.

Лицензия на коммерческое использование. ElevenLabs включает коммерческие права с тарифа Creator. OpenAI — без ограничений на коммерческое применение. SaluteSpeech и Yandex — да, но проверьте, что выбранный голос помечен как «коммерческий»: некоторые премиум-голоса заблокированы для рекламы и интеграций. Welder включает коммерческую лицензию во все тарифы.

Локальные дикторы тоже остаются вариантом. Если у вас один канал с устойчивой подачей, фрилансер на Авито или Profi.ru — 500–1 500 ₽ за минуту, без подписки. Гибрид «TTS для draft, человек для финала» работает в большинстве жанров; AI-движки пока экономят только на объёмах от 30+ роликов в месяц.

Что делать дальше

Если запускаете первый канал — попробуйте Welder Starter за 1 690 ₽/мес. С учётом скидки первого месяца это около 1 014 ₽. Голос ElevenLabs, видео Veo 3.1, оплата в рублях, без интеграции API и без VPN. Запуск ролика — пять минут от регистрации.

Если у вас уже работает пайплайн и нужен только TTS-апгрейд — ElevenLabs v3 Creator за $22/мес. Заведите 3–5 клонов под разные сценарии (новости, нарратив, диалог, юмор) — цена и качество здесь лучшие на рынке.

Если работаете под рубли и договор — SaluteSpeech или Yandex SpeechKit. Первый сильнее в эмоциях, второй — в экономике. Оба закрывают вопросы бухгалтерии и оплаты из РФ.

Сделайте первый ролик и оцените голос сами — запуск занимает пять минут.