Перейти к содержимомуTTS для AI-Shorts 2026: ElevenLabs, OpenAI, Salute, Yandex
WWelder AI

TTS для AI-Shorts 2026: ElevenLabs, OpenAI, Salute, Yandex

Инструменты10 минWelder AI

TTS для AI-Shorts 2026: ElevenLabs, OpenAI, Salute, Yandex

Цены, голос, эмоции и доступ из РФ — тестируем 5 TTS-движков на одном 90-секундном сценарии. Без рекламы и красивых слов.

Главное за 30 секунд

В июне 2026 для русскоязычного AI-Shorts реально работают пять TTS-движков: ElevenLabs v3 (с февраля 2026 в GA, 70+ языков, аудио-теги для эмоций), OpenAI gpt-4o-mini-tts (≈$0.015 за минуту аудио, 13 голосов с поддержкой русского), SaluteSpeech от Сбера (186 ₽ за 1 миллион символов, freemium 200 000 символов в месяц для физлиц), Yandex SpeechKit (от $0.000020 за символ, бюджетный сегмент) и Welder AI — пайплайн поверх ElevenLabs с RU-сценаристом и Veo 3.1, от 1 690 ₽/мес.

Короткий итог. ElevenLabs v3 побеждает по эмоциональности и качеству клона голоса. OpenAI — по цене за минуту. SaluteSpeech — по доступности из РФ: рубли, договор, без VPN. Yandex SpeechKit — по совокупной экономике, если у вас не один канал, а конвейер. Welder снимает разработку: вы получаете готовый ролик с ElevenLabs-озвучкой и не интегрируете API руками.

Дальше — тест на одном и том же 90-секундном сценарии и матрица «что брать под сценарий».

Параметры теста

Один и тот же сценарий через пять движков:

  • 90 секунд аудио, около 1 100 символов исходного текста;
  • голос — «уверенный мужчина 35–40 лет», спокойная подача с акцентом на ключевых тезисах;
  • два варианта эмоции: нейтральный и переход «удивлённый → раздражённый» в середине;
  • русский язык, три сложных слова с нестандартным ударением (имена и термины);
  • финал с восходящей интонацией под подписку.

Замеряли: качество звучания на слух, корректность ударений, эмоциональный диапазон, скорость генерации, стоимость одного ролика, доступность из РФ (без VPN, оплата с РФ-карты, договор).

ElevenLabs v3: эталон выразительности

В феврале 2026 ElevenLabs перевели модель v3 из альфы в General Availability. Главное нововведение — аудио-теги в квадратных скобках, прямо внутри сценария: [excited], [whispers], [sighs], [sarcastically], даже [gunshot] и [explosion] как звуковые эффекты. Модель меняет интонацию посреди предложения — можно начать спокойно и закончить криком в одной генерации.

Поддержка русского — в числе 70+ языков. Профессиональный клон голоса делается за 30 секунд по 1-минутному сэмплу. Мы протестировали RU-клон собственного голоса: акцент сохраняется, ударения ставятся корректно в 9 случаях из 10, имена собственные читаются как у человека.

Цена. Тариф Creator — $22/мес, 100 000 кредитов, это примерно 100 минут TTS на v2 и 50–100 минут на v3 (Flash-модель внутри Creator дешевле, но менее выразительная). Pro — $99/мес, 500 000 кредитов, 500 минут. Если делаете 30 Shorts по 60 секунд = 30 минут аудио, Creator-тариф закрывает это с двойным запасом.

Минусы для RU-креатора:

  • оплата только зарубежной картой или через посредника;
  • v3 заметно медленнее v2: 90-секундный ролик генерится 40–60 секунд против 8–12 у v2;
  • иногда «съедает» твёрдый знак или путает «ё/е» в редких словах.

Когда брать. Серии под YouTube и TikTok, где голос — актив бренда; talking-head с эмоциональной подачей; озвучка под лонг-форматы.

OpenAI gpt-4o-mini-tts: цена побеждает

OpenAI выпустили gpt-4o-mini-tts в марте 2025, к началу 2026 расширили линейку голосов до 13 против 9 у стандартного tts-1-hd. Русский поддерживается через мультиязычный режим: модель определяет язык по входному тексту.

Биллинг токенный. $0.60 за 1 миллион входных текстовых токенов и $12 за 1 миллион аудио-токенов на выходе. В пересчёте на минуту аудио — около $0.015, то есть ≈1,3 ₽ по курсу 90. Для 90-секундного ролика выходит около 2 ₽.

Качество русского — среднее. Голос «звучит ИИ»: ровный, эмоции не передаёт. Ударения корректны в простых словах; в именах собственных промахивается в 2–3 случаях из 10. Эмоциональный диапазон скудный: можно задать тон через instructions в API («cheerful narrator», «calm explainer»), но переключаться внутри предложения, как у ElevenLabs v3, нельзя.

Плюсы:

  • самая низкая цена среди всех протестированных движков;
  • быстрая генерация — 90 секунд готовы за 5–8 секунд;
  • стриминг работает с первого API-вызова, удобно для real-time чат-ботов и интерактивных сценариев.

Минусы:

  • голос плосковатый, не подходит под драматичные нарративы;
  • нет профессионального voice cloning (только pre-built голоса);
  • оплата только зарубежной картой; доступность из РФ — через посредников.

Когда брать. Бот-озвучка, FAQ-видео, новостной конвейер, где важен трафик и объём, а не уникальный тембр.

SaluteSpeech от Сбера: рубли, freemium, договор

Российский движок. 186 ₽ за 1 миллион символов синтеза, минималка 600 ₽/мес для юрлиц. Физлица получают freemium-тариф: 200 000 символов синтеза в месяц бесплатно. При первом подключении 30 дней действует бонус 3 999 ₽; если не превысили, не платите ничего.

Голоса. Несколько RU-голосов с двумя режимами — строгий и эмоциональный тембр. Эмоциональный диапазон уже, чем у ElevenLabs v3, но шире, чем у OpenAI: можно задать восторг, удивление, спокойствие. Ударения и интонация под русский — лучшие из всех движков в тесте: модель тренирована на русскоязычном датасете, чужих слов в выборке мало.

Плюсы:

  • оплата с РФ-карты или по договору с НДС;
  • freemium закрывает мелкий канал бесплатно: 200К символов — это около 3 часов TTS;
  • интонация под русский на голову выше английских моделей в редких словах и фамилиях.

Минусы:

  • voice cloning только в рамках корпоративных контрактов, для физлица недоступен;
  • меньше пресет-голосов, чем у ElevenLabs (около 10 против 60+);
  • эмоциональные теги задаются не инлайн, а через SSML — для скриптеров неудобно.

Когда брать. AI-канал с фиксированным голосом, монетизируемый в РФ; брендовые озвучки от ИП или ООО; продакшен под госконтракт. Если канал уже зарабатывает на интеграциях — подробно про маркировку и ОРД-ЕРИР мы разобрали в гайде по спонсорству AI-канала.

Yandex SpeechKit: бюджет-конвейер

Тоже российский, тоже в рублях. Цена ≈ $0.000020 за символ в базовом тарифе — это около 1,8 ₽ за 1 000 символов, или около 2 ₽ за 90-секундный ролик в среднем. Поддержка: русский, английский, турецкий.

Голоса. SpeechKit предлагает базовый Standard и премиальный Premium с большей выразительностью. Premium-голоса звучат лучше, чем OpenAI, но проигрывают ElevenLabs v3 по эмоциональности и SaluteSpeech по «русскости» интонации. SSML работает: поддерживаются паузы, ударения, скорость, изменение тембра внутри фразы.

Плюсы:

  • самая низкая цена среди премиальных движков в РФ;
  • быстрая генерация — 3–6 секунд на 90 секунд аудио;
  • стабильная инфраструктура: Yandex Cloud, низкий latency для серверов в Москве и Питере.

Минусы:

  • эмоциональный диапазон ограничен пресет-голосами; динамика внутри сцены слабая;
  • нет публичного voice cloning;
  • интерфейс рассчитан на разработчиков; нет «студии» для редактирования озвучки руками.

Когда брать. Высокообъёмные новостные ленты, telegram-боты, корпоративные обучалки, где важна экономика и стабильность, а не выразительность.

Welder AI: ElevenLabs в комплекте с пайплайном

Welder AI — не движок TTS, а вертикальный пайплайн: ниша → сценарий → голос → сцены → монтаж → готовый Short. Под капотом для голоса работает ElevenLabs (включая v3 в режиме коммерческой лицензии Welder), для видео — Veo 3.1 и Veo 2, для сценария — LLM-цепочка с RU-fine-tuning.

Что вы получаете на тарифах 1 690 ₽ — 18 000 ₽/мес:

ТарифЦена/месВидео в месяцМинут TTS включено
Starter1 690 ₽≈151 500
Creator5 290 ₽≈505 000
Studio18 000 ₽≈18018 000

Лимит «минут TTS» — это сколько голосового контента уже включено в подписку. Если делаете 30 Shorts по 60 сек = 30 минут аудио, Starter покрывает это с 50-кратным запасом.

Плюсы для RU-креатора:

  • оплата с РФ-карты в рублях — и для физлица, и для юрлица;
  • ElevenLabs-качество без отдельной подписки и без VPN;
  • сценарий, голос, сцены и монтаж в одном пайплайне — не нужно собирать API-связку из 5 сервисов;
  • первая подписка идёт со скидкой −40% на первый месяц по умолчанию в чек-ауте.

Минусы:

  • нельзя подсунуть собственный клон голоса; используете пресет-набор (10+ RU-голосов от ElevenLabs);
  • меньше прямого контроля над аудио-тегами v3, чем при работе с ElevenLabs API напрямую;
  • если нужно только TTS без видео-пайплайна, переплачиваете за неиспользуемые компоненты.

Когда брать. Вы хотите запускать каналы, а не интегрировать API. Подробнее про вертикальный пайплайн — в нашем разборе дубляжа AI-Shorts, где Welder сравнен с ElevenLabs Dubbing, HeyGen и Rask.

Сравнительная таблица: 5 движков для RU-Shorts

ПараметрElevenLabs v3OpenAI mini-ttsSaluteSpeechYandex SpeechKitWelder
RU-качество (1–10)96879
Эмоции и тегиЛучшиеСредниеСредниеСлабыеЛучшие
Voice cloning физлицуДа, 30 секНетНетНетПресеты
Цена за 1 мин аудио≈20 ₽≈1,3 ₽≈1,1 ₽≈1,3 ₽Включено
Минимальный платёж$22/месPay-as-you-go600 ₽/мес (юр.)Pay-as-you-go1 690 ₽/мес
Оплата из РФVPN + иностр. картаVPN + иностр. картаРубли + договорРубли + договорРубли
FreemiumБазовый, 10К кредитовНет200К симв./месНет−40% на 1-й месяц
Скорость 90 сек40–60 сек5–8 сек8–15 сек3–6 сек30–50 сек
Готовый пайплайнНетНетНетНетДа

Цены приведены на 02 июня 2026 по официальным прайсам платформ; курс ₽/$ — 90.

Что выбрать под ваш сценарий

Сценарий 1 — один faceless-канал, 30 Shorts/мес, бюджет до 2 000 ₽/мес. Welder Starter. 1 500 минут TTS — это в 50 раз больше вашего объёма; видео-пайплайн снимает разработку; оплата в рублях. Альтернатива: SaluteSpeech freemium плюс ручной монтаж, если у вас есть техническая команда и не жалко времени.

Сценарий 2 — конвейер из 3–6 каналов агентства, 200+ Shorts/мес. Welder Creator или Studio. Сравните: ElevenLabs Pro $99 + Veo 3.1 API (около $0.40 за 8-секундный клип) + сборка ≈ $250–400/мес «голым» API. Welder Studio даёт тот же объём за 18 000 ₽ ≈ $200, и без своей DevOps-команды.

Сценарий 3 — talking-head с собственным голосовым клоном, выраженная актёрская подача. ElevenLabs Creator или Pro напрямую. Клон 30-секундным сэмплом плюс аудио-теги v3 — пока ни один из остальных движков этого физлицам не предлагает.

Сценарий 4 — массовый поток новостных видео, 500+ в месяц, экономика на первом месте. OpenAI gpt-4o-mini-tts или Yandex SpeechKit. 1 час аудио стоит около $0.90 у OpenAI и около 65 ₽ у Yandex. Голос ровный, но для новостей это норма.

Сценарий 5 — корпоративный продакшен под госконтракт или маркетинг с маркировкой. SaluteSpeech. Договор с НДС, оплата по реквизитам, выписка для бухгалтерии. Voice cloning доступен в корпоративных пакетах при объёме от 1 млн символов в месяц.

Тонкости, о которых забывают

Ударения в редких словах. Все движки промахиваются в именах собственных и заимствованиях. Решение: SSML с явным <break> и <emphasis>, плюс ручная транслитерация. Например, «Илон» вместо «Илон Маск» в местах, где модель ставит ударение на второе слово. SaluteSpeech и Yandex переносят это лучше остальных из коробки.

Музыка на фоне. Любая TTS-озвучка проигрывает в SNR против реального актёра, поэтому фоновый трек ставьте ≤ −18 dB к голосу. Подробно про подбор треков — в нашем тесте Suno v5.5, Udio и Stable Audio.

Субтитры обязательны. 70% Shorts смотрятся без звука; даже идеальная озвучка без burned-in captions теряет retention. Стиль captions, тайминги, нюансы платформ — в гайде по субтитрам AI-Shorts 2026.

Лицензия на коммерческое использование. ElevenLabs включает коммерческие права с тарифа Creator. OpenAI — без ограничений на коммерческое применение. SaluteSpeech и Yandex — да, но проверьте, что выбранный голос помечен как «коммерческий»: некоторые премиум-голоса заблокированы для рекламы и интеграций. Welder включает коммерческую лицензию во все тарифы.

Локальные дикторы тоже остаются вариантом. Если у вас один канал с устойчивой подачей, фрилансер на Авито или Profi.ru — 500–1 500 ₽ за минуту, без подписки. Гибрид «TTS для draft, человек для финала» работает в большинстве жанров; AI-движки пока экономят только на объёмах от 30+ роликов в месяц.

Что делать дальше

Если запускаете первый канал — попробуйте Welder Starter за 1 690 ₽/мес. С учётом скидки первого месяца это около 1 014 ₽. Голос ElevenLabs, видео Veo 3.1, оплата в рублях, без интеграции API и без VPN. Запуск ролика — пять минут от регистрации.

Если у вас уже работает пайплайн и нужен только TTS-апгрейд — ElevenLabs v3 Creator за $22/мес. Заведите 3–5 клонов под разные сценарии (новости, нарратив, диалог, юмор) — цена и качество здесь лучшие на рынке.

Если работаете под рубли и договор — SaluteSpeech или Yandex SpeechKit. Первый сильнее в эмоциях, второй — в экономике. Оба закрывают вопросы бухгалтерии и оплаты из РФ.

Сделайте первый ролик и оцените голос сами — запуск занимает пять минут.

#tools#сравнение#tts#голос#elevenlabs-v3#openai-tts#salutespeech#welder