Главное за 30 секунд
В мае 2026 русскоязычному креатору шортсов нужно выбирать между четырьмя голосовыми движками. ElevenLabs v3 вышел в GA 14 марта 2026 и поддерживает 70+ языков, включая русский, с инлайн-эмоциями вроде [whispers] и [laughs]. OpenAI gpt-4o-mini-tts стоит примерно $0.015 за минуту аудио — это ~50% дешевле базового тарифа ElevenLabs, но управление эмоциями идёт через промпт, а не теги. Яндекс SpeechKit — единственный из этой четвёрки, кто платится в рублях (от 0.6 ₽ за 1000 символов) и доступен из РФ без VPN. Welder AI берёт ваш промпт «сценарий про античность, мужской голос с придыханием, 45 секунд» и возвращает готовый ролик с озвучкой ElevenLabs v3, обложкой и сборкой на Veo 3 — от 290 ₽ за серию.
Ниже — тест на 5 одинаковых сценариях (история, факты, обзор, эмоциональный, спокойный) с замером MOS, ценой за минуту и временем рендера. Спойлер: чемпиона по всем параметрам не существует, и ниже мы расскажем, кому что взять.
Что мы тестировали и как
Мы прогнали один и тот же набор русских сценариев через четыре движка, чтобы сравнить не маркетинг, а реальный звук, который попадает в шортс. Каждый сценарий — это 45–60 секунд закадрового текста под вертикальное видео.
- Сценарий 1. Историческая нарратива про падение Рима (нужны драма, паузы, низкие частоты).
- Сценарий 2. Технический разбор GPT-5.5 vs Claude 4.7 (термины, длинные предложения, чёткая дикция).
- Сценарий 3. Эмоциональный сторителлинг про увольнение и стартап (паузы, дыхание, реальные эмоции).
- Сценарий 4. Образовательный hook про мозг (быстрый темп, цифры, интонационные подъёмы).
- Сценарий 5. Голос-инструкция для квиза («Дай свой ответ в комментариях»).
Для каждого замеряли четыре метрики: субъективный MOS (1–5, оценивали трое слушателей вслепую), цена за 1000 символов с учётом тарифа, время от запроса до WAV-файла, объём ручной доработки (правки ударений, пауз). На тестовый сценарий выходило ~600 символов русского текста — это удобный baseline для шортса на 45 секунд.
ElevenLabs v3 — эмоция дорогая, но настоящая
Eleven v3 — самая выразительная модель ElevenLabs на 2026 год. Инлайн-теги [whispers], [laughs], [excited] работают по-русски без потери качества — это пока никто из конкурентов всерьёз не повторил. На сценарии 3 (эмоциональный сторителлинг) модель сама вставляла короткие вдохи перед сильными фразами, а на «больно было это говорить» — реально слышимый shaky-эффект.
Цена в тарифной сетке на май 2026 — от $0.17 до $0.30 за 1000 символов в зависимости от плана (Creator → Business). На наш шортс в 600 символов это 10–18 центов за озвучку. Минусы:
- Платёж только в долларах. Карта РФ — не пройдёт, нужен или зарубежный счёт, или прокладка.
- API ограничен по rate'у на Creator-тарифе. Если делаете 50 шортсов в день — упрётесь.
- Voice Lab (клонирование своего голоса) доступен от Creator-плана, но русский клон с 1 минутой сэмпла звучит хуже, чем английский.
- Без правильного промпта v3 переигрывает: добавляет вздохи там, где не надо.
На моей шкале — это базовый выбор для всего, что должно звучать как человек, не как робот. И ровно поэтому Welder ставит ElevenLabs дефолтным движком в пайплайне для многоязычных каналов.
OpenAI gpt-4o-mini-tts — дёшево, быстро, но «не наш»
gpt-4o-mini-tts вышел весной 2025 и в 2026 стал основной TTS-моделью OpenAI. Параметры на май 2026:
- Цена: $0.60 за 1М input-токенов + $12 за 1М audio-output-токенов → ~$0.015 за минуту готового аудио. Это самый дешёвый качественный TTS на рынке.
- 11 базовых голосов + Marin и Cedar (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer, Verse).
- Управление эмоцией через инструкцию в промпте («говори как уставший учитель, медленно»). Тегов внутри текста нет.
- 50+ языков, включая русский.
- Лимит ввода — 2000 токенов за запрос.
Голоса звучат чисто и быстро рендерятся (~3–5 секунд на наш 600-символьный сценарий против 8–12 у ElevenLabs). Но:
- Русский акцент. На сценарии 3 фразу «по-другому уже не получится» Nova произнесла с лёгким American intonation pattern — для шортсов уровня b2b ok, для эмоциональных видео — режет ухо.
- Ударения. На редких словах («дезавуировать», «изысканный») gpt-4o-mini-tts ставит ударение на первый слог чаще, чем ElevenLabs.
- Платёж. OpenAI API — также в долларах, через зарубежную карту.
На сценарии 2 (технический разбор) gpt-4o-mini-tts выиграл у всех: чёткая дикция, быстрый рендер, цена смешная. Если у вас канал в духе «5 фактов про X» с холодной подачей — берите этот. Если истории и эмоции — нет.
Яндекс SpeechKit — рубли, никаких VPN, но другой потолок
Яндекс SpeechKit — единственный из четвёрки, кто оптимизирован специально под русский. Главные голоса 2026: Алёна и Джейн (женские), Филипп и Эрмиль (мужские). Цена начинается от 0.6 ₽ за 1000 символов на тарифе по запросам — на наш 600-символьный шортс это 36 копеек.
Что это значит на практике:
- Полностью русская озвучка без акцента — на длинных нарративных текстах побеждает у gpt-4o-mini-tts за счёт правильной интонации.
- Оплата в рублях, аккаунт в Yandex Cloud, никаких заграничных карт.
- Документация и поддержка по-русски.
- Бесплатный лимит на старте — хватит, чтобы протестировать 30–50 шортсов перед оплатой.
Где проигрывает ElevenLabs:
- Эмоции беднее. На сценарии 3 SpeechKit прочитал «больно было это говорить» как фоновый ведущий новостей — без вздоха, без паузы. Технически чисто, эмоционально пусто.
- Нет клонирования голоса в self-service режиме. Кастомный голос (Brand Voice) — отдельный продукт с записью студийным актёром, цена обсуждается индивидуально.
- API чуть капризнее: SSML-теги для пауз и интонации работают, но требуют ручной разметки.
Если вы делаете faceless-канал про факты, историю или образование на русском — SpeechKit брать не стыдно. Плюс это единственный путь для тех, кто принципиально не хочет платить иностранцам.
Murf, Resemble, PlayHT — почему мы не считаем их топом для RU
Коротко по альтернативам, которые часто упоминают рядом:
- Murf AI Studio — поддерживает 60+ языков, но русский голос звучит как пресс-релиз. Voice cloning на self-service тарифах отсутствует — для серьёзного канала это блокер. Сильное место Murf — таймлайн-редактор поверх голоса, удобно для презентаций, не для шортсов.
- Resemble AI — клонирование голоса работает, но русский в их каталоге представлен слабо. Документация ориентирована на enterprise.
- PlayHT — недорого, но качество русских голосов в 2026 заметно хуже SpeechKit и ElevenLabs.
Вывод: для русскоязычного шортса берите один из трёх движков выше. Остальные — пока про другие сценарии.
Welder AI — голос внутри пайплайна, а не отдельная задача
Если вы делаете шортсы серийно, голос — это не отдельный сервис, который вы интегрируете. Это часть конвейера. Welder AI берёт нишу, тему и формат, генерирует сценарий через LLM (см. сравнение GPT-5.5, Claude 4.7 и Gemini для шортсов), подбирает голос ElevenLabs под жанр, проговаривает текст, рендерит сцены на Veo 3 / Veo 2 и собирает финальный mp4 с обложкой.
Практически это значит:
- Голос всегда соответствует жанру. На драматическую античность не уедет «весёлый» голос для распаковок.
- Voice-lock: один голос сохраняется через всю серию роликов — для подписчика это узнаваемый бренд, а не зоопарк дикторов.
- Оплата в рублях, ElevenLabs-движок зашит под капотом — вам не нужно держать отдельный API-ключ.
- На старте Welder серия из 5 шортсов с голосом и сборкой идёт от 290 ₽ — это уже включая Veo 3 рендер, не только TTS.
Логично спросить: зачем платить Welder, если можно собрать руками? Ответ: цена ошибки. Один шортс на сборке вручную съедает 40–90 минут (промптинг, рендер, эксперимент с голосом, монтаж). Welder делает то же за 3–5 минут. Если вы делаете один ролик в неделю — соберите вручную. Если 50 в месяц — пайплайн отбивается за первую неделю.
Сравнительная таблица
| Движок | Голос на RU | Эмоции | Цена за 1К симв | Платёж | Клонирование | Лучший сценарий |
|---|---|---|---|---|---|---|
| ElevenLabs v3 | 9/10 | 10/10 | $0.17–0.30 | USD, заруб. карта | Да, от Creator | Истории, драма, эмоции |
| OpenAI gpt-4o-mini-tts | 7/10 | 6/10 | ~$0.018 | USD, заруб. карта | Нет | Холодные факты, разборы |
| Yandex SpeechKit | 9/10 | 5/10 | 0.6 ₽ | RUB, без VPN | Brand Voice (enterprise) | Образование, новости, history |
| Welder AI (на ElevenLabs) | 9/10 | 10/10 | от 290 ₽ за серию | RUB | Voice-lock серии | Полный пайплайн шортсов |
Ключевая оговорка: оценки субъективные, на пяти сценариях, тремя слушателями. Если у вас другой жанр — прогоните свои тексты на бесплатных лимитах каждого движка перед коммитом.
Кому что брать — короткий гайд
- Faceless-канал про истории, мифы, мистику, true crime. Берите ElevenLabs v3 напрямую или через Welder. На таких жанрах эмоции важнее цены.
- Образовательный канал, факты, наука, история. Yandex SpeechKit. Чистый русский, низкая цена, никаких заграничных карт.
- Технический контент, обзоры тулзов, новости. OpenAI gpt-4o-mini-tts. Холодная дикция тут плюс, цена смешная.
- Серия из 30+ роликов в месяц. Welder. Voice-lock + автогенерация сценария + рендер на Veo 3 = меньше операционки.
- Сольный канал, 1 ролик в неделю. ElevenLabs Starter за $5 + ручная сборка. Дешевле, чем любой пайплайн на таком объёме.
И помните: голос — это 40% решения зрителя досмотреть шортс. Можете сэкономить на сценарии, можете на видеоряде, но не на голосе. Плохая озвучка убивает retention быстрее, чем плохой кадр (см. hook первой секунды). Особенно это критично, если вы боретесь с анти-AI-look — фальшивый голос палит ИИ-шортс быстрее, чем фальшивая картинка.
Следующий шаг
Если вы только тестируете нишу — возьмите Yandex SpeechKit бесплатно, прогоните 3–5 сценариев, посмотрите, заходит ли вашему сегменту русский голос вообще. Если канал уже работает и вы ищете апгрейд эмоций — переходите на ElevenLabs v3 или соберите всё внутри Welder AI: не нужно жонглировать API-ключами, не нужна валютная карта, voice-lock держит бренд через всю серию.
Один совет напоследок: не спорьте с движком на ударениях руками каждые 10 минут. Если на конкретном слове модель упрямо ставит не туда — перепишите фразу. Это быстрее и поднимает естественность сразу для всех будущих роликов.