Главное за 30 секунд
В мае 2026 у создателя AI-Shorts есть пять способов получить голос — и ни один не работает «из коробки» под TikTok-удержание. ElevenLabs v3 вышел в general availability 14 марта 2026 и принёс audio-теги: [whispers], [laughs], [excited], которые любая нормальная нейронка пропускает мимо, а v3 действительно отыгрывает. OpenAI gpt-4o-mini-tts берёт эмоцию из промпта на естественном языке: написал «прочитай как уставший детектив в три ночи» — получил, и недорого: $0.015 за минуту аудио. Murf Gen-3 и PlayHT Ultra дают чистый профессиональный звук, но при попытке выдавить настоящую злость или испуг получается «промо-ролик банка». Yandex SpeechKit — единственный, кто слышит русский язык изнутри: голос Алёны узнаёт стресс на твёрдых согласных, остальные — нет.
Welder AI работает поверх ElevenLabs v3 и Yandex SpeechKit и добавляет уровень, которого нет ни у кого: режиссёрский слой над голосом — пауза перед хуком, выдох перед punchline, drop эмоции на словах-якорях. Дальше — детальный тест на 12 промптах и 8 эмоциях, со ставками за 1000 знаков и реальным ответом на вопрос «какой голос ставить под жанр».
Почему эмоция в озвучке решает удержание
Средний AI-shorts с roboflat-голосом теряет до 41% зрителей в первые 1.5 секунды. После того как ElevenLabs выкатил v3 в GA, среди каналов в Welder отвал в первой секунде упал в среднем на 17 процентных пунктов — просто потому что мы поставили [gasps] после хука и [whispers] на cliffhanger.
Алгоритмы TikTok и YouTube Shorts не смотрят на пресет голоса. Они смотрят на пики удержания. Эмоция в озвучке поднимает retention rate на 12–24% при том же сценарии — это подтверждённая статистика мая 2026 у двух наших каналов на 200K+ подписчиков.
Главный вопрос — какой движок справляется с какой эмоцией. Базовый набор для шортсов:
- удивление (хук первой секунды);
- шёпот (cliffhanger перед склейкой сцен);
- смех / смешок (punchline);
- усталость / разочарование (драма, true crime, философия);
- возбуждение (кульминация: деньги, спорт, экшен);
- ярость (микродрама, конфликт в сценарии);
- грусть (story-каналы);
- ровная подача (наука, факты, разборы).
Восемь эмоций × четыре движка + Welder = матрица из 40 точек, которую и тестировали.
Тест: 12 промптов, 8 эмоций, 5 движков
Я взял 12 типовых промптов из реальных каналов в Welder — выборка по жанрам: true crime (3), психология (3), бизнес-истории (2), мифология (2), научпоп (1), стоицизм (1). Каждый прогоняли через ElevenLabs v3, OpenAI gpt-4o-mini-tts, Murf Gen-3, PlayHT Ultra, Yandex SpeechKit и Welder.
Метрики:
- естественность (1–10, слепой тест на 12 редакторах с RU-каналов);
- управляемость эмоцией (получилось ли выжать нужную интонацию);
- скорость генерации (секунд на 30-секундный ролик);
- цена за 30 секунд аудио;
- лимит на одну генерацию;
- качество русского.
ElevenLabs v3: audio-теги и предел контроля
ElevenLabs выкатил v3 в general availability 14 марта 2026 года, и это сейчас единственная западная модель, которая отрабатывает inline-теги без шаманства. Пишешь:
[excited] Стоп. Ты не поверишь, что Гай Юлий сделал в день смерти.
[whispers] Никто не знал, что в его тоге был свиток...
[gasps] ...с именами всех заговорщиков.
И v3 действительно повышает энергию на первой строке, шепчет на второй и реально вдыхает на третьей. До v3 такое можно было получить только из ручной нарезки, теперь — в один промпт. Доступно 30+ тегов: эмоции ([excited], [nervous], [frustrated], [sorrowful], [calm]), реакции ([sigh], [laughs], [gulps], [gasps]), когнитивные паузы ([pauses], [hesitates], [stammers], [resigned tone]) и тональные подсказки ([cheerfully], [flatly], [deadpan], [playfully]).
Цена. $0.17–$0.30 за 1000 символов в зависимости от тарифа, 80% скидка на v3 до конца июня 2026 (промо после релиза). Тариф Creator за $22/мес даёт ≈30 000 знаков — это около 50 шортсов в месяц.
Огрехи. Лимит 3000 символов на запрос — для микродрамы с длинным закадровым голосом приходится резать на куски и склеивать. Professional Voice Clones (PVC) пока не оптимизированы под v3 в alpha — стабильно работают только Instant Voice Clones и library voices.
Когда брать. True crime, психология, мифология, любые сюжеты, где эмоция переключается каждые 2–3 секунды. У нас два канала в нише, описанной в кейсе ИИ-канала true crime, переехали на v3 в апреле — retention первой минуты вырос с 47% до 61%.
OpenAI gpt-4o-mini-tts: эмоция через промпт
OpenAI пошла другим путём: вместо тегов в тексте — отдельное поле instructions в API, куда пишешь натуральным языком, как читать. «Прочитай как уставший детектив в три ночи». «Произнеси с детским восхищением». «Подавленный тон, длинные паузы между словами».
gpt-4o-mini-tts стоит $0.015 за минуту аудио — самый дешёвый управляемый голос на рынке, в 7–10 раз дешевле ElevenLabs v3 при сопоставимом качестве на коротких отрезках до 30 секунд. На длинных озвучках (3+ минут) теряет когерентность интонации; для шортсов идеально, для подкастов — нет.
13 встроенных голосов, 50+ языков. Русский — рабочий, но звучит как человек, который три года учился в Москве: грамматика чистая, интонации иногда чуть «английские».
Когда брать. Высокообъёмные каналы 30–60 роликов в месяц, где важна цена. Канал «эксперт без лица» из нашего разбора AI-Shorts для эксперта перешёл с ElevenLabs на gpt-4o-mini-tts именно из-за цены — потеря 1–2 пункта по шкале редакторов, экономия ₽8 000 в месяц.
Murf Gen-3 и PlayHT Ultra: чисто, но плоско
Murf Gen-3 вышел осенью 2025 с заявкой «Breath-Aware» — нейросеть вставляет естественные вдохи и паузы. 500+ голосов, 40+ языков, есть RU. Цена через API — $0.03 за 1000 знаков (Studio-quality TTS). Studio plan для креатора — $29/мес. Подходящий стиль «Promotional» добавляет энергии, но без перегиба.
Проблема Murf, и в том же лагере PlayHT: оба движка оптимизированы под B2B-нарратив, корпоративные видео, e-learning. Когда пишешь «прочитай злобно» — получаешь профессионально-серьёзно, не злобно. Это не баг, это выбор продукта: их клиент — отдел маркетинга крупной компании, а не TikTok-креатор.
PlayHT 2.0 / Ultra даёт чуть больше эмоционального диапазона, особенно в английском. В русском — слабее Murf, лучше OpenAI, хуже Yandex. Voice cloning через PlayHT работает за 30 секунд исходника — полезно для talking-head формата, где нужен «свой» голос быстро.
Когда брать. B2B SaaS-каналы, e-learning, обучалки, корпоративные «расскажи как устроено X» шортсы. Под микродраму и true crime — мимо.
Yandex SpeechKit: единственный, кто слышит русский
Зарубежные движки учились на английском и потом дотюнили русский. Yandex учил на русском с нуля. Это слышно сразу: голос Алёны и Джейн прорабатывают твёрдые согласные, мягкий знак и ударение в трёхсложных словах так, как gpt-4o-mini-tts не умеет в принципе.
Минусы. Эмоциональная окраска поддерживается только на ru-RU и только для голосов Jane и Omazh — три интонации: «радость», «раздражение», «нейтрально». Все остальные голоса работают с автоматическим выбором интонации в премиум-режиме, и развивать эмоциональный контроль для них Яндекс не планирует. Серьёзное ограничение для драматических жанров.
Цена — SpeechKit оплачивается за единицы синтеза по тарифам Yandex Cloud, считается через консоль. На практике выходит дороже OpenAI на коротких объёмах и сопоставимо с ElevenLabs Creator на больших.
Когда брать. Каналы строго на русскую аудиторию, где важна правильность звучания (учебные ниши, юридические разборы, новостные обзоры, кейсы про РФ). В сочетании с эмоциональным движком (v3) для драматичных вставок — лучший сетап для русскоязычного канала.
Welder: режиссёр поверх всех движков
Welder не делает свой TTS. Welder делает то, что между голосом и зрителем — режиссёрский слой:
- Берёт ваш сценарий и автоматически расставляет паузы перед хуками, выдохи перед punchline'ами, drop эмоции на словах-якорях.
- Под Veo 3.1 / Veo 3.1 Lite сцены подбирает голос, который попадает в lip-sync без рассинхрона.
- Прогоняет тот же текст через два движка (v3 + Yandex) и склеивает: «эмоциональные» куски — на ElevenLabs, «фактологические» русские — на Yandex.
- Сохраняет voice lock — выбранный голос остаётся постоянным во всей серии из 30 шортсов. Никаких «новый эпизод — новый тембр».
Тариф старта — от 290 ₽ за серию из 5 шортсов с голосом и сборкой. Это в 3–4 раза дешевле, чем собирать DIY-пайплайн из v3 + Veo + ручной нарезки. Подробности — в нашем апдейте мая о voiceover-сериях.
Сравнительная таблица
| Движок | Эмоции | RU-качество | Цена/30 сек | Лимит запроса | Лучше всего для |
|---|---|---|---|---|---|
| ElevenLabs v3 | Audio-теги, 30+ | 7/10 | ₽1.5–₽2.5 | 3 000 знаков | true crime, психология, микродрама |
| OpenAI gpt-4o-mini-tts | Промпт NL, гибко | 6/10 | ₽0.5–₽0.8 | 4 096 токенов | объём, цена, EN-каналы |
| Murf Gen-3 | 8 пресет-стилей | 5/10 | ₽1.0–₽1.5 | 10 000 знаков | B2B, e-learning |
| PlayHT Ultra | Прозодия, 5 стилей | 5/10 | ₽1.0–₽1.4 | 5 000 знаков | talking-head, voice clone |
| Yandex SpeechKit | 3 интонации (RU) | 9/10 | ₽1.2–₽2.0 | 5 000 знаков | RU-новости, учёба, юр-разборы |
| Welder (v3 + Yandex) | Audio-теги + RU-чистота | 9/10 | от ₽290/серия | 10 шортсов/серия | универсальный faceless-канал на RU |
Цены — оценка по курсу ЦБ на 20 мая 2026; для зарубежных движков — пересчёт от тарифов в USD без учёта банковских комиссий.
Как выставить эмоцию под жанр канала
Не пытайтесь выжать каждый движок на каждый жанр. Правильная связка эмоция + движок выглядит так:
- True crime, психология, мифология. ElevenLabs v3 с audio-тегами
[whispers]на cliffhangers,[gasps]после хука,[deadpan]на интригующих фактах. Альтернатива — Welder в режиме v3-mix. - Бизнес-истории, founder-stories. OpenAI gpt-4o-mini-tts с промптом «уверенный, чуть устал, как СЕО после трёх инвесторских звонков». Подкреплено реальным кейсом канала бизнес-историй.
- Научпоп. Yandex Алёна для русского, OpenAI gpt-4o-mini-tts для английского. Эмоции — минимум, ровная подача с короткими акцентами на цифрах.
- Стоицизм, философия. v3 с тегами
[calm],[resigned tone],[pauses]— медленный темп, длинные паузы. Это формат «голос внутри головы», v3 умеет. - Микродрама. v3 обязательно: жанр держится на эмоциональных перепадах в первые 7 секунд. Здесь не место экономить.
- Эксперт без лица, B2B SaaS. Murf или PlayHT. Профессионально, без перегибов. Ставка на доверие, не на драму.
И главное правило: один канал = один голос на всю серию. Зрители TikTok привязываются к тембру быстрее, чем к лицу. Меняешь голос в третьем эпизоде — теряешь подписчиков ровно с этого эпизода. О том, как зафиксировать voice lock в клон-голосе для AI-Shorts, мы писали отдельно.
Что делать дальше
Если в вашем faceless-канале сейчас стоит «дефолтный голос из CapCut» или базовый ElevenLabs Multilingual — у вас 90% шанс получить +15–25% к удержанию первой минуты просто за счёт смены движка и расстановки тегов. Это не маркетинг — это статистика наших каналов мая 2026.
План на ближайший вечер:
- Перенесите 5 последних роликов на v3 (или gpt-4o-mini-tts, если бюджет).
- Расставьте 3–4 audio-тега или 2–3 промпт-инструкции в ключевых местах: хук, cliffhanger, punchline.
- Сравните retention за неделю — на ту же аудиторию, на тот же тип сценария.
- Если разница есть — ставьте процесс в Welder, чтобы каждая серия из 10 шортсов проходила через voice-режиссуру автоматически.
Сделать первое видео с настоящей эмоцией в голосе — войти в дашборд Welder. Если стоит протестировать без обязательств — у нас на старте есть пакет за 290 ₽ с голос-режиссурой включённой; сравнение тарифов и лимитов — на странице тарифов.
Тишина в шортсах — это удержание, которое ты теряешь. Не молчи.