Эмоции в ИИ-голосе 2026: ElevenLabs v3, OpenAI, Yandex

Тест 5 голос-движков на 8 эмоциях для шортсов: ElevenLabs v3, OpenAI gpt-4o-mini-tts, Murf, Yandex SpeechKit, Welder. Где озвучка перестаёт звучать как робот.

Главное за 30 секунд

В мае 2026 у создателя AI-Shorts есть пять способов получить голос — и ни один не работает «из коробки» под TikTok-удержание. ElevenLabs v3 вышел в general availability 14 марта 2026 и принёс audio-теги: [whispers], [laughs], [excited], которые любая нормальная нейронка пропускает мимо, а v3 действительно отыгрывает. OpenAI gpt-4o-mini-tts берёт эмоцию из промпта на естественном языке: написал «прочитай как уставший детектив в три ночи» — получил, и недорого: $0.015 за минуту аудио. Murf Gen-3 и PlayHT Ultra дают чистый профессиональный звук, но при попытке выдавить настоящую злость или испуг получается «промо-ролик банка». Yandex SpeechKit — единственный, кто слышит русский язык изнутри: голос Алёны узнаёт стресс на твёрдых согласных, остальные — нет.

Welder AI работает поверх ElevenLabs v3 и Yandex SpeechKit и добавляет уровень, которого нет ни у кого: режиссёрский слой над голосом — пауза перед хуком, выдох перед punchline, drop эмоции на словах-якорях. Дальше — детальный тест на 12 промптах и 8 эмоциях, со ставками за 1000 знаков и реальным ответом на вопрос «какой голос ставить под жанр».

Почему эмоция в озвучке решает удержание

Средний AI-shorts с roboflat-голосом теряет до 41% зрителей в первые 1.5 секунды. После того как ElevenLabs выкатил v3 в GA, среди каналов в Welder отвал в первой секунде упал в среднем на 17 процентных пунктов — просто потому что мы поставили [gasps] после хука и [whispers] на cliffhanger.

Алгоритмы TikTok и YouTube Shorts не смотрят на пресет голоса. Они смотрят на пики удержания. Эмоция в озвучке поднимает retention rate на 12–24% при том же сценарии — это подтверждённая статистика мая 2026 у двух наших каналов на 200K+ подписчиков.

Главный вопрос — какой движок справляется с какой эмоцией. Базовый набор для шортсов:

удивление (хук первой секунды);
шёпот (cliffhanger перед склейкой сцен);
смех / смешок (punchline);
усталость / разочарование (драма, true crime, философия);
возбуждение (кульминация: деньги, спорт, экшен);
ярость (микродрама, конфликт в сценарии);
грусть (story-каналы);
ровная подача (наука, факты, разборы).

Восемь эмоций × четыре движка + Welder = матрица из 40 точек, которую и тестировали.

Тест: 12 промптов, 8 эмоций, 5 движков

Я взял 12 типовых промптов из реальных каналов в Welder — выборка по жанрам: true crime (3), психология (3), бизнес-истории (2), мифология (2), научпоп (1), стоицизм (1). Каждый прогоняли через ElevenLabs v3, OpenAI gpt-4o-mini-tts, Murf Gen-3, PlayHT Ultra, Yandex SpeechKit и Welder.

Метрики:

естественность (1–10, слепой тест на 12 редакторах с RU-каналов);
управляемость эмоцией (получилось ли выжать нужную интонацию);
скорость генерации (секунд на 30-секундный ролик);
цена за 30 секунд аудио;
лимит на одну генерацию;
качество русского.

ElevenLabs v3: audio-теги и предел контроля

ElevenLabs выкатил v3 в general availability 14 марта 2026 года, и это сейчас единственная западная модель, которая отрабатывает inline-теги без шаманства. Пишешь:

[excited] Стоп. Ты не поверишь, что Гай Юлий сделал в день смерти.
[whispers] Никто не знал, что в его тоге был свиток...
[gasps] ...с именами всех заговорщиков.

И v3 действительно повышает энергию на первой строке, шепчет на второй и реально вдыхает на третьей. До v3 такое можно было получить только из ручной нарезки, теперь — в один промпт. Доступно 30+ тегов: эмоции ([excited], [nervous], [frustrated], [sorrowful], [calm]), реакции ([sigh], [laughs], [gulps], [gasps]), когнитивные паузы ([pauses], [hesitates], [stammers], [resigned tone]) и тональные подсказки ([cheerfully], [flatly], [deadpan], [playfully]).

Цена. $0.17–$0.30 за 1000 символов в зависимости от тарифа, 80% скидка на v3 до конца июня 2026 (промо после релиза). Тариф Creator за $22/мес даёт ≈30 000 знаков — это около 50 шортсов в месяц.

Огрехи. Лимит 3000 символов на запрос — для микродрамы с длинным закадровым голосом приходится резать на куски и склеивать. Professional Voice Clones (PVC) пока не оптимизированы под v3 в alpha — стабильно работают только Instant Voice Clones и library voices.

Когда брать. True crime, психология, мифология, любые сюжеты, где эмоция переключается каждые 2–3 секунды. У нас два канала в нише, описанной в кейсе ИИ-канала true crime, переехали на v3 в апреле — retention первой минуты вырос с 47% до 61%.

OpenAI gpt-4o-mini-tts: эмоция через промпт

OpenAI пошла другим путём: вместо тегов в тексте — отдельное поле instructions в API, куда пишешь натуральным языком, как читать. «Прочитай как уставший детектив в три ночи». «Произнеси с детским восхищением». «Подавленный тон, длинные паузы между словами».

gpt-4o-mini-tts стоит $0.015 за минуту аудио — самый дешёвый управляемый голос на рынке, в 7–10 раз дешевле ElevenLabs v3 при сопоставимом качестве на коротких отрезках до 30 секунд. На длинных озвучках (3+ минут) теряет когерентность интонации; для шортсов идеально, для подкастов — нет.

13 встроенных голосов, 50+ языков. Русский — рабочий, но звучит как человек, который три года учился в Москве: грамматика чистая, интонации иногда чуть «английские».

Когда брать. Высокообъёмные каналы 30–60 роликов в месяц, где важна цена. Канал «эксперт без лица» из нашего разбора AI-Shorts для эксперта перешёл с ElevenLabs на gpt-4o-mini-tts именно из-за цены — потеря 1–2 пункта по шкале редакторов, экономия ₽8 000 в месяц.

Murf Gen-3 и PlayHT Ultra: чисто, но плоско

Murf Gen-3 вышел осенью 2025 с заявкой «Breath-Aware» — нейросеть вставляет естественные вдохи и паузы. 500+ голосов, 40+ языков, есть RU. Цена через API — $0.03 за 1000 знаков (Studio-quality TTS). Studio plan для креатора — $29/мес. Подходящий стиль «Promotional» добавляет энергии, но без перегиба.

Проблема Murf, и в том же лагере PlayHT: оба движка оптимизированы под B2B-нарратив, корпоративные видео, e-learning. Когда пишешь «прочитай злобно» — получаешь профессионально-серьёзно, не злобно. Это не баг, это выбор продукта: их клиент — отдел маркетинга крупной компании, а не TikTok-креатор.

PlayHT 2.0 / Ultra даёт чуть больше эмоционального диапазона, особенно в английском. В русском — слабее Murf, лучше OpenAI, хуже Yandex. Voice cloning через PlayHT работает за 30 секунд исходника — полезно для talking-head формата, где нужен «свой» голос быстро.

Когда брать. B2B SaaS-каналы, e-learning, обучалки, корпоративные «расскажи как устроено X» шортсы. Под микродраму и true crime — мимо.

Yandex SpeechKit: единственный, кто слышит русский

Зарубежные движки учились на английском и потом дотюнили русский. Yandex учил на русском с нуля. Это слышно сразу: голос Алёны и Джейн прорабатывают твёрдые согласные, мягкий знак и ударение в трёхсложных словах так, как gpt-4o-mini-tts не умеет в принципе.

Минусы. Эмоциональная окраска поддерживается только на ru-RU и только для голосов Jane и Omazh — три интонации: «радость», «раздражение», «нейтрально». Все остальные голоса работают с автоматическим выбором интонации в премиум-режиме, и развивать эмоциональный контроль для них Яндекс не планирует. Серьёзное ограничение для драматических жанров.

Цена — SpeechKit оплачивается за единицы синтеза по тарифам Yandex Cloud, считается через консоль. На практике выходит дороже OpenAI на коротких объёмах и сопоставимо с ElevenLabs Creator на больших.

Когда брать. Каналы строго на русскую аудиторию, где важна правильность звучания (учебные ниши, юридические разборы, новостные обзоры, кейсы про РФ). В сочетании с эмоциональным движком (v3) для драматичных вставок — лучший сетап для русскоязычного канала.

Welder: режиссёр поверх всех движков

Welder не делает свой TTS. Welder делает то, что между голосом и зрителем — режиссёрский слой:

Берёт ваш сценарий и автоматически расставляет паузы перед хуками, выдохи перед punchline'ами, drop эмоции на словах-якорях.
Под Veo 3.1 / Veo 3.1 Lite сцены подбирает голос, который попадает в lip-sync без рассинхрона.
Прогоняет тот же текст через два движка (v3 + Yandex) и склеивает: «эмоциональные» куски — на ElevenLabs, «фактологические» русские — на Yandex.
Сохраняет voice lock — выбранный голос остаётся постоянным во всей серии из 30 шортсов. Никаких «новый эпизод — новый тембр».

Тариф старта — от 290 ₽ за серию из 5 шортсов с голосом и сборкой. Это в 3–4 раза дешевле, чем собирать DIY-пайплайн из v3 + Veo + ручной нарезки. Подробности — в нашем апдейте мая о voiceover-сериях.

Сравнительная таблица

Движок	Эмоции	RU-качество	Цена/30 сек	Лимит запроса	Лучше всего для
ElevenLabs v3	Audio-теги, 30+	7/10	₽1.5–₽2.5	3 000 знаков	true crime, психология, микродрама
OpenAI gpt-4o-mini-tts	Промпт NL, гибко	6/10	₽0.5–₽0.8	4 096 токенов	объём, цена, EN-каналы
Murf Gen-3	8 пресет-стилей	5/10	₽1.0–₽1.5	10 000 знаков	B2B, e-learning
PlayHT Ultra	Прозодия, 5 стилей	5/10	₽1.0–₽1.4	5 000 знаков	talking-head, voice clone
Yandex SpeechKit	3 интонации (RU)	9/10	₽1.2–₽2.0	5 000 знаков	RU-новости, учёба, юр-разборы
Welder (v3 + Yandex)	Audio-теги + RU-чистота	9/10	от ₽290/серия	10 шортсов/серия	универсальный faceless-канал на RU

Цены — оценка по курсу ЦБ на 20 мая 2026; для зарубежных движков — пересчёт от тарифов в USD без учёта банковских комиссий.

Как выставить эмоцию под жанр канала

Не пытайтесь выжать каждый движок на каждый жанр. Правильная связка эмоция + движок выглядит так:

True crime, психология, мифология. ElevenLabs v3 с audio-тегами [whispers] на cliffhangers, [gasps] после хука, [deadpan] на интригующих фактах. Альтернатива — Welder в режиме v3-mix.
Бизнес-истории, founder-stories. OpenAI gpt-4o-mini-tts с промптом «уверенный, чуть устал, как СЕО после трёх инвесторских звонков». Подкреплено реальным кейсом канала бизнес-историй.
Научпоп. Yandex Алёна для русского, OpenAI gpt-4o-mini-tts для английского. Эмоции — минимум, ровная подача с короткими акцентами на цифрах.
Стоицизм, философия. v3 с тегами [calm], [resigned tone], [pauses] — медленный темп, длинные паузы. Это формат «голос внутри головы», v3 умеет.
Микродрама. v3 обязательно: жанр держится на эмоциональных перепадах в первые 7 секунд. Здесь не место экономить.
Эксперт без лица, B2B SaaS. Murf или PlayHT. Профессионально, без перегибов. Ставка на доверие, не на драму.

И главное правило: один канал = один голос на всю серию. Зрители TikTok привязываются к тембру быстрее, чем к лицу. Меняешь голос в третьем эпизоде — теряешь подписчиков ровно с этого эпизода. О том, как зафиксировать voice lock в клон-голосе для AI-Shorts, мы писали отдельно.

Что делать дальше

Если в вашем faceless-канале сейчас стоит «дефолтный голос из CapCut» или базовый ElevenLabs Multilingual — у вас 90% шанс получить +15–25% к удержанию первой минуты просто за счёт смены движка и расстановки тегов. Это не маркетинг — это статистика наших каналов мая 2026.

План на ближайший вечер:

Перенесите 5 последних роликов на v3 (или gpt-4o-mini-tts, если бюджет).
Расставьте 3–4 audio-тега или 2–3 промпт-инструкции в ключевых местах: хук, cliffhanger, punchline.
Сравните retention за неделю — на ту же аудиторию, на тот же тип сценария.
Если разница есть — ставьте процесс в Welder, чтобы каждая серия из 10 шортсов проходила через voice-режиссуру автоматически.

Сделать первое видео с настоящей эмоцией в голосе — войти в дашборд Welder. Если стоит протестировать без обязательств — у нас на старте есть пакет за 290 ₽ с голос-режиссурой включённой; сравнение тарифов и лимитов — на странице тарифов.

Тишина в шортсах — это удержание, которое ты теряешь. Не молчи.