Главное за 30 секунд
В мае 2026 клонировать свой голос для AI-Shorts стоит от $5/мес — ElevenLabs Starter уже включает Instant Voice Cloning. За 30 секунд эталона вы получаете цифровую копию, которая говорит на 32+ языках. Полупрофессиональный клон (PVC) — $22/мес на плане Creator, 3 минуты эталона, обработка до 4 часов.
Свой голос даёт каналу на ИИ +18–35% к retention по сравнению с дефолтными библиотечными голосами — зритель привыкает к тембру и подсознательно ищет «тот же канал, что вчера». Это базовая брендинг-механика, недоступная при voice_id="rachel" из общей библиотеки.
Welder AI берёт voice_id из вашего ElevenLabs-аккаунта и прогоняет его через пайплайн ниша → сценарий → сцены Veo 3 → озвучка → монтаж. На вход — ваш промпт, на выход — серия из 10 шортсов с вашим голосом за 290 ₽.
Это пошаговый гайд: 60 минут от первой записи до готового клона в работе.
Зачем клонировать свой голос, а не брать готовый
Три причины, по которым faceless-каналы переходят на свой клон уже после второй сотни роликов.
Узнаваемость = retention. Алгоритм TikTok и Reels учитывает повторные просмотры от одного юзера. Если человек слышал ваш голос на трёх роликах за неделю — четвёртый он откроет с большей вероятностью. Дефолтный голос ElevenLabs «Rachel» звучит у двух сотен тысяч других каналов; ваш — только у вас.
Брендинг под продукт. Если канал ведёт на Telegram-курс, личный консалтинг или подкаст — голос на шортсах должен совпадать с голосом в основном продукте. Иначе подписчик попадает на лендинг и слышит другого человека: конверсия в подписку падает на 12–22% при несовпадении голосов (тест RU-агентства за апрель 2026, выборка 1800 переходов).
Эмоциональная палитра. Дефолтные голоса вытягивают на нейтральном тоне. Свой клон в режиме PVC у ElevenLabs передаёт интонации — иронию, придыхание, ускорения на ключевых словах. Это и есть разница между «ИИ-озвучкой» и озвучкой, которую не палят.
Минус один: однажды клонированный голос становится фингерпринтом канала. Захотите ребрендинг — клонируйте заново.
Сколько секунд аудио нужно сервисам
Чтобы выбрать инструмент, начните с матрицы требований к эталону, а не с прайса. Цена — следствие.
| Сервис | Мин. эталон | Время обработки | Цена/мес | RU-качество | Лицензия |
|---|---|---|---|---|---|
| ElevenLabs IVC | 30 сек | ~10 сек | от $5 | 8/10 | Personal use |
| ElevenLabs PVC | 3 мин | до 4 часов | от $22 | 9.5/10 | Commercial |
| Resemble Rapid | 10 сек | ~1 мин | от $19 | 7.5/10 | Commercial |
| PlayHT Instant | 30 сек | ~5 сек | от $0* | 7/10 | Free tier лимит |
| Cartesia Sonic | 15 сек | ~30 сек | от $49 | 8/10 | Commercial |
| OpenAI gpt-4o-mini-tts | — (named voices) | мгновенно | $0.60/1M симв. | 8/10 | Custom voice в whitelist |
*Free tier PlayHT — 1 клон, 12 500 знаков в месяц.
Главный вывод: для RU-первого канала на 2026 год оптимально начинать с ElevenLabs IVC за $5 + 30 секунд эталона. Это перекрывает 80% задач faceless-канала.
PVC берите, если параллельно делаете подкаст или серьёзный YouTube — там слышно каждый артефакт. Cartesia и Resemble — для англоязычных проектов, в русском уступают ElevenLabs.
OpenAI отличается принципиально: там нет клонирования голоса в открытом виде. Вместо этого 11 named voices (alloy, nova, shimmer и др.) плюс параметр instructions — вы пишете «говори как уставший детектив, 60 лет, медленно», и модель отыгрывает. Полезно для персонажей в сериале, но не для брендинга канала под себя.
Шаг 1: записываем эталон правильно
Качество клона на 70% зависит от исходника. Студия не нужна, но 4 правила соблюдайте железно.
Микрофон. Минимум — петличный Boya BY-M1 (1500 ₽) или USB-Samson Q2U (6500 ₽). AirPods Pro в «ASR mode» — на крайний случай, потеряете полтора балла качества. Встроенный микрофон ноутбука — нет, не пытайтесь.
Акустика. Запись делается в одетом шкафу, под одеялом или в углу комнаты с книгами и тканью. Эхо убивает клон сильнее, чем шум вентилятора. Проверка: хлопните в ладоши — если слышите «хвост» дольше 0.3 секунды, ищите другое место.
Сценарий эталона. Не читайте Пушкина. Возьмите 3 минуты живой речи на разные эмоции: вопрос, утверждение, ирония, шёпотная фраза, восклицание. ElevenLabs PVC использует именно эмоциональный диапазон — если в эталоне один тон, клон будет однотонный.
Громкость и темп. Говорите как в обычном диалоге, не «диктору». Дистанция до микрофона — 15–20 см. Темп — ваш естественный, без замедления. Клон копирует темп.
Перед загрузкой прогоните файл через бесплатный Adobe Podcast Enhance (podcast.adobe.com) — он уберёт фоновый шум и реверб. На результат IVC влияет умеренно, на PVC — критично.
Шаг 2: клонируем в ElevenLabs — IVC или PVC
Идите на elevenlabs.io → Voices → Add Voice. Дальше развилка.
Instant Voice Cloning (IVC). Загружаете 30 секунд — 5 минут аудио, через 10 секунд клон в библиотеке. Метаданные: имя, описание («Russian male, 32, conversational»), теги. IVC даёт стабильное качество на коротких фразах до 30 секунд — для AI-Shorts этого хватает с запасом.
Когда выбирать: канал на 1–3 шортса в день, тестируете формат, хотите минимальный чек.
Professional Voice Cloning (PVC). Загружаете 30+ минут чистой речи. Обучение модели — до 4 часов. Результат — клон, который тащит 2-минутные фразы без артефактов и держит эмоциональные переходы.
Когда выбирать: дополнительно делаете подкаст, длинные YouTube (см. наш гайд по длинным AI-видео на YouTube), готовите озвучку курса.
Лайфхак: начните с IVC за $5, через месяц — если результат на 50+ роликах вас устраивает, апгрейдитесь до Creator за $22 и пересоберите как PVC. Тот же voice_name — клон обновится автоматически в Welder, ничего перенастраивать не надо.
Не игнорируйте поле «stability» в Voice Settings. Для шортсов ставьте 35–45 — это сохраняет живые интонации. Выше 60 — голос становится «вяло-новостным».
Шаг 3: тестируем клон на 5 промптах
Прежде чем подключать клон к продакшну, прогоните его через тест-пак из 5 фраз — это занимает 3 минуты и спасает от недели стыдных шортсов.
- Вопрос с восходящей интонацией: «А вы вообще знали, что в Якутии 50 градусов мороза в феврале?»
- Список с перечислением: «Три вещи, которые я понял за пять лет в стартапах: дисциплина, фокус, сон».
- Цифры: «1 апреля 2026 года акция выросла на 47.3% за восемь часов».
- Эмоциональный пик: «И тут он мне говорит — забирай всё, мне больше не нужно!».
- Шёпот / снижение громкости: «Никому не говорите, но это самый главный секрет».
Слушайте на телефоне через встроенный динамик (не в наушниках) — так слушают 80% зрителей шортсов. Артефакты, которые проскакивают мимо ушей в наушниках, в дешёвом динамике проявляются как роботизированность.
Если 4 из 5 фраз звучат естественно — клон в продакшн. Если ≤2 — перезаписывайте эталон, не пытайтесь «доработать настройками».
Шаг 4: подключаем клон к пайплайну Welder
В Welder клонированный голос подключается через ваш ElevenLabs API key. Один раз вводите ключ в настройках аккаунта — после этого все ваши voice_id появляются в выпадашке при создании серии.
Шаги внутри платформы:
- Открываете /dashboard → «Создать серию».
- На шаге «Голос» выбираете «Свой ElevenLabs» → вставляете API key (хранится зашифрованно).
- В выпадашке появляются ваши клоны. Выбираете нужный.
- Дальше — обычный пайплайн: ниша → сценарий → 10 сцен Veo 3 → монтаж → ваш голос на каждой сцене.
Себестоимость: серия из 10 шортсов с вашим клоном стоит 290 ₽ в Welder + ~$0.15 в ElevenLabs за расход символов (на плане Starter $5 включено 30 тыс. знаков, хватит примерно на 60 шортсов в месяц). Подробности тарифов — /pricing.
Сравните с альтернативой «вручную через ElevenLabs Studio + CapCut + Veo 3 API»: 10 шортсов выйдут в 3–4 часа работы + ~$8 в ElevenLabs + ~$5 за рендер. Дельта по времени — кратная, по деньгам — двукратная.
Альтернативы, если ElevenLabs не подходит
Resemble AI Rapid. Плюс — 10-секундный эталон и API-контроль над эмоциями. Минус — слабее на русском (7.5/10 против 9 у ElevenLabs PVC), плюс цена входа $19/мес против $5 у ElevenLabs. Для русскоязычных каналов невыгодно.
Cartesia Sonic. Самый быстрый по обработке (30 секунд) и реалтайм TTS — подойдёт для интерактивных аватаров. Но цена входа $49/мес и слабая русская модель отсекают большую часть RU-креаторов в 2026.
PlayHT (теперь Play.ai). Бесплатный план с 1 клоном — отличная точка для теста. На длинных текстах голос выравнивается в «новостной диктор» и теряет характер. См. наше развёрнутое сравнение в TTS русских Shorts 2026.
Yandex SpeechKit. Если работаете внутри Yandex Cloud и нужен персонализированный голос для бизнеса — у них есть Voice Cloning Premium, но порог входа 50 минут эталона и enterprise-договор. Для соло-креатора это перебор.
OpenAI gpt-4o-mini-tts. Не клонирование, а инструктивная озвучка. Тариф $0.60 за 1M символов — самый дешёвый в обзоре. Подходит для персонажей сериала (см. гайд по Один герой во всех Shorts), но не для брендинга канала под собственный голос.
Юридические грабли — что нельзя
Клонировать чужой голос без письменного разрешения — нарушение статьи 152.1 ГК РФ о защите изображения и записи плюс политика ElevenLabs (бан аккаунта без возврата). В США это плюс DEEPFAKES Accountability Act (вступил в силу в марте 2026). На YouTube — снос монетизации и страйк.
Свой голос клонировать — можно. Голос актёра, политика, блогера — нельзя. Голос покойного родственника для семейного видео — серая зона, лучше консультация юриста.
Маркировка AI-контента: с января 2026 YouTube требует ставить флаг «AI-generated content» в Studio при загрузке, если использовали клон голоса. Это не штраф, просто прозрачность. Подробнее — Метки ИИ-контента 2026.
Чек-лист на 60 минут
Распечатайте и пройдитесь по пунктам:
- Купить ElevenLabs Starter — $5/мес — 2 мин.
- Найти тихое место и микрофон (Boya BY-M1 или Samson Q2U) — 5 мин.
- Записать 3 минуты живой речи (вопрос, утверждение, ирония, шёпот, восклицание) — 15 мин.
- Прогнать файл через Adobe Podcast Enhance — 3 мин.
- Загрузить в ElevenLabs → Add Voice → Instant Cloning — 5 мин.
- Тестовый пак из 5 фраз, прослушать через колонку телефона — 5 мин.
- Если ≥4/5 фраз ок → ElevenLabs API key вставить в Welder, поставить как
voice_idдля серии — 10 мин. - Сгенерировать первую тестовую серию из 3 шортсов — 15 мин (рендер идёт фоном).
Итого — час чистого внимания. К концу дня у вас канал, который говорит вашим голосом.
Готово — что дальше
Клон голоса — это половина брендинга канала. Вторая половина — единый визуальный почерк и хук первой секунды (12 формул retention).
Сделайте первое видео в Welder со своим клоном — 290 ₽ за серию из 10 шортсов, рендер идёт фоном, голос ваш.