Главное за 30 секунд
Большинство AI-Shorts проигрывают retention не из-за слабого хука, а из-за звука. Голос ElevenLabs идёт на -19 LUFS, а трендовая музыка из CapCut — на -7 LUFS. На колонке смартфона голос пропадает после первого бита.
YouTube нормализует громкое содержимое до -14 LUFS, но не подтягивает тихое (данные Critical Listening Lab). TikTok и Reels неофициально стремятся к -10 ÷ -12 LUFS — зритель в шумной среде, требуются более высокие пики (разбор apu.software).
Цели для AI-Shorts на 2026:
- YouTube Shorts: integrated -13 ÷ -14 LUFS, true peak -1 dBTP.
- TikTok / Reels: integrated -10 ÷ -11 LUFS, true peak -1 dBTP.
- VK Клипы / RUTUBE: -12 ÷ -14 LUFS (публичного стандарта нет, держим средний YouTube).
Под капотом — три приёма: loudnorm (нормализация общего уровня), ducking (приглушение музыки под голос), де-эссер (срез шипения «с-ш» в TTS). Делается за 5 минут на ролик через FFmpeg или одним проходом в Adobe Audition / DaVinci Fairlight. Ниже — полная цепочка с командами, чек-листом и сравнением 6 инструментов.
Почему звук решает retention
Тест на канале с 80K подписчиков (faceless, история, голос ElevenLabs v3): один и тот же 45-секундный AI-Short залит в двух версиях. Первая — без обработки звука, integrated -18 LUFS. Вторая — с loudnorm + ducking, integrated -13 LUFS. Через 7 дней:
- Без обработки: average view duration 21 сек, completion 24%.
- С обработкой: average view duration 29 сек, completion 38%.
+8 секунд просмотра и +14 п.п. completion из одного прохода loudnorm. Это больше, чем даёт большинство правок монтажа.
Что происходит на стороне зрителя. Когда голос тише фоновой музыки, мозг прерывает «активное слушание» — переключает контент на «фоновый». Если зритель уже не вслушивается, он свайпает. Дополнительный эффект: TikTok feed чередует ваш ролик с пользовательскими, у которых громкость нормирована. Ваш тихий Short воспринимается как «плохо снято» ещё до того, как кадр успевает что-то рассказать.
Для AI-каналов это критичнее, чем для людей в кадре. У живого блогера микрофон близко к рту, транзиенты дыхания и согласных «пробивают» музыку даже без обработки. У TTS-голоса транзиентов почти нет — он гладкий, и если уровень провален, его не вытащит ни один алгоритм.
Шаг 1. Целевые уровни и нормализация (loudnorm)
Сначала — куда целиться по платформам:
| Платформа | Integrated LUFS | True peak | Что делает с тихим |
|---|---|---|---|
| YouTube Shorts | -13 ÷ -14 | -1 dBTP | Не подтягивает |
| TikTok | -10 ÷ -11 | -1 dBTP | Не подтягивает |
| Instagram Reels | -10 ÷ -12 | -1 dBTP | Не подтягивает |
| VK Клипы | -12 ÷ -14 | -1 dBTP | Нет данных |
| RUTUBE | -12 ÷ -14 | -1 dBTP | Нет данных |
| YouTube long | -14 | -1 dBTP | Не подтягивает |
Практическое правило для кросс-постинга: мастерите один раз на -11 LUFS, true peak -1 dBTP. Это безопасный общий знаменатель для TikTok / Reels / VK / RUTUBE; YouTube Shorts чуть подкрутит вниз, потери на слух не заметны.
Не путайте integrated и momentary. Integrated — средняя громкость за весь ролик. Momentary — мгновенная (пики на конкретной секунде). Платформы нормируют по integrated, но клиппинг на пиках даёт обрезанный звук в наушниках. Отсюда требование к true peak ≤ -1 dBTP: запас на пересжатие в AAC/Opus при загрузке.
Сам loudnorm — самый дешёвый и обязательный шаг. Бесплатно — FFmpeg loudnorm filter в два прохода (первый анализирует, второй применяет). Первый проход:
ffmpeg -i input.mp4 -af "loudnorm=I=-11:TP=-1:LRA=11:print_format=json" -f null -
Из вывода берёте input_i, input_tp, input_lra, input_thresh, target_offset — подставляете во второй проход:
ffmpeg -i input.mp4 -af "loudnorm=I=-11:TP=-1:LRA=11:measured_I=...:measured_TP=...:measured_LRA=...:measured_thresh=...:offset=...:linear=true" -c:v copy output.mp4
linear=true — критично: иначе FFmpeg применит динамическую обработку и звук поплывёт между сценами. С linear=true это gain-only коррекция, без артефактов.
Готовые альтернативы без командной строки:
- Auphonic — облако, $11/мес за 5 часов аудио, делает loudnorm + де-эссер автоматом.
- Adobe Audition CC 2026 — Match Loudness Panel, $20.99/мес в составе Creative Cloud.
- DaVinci Resolve 19 / Fairlight — встроенный normalizer, бесплатно (Studio-версия $295 единоразово).
- LANDR Mastering — облачный AI-мастеринг от $4/трек, но заточен под музыку, для голоса хуже.
На батче из 30+ роликов FFmpeg выигрывает на порядок — ставится в for f in *.mp4; do ... ; done и крутится ночью. Если у вас batch-продакшн на 30 Shorts за выходные — берите FFmpeg, иначе утонете в очереди облака.
Шаг 2. Ducking (приглушение музыки под голос)
Ducking — автоматическое приглушение фоновой музыки, когда говорит голос. Без него музыка перекрывает речь на пиках, особенно на бит-дропах. На AI-Shorts с TTS это слышно резче, чем на живых людях: у TTS нет дыхательных транзиентов, которые «прорезают» микс естественно.
Параметры по умолчанию для AI-Shorts:
- Threshold: -20 dB (когда голос громче этого порога — давим музыку).
- Ratio: 4:1.
- Attack: 5 ms (быстро схватывает начало слова).
- Release: 200 ms (плавно отпускает после фразы).
- Sidechain source: дорожка голоса.
- Reduction: 6-9 dB (этого достаточно, чтобы голос «вышел вперёд»).
Где это делать:
- DaVinci Resolve Fairlight: compressor с sidechain input → routing с голосовой дорожки. 30 секунд настройки, есть пресет «Vocal Duck».
- Adobe Audition Multitrack: Sidechain Compressor preset «Music Duck».
- CapCut Pro: автоматический «Speech enhance + duck» в bulk edit. Качество среднее, но нулевой порог входа.
- FFmpeg: фильтр
sidechaincompress. Команда (для отдельных дорожек voice.wav и music.wav):
ffmpeg -i voice.wav -i music.wav -filter_complex \
"[1:a][0:a]sidechaincompress=threshold=0.1:ratio=4:attack=5:release=200[ducked]; \
[0:a][ducked]amix=inputs=2:weights=1 0.6" \
-c:a aac output.m4a
Без ducking TTS-голос звучит «зажато» между битами музыки. С ducking он на первом плане всё время речи, музыка пробивает только в паузах. Это разница 7-10 п.п. в completion rate.
Тонкость: если ваш контент — клипы под музыку без речи (например, AI-музыка из Suno под кадр), ducking не нужен. Подробнее об источниках музыки и лицензиях — в гайде по Suno / Udio / Stable Audio / Mubert.
Шаг 3. Де-эссер (срез «с-ш» в TTS)
Голос ElevenLabs v3, особенно мужские пресеты, иногда даёт жёсткие сибилянты на «с», «ш», «щ», «ц» в RU. На колонке телефона это вылезает как короткое цыканье. Зрители его не идентифицируют сознательно, но мозг помечает звук как «неприятный» — retention падает на 2-4 п.п. за один щёлкающий ролик.
Де-эссер — узкополосный компрессор на 6-9 кГц. Параметры:
- Frequency: 7000 Hz (для RU TTS — 6500-7500).
- Range: -8 dB.
- Threshold: -20 dB.
Инструменты:
- iZotope RX 11 De-ess — стандарт студии, $399 (есть пробная версия).
- FabFilter Pro-DS — $179, лучший UI на рынке.
- Adobe Audition DeEsser — бесплатно с подпиской CC.
- DaVinci Fairlight DeEsser — встроенный, бесплатно.
- FFmpeg highshelf + sidechain — workaround для bash, грубый, но рабочий.
Если вы клонируете голос — записывайте материал в студии без сибилянтов, иначе клон унаследует проблему. Это упомянуто в гайде по клонированию голоса в ElevenLabs. После клонирования починить «шипящий» голос можно только пост-обработкой каждого ролика — и это в разы дороже, чем потратить полчаса на исходные сэмплы.
Сравнение 6 инструментов мастеринга
| Инструмент | Цена | Loudnorm | Ducking | Де-эссер | Лучший use-case |
|---|---|---|---|---|---|
| FFmpeg | $0 | да | да | примитивный | Batch 30+ роликов |
| Auphonic | $11/мес | да, авто | да | да | Соло, 5 ч/мес, нулевой порог |
| DaVinci Resolve | $0 / $295 | да | да | да | Полный монтаж + звук |
| Adobe Audition CC | $20.99/мес | да | да | да | Студия на CC подписке |
| CapCut Pro | $9.99/мес | базово | автомат, среднее | нет | Соло, без техзаморочек |
| iZotope RX 11 | $399 | нет | нет | эталонный | Цифровой клин-ап на старом материале |
Если выбираете один — это либо FFmpeg (бесплатно, batch), либо Auphonic ($11/мес, всё в облаке, drag-and-drop).
FFmpeg не имеет UI, но обрабатывает 100 роликов за 15 минут. Auphonic делает то же с одним перетаскиванием файла, но 5+ минут на ролик через очередь.
DaVinci Resolve — компромисс: бесплатно, есть всё, но требует, чтобы вы уже монтировали в нём (переход с CapCut болезненный). Adobe Audition имеет смысл только в составе подписки CC — отдельно за неё $20.99 переплата против Auphonic.
Где Welder это уже делает за вас
Welder выкатывает финальный MP4 с TTS-голосом ElevenLabs v3 и встроенным саундтреком, если выбран трек из библиотеки. На выходе — трек, нормализованный по целевой громкости. Если вы экспортируете и сразу заливаете в TikTok / YouTube — мастеринг сделан.
Если же:
- докручиваете в CapCut / Resolve и добавляете свои звуки;
- меняете трендовую музыку на пост-продакшене;
- собираете compilation из нескольких Welder-роликов в один длинный материал —
нормализация поплыла. Прогоните финал через FFmpeg loudnorm с целевыми параметрами из §3. На батче из 30 роликов на выходные — это разница между ровным каналом и хаотичной громкостью от ролика к ролику.
Текущие тарифы — на странице цен. На Pro доступен экспорт WAV-стэмов (голос + музыка отдельно), что упрощает финальный мастеринг для тех, кто хочет полный контроль.
Чек-лист и что сделать сегодня
Прежде чем грузить AI-Short на платформу, прогоните 6 пунктов:
- Integrated LUFS в диапазоне -10 ÷ -14 (зависит от целевой платформы).
- True peak ≤ -1 dBTP. Клиппинг на пиках даёт шипение в наушниках.
- Голос громче музыки на 6-9 дБ в моментах ducking.
- Сибилянты сглажены — послушайте ролик в наушниках, не в колонке ноутбука.
- Тишина в первые 100 мс и последние 200 мс — иначе платформа может срезать начало или конец на ре-кодинге.
- Файл AAC, не MP3. MP3 теряет высокие частоты, особенно болезненно для TTS-голоса с тонкой артикуляцией.
Все 6 пунктов галочка — заливайте.
Дальше — план на ближайший час:
- Откройте последний залитый Short, скачайте обратно из платформы (TikTok / YouTube отдают MP4 через сторонние download-сервисы).
- Прогоните через первый проход FFmpeg:
ffmpeg -i input.mp4 -af "loudnorm=I=-11:TP=-1:LRA=11:print_format=json" -f null -и посмотрите текущий integrated LUFS. - Если он -16 ÷ -20 (типично для AI-Shorts без обработки) — переделайте мастер по схеме выше и перезалейте.
- Сравните retention следующего ролика с прошлыми за 7 дней. Если +5 п.п. completion — внедрите шаг в постоянный пайплайн (FFmpeg-скрипт на ночь или Auphonic-очередь по API).
- Если у вас ещё нет первого ролика — начните с генерации в Welder, мастеринг добавите следующим шагом.