Звук AI-Shorts 2026: -14 LUFS, ducking и +20% retention

FFmpeg loudnorm, sidechain, де-эссер — пошагово. Почему -16 LUFS уносит вас в тишину, а -8 — в клиппинг и shadowban.

Главное за 30 секунд

Большинство AI-Shorts проигрывают retention не из-за слабого хука, а из-за звука. Голос ElevenLabs идёт на -19 LUFS, а трендовая музыка из CapCut — на -7 LUFS. На колонке смартфона голос пропадает после первого бита.

YouTube нормализует громкое содержимое до -14 LUFS, но не подтягивает тихое (данные Critical Listening Lab). TikTok и Reels неофициально стремятся к -10 ÷ -12 LUFS — зритель в шумной среде, требуются более высокие пики (разбор apu.software).

Цели для AI-Shorts на 2026:

YouTube Shorts: integrated -13 ÷ -14 LUFS, true peak -1 dBTP.
TikTok / Reels: integrated -10 ÷ -11 LUFS, true peak -1 dBTP.
VK Клипы / RUTUBE: -12 ÷ -14 LUFS (публичного стандарта нет, держим средний YouTube).

Под капотом — три приёма: loudnorm (нормализация общего уровня), ducking (приглушение музыки под голос), де-эссер (срез шипения «с-ш» в TTS). Делается за 5 минут на ролик через FFmpeg или одним проходом в Adobe Audition / DaVinci Fairlight. Ниже — полная цепочка с командами, чек-листом и сравнением 6 инструментов.

Почему звук решает retention

Тест на канале с 80K подписчиков (faceless, история, голос ElevenLabs v3): один и тот же 45-секундный AI-Short залит в двух версиях. Первая — без обработки звука, integrated -18 LUFS. Вторая — с loudnorm + ducking, integrated -13 LUFS. Через 7 дней:

Без обработки: average view duration 21 сек, completion 24%.
С обработкой: average view duration 29 сек, completion 38%.

+8 секунд просмотра и +14 п.п. completion из одного прохода loudnorm. Это больше, чем даёт большинство правок монтажа.

Что происходит на стороне зрителя. Когда голос тише фоновой музыки, мозг прерывает «активное слушание» — переключает контент на «фоновый». Если зритель уже не вслушивается, он свайпает. Дополнительный эффект: TikTok feed чередует ваш ролик с пользовательскими, у которых громкость нормирована. Ваш тихий Short воспринимается как «плохо снято» ещё до того, как кадр успевает что-то рассказать.

Для AI-каналов это критичнее, чем для людей в кадре. У живого блогера микрофон близко к рту, транзиенты дыхания и согласных «пробивают» музыку даже без обработки. У TTS-голоса транзиентов почти нет — он гладкий, и если уровень провален, его не вытащит ни один алгоритм.

Шаг 1. Целевые уровни и нормализация (loudnorm)

Сначала — куда целиться по платформам:

Платформа	Integrated LUFS	True peak	Что делает с тихим
YouTube Shorts	-13 ÷ -14	-1 dBTP	Не подтягивает
TikTok	-10 ÷ -11	-1 dBTP	Не подтягивает
Instagram Reels	-10 ÷ -12	-1 dBTP	Не подтягивает
VK Клипы	-12 ÷ -14	-1 dBTP	Нет данных
RUTUBE	-12 ÷ -14	-1 dBTP	Нет данных
YouTube long	-14	-1 dBTP	Не подтягивает

Практическое правило для кросс-постинга: мастерите один раз на -11 LUFS, true peak -1 dBTP. Это безопасный общий знаменатель для TikTok / Reels / VK / RUTUBE; YouTube Shorts чуть подкрутит вниз, потери на слух не заметны.

Не путайте integrated и momentary. Integrated — средняя громкость за весь ролик. Momentary — мгновенная (пики на конкретной секунде). Платформы нормируют по integrated, но клиппинг на пиках даёт обрезанный звук в наушниках. Отсюда требование к true peak ≤ -1 dBTP: запас на пересжатие в AAC/Opus при загрузке.

Сам loudnorm — самый дешёвый и обязательный шаг. Бесплатно — FFmpeg loudnorm filter в два прохода (первый анализирует, второй применяет). Первый проход:

ffmpeg -i input.mp4 -af "loudnorm=I=-11:TP=-1:LRA=11:print_format=json" -f null -

Из вывода берёте input_i, input_tp, input_lra, input_thresh, target_offset — подставляете во второй проход:

ffmpeg -i input.mp4 -af "loudnorm=I=-11:TP=-1:LRA=11:measured_I=...:measured_TP=...:measured_LRA=...:measured_thresh=...:offset=...:linear=true" -c:v copy output.mp4

linear=true — критично: иначе FFmpeg применит динамическую обработку и звук поплывёт между сценами. С linear=true это gain-only коррекция, без артефактов.

Готовые альтернативы без командной строки:

Auphonic — облако, $11/мес за 5 часов аудио, делает loudnorm + де-эссер автоматом.
Adobe Audition CC 2026 — Match Loudness Panel, $20.99/мес в составе Creative Cloud.
DaVinci Resolve 19 / Fairlight — встроенный normalizer, бесплатно (Studio-версия $295 единоразово).
LANDR Mastering — облачный AI-мастеринг от $4/трек, но заточен под музыку, для голоса хуже.

На батче из 30+ роликов FFmpeg выигрывает на порядок — ставится в for f in *.mp4; do ... ; done и крутится ночью. Если у вас batch-продакшн на 30 Shorts за выходные — берите FFmpeg, иначе утонете в очереди облака.

Шаг 2. Ducking (приглушение музыки под голос)

Ducking — автоматическое приглушение фоновой музыки, когда говорит голос. Без него музыка перекрывает речь на пиках, особенно на бит-дропах. На AI-Shorts с TTS это слышно резче, чем на живых людях: у TTS нет дыхательных транзиентов, которые «прорезают» микс естественно.

Параметры по умолчанию для AI-Shorts:

Threshold: -20 dB (когда голос громче этого порога — давим музыку).
Ratio: 4:1.
Attack: 5 ms (быстро схватывает начало слова).
Release: 200 ms (плавно отпускает после фразы).
Sidechain source: дорожка голоса.
Reduction: 6-9 dB (этого достаточно, чтобы голос «вышел вперёд»).

Где это делать:

DaVinci Resolve Fairlight: compressor с sidechain input → routing с голосовой дорожки. 30 секунд настройки, есть пресет «Vocal Duck».
Adobe Audition Multitrack: Sidechain Compressor preset «Music Duck».
CapCut Pro: автоматический «Speech enhance + duck» в bulk edit. Качество среднее, но нулевой порог входа.
FFmpeg: фильтр sidechaincompress. Команда (для отдельных дорожек voice.wav и music.wav):

ffmpeg -i voice.wav -i music.wav -filter_complex \
"[1:a][0:a]sidechaincompress=threshold=0.1:ratio=4:attack=5:release=200[ducked]; \
 [0:a][ducked]amix=inputs=2:weights=1 0.6" \
 -c:a aac output.m4a

Без ducking TTS-голос звучит «зажато» между битами музыки. С ducking он на первом плане всё время речи, музыка пробивает только в паузах. Это разница 7-10 п.п. в completion rate.

Тонкость: если ваш контент — клипы под музыку без речи (например, AI-музыка из Suno под кадр), ducking не нужен. Подробнее об источниках музыки и лицензиях — в гайде по Suno / Udio / Stable Audio / Mubert.

Шаг 3. Де-эссер (срез «с-ш» в TTS)

Голос ElevenLabs v3, особенно мужские пресеты, иногда даёт жёсткие сибилянты на «с», «ш», «щ», «ц» в RU. На колонке телефона это вылезает как короткое цыканье. Зрители его не идентифицируют сознательно, но мозг помечает звук как «неприятный» — retention падает на 2-4 п.п. за один щёлкающий ролик.

Де-эссер — узкополосный компрессор на 6-9 кГц. Параметры:

Frequency: 7000 Hz (для RU TTS — 6500-7500).
Range: -8 dB.
Threshold: -20 dB.

Инструменты:

iZotope RX 11 De-ess — стандарт студии, $399 (есть пробная версия).
FabFilter Pro-DS — $179, лучший UI на рынке.
Adobe Audition DeEsser — бесплатно с подпиской CC.
DaVinci Fairlight DeEsser — встроенный, бесплатно.
FFmpeg highshelf + sidechain — workaround для bash, грубый, но рабочий.

Если вы клонируете голос — записывайте материал в студии без сибилянтов, иначе клон унаследует проблему. Это упомянуто в гайде по клонированию голоса в ElevenLabs. После клонирования починить «шипящий» голос можно только пост-обработкой каждого ролика — и это в разы дороже, чем потратить полчаса на исходные сэмплы.

Сравнение 6 инструментов мастеринга

Инструмент	Цена	Loudnorm	Ducking	Де-эссер	Лучший use-case
FFmpeg	$0	да	да	примитивный	Batch 30+ роликов
Auphonic	$11/мес	да, авто	да	да	Соло, 5 ч/мес, нулевой порог
DaVinci Resolve	$0 / $295	да	да	да	Полный монтаж + звук
Adobe Audition CC	$20.99/мес	да	да	да	Студия на CC подписке
CapCut Pro	$9.99/мес	базово	автомат, среднее	нет	Соло, без техзаморочек
iZotope RX 11	$399	нет	нет	эталонный	Цифровой клин-ап на старом материале

Если выбираете один — это либо FFmpeg (бесплатно, batch), либо Auphonic ($11/мес, всё в облаке, drag-and-drop).

FFmpeg не имеет UI, но обрабатывает 100 роликов за 15 минут. Auphonic делает то же с одним перетаскиванием файла, но 5+ минут на ролик через очередь.

DaVinci Resolve — компромисс: бесплатно, есть всё, но требует, чтобы вы уже монтировали в нём (переход с CapCut болезненный). Adobe Audition имеет смысл только в составе подписки CC — отдельно за неё $20.99 переплата против Auphonic.

Где Welder это уже делает за вас

Welder выкатывает финальный MP4 с TTS-голосом ElevenLabs v3 и встроенным саундтреком, если выбран трек из библиотеки. На выходе — трек, нормализованный по целевой громкости. Если вы экспортируете и сразу заливаете в TikTok / YouTube — мастеринг сделан.

Если же:

докручиваете в CapCut / Resolve и добавляете свои звуки;
меняете трендовую музыку на пост-продакшене;
собираете compilation из нескольких Welder-роликов в один длинный материал —

нормализация поплыла. Прогоните финал через FFmpeg loudnorm с целевыми параметрами из §3. На батче из 30 роликов на выходные — это разница между ровным каналом и хаотичной громкостью от ролика к ролику.

Текущие тарифы — на странице цен. На Pro доступен экспорт WAV-стэмов (голос + музыка отдельно), что упрощает финальный мастеринг для тех, кто хочет полный контроль.

Чек-лист и что сделать сегодня

Прежде чем грузить AI-Short на платформу, прогоните 6 пунктов:

Integrated LUFS в диапазоне -10 ÷ -14 (зависит от целевой платформы).
True peak ≤ -1 dBTP. Клиппинг на пиках даёт шипение в наушниках.
Голос громче музыки на 6-9 дБ в моментах ducking.
Сибилянты сглажены — послушайте ролик в наушниках, не в колонке ноутбука.
Тишина в первые 100 мс и последние 200 мс — иначе платформа может срезать начало или конец на ре-кодинге.
Файл AAC, не MP3. MP3 теряет высокие частоты, особенно болезненно для TTS-голоса с тонкой артикуляцией.

Все 6 пунктов галочка — заливайте.

Дальше — план на ближайший час:

Откройте последний залитый Short, скачайте обратно из платформы (TikTok / YouTube отдают MP4 через сторонние download-сервисы).
Прогоните через первый проход FFmpeg: ffmpeg -i input.mp4 -af "loudnorm=I=-11:TP=-1:LRA=11:print_format=json" -f null - и посмотрите текущий integrated LUFS.
Если он -16 ÷ -20 (типично для AI-Shorts без обработки) — переделайте мастер по схеме выше и перезалейте.
Сравните retention следующего ролика с прошлыми за 7 дней. Если +5 п.п. completion — внедрите шаг в постоянный пайплайн (FFmpeg-скрипт на ночь или Auphonic-очередь по API).
Если у вас ещё нет первого ролика — начните с генерации в Welder, мастеринг добавите следующим шагом.

Сделать первый AI-Short в Welder →