Трек написан, экспортирован и готов к заливке на YouTube и SoundCloud. Вы открываете вкладку в браузере, переходите в загрузчик аудио и видео, заливаете свою работу, жмёте «Опубликовать» и… ужасаетесь. Микс хрустит, режет слух, бубнит и гудит — популярные сервисы пожали оригинальное аудио так, что теперь его невозможно слушать. Тем не менее всего этого можно было избежать. Из этого материала вы узнаете, что YouTube, SoundCloud и другие стриминговые сервисы делают с аудио после его загрузки, а также как избежать сильного искажения микса.
Это случалось с каждым из нас. После недель и даже месяцев сведения, вы загружаете свое творение в Сеть. Предвкушая рассылку трека всем друзьям и положительные отзывы, вы испытываете небывалый подъем. Дождавшись сообщения об окончании загрузки, вы включаете трек и воодушевление моментально проходит — WAV-файл, записанный в 96 кГц/24-бит, после всех преобразований звучит дерьмово.
Суб-бас невнятно бубнит, высокие частоты хрустят подобно чипсам, хай-хэт будто посыпан песком и выглядит невероятно плоским. Ситуацию дополнительно усугубляет звучание трека в DAW — в окне программы нетленка звучит намного приятнее и мягче. Что же случилось с песней и почему звучание трека после загрузки в сеть стало настолько ужасным?
Ужасная война громкости
Чтобы разобраться в ситуации, обратимся к психоакустике. В 1933 году двое ученых, Харви Флетчер и Уилден Мэнсон, обнаружили, что громкие звуки воспринимаются человеком как более качественные сигналы. Высокий уровень звукового давления заставляет слуховой аппарат подстраиваться под шумное окружение и передавать в мозг больше импульсов и электросигналов. По этой причине нам кажется, что чем громче звук, тем он лучше (см. Ошибки при сведении музыки: 12 распространенных примеров).

С годами прошедшие мастеринг песни становились все громче и громче. Причина таких изменений очень проста: громкие записи выглядят качественнее в сравнении с любыми ранее выпущенными песнями. Гонка за повышением уровней привела к началу так называемой «Войны громкости» — негласной битве звукорежиссеров, соревнующихся в том, кто из них сможет свести более громкий трек не в ущерб динамическому диапазону. Все это делалось только ради выделения из общей массы, высших целей никто не преследовал.
Популярная музыка 1950-1960 годов обладала уровнем RMS в районе −21 dBFS. Записи начала 2000-х обладают RMS в районе −10 dBFS или выше.
Конец повсеместной битве положили стриминговые сервисы наподобие Spotify или Apple Music, воспроизводящие треки на одном, универсальном уровне громкости. Перед тем, как попасть в открытый доступ, каждая композиция проходит через процедуру нормализации громкости, подгоняющей треки под определенный уровень. Благодаря нормализации пользователям не нужно тянуться к регулятору громкости, какую бы музыку они не слушали.
Введение этой небольшой процедуры отрезвило звукорежиссеров, осознавших, что в погоне за громкостью нет никакого смысла — сервис автоматически подстроит ее под собственные стандарты. Стриминговая платформа при нормализации записи с уровнем громкости превышающим −14 LUFS (норма для Spotify) попросту уничтожит динамический диапазон трека и исказит его звучание.

Что SoundCloud и YouTube делают с аудио
Несмотря на существование оптимизирующего алгоритма, нормализация используются не везде. Так, например, нормализация применяется в несколько усеченном формате на стороне YouTube, а популярный музыкальный сервис SoundCloud вообще не нормализует громкость хранящихся в каталоге аудиофайлов. По этой причине загруженное на эти площадки аудио с показателем LUFS равным −3 будет воспроизводиться строго на уровне −3 LUFS. SoundCloud попросту отказывается от какого-либо вмешательства в миксы и предлагает слушателям музыку именно в том виде, в каком она была создана авторами.
Тем не менее отсутствие нормализации не спасает от возникновения неприятных призвуков, щелчков, артефактов и прочих проблем с аудиосигналом. Если после загрузки в SoundCloud или на YouTube ваш трек звучит, как хрустящий сухариками и разговаривающий с набитым ртом второклассник, то причина искажения кроется в компрессии, применяемой к медиафайлам (при учете, что с миксом все в порядке — все-таки испортить уже испорченное невозможно). Компрессия в этом случае подразумевает не обработку динамического диапазона, а обыкновенное сжатие загружаемых данных.
SoundCloud автоматически конвертирует музыку, любое lossless-аудио неизбежно превратится в MP3 с качеством 128 Кбит/с. Ситуация на YouTube обстоит схожим образом: видеохостинг переводит аудио в AAC с битрейтом 128 Кбит/с для видео с качеством до 480p и AAC с битрейтом 384 Кбит/c для более высококачественных роликов. Именно поэтому в описаниях музыкальных видеороликов часто встречается приписка наподобие «enable 1080p for hq audio».
Причина конвертации — экономия. Оба сервиса используют MP3 только потому, что он занимает меньше места в сравнении с несжатым аудио. По словам представителя LANDR Рори Сэйдела, это компромисс, направленный на минимизацию количества передаваемой информации.
Фактически, MP3 представляет собой перекодированную версию трека, в которой качество приносится в жертву количеству транслируемых данных. Малый размер файла здесь намного важнее [для конечного пользователя].
Рори Сэйдел
Быстрый безлимитный интернет доступен не всем. Сжатие данных через перекодирование в MP3 делает передачу удобнее при медленном соединении. В этом есть смысл: представьте песню длиной 3 минуты 30 секунд. В зависимости от формата и качества аудио, размер файла будет следующим:
WAV, 1411 Кбит/с
35 МБ
MP3, 320 Кбит/с
8,1 МБ
MP3, 128 Кбит/с
3,3 МБ
Для пользователя с быстрым безлимитным интернетом прослушивание песни в любом формате не будет проблемой. Тем не менее для тех, кто сидит на медленном интернете, компрессия аудио на 90% (до 128 Кбит/с) выглядит адекватным решением, повышающим удобство использования. Жертвование качеством — разумный шаг в угоду большинства.
По современным меркам, MP3 с битрейтом 128 Кбит/с — это даже не качество. Spotify решили эту проблему за счет использования кодека OGG Vorbis, позволившего передавать аудио с битрейтом 160 Кбит/с [при размере файла, как у MP3 128 Кбит/с]. Премиум-пользователи Spotify получают еще больше — сервис транслирует им OGG с битрейтом 320 Кбит/с. Apple Music передает слушателям музыку в AAC с битрейтом 256 Кбит/с, а TIDAL вообще предлагает слушать некомпрессированное аудио за $19,99/мес. Несмотря на это, даже платные пользователи SoundCloud слушают музыку в MP3 с битрейтом 128 Кбит/с.
Брайан Ли, автор блога 441k
Опытные аудиофилы и звукорежиссеры услышат разницу между несжатым WAV и MP3 128 Кбит/с, но для рядового пользователя отличия в качестве будут незаметны. Это неоспоримый факт, даже с учетом того, что кодирование в MP3 портит сигнал, «обогащая» его артефактами. Послушайте эти три файла и расскажите в комментариях, смогли ли вы отличить, где здесь WAV, MP3 с битрейтом 320 Кбит/с и MP3 со 128 Кбит/с.
- Сравнение качества аудио: Аудиофайл 01 0:31
- Сравнение качества аудио: Аудиофайл 02 0:31
- Сравнение качества аудио: Аудиофайл 03
TL;DR
Тех, кто думает обойти систему, сделав экспорт проекта сразу в MP3 с битрейтом 128 Кбит/с, спешим расстроить — это не решит проблему. В каком бы качестве и формате вы не вытащили аудио, файл все равно пройдет через компрессию и конвертацию, а вы получите еще больше артефактов и искажений после загрузки. Все, что вам остается — использовать несжатое аудио и, учитывая лучшую переносимость конвертации lossless-файлов, надеяться на лучшее.
Если вы хотите распространять через YouTube и SoundCloud аудио в максимальном качестве, сделайте свой трек доступным для скачивания. Ссылка на исходник — единственный способ избежать потерь.
Частично обезопасить себя перед загрузкой аудио можно, если обработать микс в iZotope Ozone. Мастеринг музыки для SoundCloud и YouTube с помощью iZotope Ozone подразумевает использование включенных в этот плагин модулей максимайзера, эквалайзера и стереорасширителя. iZotope Ozone не даст стопроцентных гарантий, но может значительно снизить количество искажений, возникающих при перекодировке.
Максимайзер
Самым полезным инструментом для минимизации искажений и перегрузок сигнала при кодировании аудио в MP3 с битрейтом 128 Кбит/с в iZotope Ozone является модуль максимайзера. Во время конвертации даже правильно сведенного микса любые частотные всплески в сигнале приводят к неприятным искажениям и образованию эффекта клиппинга. Чтобы смягчить или полностью устранить эти негативные последствия кодировки, при обработке трека важно создать достаточный запас хедрума.

iZotope советуют устанавливать порог максимайзера на отметке −0,3 dBFS, если вы готовите трек для загрузки в SoundCloud, или −1 dBFS, если песня будет загружаться на YouTube. Если после экспорта трека и его загрузки в один из этих сервисов вы все равно слышите цифровой клиппинг, снизьте порог до −0,5, −0,8, −1 или даже −1,5 dBFS для SoundCloud и −1,5 dBFS для YouTube, после чего экспортируйте микс заново. Понижение порога сделает композицию чуть тише, но если это устранит искажения, то подобная жертва стоит того.
Эквалайзер
Конвертация аудио в MP3 с низким битрейтом включает в себя фильтрацию всей информации выше 16 кГц. По этой причине важно свести трек так, чтобы за пределами этой отметки не было никаких важных для микса сигналов. В диапазоне от 16 кГц обычно находится визгливость духовых и вокала, шипение и воздух тарелок и хай-хэта, резкость фортепиано (см. Таблица и диаграммы звуковых частот). Человеческий слух практически не способен различить такие экстра высокие сигналы, но это не значит, что они не нужны — их присутствие обогащает звучание инструментов, придает им больше характера.

Кодирование в MP3 преследует цель максимального сжатия файла с минимально возможными потерями качества. Фильтрация неразличимых человеком частот значительно сокращает размер итогового файла, но алгоритмы не учитывают, что отрезанные диапазоны были важны для общего саунда некоторых инструментов. Делая мастеринг аудио для SoundCloud и YouTube, помните об этом и не держите ничего важного в диапазоне от 16 кГц (или хотя бы постарайтесь сильно не акцентировать частоты в этих пределах).
Стереорасширение с модулем Stereo Imager
Конвертация в MP3 может привести к замыливанию так старательно встроенной стереокартины микса (см. Расширение звучания миксов: 7 простых способов сделать свои миксы шире и объемнее) и последующему усилению искажений и перегрузок сигнала. Парадоксально, но обезопасить трек можно легким сужением стереокартины микса с помощью модуля iZotope Ozone Stereo Imager. Сужение слегка смешает поступающую с разных сторон информацию и предотвратит клиппинг сигнала в каждом отдельном канале.
При работе со стереорасширителем нужно помнить поговорку дяди Бена, с которой по жизни ходит Человек-паук: с великой силой приходит великая ответственность. Стереорасширители — мощные инструменты, которые с одинаковым успехом могут как улучшить, так и испортить микс. Неправильное использование этого инструмента может навести такой хаос в миксе, что конвертации в MP3 попросту будет нечего портить.
Шанс того, что тонкая настройка панорамы будет искажена при кодировании в MP3, всегда сохраняется. Прежде, чем экспортировать микс и заливать его в сеть после обработки стереорасширителем, проверьте звучание трека в моно. Микс должен оставаться понятным и ясным, а каждый его участник — хорошо различимым, не мешающим другим инструментам.
Уменьшите ширину высоких частот: хорошей отправной точкой станет сужение верхнего диапазона на 10%. Если звучание сильно исказится, сузьте сигнал на 5%, 8% или 15%. Сделайте несколько миксдаунов с разными значениями и загрузите их в SoundCloud или на YouTube для проверки, с какими настройками микс звучит лучше.

Другим полезным приемом станет перевод суб-баса в моно. Человеческий слух воспринимает все сигналы ниже 80 Гц исключительно в моно — мозг и уши не способны определить, с какой стороны поступают настолько низкие звуки и сводят их в один канал. Смысла в стереокартине в таком низком диапазоне попросту нет. При этом перевести в моно диапазон ниже 80 Гц можно не только на отдельных дорожках с подобной информацией, но и во всем миксе. В зависимости от содержания, это сделает трек чище и освободит дополнительное место для других инструментов.
Что в итоге
Все вышесказанное не более, чем советы. Мастеринг для SoundCloud и YouTube — это процесс, в котором доверять вы можете только своим ушам. Если что-то из предложенного делает ваш микс лучше и вы явно это слышите, то пользуйтесь этим.
Не забывайте, что приведенные советы помогут только тем, кто готовит треки к загрузке на один из этих сервисов, поэтому относиться к ним, как к некоему универсальному рецепту, который улучшит любой трек не стоит. Плохому миксу не поможет ничего, где бы вы его не слушали, а низкобитрейтное MP3 никогда не сравнится по качеству с оригинальным несжатым аудио.
Смогли отличить, в каком формате и с каким качеством были аудиофайлы в нашем плейлисте? Давайте проверим:
- Аудиофайл 01 — MP3, 320 Кбит/с;
- Аудиофайл 02 — MP3, 128 Кбит/с;
- Аудиофайл 03 — WAV.
Насчёт SoundCloud В 11м году выложил свой трек, звучание хуже некуда, недавно скачал и вот результат
https://youtu.be/Eryx1zy2K9g
Uploading requirements:
«SoundCloud вообще не нормализует громкость хранящихся в каталоге аудиофайлов.», — What’s the best file I can upload?
We recommend you to upload in a lossless format like WAV, FLAC, AIFF, or ALAC. If you can, the bit depth and sample rate should be 16 bit and 48 kHz respectively.
When you upload a track on SoundCloud, we optimize it for streaming. As part of that process, we resample and transcode it to a high-performance codec. These codecs are highly optimized, but they can increase peak levels, which can cause clipping. We recommend that you leave between -0.5 and -1 dBFS of headroom to prevent artifacts like clipping during transcoding. Make sure to check the resulting stream in the rare case where more headroom is required.
WAV, 320, 128 — соответственно треки 3,1,2. Слушал на мониторах Rokit8. 128 узнается просто, а вот вав и 320 пришлось напрячь ухи, и то я не уверен что верно различил их)
Про Саунд Клауд чушь, потому что он тоже искажает звук. Там есть обработка,
у меня получилось отличить на слух в наушниках audio-techniсa ath50x, только то что аудиофайл 2 точно 128 кб/с , тк там на 14 секунде писклявый звук стал прям до тошноты не приятным на максимальной громкости…а 1й и 3й файл какой из них какой определить ушами не удалось….интересно профессиональные звукари вообще могут там услышать разницу между wav и mp3 в 320 или тоже нет ???) В любом случае спасибо вам за инфу и советы ! крутой сайт !)
и статья полезная !)
Слушал на ужасных настольных динамиках для компа. При прослушивании мне показалось, что первый файл 128 kbps, второй — 320 kbps. Но между собой их сложно отличить. Третий однозначно WAV — там подложка хорошо прослушивается и ударные не такие плоские. На мой взгляд, это и есть главная причина в перекодировании в 128 kbps — дешевая, ширпотребная и плюшевая аппаратура, на которой прослушивает музыку подавляющее большинство. Так разница не очевидна.
Я думал, что статья старая, но нет, она новая. Что, реально сервисы до сих пор используют кодирование в mp3 128kbps? 320kbps им не катит?
Да, экономия же. Быстрый безлимит в интернете — удовольствие не для всех. Тут количество пользователей важнее качества.
Правильно я понял что 128 это первый трек,второй 320, а третий это вав?)
Там внизу же пометка, где кто