Математик Фабрис Беллар создал новый звуковой формат TSAC. По словам французского учёного, он ориентирован на потоковую передачу аудиосигнала с очень низким битрейтом при минимальных потерях в качестве.
Фабрис Беллар является одним из создателей технологий и наборов библиотек QEMU, FFmpeg, BPG, QuickJS, TinyGL и TinyCC. Часть наработок, использовавшихся в предыдущих проектах, стали основой нового формата кодирования аудиофайлов TSAC, который сам автор называет технологией компрессии аудио с очень низким битрейтом (англ. Very Low Bitrate Audio Compression).
В качестве основы формата был взят аудиокодек Descript, доработанный для использования в стереорежиме и дополненный алгоритмами машинного обучения. Последние позволили получить «очень высокую степень сжатия и реализовать реконструкцию утерянных нюансов звучания с учётом восприятия звука человеком». По словам Беллара, TSAC отличается значительно более низкими показателями битрейта, но большей эффективностью в сравнении с MP3 и другими популярными форматами.
TSAC поддерживает кодирование аудиосигнала с битрейтом от 5,5 Кбит/с для записей в моно и от 7,5 Кбит/с — для стерео. Судя по приведённым примерам, настолько низкая ширина потока звучит близко к показателям в районе 96 Кбит/с для формата MP3. Алгоритмы искусственного интеллекта дополнительно обрабатывают конвертируемый поток, улучшая его качество, благодаря чему файлы в формате TSAC с низким битрейтом воспринимаются как более качественные цифровые записи.
Беллар отмечает, что кодировщик TSAC полагается на ресурсы видеокарты и поддерживает графические ускорители NVIDIA на архитектурах Ampere, ADA и Hopper — RTX 3090, RTX 4090, RTX A6000, A100 и H100. При этом кодировку можно выполнять и только с помощью центрального процессора компьютера, однако в таком случае обработка файлов длится значительно дольше. Для работы кодировщика также требуется около 200 МБ оперативной памяти.
По мнению математика, TSAC способен конкурировать с MP3, AAC, OGG Vorbis и другими популярными форматами. Разработка Беллара подходит не только для передачи голоса, но и для стриминга музыки, что, вероятно, может заинтересовать стриминговые сервисы, стремящиеся сократить затраты на инфраструктуру хранения информации.
Ознакомиться с описанием формата и примерами сжатия аудио в TSAC можно на официальном сайте проекта. Там же выложены библиотеки кодировщика для самостоятельной установки и тестирования кодека.
Как только увидел словосочетание «машинное обучение» сразу понял, что все это скорее всего полный бред. Перешел по ссылке, чтобы послушать примеры и… Ну в первом же треке с первой же секунды голос звучит будто пережатый дискордовским криспом. Гитара же потеряла напрочь все верха и стала моно, что для моего внутреннего металхэда все равно, что нож в яйца. Нейросетям нет места в музыке и никогда не будет
В статье даже написано, что это все «кажется» качественным. Если качество сжатия имеет субъективный характер, о какой конкуренции вообще идет речь?
по ссылке размещены очевидно примеры наиболее низкого битрейта в который он может
и ну звучит лучше чем при аналогичном битрейте с мп3
если бы тебе одинакового битрейта закинули, с нормальным качеством, типа мп3 320кбит, то бы и не понял разницы
пример то есть утрирован для наглядности
нужно сравнение скажем мп3 320кбит против этот кодек на 128 кбит скажем))
«Сжатие без потерь», но ровняется почему-то не на flac, а на lossy-форматы? Вы там таблетки свои выпить забыли или что?
на самом деле сравнивать именно и нужно что с лосси, так как это нацелено на стриминг, а не на у тебя на компе лежит и ты слушаешь файл
а флаки стримить хз такое