ОСОБЕННОСТИ РЕАЛИЗАЦИИ ПОИСКА ПО СХОДСТВУ В ЭЛЕКТРОННЫХ МУЗЫКАЛЬНЫХ КОЛЛЕКЦИЯХ

ОСОБЕННОСТИ РЕАЛИЗАЦИИ ПОИСКА ПО СХОДСТВУ В ЭЛЕКТРОННЫХ МУЗЫКАЛЬНЫХ КОЛЛЕКЦИЯХ
Каберов Александр Ильич, Вологодский государственный университет,
г. Вологда
E-mail: kaberovai@yandex.ru
Аннотация. Данная статья посвящена обзору технологии поиска по сходству в электронных музыкальных коллекциях. Рассмотрен алгоритм поиска в музыкальной коллекции по отрывку.
Ключевые слова: поиск, преобразование Фурье.
В настоящее время в коллекциях электронной музыки накоплены миллионы экземпляров записей, поэтому актуальными задачами являются разработка и исследование разнообразных способов поиска музыкальных произведений, в том числе, адаптация известных методов и алгоритмов информационного поиска к специфике электронной музыки. Современные поисковые системы позволяют вести поиск аудиофайлов по таким критериям как: название, группа, текст песни, а также отрезок аудиозаписи. Данные методы позволяют найти музыкальное произведение однозначно, но не позволяют найти схожие музыкальные произведения, такие как кавер-версии и т.д. Нечеткий поиск по аудиофайлам обеспечит возможность поиска схожих по духу произведений, плагиата, а также кавер-версий.
Для поиска музыкальных записей в базе данных треков по звуку чаще всего используется метод нестрогого сравнения спектрограмм. Данный метод используется во многих известных решениях - например, в Echopprint, Yandex и включает в себя несколько этапов.
1 этап. Построение спектрограммы звукозапись с помощью преобразования Фурье.
Спектрограмма - изображение, показывающее зависимость спектральной плотности мощности сигнала от времени. Для ей построения используется преобразование Фурье, оно сопоставляет функцию вещественной переменной
SCIENCE TIME
другой функцией вещественной переменной, которая описывает коэффициенты («амплитуды») при разложении исходной функции на элементарные составляющие - гармонические колебания (Рис. 1) [1].
Рис. 1 Участок спектрограммы звукозаписи
2 этап. Выделение стойких к помехам характеристик звукозаписи.
После получения спектрограммы следует выделить характеристики устойчивые к помехам, для этого хорошо подходят пики спектрограмм, выделенные как точки локального максимума. Для увеличения скорости и точности работы следует выделять подмножество пиков наиболее устойчивых к искажениям. Для этого используется несколько методов:
- отбор по времени: сначала, внутри одной частоты, по оси времени от начала к концу записи запускается воображаемое «опускающееся лезвие». При обнаружении каждого пика, который выше текущего положения лезвия, оно срезает «верхушку» — разницу между положением лезвия и высотой свежеобнаруженного пика. Затем лезвие поднимается на первоначальную высоту этого пика. Если же лезвие не «обнаружило» пика, оно немного опускается под собственной тяжестью;
- разнообразие по частотам: чтобы отдавать предпочтение наиболее разнообразным частотам, подобно отбору по времени в соседних с пиком частотах также поднимается лезвие, но с меньшей высотой;
- отбор по частотам: затем, внутри одного временного интервала, среди всех частот, выбираются самые контрастные пики, т.е. самые большие локальные максимумы среди срезанных «верхушек».
SCIENCE TIME
3 этап. Сравнение с базой данных треков, в которой находится “отпечатки” всех звукозаписей.
После нахождения хорошо устойчивых к искажениям характеристик и выделения, наиболее контрастных из них следует поиск по базе данных треков. Так как большинство треков содержат пики практически на всех частотах, длительность поиска увеличивается надобностью просмотра практически всех треков. Для решения данной проблемы используются пары близко расположенных пиков. Каждая пара встречается гораздо реже, а для того чтобы скомпенсировать вероятность искажений каждый пик включается сразу в несколько пар. Это увеличивает размер индекса, но сильно сокращает число напрасно рассмотренных документов.
4 этап. Вывод результатов поиска.
Отобрав с помощью пар малое число документов, алгоритм переходить к их ранжированию и выводу наиболее схожих документов.[2]
Плюсы и минусы данного метода:
- быстрый поиск по базе данных;
- хорошая устойчивость к помехам;
- алгоритм подходит только для поиска трека по его отрывку, следовательно, не подходит для поиска похожих треков.
Данный метод хорошо себя показывает в поиске трека по отрывку, но в поиске схожего по “духу” трека абсолютно не подходит из-за большого количества оптимизаций, в частности отбора подмножества пиков из всего множества локальных максимумов. Для улучшения работы метода по поиску схожих треков требуется усовершенствовать:
- алгоритм отбора подмножества локальных пиков основанный на выделении характерных черт трека;
- поиск комбинаций подмножества пиков с временными и частотными сдвигами и растяжениями.
Литература:
1. Преобразование Фурье // Wikipedia - The Free Encyclopedia [Электронный ресурс]. - Режим доступа. - http://ru.wikipedia.org/wiki/Преобразование_Фурье
2. Юркин Д. Как Яндекс распознаёт музыку с микрофона [Электронный ресурс].
- Режим доступа. - http://habrahabr.ru/company/yandex/blog/181219/