Алгоритмы машинного обучения преобразили поле зрения и НЛП. Но как насчет музыки? В последние несколько лет сфера поиска музыкальной информации (MIR) быстро развивалась. Мы будем смотреть на то, как некоторые из этих техник от НЛП могут быть перенесены в область музыки. В недавней статье Chuan, Agres & Herremans (2018) они исследуют, как популярная техника из НЛП, а именно word2vec, может использоваться для представления полифонической музыки. Давайте углубимся в то, как это было сделано ...
Модели встраивания слов позволяют нам представлять слова осмысленно, чтобы модели машинного обучения могли легче их обрабатывать. Они позволяют нам представлять слова вектором, который представляет смысловой смысл. Word2vec является популярной векторной моделью вложения, разработанной Mikolov et al. (2013), которые могут создавать семантические векторные пространства очень эффективным образом.
Суть word2vec - это простая однослойная нейронная сеть, построенная двумя возможными способами: 1) с использованием непрерывного пакета слов (CBOW); или 2) используя архитектуру скип-граммы. Обе архитектуры достаточно эффективны и могут быть обучены относительно быстро. В этом исследовании мы используем модель скип-граммы, как Mikolov et al. (2013) намекает на то, что они более эффективны для небольших наборов данных. Скип-грамматические архитектуры берут текущее слово w_t (входной слой) и пытаются предсказать окружающие слова в контекстном окне (выходной слой):
Существует некоторая путаница в том, как выглядит архитектура скип-граммы из-за некоторых популярные изображения плавает по интернету. Сетевой вывод состоит не из нескольких слов, а из одного слова из контекстного окна. Как это может научиться представлять все контекстное окно? При обучении сети мы используем выборочные пары, состоящие из входного слова со случайным словом из контекстного окна.
Традиционная цель обучения этого типа сети включает функцию softmax для вычисления 𝑝 (𝑤_ {𝑡 + 𝑖} | 𝑤_𝑡), чей градиент является дорогим для вычисления. К счастью, такие методы, как контрастная оценка шума (Gutmann & Hyvärine, 2012) и отрицательная выборка (Mikolov et al, 2013b), предлагают решение. Мы использовали отрицательную выборку, чтобы в основном определить новую цель: максимизировать вероятность реальных слов и минимизировать вероятность выборок шума. Простая двоичная логистическая регрессия классифицирует выборки шума из реальных слов.
После обучения модели word2vec веса скрытого слоя в основном представляют собой обученные многомерные вложения.
Музыка и язык неразрывно связаны. Оба состоят из последовательности последовательных событий, которые следуют набору грамматических правил. Что еще более важно, они оба создают ожидание. Представьте, что я говорю: «Я иду в пиццерию, чтобы купить…». Это порождает четкое ожидание ... пиццы. А теперь представьте, что я напеваю мелодию «С Днем Рождения», но я останавливаюсь перед последней нотой… Как и предложение, мелодии порождают ожидания. Так много ожиданий, что его можно измерить с помощью ЭЭГ, например, связанных с событиями потенциалов N400 в мозге (Besson & Schön, 2002).
Учитывая сходство между языком и словами, давайте посмотрим, может ли популярная модель языка использоваться в качестве значимого представления музыки. Чтобы преобразовать midi-файл в «language», мы определяем «фрагменты» музыки (которые будут нашим эквивалентом слов). Каждая музыкальная пьеса в нашем наборе данных сегментируется на равную длительность, непересекающуюся, фрагменты длинного удара. Продолжительность удара может отличаться для каждого произведения и оценивается какПанель инструментов MIDI, Для каждого из этих срезов мы храним список всех классов высоты звука, то есть высоты звука без информации о октаве.
На приведенном ниже рисунке показан пример определения срезов для первых баров Мазурки Шопена. 67 №4. Удар здесь четверть ноты.
В языке гипотеза дистрибутивной семантики определяет мотивацию вложения векторов. В нем говорится, что «слова, встречающиеся в одних и тех же контекстах, как правило, имеют схожие значения» (Harris, 1954). В переводе на векторные пространства это означает, что эти слова будут геометрически близки друг к другу. Давайте выясним, узнает ли модель word2vec аналогичное представление для музыки.
Chuan et al. использовать Набор данных MIDI это содержит смесь восьми различных жанров (от классики до металла). Из общего количества 130000 произведений было отобрано только 23 178 произведений в зависимости от наличия жанрового ярлыка. В этих частях было 4076 уникальных ломтиков
Модель была обучена с использованием только 500 наиболее часто встречающихся фрагментов (или слов), для замены остальных использовалось фиктивное слово Эта процедура повышает точность модели, так как доступно больше информации (вхождений) включенных слов. Другие гиперпараметры включают в себя скорость обучения 0,1, размер окна пропуска 4, количество шагов обучения (1 000 000) и 256 в качестве размера вложений.
Чтобы оценить, улавливает ли семантическое значение музыкальных фрагментов модель, давайте посмотрим на аккорды.
В словаре срезов были идентифицированы все срезы, содержащие триады. Затем они были помечены их шкалой в римских цифрах (как это часто делается в теории музыки). Например, в тональности C аккорд C является I, G-аккорд с другой стороны представлен как V. Затем косинусное расстояние использовалось, чтобы вычислить, как далеко аккорды разных степеней масштаба находились друг от друга во вложении.
Косинусное расстояние Ds (A, B) между двумя ненулевыми векторами A и B вn-мерное пространство,рассчитывается как:
D𝑐 (А, В) = 1-COS (θ) = 1-D𝑠 (А, В)
Где 𝜃 - угол между A и B, а Ds - косинусное подобие:
С точки зрения теории музыки, «тональное» расстояние между I-аккордом и V должно быть меньше, чем, скажем, I-аккордом и III. На рисунке ниже показаны расстояния между мажорной триадой и другими аккордами.
Расстояние между триадой I и V, IV и vi меньше! Это соответствует тому, как они воспринимаются как «тонально ближе» в теории музыки, и указывает на то, что модель word2vec изучает значимые отношения между нашими срезами.
Кажется, что косинусное расстояние между аккордами в пространстве word2vec отражает функциональные роли аккордов в теории музыки!
Взглянув на 24 прелюдии «Хорошо темперированного клавира» Баха (WTC), которые содержат фрагменты в каждом из 24 ключей (мажорный и минорный), мы можем изучить, захватывает ли новое пространство встраивания информацию о ключе.
В дополнение к набору данных каждая из частей была перенесена на каждую из других главных или второстепенных клавиш (в зависимости от исходного ключа), в результате чего было получено 12 версий каждой части. Срезы каждого из этих ключей были сопоставлены с ранее обученным векторным пространством и сгруппированы с использованием k-средних, так что мы получаем центроид для каждого куска в новом наборе данных. Перемещая части к каждому ключу, мы гарантируем, что на косинусное расстояние между центроидами влияет только 1 элемент: ключ.
Результирующие косинусные расстояния между каждым центроидом кусков в разных ключах показаны на рисунке ниже. Как и ожидалось, пятые части расположены по тону близко и представлены как более темные области рядом с диагональю. Тонально далеко друг от друга клавиши (например, F и F #) имеют оранжевый цвет, что подтверждает нашу гипотезу о том, что пространство word2vec отражает тональные расстояния между клавишами!
Одним из ярких примеров word2vec является образ это показывает трансляции между королем → королевой и мужчиной → женщиной в векторном пространстве (Миколов и др., 2013c). Это показывает, что смысл может быть перенесен с помощью векторного перевода. Это тоже работает для музыки?
Сначала мы обнаруживаем аккорды из полифонических срезов и рассматриваем векторы пары аккордов, идущие от до мажора до мажора (I-V). Показано, что угол между различными векторами I-V очень похож (см. Рисунок справа), и его даже можно рассматривать как многомерный круг пятых. Это еще раз подтверждает, что концепция аналогии может присутствовать в музыкальных пространствах word2vec, хотя для выявления более ясных примеров необходимо больше исследований.
Chuan et al. (2018) кратко рассмотрим, как модель может использоваться для замены музыкальных фрагментов для формирования новой музыки. Они указывают, что это всего лишь предварительный тест, но систему можно использовать как метод представления в более всеобъемлющей системе, например, LSTM. Более подробная информация приведена в научной статье, но рисунок ниже дает представление о результате.
Чуан, Агрес и Херреманс (2018) создали модель word2vec, которая фиксирует тональные свойства полифонической музыки, не вводя фактические ноты в модель. В статье приведены убедительные доказательства того, что информацию о аккордах и клавишах можно найти в романах, так что для ответа на вопрос в заголовке: «Да, мы можем представлять полифоническую музыку с помощью word2vec! Теперь дорога открыта для встраивания этого представления в другие модели, которые также фиксируют временные аспекты музыки.
Бессон М., Шон Д. (2001) Сравнение языка и музыки. Ann N Y Acad Sci 930 (1): 232–258.
Chuan, C.H., Agres, K & Herremans, D. (2018). От контекста к понятию: изучение семантических отношений в музыке с помощью word2vec.Нейронные вычисления и приложения - Специальный выпуск по глубокому обучению музыке и аудио1–14. Архив препринта,
Гутман М.У., Хювиненен А. (2012) Контрастно-шумовая оценка ненормализованных статистических моделей с приложениями к статистике естественных изображений. J Mach Learn Res 13 (февраль): 307–361
Харрис З.С. (1954) Распределительная структура. Слово 10 (2–3): 146–162.
Миколов Т., Чен К., Коррадо Дж. И Дин Дж. (2013). Эффективная оценка представления слов в векторном пространстве.Препринт arXiv arXiv: 1301.3781.
Миколов Т., Суцкевер I, Чен К., Коррадо Г.С., Дин Дж. (2013b) Распределенные представления слов и фраз и их композиционность. В: Слушания достижений в нейронных системах обработки информации (NIPS), стр 3111–3119
Миколов Т., Й. У., Цвейг Г. (2013c) Лингвистические закономерности в представлении слов в непрерывном пространстве. В: Труды конференции 2013 года североамериканского отделения ассоциации компьютерной лингвистики: технологии человеческого языка, стр. 746–751