machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Что не так с CNN и спектрограммами для обработки звука?

Дата публикации Mar 26, 2018

В последние годы были достигнуты большие результаты в создании и обработке изображений с помощью нейронных сетей. Отчасти это может быть связано с высокой производительностью глубоких CNN для захвата и преобразования информации высокого уровня в изображениях. Ярким примером этого является процесс передачи стиля изображения с использованием CNN, предложенный L. Gatys et. и др. которые могут отображать семантическое содержание изображения в другом стиле [1].

Процесс передачи нейронного стиля хорошо объяснен Y. Li et. аль:«Этот метод использовал матрицы Грама нейронных активаций из разных слоев CNN для представления художественного стиля изображения. Затем он использовал метод итеративной оптимизации для генерации нового изображения из белого шума путем сопоставления нейронных активаций с изображением контента и матриц Грама с изображением стиля ».[2].

Проще говоря, можно считать, что эти результаты достигаются путем генерации изображений в соответствии с комбинациями признаков из исходного контента и стилевых изображений на разных уровнях абстракции. В качестве примера, это может быть поддержание структур и контуров высокого уровня изображения содержимого при одновременном включении цветов и особенностей текстур более низкого уровня изображения стиля.

Пример переноса стилевых особенностей («B») на изображение контента («A»), выполненный L. Gatys et. и др.

Производительность передачи стилей в области визуальной обработки была весьма впечатляющей и дает оптимизм в отношении «более интеллектуальных» алгоритмов обработки звука, если могут быть достигнуты аналогичные результаты. Поскольку спектрограммы представляют собой двумерные представления аудиочастотных спектров во времени, были предприняты попытки анализа и обработки их с помощью CNN. Было показано, что можно обрабатывать спектрограммы как изображения и выполнять передачу нейронного стиля с помощью CNN [3], но до сих пор результаты были не такими убедительными, как для визуальных изображений [4].

Чтобы преодолеть эту проблему и получить лучшие результаты при обработке нейронного звука, нам, возможно, потребуется рассмотреть вопрос о том, почему передача стиля с CNN не так хорошо работает на спектрограммах.По сути, эти методы применяют машинное зрение для машинного слуха.Я считаю, что это создает существенную проблему, которая может препятствовать прогрессу технологий с использованием ИИ в обработке звука. Хотя к проблеме, несомненно, можно подходить с разных сторон, возможно, стоит изучить различия между изображениями и спектрограммами и, как следствие, некоторые различия между зрением и слухом.

Звуки «прозрачные»

Одной из проблем, возникающих при сравнении визуальных изображений и спектрограмм, является тот факт, что визуальные объекты и звуковые события не накапливаются одинаково. Чтобы использовать визуальную аналогию, можно сказать, что звуки всегда «прозрачны» [4], тогда как большинство визуальных объектов непрозрачны.

При обнаружении пикселя определенного цвета на изображении чаще всего можно предположить, что он принадлежит одному объекту. Отдельные звуковые события не разделяются на слои на спектрограмме: вместо этого все они объединяются в единое целое. Это означает, что нельзя считать, что конкретная наблюдаемая частота в спектрограмме принадлежит одному звуку, поскольку величина этой частоты могла быть вызвана любым количеством накопленных звуков или даже сложными взаимодействиями между звуковыми волнами, такими как подавление фазы. Это затрудняет разделение одновременных звуков в представлениях спектрограммы.

Три примера сложных сценариев анализа спектрограмм. (Слева): два одинаковых тона вызывают неравномерное подавление фазы на разных частотах. (Посередине): трудно различить два одновременно звучащих голоса с одинаковой высотой. (Справа): Шумные и сложные слуховые сцены особенно затрудняют распознавание звуковых событий.

Оси спектрограмм не имеют одинакового значения

CNN для изображений используют двумерные фильтры, которые разделяют веса по измерениям x и y [4]. Как ранее описано, это основывается на предположении, что характеристики изображения имеют одинаковое значение независимо от их расположения. Чтобы это было правдой, вы должны также предположить, что оси x и y данных имеют одинаковое значение для значения содержимого. Например, лицо по-прежнему является лицом, независимо от того, перемещено ли оно по горизонтали или по вертикали на изображении.

На спектрограммах эти два измерения представляют принципиально разные единицы, одно из которых представляет собой силу частоты, а другое - время. Перемещение звукового события по горизонтали смещает его положение во времени, и можно утверждать, что звуковое событие означает одно и то же независимо от того, когда оно происходит. Однако перемещение звука по вертикали может повлиять на его значение:Перемещение частот мужского голоса вверх может изменить его значение от мужчины к ребенку или гоблину, например Выполнение частотных сдвигов звукового события также может изменить его пространственную протяженность [4]. Следовательно, пространственная инвариантность, которую обеспечивают 2D CNN, может не работать так же хорошо для этой формы данных.

Спектральные свойства звуков нелокальны

На изображениях можно предположить, что похожие соседние пиксели принадлежат одному и тому же визуальному объекту, но в звуке частоты чаще всего нелокально распределены на спектрограмме [4]. Периодические звуки, как правило, состоят из основной частоты и ряда гармоник, которые отделены друг от друга отношениями, определяемыми источником звука. Именно смесь этих гармоник определяет тембр звука.

В случае женского вокала основная частота в момент времени может быть 200 Гц, в то время как первая гармоника 400 Гц, следующие 600 Гц и так далее.Эти частоты не сгруппированы локально, но они движутся вместе в соответствии с общими отношениями.Это дополнительно усложняет задачу поиска локальных особенностей в спектрограммах с использованием двумерных сверток, поскольку они часто неравномерно разнесены, даже если они движутся в соответствии с одними и теми же факторами.

Иллюстрация нелокального распределения частот в женском голосе

Звук по своей сути серийный

Оценивая визуальное окружение, мы можем «сканировать» наше окружение несколько раз, чтобы найти каждый визуальный объект в сцене. Поскольку большинство объектов неподвижны, свет будет отражаться от них предсказуемым образом, и можно составить мысленную карту их размещения на физической сцене. С точки зрения восприятия, визуальные объекты, как предполагается, продолжают существовать в их наблюдаемом местоположении, даже если вы смотрите в другом месте.

Это не относится к звукам.Звук принимает физическую форму волн давления, и, с точки зрения слушателя, такие волны существуют только в своем текущем состоянии в один момент времени. Когда момент прошел, волна прошла мимо, удалившись от наблюдателя. Вот почему имеет смысл называть эти явления звукомМероприятияскорее, чемобъекты, С физической точки зрения это означает, что слушатели слышат звук только мгновение за раз. Там, где можно считать, что изображения содержат большее количество статической параллельной информации, звук является очень последовательным.

Более подходящее сравнение - это аудио и видео. Оба эти средства могут быть концептуализированы как изображающие движения во времени, где зависимости во времени имеют важное значение для переживаемого значения контента. Поскольку видео построено из коллекций изображений (кадры), он содержит гораздо больше параллельной информации.

Один из способов проиллюстрировать это:заморозить»момент времени в обоих СМИ. Глядя на один кадр видео (часто изображающий ~ 1/25 секунд воздействия света), все еще часто можно собрать значительное количество смысла относительно контекста, действий и сцены видео: отдельные объекты могут быть идентифицированы и, иногда действия и движения могут быть оценены. когда«Замораживание»однако в один момент звука (например, соответствующий совокупный результат ~ 1/25 секунд) со спектральным анализом оценки не могут быть столь же полными. Некоторый контекст об общем тональном балансе и характеристиках сигнала может быть собран, но не почти в той же степени, что и для видео.

Например, невозможно определить отдельные звуковые события вне контекста времени, чтобы увидеть, какие спектральные события происходят в соответствии с теми же временными закономерностями. Единственное, что можно установить наверняка, это тональный баланс слышимого звука (звуков) в данный конкретный момент времени. Объяснение этому возвращается к ранее обсуждавшейся физической форме звука в виде волн:Звуки не существуют как статические объекты, которые можно наблюдать параллельно, они появляются как последовательности давления воздуха, и значение этих давлений должно быть установлено с течением времени.

~1/25 секунды видео и аудио соответственно. (Слева): Девочка катается на металлической горке на детской площадке. (Справа): спектральное представление традиционного музыкального представления из Сенегала.

Эти причины позволяют предположить, что звук как средство передачи смысла является в основном последовательным и более зависимым от времени, чем видео, что представляет собой еще одну причину, по которой визуальные представления спектрограмм звуков, подаваемых в сети обработки изображений без временной осведомленности, могут работать неоптимально.

Кейс для моделирования человеческого опыта

Значительные прорывы в технологии искусственного интеллекта были достигнуты благодаря моделированию человеческих систем. Хотя искусственные нейронные сети являются математическими моделями, которые слабо связаны с тем, как функционируют настоящие человеческие нейроны, их применение для решения сложных и неоднозначных проблем реального мира было глубоким. Моделирование архитектурной глубины мозга в этих нейронных сетях открыло широкие возможности в изучении более значимых представлений данных. В распознавании и обработке изображений вдохновение из сложных и более пространственно инвариантных ячеек зрительной системы в CNN также дало значительные улучшения в состоянии наших технологий.

Как утверждал Дж. Б. Аллен в«Как люди обрабатывают и распознают речь?»До тех пор, пока способность человека к восприятию превосходит возможности машин, мы выиграем от понимания принципов человеческих систем [5].Люди обычно очень умелые, когда дело доходит до задач восприятия иконтраст между человеческим пониманием и статус-кво ИИ становится особенно очевидным в области машинного слуха, Принимая во внимание преимущества, полученные от человеческих систем при визуальной обработке (и приводимые аргументы о том, что визуальные модели не работают так же хорошо для звука), я предлагаю извлечь выгоду из аналогичного процесса в машинном слухе с нейронными сетями.


Это часть большого проекта машинного слуха. Если вы пропустили другие статьи, нажмите ниже, чтобы перейти к скорости:

Задний план:Обещание AI в обработке звука
Часть 1:Человеко-машинный слух с ИИ (1/3)
Часть 2:Человекоподобный слух с ИИ (2/3)

Спасибо за чтение! Чтобы оставаться на связи, пожалуйста, не стесняйтесьсвязаться со мной на LinkedIn!

Ссылки:

[1] Л. А. Гатис, А. С. Экер и М. Бетге, «Передача стиля изображения с использованием сверточных нейронных сетей», в 2016 году на конференции IEEE по компьютерному зрению и распознаванию образов (CVPR), 2016, стр. 2414–2423.

[2] Й. Ли, Н. Ван, Дж. Лю и Х. Хоу, «Демистификация передачи нейронного стиля», январь 2017 г.

[3] П. Верма и Дж. О. Смит, «Нейронный стиль передачи для аудиоспектрограмм», январь 2018 года.

[4] Л. Визе. 2017. Представления аудиоспектрограммы для обработки с помощью сверточных нейронных сетей.Материалы Первого международного семинара по глубокому обучению и музыке совместно с IJCNN. Анкоридж, США. Май 20171 (1). С. 37–41. DOI: 10.13140 / RG.2.2.22227.99364 / 1

[5] Дж. Б. Аллен, «Как люди обрабатывают и распознают речь?», IEEE Trans. Speech Audio Process., Vol. 2, нет. 4, с. 567–577, 1994.

Оригинальная статья

Footer decor

© machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map