machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Распознавание речи - Максимальная взаимная оценка информации (MMIE)

Дата публикации Oct 3, 2019

Многие ASR обучаются с помощью MLE (Оценка максимального правдоподобия -Детали). Это один из самых популярных методов машинного обучения ML и глубокого обучения DL. В этой статье мы представим еще одну альтернативу для ASR, Максимальная оценка взаимной информации (MMIE), и рассмотрим некоторые из ее преимуществ и реализаций.

MLE

Пока что обучение ASR, обсуждаемое в этой серии, основано на оценке максимального правдоподобия с использованием топологии HMM, представленной ниже.

Эта топология имеет строгое предположение. Наблюдение во времяTзависит только от соответствующего скрытого состояния, т.е.п(xᵢ| последовательность состояний) =п(xᵢ| скрытое состояние). Это не совсем так. Даже если мы можем найти глобальный оптимум для MLE, предположение может привести нас к неоптимальному решению. Действительно, многие вычисленные вероятности, вероятно, переоценены. На самом деле наблюдения связаны с прошлыми и будущими состояниями.

Чтобы противодействовать этой проблеме, мы ранее вводили контекстно-зависимый телефон (трифон) и дельты в MFCC для моделирования речевого контекста. Это приближает модель HMM к реальности. Но это служит только для взлома.

Максимальная взаимная оценка информации (MMIE)

Уравнение ниже является MLE.

В ASR MMIE будет моделироваться как:

где κ (около 1/12) - коэффициент масштабной выдумки при корректировке завышения.

ЕслиИкс(наблюдения) иW(последовательность слов) полностью независимы в соответствии с моделью λ, уравнение равно 0. Эта независимость подразумеваетИксне имеет отношения кW, Мы хотим наоборот для справки стенограммы. Мы хотим, чтобы модель λ максимизировала соответствующий MMIE. Сп(W) независимо от модели λ, MMIE может быть дополнительно упрощен как:

Это фактически максимизирует апостериорную вероятность (a.k.a. Maximum a posteriori (MAP)). Интуитивно мы максимизируем числитель и минимизируем знаменатель. то есть мы увеличиваем вероятность того, что модель делает прогноз, подобный метке ссылки (числитель), и уменьшаем шанс для других (знаменатель).

Вот еще один способ изобразить MLE

и MMIE.

Источник

Теоретически они могут привести к одному и тому же оптимальному решению. Но из-за модельного приближения их решения могут отличаться друг от друга.

MMIE уменьшает вероятность последовательностей слов, отличных от эталонной расшифровки. В нашем контексте мы называем это дискриминационным тренингом, который повышает правильный ответ и уменьшает количество неправильных ответов. MMIE также является обучением последовательности, потому что мы обучаем модель оптимизации вероятности последовательности.

Для задач классификации MMIE создает более четкую границу решения по сравнению с обучением MLE. Следующие диаграммы классифицируют три различных класса данных с использованием гауссовых моделей с диагональной ковариацией (недиагональные ковариационные элементы равны нулю). Как показано, обучение MMIE имеет лучшие границы принятия решений.

Источник(Диагональная ковариация Гаусса с обучением MLE (в центре) и обучением MMIE (справа)

Однако суммировать все возможные последовательности слов в знаменателе сложно. Тренировка с дискриминационной последовательностью намного сложнее, чем тренировка MLE. Поэтому мы сначала исследуем метод решеток при приближении к нему.

Решетка на основе MMI

Чтобы приблизить знаменатель в MMIE,

мы создаем решетку для каждого высказывания в представлении альтернативных предсказаний. Чтобы упростить расчет, включены только вероятные последовательности. Мы будем игнорировать последовательности с относительно малыми вероятностями.

Источник

Чтобы создать эту решетку, мы применяем концепцию WFST с использованием более слабой языковой модели (более короткая языковая модель, такая как биграмма). Это тот же механизм в создании кандидатов, которые закодированы в слове решетки вASR декодированиепроцесс. Мы просто используем более слабую языковую модель для производства кандидатов, которые нам нужны. Кроме того, каждое слово в решетке будет расширено представлением телефона HMM.

Для числителя мы создаем другую решетку. Эта решетка будет расширена до телефонов HMM, учитывающих разные произношения слов. Но он будет содержать только последовательность слов в стенограмме. Концептуально, мы хотим суммировать по всем различным путям в двух решетках соответственно, чтобы вычислить вероятность последовательности для числителя и знаменателя.

Источник

Для этого мы можем просто применить алгоритм прямого-обратного хода для вычисления вероятностей прямого и обратногоαа такжеβ.

И использовать их для вычисления вероятности занятости состояния γ для числителя и знаменателя.

Детали алгоритма прямого и обратного хода были рассмотрены в предыдущем HMMстатьяМы не будем повторяться здесь снова.

Ниже приведен пример применения обучения MMIE По сути, MMIE использует алгоритм прямого-обратного хода для вычисления вероятности занятости состояния для повторной настройки акустической модели GMM (скажем, с использованием MLE).

Для деталей, вот оригиналбумага, Мы просто хотим показать вам скелет применения MMIE с алгоритмом прямого-обратного хода.

Градиентный спуск

Давайте применим градиентный спуск в оптимизации MMI.

Его градиент w.r.t. Акустическая модель - это разность вероятности заполнения штата.

Это общая формула независимо от используемой модели. Это может быть модель GMM HMM или глубокая сеть. Для обоих сценариев он включает в себя вычисление вероятности заполнения состояния γ с учетом транскрипта слова или всех других возможных последовательностей слов с использованием алгоритма прямого-обратного. Если телефонный переход и наблюдения моделируются с помощью HMM, градиент будет:

Минимальная ошибка телефона (MPE)

Мы можем изменить MMIE для оптимизации ASR на основе концепции коэффициента ошибок по словам (WER). Но MPE сделает это на уровне телефона, а не на уровне слов при измерении расстояния редактирования.

Это включает в себя коэффициент А в числителе при измерении точности транскрипции телефона. MPE является средневзвешенным значением точности этого телефона. Этот вес вычисляется с вероятностью последовательности по возможным последовательностям слов. Это способствует высокой точности телефона благодаря последовательности слов, соответствующей акустической и языковой модели.

HMM / DNN системы

Глубокие сети преуспевают в извлечении функций и обнаружении корреляции между ними. Это позволяет нам использовать содержимое при составлении прогнозов. В ASR мы можем использовать глубокую сеть для классификации телефонов на основе функций, извлеченных в акустических кадрах. Мы рассматриваем это как классификатор, использующий softmax для вывода распределения вероятностейп(Телефон|xᵢ). Softmax поднимает основную правду, в то время как другие - та же концепция, что и MMIE.

MLE в нашем обсуждении использует обучение последовательности, но оно не является дискриминационным. Функция softmax в глубокой модели здесь является дискриминационной.

Как мы можем превратить это в тренировку с дискриминационной последовательностью? Сначала мы обучаем классификатор путем минимизации кросс-энтропии и используем модель для генерации выравниваний и решеток. Это дискриминационная фаза обучения. Второй этап - тренировка последовательности. Поскольку и глубокая сеть, и решетка являются сетевыми объектами, мы можем обучать их вместе. Мы используем эту модель для вычисления цели MMIE или MPE с помощью алгоритма прямого-обратного хода и обратного распространения для изучения параметра модели.

Безрешеточный MMI (LF-MMI)

Обсуждаемое ранее, в MMI на основе решетки, мы сначала находим слово решетка для знаменателя. Если мы используем глубокую сеть для классификации телефонов, мы будем предварительно обучать ее перекрестной энтропии. Нам также необходимо использовать коэффициент выдумки масштабирования κ, чтобы исправить переоценку. Все это звучит довольно неожиданно при обучении в глубокой сети. Можем ли мы избежать их?

В ASR мы используем составной преобразовательЧАС◦ C ◦Lгвраскодироватьаудио. Это WFST, и его можно интегрировать с классификатором глубокой сети: если мы отступим на секунду, это всего лишь одна большая сложная сеть. Мы можем тренировать это как DL, используя обратное распространение. Нам не нужно вводить решетку, чтобы приблизить знаменатель.

Методы, основанные на решетке, были предложены еще до эры графических процессоров. Тренировать эту глубокую сеть без графического процессора невозможно. Возможности открываются, когда GPU демонстрирует большой успех в DL в 2012 году. Но существуют физические ограничения, в частности, потребление памяти. Например, чтобы вписать метод в память графического процессора, мы разбиваем обучающие высказывания на куски по 1–1,5 с. Но этого недостаточно, чтобы воспользоваться преимуществами графического процессора, нам нужно избегать ветвления (графический процессор позволяет запускать одну инструкцию графического процессора только для нескольких данных одновременно). Сокращенный поиск по дереву менее привлекателен с графическим процессором. Нам нужна маленькая модель. Поэтому LF-MMI использует

  • Языковая модель уровня телефона (LM) вместо уровня слова (обычно используется 4-граммовый уровень телефона LM).
  • Нет отката LM (сглаживание LM). Откат LM вводит много состояний.
  • Частота кадров 30 мс вместо 10 мс при извлечении функции.
  • Вместо трех состояний на телефон он использует только одно состояние.

Эту модель можно обучить напрямую. Нам не нужна решетка слов, предварительная подготовка или κ.

Градиентный спуск требует, чтобы мы вычислили два набора апостериорных вероятностей: один из графа числителя, определенного для высказывания, и один для графа знаменателя, который кодирует все возможные последовательности слов. Но, в отличие от решетки MMI, в которой граф знаменателя различен для каждого высказывания, этот граф будет одинаковым для всех высказываний в LF-MMI.

Последовательности состояний как числителя, так и знаменателя кодируются как преобразователь конечных состояний. Он построен как обсужденный декодер HCLG FSTдо, Вычисление знаменателя вперед-назад вычисление будет распараллелено GPU Чтобы ускорить процесс, на знаменателе FST выполняются тщательные оптимизации, включая реверсирование, увеличение веса и минимизацию с последующим удалением эпсилона, чтобы минимизировать его размер.

Поскольку мы нарезаем высказывания на 1,5 с., Первоначальные вероятности соответствующих FST должны быть скорректированы. (Мы как бы отсекаем высказывание посередине.) Эта начальная вероятность получается путем запуска HMM для 100-временных шагов, начиная с начального состояния, а затем усредняя распределение состояний по этим 100-временным шагам.

Чтобы избежать переоснащения, LF-MMI применяет два метода. Первый - обычная регуляризация L-2. Кроме того, классификатор будет иметь два отдельных выходных слоя: один обучен с MMIE, а другой с кросс-энтропией. Таким образом, перекрывающиеся слои будут обучаться обеим целям, чтобы уменьшить переоснащение, вызванное одной задачей.

Источник

Исследовательский документ также детализирует некоторые другие детали реализации. В частности, способы избежать дорогостоящих операций и избежать проблем переполнения и недостаточного заполнения. Мы рекомендуем читателям прочитатьбумагаесли нужна дополнительная информация.

Кредиты и рекомендации

MMIE обучение больших систем распознавания слов

Нейронные сети с чисто обученной последовательностью для ASR на основе MMI без решетки

Дискриминационный тренинг для распознавания речи

Обучение MMI без решетки

Введение в дискриминационное обучение распознаванию речи

Сквозное распознавание речи с использованием MMI без решетки

Последовательность дискриминационного обучения

Оригинальная статья

Footer decor

© machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map