Scraper Обновлено: 14 March, 2019

Статистические тесты для сравнения машинного обучения и базовой производительности

  Перевод   Ссылка на автора

Сравнивая подход машинного обучения с текущим решением, я хочу понять, является ли наблюдаемая разница статистически значимой; что это вряд ли будет просто из-за случайности или шума в данных.

Соответствующий тест для оценки статистической значимости варьируется в зависимости от того, что предсказывает ваша модель машинного обучения, от распределения ваших данных и от того, сравниваете ли вы прогнозы по предметам или нет. Этот пост освещает общие тесты и где они подходят.

Статистическая проверка нулевой гипотезы

Статистический тест с нулевой гипотезой используется для сравнения двух выборок данных и расчета статистической достоверности того, что воспринимаемое различие в математическом признаке (например, различные средние значения) будет наблюдаться в более широкой популяции.

Несмотря на продолжающуюся критику проверки значимости нулевой гипотезы, она все еще является наиболее часто используемой техникой для этой проверки.

Нулевая гипотеза

Нулевая гипотеза - это утверждение, что не существует разницы между распределением двух выборок данных; что любое отклонение видно из-за шума или случайности.

С точки зрения машинного обучения наша нулевая гипотеза состоит в том, что показатели производительности равны, что любой небольшой наблюдаемый выигрыш или потеря не является статистически значимым.

Р-значение

Тест показывает, следует ли нам отвергать или не отклонять нулевую гипотезу о том, что нет никакой разницы. Статистические тесты, обсуждаемые ниже, имеют тенденцию предоставлять статистику теста и значение p.

Если значение p ниже заданного порогового значения (часто 0,05), мы можем отклонить нулевую гипотезу и сделать вывод, что разница статистически значима.

Бизнес интерпретация

Если вы сравниваете свое решение по машинному обучению с текущими базовыми показателями и видите улучшение производительности, тот факт, что улучшение является значительным, является отличной новостью!

Точно так же, если вы используете эти методы для проверки того, работает ли конкретная модель лучше, чем другая, это может помочь вам решить, с какой моделью двигаться дальше.

Если вы не можете отклонить нулевую гипотезу (значение p больше или равно пороговому значению), любой наблюдаемый эффект или различие между двумя наборами данных не является статистически значимым. Это может быть положительной новостью, если вы пытаетесь автоматизировать задачу, в которой достаточно соответствия текущей производительности вручную. Однако если критерий успеха заключается в том, чтобы превзойти текущий сценарий, статистически значимая разница не означает, что маловероятно, что вы получите выгоду от внедрения этой модели в производство.

Предположения

Распределение данных

При использовании тестов гипотез для регрессионных моделей важно различать, следует ли использовать параметрический или непараметрический тест. Параметрические тесты являются предпочтительными, так как они обычно имеют большую статистическую мощность, чем непараметрический тест; это означает, что они с большей вероятностью обнаружат статистически значимый эффект, если таковой существует. Однако эти тесты предполагают, что данные обычно распределяются; если это предположение не выполняется, следует использовать непараметрический тест.

Если вы отображаете значения ошибок, скорее всего, они будут иметь ненормальное распределение

Когда вы сравниваете значения ошибок, весьма вероятно, что они смещены влево: большинство ошибок небольшие, а частота уменьшается с увеличением значения ошибки. Если бы вы собирали данные, вы могли бы визуально интерпретировать это, но есть и тесты нормальности, которые вы можете использовать для математического подтверждения.

Парные или непарные наблюдения

Если данные были собраны от одних и тех же предметов для каждой модели, это называется «парными». В машинном обучении это означает, что данные теста для базовой линии и обученной модели совпадают.

Данные, полученные от двух независимых групп, называются «непарными». Это часто встречается в научных исследованиях или A / B-тестировании, когда вы сравниваете контрольную группу с группой лечения.

Соответствующие статистические тесты

регрессия

Если ваша модель машинного обучения предсказывает числовые значения, метрика ошибки имеет тенденцию быть одной из следующих:

  • Среднеквадратичная ошибка (MSE)
  • Средняя абсолютная ошибка (MAE)
  • Средняя абсолютная ошибка в процентах (MAPE)
  • Средневзвешенная абсолютная ошибка в процентах (WMAPE)

При использовании теста гипотез для сравнения усредненных ошибок вы смотрите на вероятность того, что ошибки происходят из одного и того же распределения; если вероятность достаточно низкая, разница между двумя средними значениями ошибок является статистически значимой.

Для нормально распределенных данных два соответствующих тестаСтуденческий т-тестилиT-тест Уэлча, Они оба проверяют, что две популяции имеют одинаковое среднее значение, но t-критерий Уэлча более надежен, поскольку существует разница в дисперсии или размерах выборки. Есть две реализации в зависимости от того, являются ли наблюдения парными или непарными

Два непараметрических теста являются либоU-тест Манна-УитниилиЗнак ВилкоксонаВ зависимости от того, являются ли наблюдения парными или нет.

классификация

Если ваша модель машинного обучения предсказывает, к какому классу принадлежит экземпляр, метрики ошибок имеют тенденцию быть одним из следующих:

  • точность
  • точность
  • Отзыв
  • F1-оценка

Хотя ваша компания должна решить, какой показатель должен быть приоритетным, наиболее распространенные методы, используемые в классификационных моделях, просто оценивают, значительно ли отличаются пропорции ошибок. Дальнейшие исследования необходимы, если вы явно хотите проверить статистическую значимость точности или показателя F1.

Модели классификации могут быть либо бинарными (например, взбитыми или не взбитыми), либо мультиклассовыми (например, спортом, политикой или наукой). Для сравнения бинарной модели классификации соответствующим тестом являетсяТест Макнемарав то время как для мультикласса этоТест Стюарта-Максвелла,

Сравнение алгоритмов и настройка по гиперпараметрам

Приведенные выше показатели используются при оценке результатов одной модели относительно базовой линии (или, альтернативно, другой модели).

При оценке различных алгоритмов или гиперпараметров обычно используется перекрестная проверка в k-кратном размере. Это позволяет обучать и тестировать k моделей и собирать их метрики оценки, используя их среднее значение в качестве показателя производительности алгоритмов. Если вы сделаете это для двух алгоритмов, вы можете использовать статистический тест, сравнивающий два средних.

Например, если вы хотите сравнить модель логистической регрессии с моделью случайного леса. Вы можете разбить данные на 10 раз и обучить 10 моделей логистической регрессии и 10 моделей случайных лесов. Каждая из двух моделей будет иметь 10 соответствующих значений метрик производительности (например, точность), которые затем могут быть переданы в статистический тест, чтобы увидеть, является ли какая-либо наблюдаемая разница статистически значимой.

По мере того, как перекрестная проверка в k-кратном порядке повторно отбирает данные, между тренировочными наборами происходит частичное совпадение. Это означает, что значения не являются независимыми, что часто является допущением для проверки статистических гипотез. Следовательно, два наиболее распространенных метода5x2 перекрестная проверка с измененным t-тестома такжеТест Макнемара,