Как ученый, имеющий степень магистра в области эконометрики, я потратил некоторое время, чтобы понять тонкости, которые отличают машинное обучение от эконометрики. Я хотел бы поговорить с вами об этих тонкостях, которые не очевидны с первого взгляда и которые заставили меня задуматься на протяжении всего моего путешествия.
эконометрия является применение статистических методов к экономическим данным, чтобы придать эмпирическое содержание экономическим отношениям. Точнее, это «количественный анализ реальных экономических явлений, основанный на параллельном развитии теории и наблюдений, связанных соответствующими методами вывода»
Машинное обучение(ML) это научное исследование алгоритмов и статистических моделей, которые компьютерные системы используют для выполнения конкретной задачи без использования явных инструкций, вместо этого полагаясь на шаблоны и умозаключения. Это рассматривается как подмножество искусственного интеллекта. Алгоритмы машинного обучения строят математическую модель на основе выборочных данных, известных как обучающие данные, для того, чтобы делать прогнозы или принимать решения без явного программирования для выполнения задачи.
Очень хорошо, поэтому им кажется, что оба нуждаются в данных, оба используют статистические модели, оба делают выводы, поэтому в соответствии с их определениями машинное обучение, похоже, решает более широкие проблемы, чем просто экономика. Итак, почему эконометрика все еще существует ?! Это вопрос, который я задавал себе, когда обнаружил машинное обучение примерно в то же время, что и в начале моих эконометрических исследований.
Будучи хорошим экономистом будущего, мне нужно идеально жонглировать числами, иметь твердый фон вStatistics
быть экспертомlinear algreba
а такжеMathematical optimization
и, наконец, иметь компьютерные навыки, чтобы играть с данными. Эти навыки будут использованы для понимания, демонстрации применения моей регрессии, классификации, алгоритмов кластеризации или прогнозирования временных рядов. В течение этого года я буду очень глубоко изучать некоторые алгоритмы, такие какLinear Regression
,Logistic Regression
,Kmeans
,ARIMA
,VAR
…так далее. Подожди?Эти алгоритмы также используются для машинного обучения!
Принципиальное различие между машинным обучением и эконометрикой заключается в их теоретической основе. Эконометрика имеет прочную основу в математической статистике и теории вероятностей. Алгоритмы математически устойчивы с наглядными и привлекательными свойствами, эти алгоритмы в основном оцениваются на надежность их базы.
С машинным обучением математика, конечно, не отсутствует, но она присутствует для объяснения поведения алгоритма, а не для демонстрации его надежности и привлекательных свойств. Эти алгоритмы в основном оцениваются по их эмпирической эффективности. Очень показательным примером является успех алгоритма Xgboost, который обязан его успеху благодаря его доминированию над несколькими соревнованиями по машинному обучению, а не его математической демонстрации.
Другое отличие состоит в том, что эконометрика имеет только одно решение, учитывая заданную модель и набор данных, параметры параметрической регрессии вычисляются с использованием алгебраической формулы.best linear unbiased estimator
(СИНИЙ) коэффициентов задается обычные наименьшие квадраты (OLS) в случае, когда соблюдаются некоторые допущения. Здесь «лучший» означает наименьшую дисперсию оценки по сравнению с другими несмещенными линейными оценками.
Хотя большинство алгоритмов машинного обучения слишком сложны, чтобы их можно было описать одной математической формулой. Их решения были определены алгоритмически итеративным методом, называемым фазой обучения, целью которого является найти решение, которое наилучшим образом соответствует нашим данным, поэтому решение, определенное алгоритмом машинного обучения, является приблизительным и является наиболее вероятным оптимальным.
Эконометрические модели (то есть: параметрические большую часть времени) основаны на экономической теории. Традиционные инструменты статистического вывода (такие как метод максимального правдоподобия или текущий метод) затем используются для оценки значений вектора параметров в параметрической модели m. В этом случае асимптотическая теория играет важную роль (разработки Тейлора, закон больших чисел и центральная предельная теорема… и т. Д.).
В машинном обучении, с другой стороны, часто создаются непараметрические модели, основанные почти исключительно на данных (не делается никаких базовых предположений о распределении), а используемые мета-параметры (глубина дерева, штрафные параметры и т. Д.) Оптимизируются с помощью перекрестная проверка, алгоритм поиска по сетке или любой алгоритм оптимизации гиперпараметров.
Вы поймете, что паттерн будет таким же, как ранее эконометрические, опираясь на надежный математический тест для проверки модели, мы обычно говорим оgoodness of fit
модели Он оценивается путем проверки гипотез, оценки нормальности остатков, сравнения распределений выборки. Мы также говорим оR²
которая представляет собой долю дисперсии в зависимой переменной, которая предсказуема из независимой переменной (переменных),AIC|BIC
которые оценивают качество каждой модели, относительно каждой из других моделей или переменных оценок черезp-value
,
Оценка моделей машинного обучения будет зависеть от ее прогноза, основная идея заключается в том, что если модель способна хорошо прогнозировать, то она успешно изучила скрытые шаблоны в данных. Чтобы убедиться, что модель не переобучена, набор данных будет разделен на обучающий набор и тестовый набор, а затем полученcross-validation
кирпич, чтобы проверить мощность обобщения модели и отсутствие смещения в разделении данных. Наконец, мы будем использовать KPI, которые позволят нам оценить разрыв с реальными лайкамиRMSE, MAE
илиAccuracy
,
И эконометрика, и машинное обучение пытаются определить функцию, которая определяет набор переменных-предикторов, которые будут моделировать прогнозируемую переменную:
На бумаге на данном этапе они, кажется, сходятся, но также на пути и цели они расходятся. Цель машинного обученияYв большинстве случаев целью эконометрики является оценка β каждого предиктора.
Основной целью эконометрики является не прогнозирование, а количественная оценка экономического явления
Если мы посмотрим на эти различия на практике, мы начнем с классической эконометрической модели и одной из наиболее широко используемых моделей - линейной регрессии. Для этой цели мы будем наблюдать результаты нашего моделирования посредством реализацииsklearn
библиотека, которая в основном обслуживает модели машинного обучения и реализациюstatsmodels
библиотека, которая более экономически ориентирована.
#import library
import pandas as pd
import numpy as np
import seaborn as sns
import statsmodels.api as sm
from sklearn import linear_model#import data
iris = sns.load_dataset("iris")
Давайте сравним обе реализации
dummies = pd.get_dummies(iris["species"], drop_first=False)
iris = pd.concat([iris, dummies], axis=1)
iris.head()
Поскольку Species является категориальной переменной, нам нужно преобразовать ее в формат, который может обрабатывать компьютер, поэтому мы обратимся к формату однокадрового кодирования. Давайте начнем с машинного обучения.
Мы можем извлечь коэффициенты модели и параметр наклона beta0 через объект модели. Давайте попробуем с statsmodels.
Statsmodels дают нам много информации по сравнению со sklearn, мы получили очень хороший R², AIC, BIC, о котором мы говорим ранее, коэффициент каждой переменной и предупреждения. Давайте попробуем предсказать:
Мы получили тот же R² и очень хорошие Мэй и Rmse ... но мы утверждаем, что коэффициент не равен для обеих моделей. Statsmodels предупреждают нас, что есть вероятность, что наша модельMulticollinear
! Это относится к ситуации, в которой две или более объясняющих переменных в множественная регрессия модели тесно связаны между собой, это означает, что в нашем наборе данных есть избыточная информация. Эта информация поступает из видовой переменной, мы должны отбросить одну категорию, потому что это очевидно, если радужная оболочка не является setosa или verginica, то она лишена.
Это означает, что, хотя наша модель имеет сильное значение R² и, следовательно, сильную предсказательную силу, эти коэффициенты смещены и не поддаются интерпретации.
Эта информация не была передана нам sklearn. Давайте исправим это, передав drop_first = True.
Statsmodel убрал свое предупреждение, теперь у нас есть несмещенные коэффициенты. Более того, асимметрия близка к 0, а также эксцесс, что означает, что наши остатки, скорее всего, нормальные, вероятность по Жарк-Бера подтверждает, что это хорошая модель. Давайте снова запустим нашу модель sklearn:
Наконец, мы получили то же самое, давайте немного прочтем. Можно видеть, что при прочих равных условиях увеличение длины лепестков на 1% увеличивает ширину лепестка на 0,24 см. В случае категориальных переменных мы всегда ссылаемся на отсутствующую категорию, и мы видим, что при всех равных условиях у вида verginica лепесток шире на 1,04 см, чем у отсутствующего вида setosa. Все значения p являются значимыми при пороге 5%, поэтому наши коэффициенты считаются надежными и несмещенными. Мы видели анализ модели линейной регрессии, которая также может быть перенесена в классификацию. Логистическая регрессия предлагает очень интересныеodds ratio
Читая в анализе модели, я бы обсудил чтение отношения шансов в будущей статье.
Читая в анализе модели, я бы обсудил чтение отношения шансов в будущей статье.
Вероятностные основы эконометрики - это, несомненно, ее сила, причем не только интерпретируемость моделей, но и количественная оценка неопределенности Тем не менее, прогнозирующие характеристики моделей машинного обучения интересны, поскольку они позволяют выделить плохую спецификацию эконометрической модели, а некоторые из этих алгоритмов больше подходят для неструктурированных данных. Эконометрика должна быть строгой, но становится очень важным инструментом анализа экономических факторов. Если ваш менеджер попросит вас дать количественную оценку эффекта, это может иметь отношение к статистической и математической легитимности.