Провокационная газета, Вопросы энергетики и политики для глубокого обучения в НЛП Эмма Штрубель, Ананья Ганеш и Эндрю МакКаллум в последнее время делают раунды. В то время как сам документ вдумчивый и взвешенный, заголовки и твиты вводят в заблуждение, с заголовками типа «Модели глубокого обучения имеют огромный углеродный след». Один особенно безответственная статья Подводя итог, можно сказать, что «среднее, готовое к выпуску программное обеспечение для глубокого обучения может выделять более 626 000 фунтов углекислого газа», что является вопиющим неправильным толкованием.
Как человек, который очень заботится о глубоком обучении и окружающей среде, я был рад видеть вдумчивую статью на эту тему, написанную практиками машинного обучения, но мне грустно видеть, что она плохо искажена в СМИ.
Я основал компанию Weights and Biases, чтобы помочь специалистам по машинному обучению отслеживать свои модели и эксперименты. Я видел затраты на обучение по избыточной модели из первых рук, и я надеюсь, что веса и предубеждения могут сыграть свою роль, помогая специалистам по машинному обучению более разумно использовать свои ресурсы.
Выводы
Обучение модели, вероятно, не является значительным источником выбросов углерода сегодня (но оно растет в геометрической прогрессии)
Пример модели, приведенной в статье «Трансформатор с поиском нейронной архитектуры», является далеко идущим решением с точки зрения вычислительных затрат по сравнению с тем, что почти каждый на самом деле делает в 2019 году. Например, более репрезентативная задача - обучение стандартному созданию нейронной сети на imagenet. Точность распознавания объекта на снимках до 95% занимает около 40 GPU-часов, что потребляет около 10 кВт-ч и вырабатывает около 10 фунтов CO2, что эквивалентно примерно 2-3 часам работы центрального кондиционера.
Типичный специалист по машинному обучению, который мы видим с помощью Weights & Biases, может иметь в своем распоряжении восемь графических процессоров, и они не приближаются к 100% использованию. Даже если бы они сделали, потребление энергии было бы около 2 кВт. Если есть 100 000 практиков машинного обучения (вероятно, щедрые), общее потребление обучения составит 200 МВт. Это не намного больше энергии и, вероятно, меньше выбросов углерода, чем хранение одного 747 самолет в небе,
Еще один способ взглянуть на влияние глубокого обучения - это посмотреть продажи Nvidia, поскольку Nvidia предоставляет процессоры, которые большинство людей используют для обучения. В первом квартале 2019 года их доход от центра обработки данных составил 701 миллион долларов, что означает, что они продали порядка 100 000 графических процессоров для центров обработки данных. Даже если все эти графические процессоры являются тренировочными моделями (опять же, вряд ли), мы приходим к аналогичному выводу.
Почему машинное обучение может стать значительной долей выбросов углерода в будущем
То, что обучение модели, вероятно, не является основным производителем углерода сегодня, не означает, что мы не должны смотреть на то, как это может повлиять в будущем.
Хотя типичный специалист по машинному обучению может использовать только восемь графических процессоров для обучения моделей, в Google, Facebook, OpenAI и других крупных организациях их использование может быть намного выше.
Министерство энергетики США купило 27 648 Вольта GPU s для их суперкомпьютера Oak Ridge, который они планируют использовать для глубокого обучения, которое потребляет около мегаватта при 100% -ной загрузке.
Недавняя тенденция в глубоком обучении явно на порядок выше вычислений. Это означает, что воздействие энергии и климата на порядок выше. Просто потому, что сегодня влияние может быть небольшим, оно может быстро измениться, если тенденции сохранятся. OpenAI имеет отличный пост в блоге, AI и вычисления который показывает быстрое увеличение вычислительных затрат на создание современных моделей.
Источник: AI и вычисления
Производительность графического процессора на ватт также растет в геометрической прогрессии, но, похоже, она увеличивается примерно в 10 раз каждые 10 лет по сравнению с вычислениями, необходимыми для повышения производительности современных моделей в 10 раз в год.
https://github.com/karlrupp/cpu-gpu-mic-comparison
Вывод модели является большим потребителем энергии, чем обучение модели (сегодня и, возможно, навсегда)
Модели не просто потребляют электроэнергию, когда они обучаются, сегодня источником большего потребления энергии является их развертывание. Nvidia подсчитала, что в 2019 году 80–90% от стоимости модели находится в заключении Неясно, сколько энергии потребуется нейронной сети для автономного вождения, но некоторые прототипы занимают до 2500 Вт который, если его развернуть на каждой машине в мире, будет иметь большое влияние, хотя на порядок меньше, чем физическое перемещение автомобилей.
Более неотложная проблема использования энергии дата-центры сегодня используют более 200TW и это число растет. Использование энергии Google в центрах обработки данных было достаточно, чтобы вдохновить их разработать свой собственный процессор для вывода называется TPU, который они теперь также предлагают как часть облака Google.
Экономические стимулы в основном соответствуют экологическим стимулам для модельного обучения
Модельное обучение становится чрезвычайно дорогим. При использовании моделей в облаке стоимость одного графического процессора составляет около 1 доллара США в час, а выработка CO2 составляет около 0,25 фунта - 10 долларов США за тонну для компенсации выбросов углерода с хорошей репутацией. Компенсация этого CO2 будет стоить около 0,1 цента, увеличивая мой счет всего на 0,1%. Небольшая дополнительная цена за обучение модели с нейтральным уровнем выбросов углерода.
Воздействие на окружающую среду, возможно, даже не самое страшное в быстро растущих требованиях к вычислениям при глубоком обучении
В статье Ананьи упоминается об этом, но стоит подчеркнуть: высокая стоимость обучения современных моделей имеет много тревожных последствий. Сегодня у исследователей и стартапов возникают проблемы с конкуренцией или даже копированием работы таких компаний, как Google и Facebook, потому что обучение стоит очень дорого.
До недавнего времени считалось, что модели связаны с данными, и многие беспокоились о том, что крупные компании имеют неоспоримое преимущество в том, чтобы получать больше данных. Но исследователи все еще могут добиться прогресса в создании высококачественных открытых наборов данных, таких как ImageNet. Стартапы смогли построить лучшие приложения для машинного обучения на основе доступных им данных.
В мире, где исследователи и компании тесно связаны между собой, трудно представить, как они будут конкурировать или даже сотрудничать с крупными компаниями. Если современные модели стоят миллионов долларов на обучение, будет ли кто-нибудь пытаться воспроизвести результаты друг друга?
Даже среди исследователей более авторитетные лаборатории имеют непропорциональный доступ к финансированию и ресурсам, заставляя их публиковать более интересные результаты, что, в свою очередь, увеличивает их доступ к вычислениям. Это может привести к тому, что очень небольшое число учреждений станет единственными, кто сможет провести фундаментальные исследования в области глубокого обучения,
Существует огромное и растущее количество потраченных впустую и избыточных вычислений
В статье есть несколько отличных выводов, с которыми я согласен. Первый - «Авторы должны сообщать время обучения и чувствительность к гиперпараметрам». Почему это так важно? Одна вещь, которую непрактикующий специалист, вероятно, не поймет из этой статьи, это то, как одни и те же модели глубокого обучения обучаются снова и снова. Практики обычно начинают с существующей современной модели и пытаются ее обучить.
Например, популярный репозиторий машинного обучения, такой как Facebook маска модель видения был снят более 5000 раз и разветвлен более 1500 раз. Сложно сказать, сколько человек обучилось с использованием этой модели, но я думаю, что разумная оценка может быть в десять раз больше, чем количество звездочек, это опробовали 25 000 разных людей. Первое, что кто-то сделает с моделью, это научит ее видеть, как она работает. И тогда, как правило, они будут тренироваться больше раз, пробуя разные гиперпараметры. Но вся эта информация потеряна, и большинство из этих тренировочных заездов излишни.
Это одна из причин, по которой я основал свою компанию «Веса и предубеждения». Мы сохраняем все эксперименты, которые вы проводите, чтобы вам больше не приходилось их запускать, а кому-то, собирающему вашу работу, не нужно было запускать их снова. Я очень взволнован, когда вижу, как исследователи отслеживают свои эксперименты в нашей системе.
Еще один замечательный момент, о котором говорится в статье: «Дополнительный путь, с помощью которого разработчики программного обеспечения для НЛП и машинного обучения могут помочь снизить энергозатраты, связанные с настройкой модели, заключается в предоставлении простых в использовании API-интерфейсов, реализующих более эффективные альтернативы поиску по сетке методом перебора». настройка гиперпараметра, например методы случайного или байесовского поиска гиперпараметров. «
Другими словами, вместо того, чтобы пробовать все возможные наборы гиперпараметров, исследователи будут экономить деньги, время и воздействие на окружающую среду, позволяя алгоритму разумно выбирать перспективные гиперпараметры. Мы действительно пытались сделать это очень просто сделать разумный поиск гиперпараметров.
Рассмотрите возможность компенсации воздействия вашей модели на окружающую среду.
Покупка углеродных компенсаций обходится дешевле, чем покупка часов на GPU на Amazon. Так почему бы не быть углеродно-нейтральным? Некоторые люди не думают, что выбросы углерода действительно эффективны, но это за пределами моей компетенции Некоммерческая Углеродный фонд Я много думал об этом и предлагал то, что, по моему мнению, большинство людей рассматривало бы как высококачественные углеродные смещения, которые являются абсолютно положительными, даже если они могут сойти с точного «смещения». Менее прямой, но, возможно, более эффективный может быть пожертвование для такой организации, как Правосудие Земли, Если вы разорваны, возможно, хеджируйте свои ставки, выполняя оба!
Простая формула состоит в том, что один час обучения на графическом процессоре Nvidia в Калифорнии в 2019 году дает около 0,25 фунтов Эквивалент CO2 выбросы.
Если вам нужна помощь в расчете углеродного следа, необходимого для обучения модели, я буду рад помочь вам.
Благодарность
Спасибо Джеймсу Чэму, Эду МакКаллоу, Крису Ван Дайку, Брюсу Бивальду, Стейси Светлачнии и Ноге Левинер за полезную обратную связь.