Scraper Обновлено: 17 September, 2018

Рекомендации по аннотированию данных для наборов бизнес-данных

  Перевод   Ссылка на автора

В предыдущем посте мы рассмотрели, как мы можем использовать reCAPTCHA, механический турок, восьмерка или PyBOSSA чтобы охватить большую толпу работников для эффективного краудсорсинга наших задач аннотации. Но в чем секрет успешной краудсорсинговой кампании по аннотированию набора данных вашего бизнеса?

Вот несколько быстрых советов, которые я использовал с PyBOSSA (но также применимо к другим краудсорсинговым платформам), чтобы вы начали:

Но как мы аннотируем набор (ы) данных?

План поэтапно

  • Аннотации данных - это марафон, а не спринт. Лучше всего начать с основной команды Data Scientists и SME, которая работает над бизнес-проблемой, чтобы «загрузить» набор данных со своими собственными ответами. По сути, вы используете основную команду в качестве первых работников, которые аннотируют небольшую часть набора данных. Это пригодится, когда вы увеличите масштаб до толпы работников, чтобы измерить их достоверность (подробнее об этом позже).
  • Используйте обратную связь от каждого этапа, чтобы перейти к рабочему процессу кампании, чтобы сделать его максимально простым для работников. Однако будьте внимательны, чтобы не повторять слишком много. Очень важно поддерживать дух кампании одинаковым на каждом этапе. Обзор дизайн опроса Больше подробностей.
  • Используйте стратегию эксклюзивности, чтобы повысить интерес к кампании со стороны работников, что тесно связано со стимулами, предлагаемыми для участия (подробнее об этом позже).
  • Избегайте соблазна попросить работника выполнить несколько задач аннотации для одного и того же наблюдения в одной кампании. Скорее, запустите несколько кампаний для каждой задачи, которую нужно аннотировать. Чем проще будет каждая полоса плавания для кампаний, тем богаче и полезнее будет ваш последний набор данных.

Четкие и простые инструкции

  • Вы должны быть в состоянии объяснить задачу аннотации, которую вы просите, чтобы работник выполнил менее 40 слов. Все остальное приведет к резкому сокращению участия. Если вы обнаружите, что используете слишком много слов для объяснения выполняемой задачи, переоцените компетентность пула работников, которых вы просите выполнить работу.
  • Если вы интегрируетесь в существующий рабочий процесс МСП, сделайте его как можно более легким. Последнее, что вы хотите, - чтобы задача была настолько утомительной, что работники игнорировали ее, или, что еще хуже, вводили случайные ответы, просто чтобы выполнить задание с аннотациями!
  • Ограничьте количество действий, которые работник должен выполнить, чтобы успешно участвовать в кампании. В идеале, один клик на задачу, на наблюдение. Цель здесь - уменьшить сложность участия, чтобы работник с большей вероятностью принимал правильное участие. Наличие большого количества элементов HTML-формы на странице может сбить с толку работника и отвлечь его от выполнения задачи аннотирования. Это может потребовать более продвинутого программирования на HTML / JavaScript заранее, но стоит потратить время, чтобы иметь надежный набор истинных данных!
  • В идеале работник, выполняющий задачу аннотации, уже был идентифицирован как «квалифицированный». Если это не так, предоставьте гиперссылки на любую терминологию и информацию о предмете, чтобы обеспечить единообразное применение среди работников. Это может быть так же просто, как определение терминов, используемых в задаче, или так же сложно, как объяснение всего процесса того, что вы пытаетесь аннотировать. Опять же, при выборе того, какие работники будут выполнять работу, они должны уже это знать, но полезно иметь ее в пределах досягаемости, чтобы освежить свою память.
  • Обеспечить обратную связь с работником. Давайте будем честными, аннотирование данных - скучная работа. Предоставление обратной связи о том, сколько ответов ответил работник, и другие базовые показатели могут помочь работникам быть вовлеченными. В некоторых случаях простой индикатор выполнения имеет большое значение для взаимодействия. Не верьте мне на слово, A / B Проверьте это!
  • Ограничение по времени, сколько ответов может быть предоставлено. В некоторых кампаниях нас больше интересует мудрость разнообразной толпы и мы хотим помешать одному работнику внести слишком большой вклад. Для этого ограничение количества ответов в час / день на одного работника является отличным решением.

План связи для кампании

  • Как ваши работники узнают, что кампания аннотаций доступна? У вас есть централизованный концентратор для всех доступных кампаний или вы хотите ограничить кампании определенным МСП?
  • Есть ли у вас полномочия поручать определенным МСП выполнять N-задач в день для определенной кампании? Если нет, вам нужно выяснить, как получить эти полномочия от их руководящей команды, чтобы обеспечить успешную кампанию. Обычно это подразумевает объяснение руководящей команде, что мы не можем выполнить надежное моделирование машинного обучения, пока у нас не будет такого типа набора данных. Имейте в виду, однако, что это может быть самой сложной задачей при попытке краудсорсинга такого рода данных в бизнесе!
  • Убедитесь, что руководству, а также работникам предельно ясно, почему проводится эта кампания Он помогает объяснить, какие типы решений он может раскрыть после сбора данных такого типа. Для любой существенной бизнес-проблемы обычно прикрепляется цифра в долларах, которая помогает определить важность действительного аннотированного набора данных. Но будьте внимательны в том, как вы сообщаете об этом рабочим, когда конечной целью является увеличение / замена / автоматизация части рабочего дня работников. Последнее, что вам нужно, это открытый бунт к вашей задаче аннотирования данных!

Стимулы для работников

  • Найдите способ включить стимулы, основанные на времени, и добавьте элементы лудологии (например, игровой дизайн), чтобы сделать кампанию интересной для работников.
  • Награды не обязательно должны быть денежными. Часто бывает легко найти бюджет для Подарочных карт, чтобы вознаградить лучших N участников, но это может быть не лучшим мотиватором. Проведите мозговой штурм с руководящей группой, чтобы выяснить, какие стимулы мотивируют работников (пончики, обед с вице-президентом, дополнительное время, место для основной команды, работающей над окончательным проектом, на котором будет использоваться этот набор данных, и т. Д.).

Утвердить ответы работника

  • Добавляйте случайные наблюдения, когда вы уже знаете правильный ответ. Это поможет измерить достоверность каждого работника, чтобы понять, должны ли их ответы быть включены в окончательный набор данных. Обычно этот набор данных «получается» получается на начальной стадии «начальной загрузки» кампании, которую, вероятно, курировала основная команда Data Science, запускающая кампанию.
  • Измерьте количество времени, которое требуется каждому работнику, чтобы дать ответ на каждую задачу, затем примените принцип Парето удалить посторонних работников. Помните, мы заинтересованы в том, чтобы использовать мудрость толпы экспертов, чтобы построить нашу основную правду; не только эксперты, которые могут ответить на задачи быстрее / медленнее.
  • Объедините все ответы работников, чтобы определить, когда у вас есть кворум, для которого аннотацию следует рассматривать как «основную истину». Это часто означает представление одного и того же наблюдения нечетному числу работников (то есть 3, 7, 9 и т. Д.). Хотя это вводит дублирующую работу, это также позволяет нам уловить то, что разные работники воспринимают как правду. При работе с МСП над набором бизнес-данных, который будет использоваться для обучения модели машинного обучения, которая автоматизирует некоторые аспекты бизнеса, очень важно, чтобы мы обучали ее общепринятой «правде».
  • Проведите выборочную проверку с руководством, чтобы убедиться, что ответы от кворума работников соответствуют их ожиданиям. Если нет, проведите более глубокое расследование, чтобы понять причину, по которой у работников другое мнение, чем у руководящей команды. Это часто приводит к более интересным идеям, чем любой алгоритм машинного обучения!

Мне интересно услышать мнение других практикующих ученых в области бизнеса. Какие шаги вы проходите, чтобы сгенерировать базовый набор данных истины для обучения вашим моделям машинного обучения?