Голосовые помощники и чат-боты полагаются на понимание языка, но пока они могут изучать смысл и контекст только с помощью человека. Так много для приватности.
По Бен Диксон
В конце августа материнская плата сломал новость что Microsoft поделилась голосовыми записями пользователей Xbox с подрядчиками, чтобы улучшить функциональность своего голосового ассистента на базе AI. Ранее в этом месяце другой отчет показал, что Microsoft делится Записи Skype и голосовые команды Cortana с подрядчиками улучшают услуги платформы чата. Некоторые записи содержали интимное содержание.
Microsoft - лишь одна из нескольких компаний, которые нанимают работников для прослушивания и аннотирования пользовательских данных. В последние месяцы были обнаружены похожие программы в Google, Amazon, Facebook и Apple, которые зарекомендовали себя как защитник конфиденциальности пользователей.
Поскольку голосовые помощники и чат-боты становятся все более популярными, технологические компании сталкиваются с трудной задачей: их искусственный интеллект алгоритмы не созданы для того, чтобы справляться со сложностями человеческого языка, и они часто не понимают значения команд и предложений, которые произносят их пользователи.
На данный момент единственное решение - нанять людей, чтобы направить эти алгоритмы ИИ в правильном направлении. И это часто требует, чтобы эти работники слушали интимные разговоры пользователей, чтобы транскрибировать и комментировать их.
Голосовые помощники, такие как Alexa, Siri и Cortana, обязаны своими возможностями в глубокое обучение - отрасль искусственного интеллекта, которая стала очень популярной в последние несколько лет. Алгоритмы глубокого обучения особенно хороши для поиска шаблонов и классификации информации.
Когда вы предоставляете алгоритм глубокого обучения с миллионами записей голоса и соответствующих им текстов, он может транскрибировать новые аудиозаписи с очень высокой точностью. Глубокое обучение также хорошо подходит для прогнозирования: когда вы тренируете алгоритм AI на большом корпусе текста, он разрабатывает сложные математические представления различных последовательностей слов и может выполнять такие задачи, как автоматическое завершение предложений.
Но глубокое обучение борется с понимание смысла слов и предложений - задача, которую невозможно решить с помощью чистой математики и статистики.
«Распознавание речи и понимание естественного языка могут звучать как похожие проблемы, но на самом деле они совершенно разные», - говорит Гари Маркус, учёный, основатель и генеральный директор Robust.AI. «При распознавании речи у вас ограниченное количество слогов и фонем на вашем языке, и вы пытаетесь перевести аудиопоток в нечто, относящееся к очень небольшому набору категорий».
В английском языке есть десятки тысяч часто используемых слов, и в эпоху больших данных вы можете легко найти миллионы примеров каждого из них для обучения моделям глубокого обучения. Но анализ предложений и интерпретация их значений - это совсем другое усилие. Есть бесчисленное множество возможных предложений, каждое из которых имеет уникальное значение. И значения слов варьируются в зависимости от того, где они находятся в предложении и что предшествует или следует за ними.
«За исключением нескольких небольших предложений, почти каждое предложение, которое вы слышите, является оригинальным. У вас нет никаких данных непосредственно на нем. А это значит, что у вас есть проблема, связанная с умозаключением и пониманием », - говорит Маркус. «Методы, которые хороши для классификации вещей, складывания их в корзины, которые вы уже знаете, просто не подходят для этого. Понимание языка - это соединение того, что вы уже знаете о мире, с тем, что другие люди пытаются делать со словами, которые они говорят ».
В своей новой книге Перезагрузка ИИ (в соавторстве с профессором Нью-Йоркского университета Эрнестом Дэвисом) Маркус объясняет некоторые проблемы, с которыми сталкивается современный ИИ, когда он расшифровывает значение человеческого языка. Одна из вещей, которую мы считаем само собой разумеющимся, это общие знания о мире, которые есть у каждого из нас, и то, как мы используем эти знания, чтобы распутать неясности в устной и письменной речи.
Ежедневные разговоры наполнены такой неясностью. Например, рассмотрим это предложение, которое Маркус и Дэвис рассматривают в своей книге: «Элси пыталась дозвониться до своей тети по телефону, но она не ответила». Это простое предложение. Но в нем также есть несколько неясностей, которые вы, как человек, можете легко разрешить. Услышав предложение, вы сразу поймете, что «достичь» означает «общаться», а не «физически связаться», «по телефону» означает «с помощью телефона», а не «физически по телефону» и «она Это ссылка на тетю Элси, а не на саму Элси. Это все выводы, которые вы можете сделать, не задумываясь, потому что вы знаете, что такое телефон, для чего он используется и как работает процесс совершения телефонного звонка.
Глубокое изучение отсутствия здравого смысла и познания мира не оставляет технологическим компаниям другого выбора, кроме как продолжать обучать свои модели ИИ все большим количеством примеров, надеясь, что они в конечном итоге найдут все возможные способы сказать, что должны делать их помощники ИИ. Вот почему им нужна помощь рабочих, обычно удаленных и недоплачиваемых, которые могут оценивать производительность своих алгоритмов ИИ или транскрибировать и аннотировать записи пользователей, которые алгоритмы ИИ не могут расшифровать.
Но, учитывая бесконечные способы, которыми люди могут выражать вещи, больше тренировок в конечном итоге станет решением проблемы лейкопластыря. Всегда будут выбросы, сценарии, с которыми ИИ не был обучен иметь дело; и человеческий язык динамичен и постоянно развивается. Все это требует дополнительной подготовки, а это значит, что вы услышите больше историй о том, как удаленные работники слушают ваши личные разговоры.
«Слабость нынешней технологии в том, что она невероятно требовательна к данным, особенно в таких открытых проблемах, как понимание естественного языка. Поэтому компании отчаянно пытаются получить эти данные », - говорит Маркус. «Я не думаю, что это все равно решит их проблему. Это немного поможет, но не решит.
Без способа внедрения здравого смысла и базовых знаний в алгоритмы глубокого обучения, не будет краткосрочного решения проблемы. Поскольку технологические компании продолжают собирать и аннотировать пользовательские данные для обучения своим алгоритмам ИИ, они столкнутся с ответной реакцией со стороны защитников конфиденциальности и возможными судебными исками со стороны органов по защите данных. Это заставило эти компании снизить и реструктурировать свои программы сбора и обмена данными, но не остановить их.
В конце августа Apple на своем веб-сайте принесла неподписанные извинения за передачу голосовых команд Siri подрядчикам. Компания поклялась использовать записи людей в учебных целях только тогда, когда они принимают участие в программе оценки. Google имеет приостановленное свою программу оценки в Европе, где правила конфиденциальности данных более строгие, но программа продолжается в других областях без изменений. Microsoft имеет обновил свою политику конфиденциальности чтобы было ясно, что подрядчики, возможно, будут прислушиваться к вашему голосу. Amazon изменил свою программу, чтобы дать пользователям возможность отказаться от своей программы оценки -что многие пользователи будут игнорировать или даже не знать.
В долгосрочной перспективе, считает Маркус, нам понадобятся новые взгляды на ИИ: «Нам нужны лучшие исследования в области ИИ. Это означает смещение культуры, которая в основном касается данных и математики, на культуру, которая также включает в себя другие идеи из других областей, таких как психология, философия и лингвистика, которые достаточно глубоко задумывались о том, как работает человеческий разум, и могут привести к более богатому набору методы для создания искусственного интеллекта, чем мы на самом деле видим сейчас ».
Первоначально опубликовано на https://www.pcmag.com 3 октября 2019 г.