Новый тест показывает, что ИИ по-прежнему лишен здравого смысла | Журнал "Вольт"
Вс. Ноя 29th, 2020


Новый тест показывает, что ИИ по-прежнему лишен здравого смысла

Несмотря на достижения в области обработки естественного языка, современные системы по-прежнему генерируют предложения вроде «две собаки бросают друг в друга летающие тарелки». Предоставлено: Адриана Санчес.

Обработка естественного языка (НЛП) в последнее время достигла больших успехов, но насколько ИИ понимает то, что он читает? Меньше, чем мы думали, по мнению исследователей из Департамента компьютерных наук USC. В недавней статье доцент Сян Жэнь и доктор философии Студент Ючэн Линь обнаружил, что, несмотря на успехи, ИИ по-прежнему не обладает здравым смыслом, необходимым для создания правдоподобных предложений.

«Современные модели машинной генерации текста могут написать статью, которая может быть убедительной для многих людей, но они в основном имитируют то, что они видели на этапе обучения», – сказал Линь. «Наша цель в этой статье – изучить проблему того, могут ли современные модели генерации текста писать предложения, описывающие естественные сценарии нашей повседневной жизни».

Понимание сценариев повседневной жизни

В частности, Рен и Линь проверили способность моделей рассуждать и показали, что существует большой разрыв между текущими моделями генерации текста и возможностями человека. С учетом набора нарицательных существительных и глаголов передовым компьютерным моделям НЛП была поставлена ​​задача создать правдоподобные предложения, описывающие повседневный сценарий. Хотя модели генерировали грамматически правильные предложения, они часто были логически бессвязными.

Например, вот один пример предложения, созданного современной моделью со словами «собака, летающая тарелка, бросить, поймать»:

«Две собаки бросают друг в друга летающие тарелки».

Тест основан на предположении, что связные идеи (в данном случае: «человек бросает летающую тарелку, а собака ловит ее») не могут быть получены без более глубокого понимания концепций здравого смысла. Другими словами, здравый смысл – это больше, чем просто правильное понимание языка – это означает, что вам не нужно все объяснять в разговоре. Это фундаментальная проблема для разработки универсального ИИ, но помимо академических кругов она актуальна и для потребителей.

Без понимания языка чат-боты и голосовые помощники, построенные на этих современных моделях естественного языка, уязвимы для сбоев. Это также важно, если мы хотим, чтобы роботы все больше присутствовали в среде человека. В конце концов, если вы попросите робота принести горячее молоко, вы ожидаете, что он будет знать, что вам нужна чашка молока, а не вся упаковка.

«Мы также показываем, что если модель поколения лучше работает в нашем тесте, она также может принести пользу другим приложениям, которые требуют здравого смысла, например, роботизированному обучению», – сказал Линь. «Роботам необходимо понимать естественные сценарии нашей повседневной жизни, прежде чем они будут предпринимать разумные действия для взаимодействия с людьми».

Проверка здравого смысла

Здравый смысл или способность делать выводы, используя базовые знания о мире – например, тот факт, что собаки не могут бросать летающие тарелки друг в друга – десятилетиями сопротивлялись усилиям исследователей ИИ. Современные модели глубокого обучения теперь могут достигать точности около 90%, поэтому может показаться, что НЛП приблизилось к своей цели.

Но Рен, специалист по обработке естественного языка, и Лин, его ученик, нуждались в более убедительных доказательствах точности этой статистики. В своей статье, опубликованной на конференции «Выводы эмпирических методов в обработке естественного языка» (EMNLP) 16 ноября, они ставят под сомнение эффективность эталонного теста и, следовательно, уровень прогресса, достигнутого в данной области.

Новый тест показывает, что ИИ по-прежнему лишен здравого смысла

Примеры предложений, генерируемых современными моделями генерации текста. Предоставлено: из статьи: «Commongen: проблема генерации ограниченного текста для генеративного здравого смысла».

«Люди приобретают способность составлять предложения, научившись понимать и использовать общие концепции, которые они узнают в своей окружающей среде», – сказал Линь.

«Обретение этой способности считается важной вехой в человеческом развитии. Но мы хотели проверить, действительно ли машины могут приобрести такую ​​генеративную способность здравого смысла».

Для оценки различных моделей машин пара разработала задачу генерации ограниченного текста под названием CommonGen, которую можно использовать в качестве эталона для проверки генеративного здравого смысла машин. Исследователи представили набор данных, состоящий из 35 141 концепции, связанной с 77 449 предложениями. Они обнаружили, что даже самая эффективная модель достигла уровня точности только 31,6% по сравнению с 63,5% для людей.

«Мы были удивлены, что модели не могут вспомнить простое здравое знание о том, что« человек, бросающий летающую тарелку »должен быть намного разумнее, чем это делает собака», – сказал Линь. «Мы находим, что даже самая сильная модель, называемая T5, после обучения с большим набором данных все еще может делать глупые ошибки».

Похоже, говорят исследователи, что предыдущие тесты недостаточно проверяли модели на их способности здравого смысла, вместо этого имитируя то, что они видели на этапе обучения.

«Предыдущие исследования были в первую очередь сосредоточены на различительном здравом смысле», – сказал Рен. «Они тестируют машины с помощью вопросов с несколькими вариантами ответов, когда пространство для поиска машины невелико – обычно четыре или пять кандидатов».

Например, типичная установка для разборчивого тестирования здравого смысла – это ответ на вопрос с несколькими вариантами ответов, например: «Где взрослые используют клей-карандаш?» A: класс B: кабинет C: ящик стола.

Ответ здесь, конечно же, «B: офис». Даже компьютеры могут понять это без особых проблем. Напротив, генеративная установка является более открытой, например, задача CommonGen, когда модели предлагается сгенерировать естественное предложение из заданных концепций.

Рен объясняет: «Благодаря обширному обучению модели очень легко добиться хороших результатов в этих задачах. В отличие от этих разборчивых задач рассуждений на основе здравого смысла, предлагаемый нами тест фокусируется на генеративном аспекте машинного здравого смысла».

Рен и Линь надеются, что набор данных послужит новым ориентиром для будущих исследований по внедрению здравого смысла в генерацию естественного языка. Фактически, у них даже есть таблица лидеров, отображающая оценки, достигнутые различными популярными моделями, чтобы помочь другим исследователям определить их жизнеспособность для будущих проектов.

«Роботам необходимо понимать естественные сценарии нашей повседневной жизни, прежде чем они будут предпринимать разумные действия для взаимодействия с людьми», – сказал Линь.

«Я верю, что, привнося в машины здравый смысл и другие специфические знания, однажды мы сможем увидеть агентов ИИ, таких как Саманта в фильме« Она », которые генерируют естественные реакции и взаимодействуют с нашей жизнью».


Способность программы генерации языков писать статьи, создавать код и сочинять стихи поразила ученых.


Дополнительная информация:
CommonGen: Проблема создания ограниченного текста для генеративного здравого смысла, arXiv: 1911.03705 [cs.CL] arxiv.org/abs/1911.03705

inklab.usc.edu/CommonGen/

Предоставлено Университетом Южной Калифорнии

Цитирование: Новый тест показывает, что ИИ по-прежнему не хватает здравого смысла (2020, 18 ноября), полученное 18 ноября 2020 года из https://techxplore.com/news/2020-11-reveals-ai-lacks-common.html

Этот документ защищен авторским правом. За исключением честных сделок с целью частного изучения или исследования, воспроизведение какой-либо части без письменного разрешения запрещено. Контент предоставляется только в информационных целях.



Source link

от volt

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *