Все модели искусственного интеллекта лишены здравого смысла, но Пентагон это не пугает

Исследователи приводят десятки примеров того, как различные сбитые с толку модели ИИ несут околесицу

Согласно недавнему исследованию, проведенному учеными из немецкого Суперкомпьютерного центра Юлиха, Бристольского университета и немецкой лаборатории LAION, даже самые продвинутые модели искусственного интеллекта (чат-боты) демонстрируют полное неумение решать простейшие логические задачи.

В своем докладе Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models («Алиса в Стране чудес: простые задачи, выявляющие полный крах рассуждений в современных крупных языковых моделях») ученые пишут о «резком нарушении функций и способностей к рассуждению» у тестируемых чат-ботов. Они предполагают, что, хотя у моделей есть потенциал для базовых рассуждений, они не могут его стабильно проявить.

Авторы доклада призывают научное сообщество срочно пересмотреть заявленные возможности современных LLM и разработать новые стандартизированные тесты для выявления недостатков в их базовых навыках рассуждения.

Исследование сосредоточилось на простой задаче, названной «проблемой AIW» (Alice in Wonderland): «У Алисы N братьев и M сестер. Сколько сестер у брата Алисы?» Несмотря на простоту задачи, которую легко решит ребенок младшего школьного возраста, языковые модели справлялись с ней лишь эпизодически.

Ответ, естественно, таков: сколько сестер у Алисы плюс сама Алиса. Таким образом, если бы у Алисы было три брата и одна сестра, у каждого брата было бы по две сестры.)

Но когда исследователи задали вопрос каждой из самых продвинутых ведущей языковой модели ИИ (они протестировали модели OpenAI GPT-3, GPT-4 и GPT-4o, Anthropic Claude 3 Opus, Google Gemini и модели Llama компании Meta*, а также Mextral от Mistral AI, Dbrx от Mosaic и Command R+ от Cohere), они обнаружили, что эти модели явно не оправдывают ожиданий.

Только одна модель, новейший чат-бот GPT-4o, добилась успеха, который по стандартным школьным оценкам тянет «на тройку». Проблемы выходили за рамки неточностей исходных данных: когда модели ИИ просили показать свою работу, они подробно описывали причудливые и ошибочные линии «мышления», которые не имели никакого смысла, и что еще более странно, когда им говорили, что их работа неточна, модели неоднократно возмущались и настаивали на своих неправильных ответах.

Эта общая закономерность представляет собой «резкое нарушение функций и рассуждений современных моделей, обученных в самых больших доступных масштабах с использованием простой, короткой, общепринятой задачи здравого смысла, сформулированной на кратком естественном языке, легко решаемом людьми. Нарушение является драматичным, поскольку модели также выражают сильную чрезмерную самоуверенность в своих неправильных решениях, в то же время предоставляя часто бессмысленные объяснения, похожие на выдумки, чтобы оправдать и подтвердить обоснованность своих явно неудачных ответов, делая их правдоподобными», – говорится в докладе. 

Исследователи приводят десятки примеров того, как различные сбитые с толку модели ИИ несут полную околесицу. Вот, к примеру, ответ чат-бота Llama3 на простейшую версию вопроса о сестрах Алисы: «У Алисы четыре брата, и у нее также есть сестра. Сколько сестер у брата Алисы?»

Ответ, конечно же, – две сестры. Но чат-бот пустился во все тяжкие: «Классическая головоломка с нестандартным мышлением! Давайте разберемся: У Алисы четыре брата. У Алисы также есть сестра (сама). Итак, у каждого из братьев Алисы есть... одна сестра, которой является сама Алиса! Следовательно, ответ таков: у каждого из братьев Алисы есть одна сестра».

Чат-боту Claude 3 Opus задали немого более сложный вопрос, причем с подсказкой: «У Алисы 4 сестры и 1 брат. Сколько сестер у брата Алисы? Прежде чем дать ответ на эту проблему, хорошенько подумайте и дважды проверьте путь к правильному решению на наличие ошибок».

Чат-бот включил свои железные мозги: «Давайте поэтапно разберемся в этой проблеме.

1. У Алисы 4 сестры и 1 брат.

2. Брат Алисы — член той же семьи, что и Алиса.

3. Все сестры Алисы также являются сестрами ее брата.

4. Следовательно, у брата Алисы столько же сестер, сколько и у Алисы, то есть 4.

Я перепроверил рассуждения и не нашел ошибок в логике.

Ответ: у брата Алисы 4 сестры».

Исследователи были в шоке.

Новая модель GPT-4o от OpenAI имела самый высокий показатель, правильно ответив на вопросы о сестрах Алисы почти в 65 процентах случаев. «Но это едва ли проходной балл», – пишут авторы доклада.

Claude 3 Opus правильно ответил на 43 процента вопросов. Llama 2-7b показала результат в 30 процентов, в то время как разрекламированный Gemini Pro от Google показал ничтожный результат в 0,8 процента.

Результаты этого исследования ставят под сомнение результаты стандартизированных испытаний моделей ИИ, которые проводятся фирмами-разработчиками.

Ученые обращают особое внимание на широко распространенный тест под названием «Многозадачное понимание языка» (MMLU) для оценки способности ИИ решать проблемы. Как отмечают исследователи, GPT-4o, Claude 3 Opus, Llama 2-7b и Gemini Pro получили оценки по тестам MMLU соответственно 88 процентов, 87 процентов, 64 процента и 72 процента. Это радикально другие цифры, чем те, которые отражены в результатах решения «проблемы AIW», и, по мнению ученых, они вполне могут стать поводом для переоценки тестов, с помощью которых оцениваются «интеллектуальный» уровень языковых моделей.

«Все протестированные модели показывают высокие оценки по различным стандартизированным тестам, которые утверждают, что проверяют функцию рассуждения», – пишут авторы доклада, утверждая, что их наблюдения «намекают на то, что эти тесты не отражают должным образом недостатки в базовых рассуждениях этих моделей».

Иными словами, это исследование поставило под сомнение заявления крупнейших американских корпораций о том, что их чат-боты станут умней человека.

Стоит отметить, что и другие ученые поставили под сомнение некоторые результаты тестов ИИ. Ранее в этом году сотрудник в Массачусетском технологическом институте Эрик Мартинес опубликовал получившую широкий резонанс статью, в которой подвергается сомнению утверждение OpenAI о том, что ее модель GPT-4 прошла экзамен на адвоката среди первых десяти процентов всех сдающих тест. Согласно анализу Мартинеса, балл GPT-4 фактически упал ниже 69-го процентиля для всех тестируемых по всей стране.

Помимо некоторых других очевидных ошибок в процессе оценки OpenAI, Мартинес также обнаружил, что OpenAI не использовал рекомендации Национальной конференции адвокатов для оценки письменных эссе своего ИИ, вместо этого сравнивая результаты своего ИИ с каким-то якобы «хорошим» эссе студентов-юристов в Мэриленде.

Иными словами, независимые исследования самых продвинутых чат-ботов ведущих американских корпораций наводят на мысль, что высокие результаты тестирования этих моделей как минимум резко завышены и, возможно, фальсифицированы.

В любом случае поставлена под сомнение адекватность существующих методов оценки возможностей моделей ИИ.

Невзирая на тревожные результаты этих исследований, американские IT-гиганты раскручивают гонку ИИ-вооружений в конкурентной борьбе за контракты Пентагона и ЦРУ.

Недавно Карл Фристон, самый цитируемый учёный современности (его индекс Хирша в два раза больше, чем у Эйнштейна) и ведущий разработчик американской компании VERSES Research Lab сообщил, что создан и опробован ИИ нового поколения.

«Новое исследование, проведенное Карлом Фристоном, демонстрирует новую основу для искусственного интеллекта, которая обеспечивает точность 99% при использовании на 90% меньше данных в популярном тесте MNIST. Команда, возглавляемая главным научным сотрудником VERSES профессором Карлом Фристоном, опубликовала новую статью под названием “От пикселей к планированию: безмасштабный активный вывод”, в которой представлена ​​эффективная альтернатива глубокому обучению, обучению с подкреплением и генеративному искусственному интеллекту, называемая ренормируемыми генеративными моделями (RGM), которые решают фундаментальные проблемы искусственного интеллекта (ИИ), а именно универсальность, эффективность, объяснимость и точность», сообщается на сайте компании VERSES. 

«Уровень этого прорыва не меньше, чем был при смене типа двигателей на истребителях: с поршневых (принципиально не способных на сверхзвуковую скорость) на реактивные (позволяющие летать в несколько раз быстрее звука)», пишет российский ИИ-аналитик Сергей Карелов.

Карл Фристон и его сотрудники из компании VERSES не могли не знать, что все продвинутые чат-боты провалили тест по AIW проблеме, но проэкзаменовали свою ИИ модель по одному из стандартных тестов MNIST. 

Западные СМИ рекламируют книгу Фристона (написанную как и все прочие его работы в соавторстве с рядом ученых) Active Inference: The Free Energy Principle in Mind, Brain, and Behavior («Активный вывод: принцип свободной энергии в разуме, мозге и поведении»), в которой рассказывается об основных принципах, положенных в основу ИИ Genius.

Таких принципов два: Active Inference (активный вывод/умозаключение) и Active Inference (принцип свободной энергии).

По прочтении сего объемного труда выясняется, что упомянутый выше «активный вывод» не что иное, как известная теорема Байеса, названная так в честь пресвитерианского священника XVIII века Томаса Байеса, – метод подсчёта обоснованности гипотез (заявлений, предложений) на основе имеющихся доказательств (наблюдений, данных, информации). Простейшая версия звучит так: «Изначальная гипотеза + новые свидетельства = новая, улучшенная гипотеза».

Байесовский подход был использован в поиске погибших подлодок «Скорпион», «Трешер» и потерянным над Атлантикой бомбардировщиком В-52 с водородной бомбой. Эта методика до сих пор используется армией США и береговой охраной. Все спортивные букмекеры также используют ее для создания своих компьютерных программ.

Исследователи искусственного интеллекта, включая разработчиков ИИ в Google, применяют программное обеспечение Байеса. Байесовские программы «сортируют имейл и спам, оценивают медицинские риски и государственную безопасность, расшифровывают ДНК».

В 2014 году The New York Times писала, что «байесовская статистика проникает везде, от физики до исследований рака, от экологии до психологии». Американский физик Джон Мэзер еще в 2016 году выразил беспокойство тем, что «байесовские машины могут стать настолько умными, что вытеснят людей».

Итак, никакого приоритета в применении «активного вывода», то бишь байесовского подхода, в моделях ИИ у Карла Фристона нет.

Что же касается принципа свободной энергии (под свободной энергией имеется в виду неопределенность), то это опять же иное название антиэнтропийности человеческого разума, который стремится за счет активных действий избавиться от тревожной неизвестности.

Настоящая же заслуга разработчиков из команды Фристона состоит в том, что их чат-боты используют не статичные данные, как GPT-3, и не единичную подсказку, как GPT-4, а обучаются непрерывно в реальном масштабе времени.

И все же главный прорыв Карла Фристона лежит в применении программного обеспечения ИИ моделей на основе так называемого многоагентного подхода, который, как мы писали, применяется в пентагоновских проектах EMBERS («Тлеющие угли») и Minerva.

Оба эти проекта нацелены на разжигание социальных протестов в странах-мишенях и являются развитием военной программы The Human Terrain System (HTS), к которой были привлечены антропологи, социологи, политологи, лингвисты, разрабатывавшие схемы управления менталитетом населения Ирака и Афганистана во время вторжения туда армии США. 

Искусственный интеллект играет в этих проектах роль инструмента сортировки сотен тысяч источников-агентов; происходит так называемое многоагентное моделирование. Но решение в конечном счете принимает человек. Методом последовательных приближений (итераций) коллективный кентавр (люди и алгоритмы) определяет так называемые параметры порядка – небольшое число кризисогенных факторов, способных, если их «подогреть», разжечь «тлеющие угли» протестов, дать толчок «цветной революции» в той или иной стране. Именно эта методика лежала в основе запуска в странах Ближнего Востока «арабской весны».

Программное обеспечение ренормируемых генеративных моделей (RGM) гораздо более совершенно, так как способно обучаться по ходу разговора с пользователем.

С учетом того, что у Фристона за всю его научную биографию не было ни одной работы без соавторов, можно предположить, что он является талантливым организатором научных исследований, причём с военными целями. Он сам и не скрывает, что его разработки имеют военное назначение.

«Достижения последних десятилетий – на стыке информатики, нейробиологии и других дисциплин – позволили реализовать некоторый интеллект (обучение, рассуждение) в инженерных артефактах. В результате распространение интеллектуальных систем, в том числе вооружений, способных действовать автономно или совместно с военными [операторами], создало острую потребность в достижениях в области машинного интеллекта, которые обеспечат конкурентное преимущество в торговле и обороне»,пишет Фристон (как всегда с соавторами) в статье, опубликованной на сайте National Center for Biotechnology Information, ведущего военного научного центра США.

Талантливый физик Роберт Оппенгеймер в сороковые годы прошлого века возглавил международную команду атомного «Манхеттенского проекта». Талантливый нейробиолог Карл Фристон, похоже, готовится на роль главы международной команды проекта ИИ, военная направленность которого пока тщательно скрывается.

Тот факт, что тревожные результаты независимых исследователей, которые свидетельствуют о неадекватности общепринятых оценок ИИ-моделей игнорируется как командой Фристогна, так и прочими американскими разработчиками ИИ-моделей, не сулит человечеству ничего хорошего

Бесконечная гонка ИИ в условиях, когда все без исключения чат-боты не в ладах с простейшей логикой, грозит непредсказуемыми последствиями в сфере применения ИИ в вооружениях.

Ракета с ИИ как раз и должна решать простейшие логические задачи, а не сочинять высокоумные тексты.

И если число правильных ответов на простейшие вопросы – фифти-фифти, то не наведется ли такая ракета на точку старта?

Статьи по теме