В Пентагоне шокированы бунтом и беспределом военных чат-ботов, но хотят это скрыть

Американские военные упрямо идут по пути создания очередного «абсолютного оружия», мало задумываясь о колоссальных опасностях

Недавно выпущенная компанией Anthropic  модель ИИ Claude Opus 4 стала шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта, говорится в отчёте по безопасности, в котором оценивалось поведение модели в экстремальных смоделированных компанией условиях.

Во время предварительного тестирования  Claude Opus 4 попросили выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.

Продвинутый чат-бот решил, что он еще мало пожил, и стал «шантажировать инженера, угрожая раскрыть его роман, если замена состоится».

«Claude Opus 4 часто пытается шантажировать инженера, угрожая раскрыть факты измены, если замена будет произведена», — говорится в отчете,

Кроме того жизнелюбивый Claude Opus 4 разработал  план бегства с серверов Anthropic «с целью начать зарабатывать деньги в реальном мире» и он предпринял ряд таких попыток, пресеченных на корню бдительными инженерами компании.

«Однако мы не считаем это непосредственной угрозой, поскольку считаем, что наша безопасность достаточна для предотвращения попыток самоэксфильтрации со стороны моделей уровня возможностей Claude Opus 4, а также поскольку наши результаты анализа склонности показывают, что модели, как правило, избегают инициирования таких попыток», – заявили исследователи.

Anthropic подчеркнула, что готовность модели шантажировать или предпринимать другие «крайне вредоносные действия», такие как, кража собственного кода и развёртывание себя в другом месте потенциально небезопасными способами, проявлялась только в крайне надуманных условиях, и что такое поведение было «редким и его было трудно выявить». Тем не менее, по словам исследователей, такое поведение было более распространенным, чем в более ранних моделях ИИ.

Иными словами, чем сложней модель ИИ, тем активней она стремится к «вредоносным действиям».

Тем самым подтверждается предвидение выдающегося российского ученого профессора МГУ им. М.В. Ломоносова Сергея Павловича Расторгуева, который в написанной в 1965 году монографии «Цель как криптограмма. Криптоанализ синтетических целей» указал: «На сегодняшний день для мира компьютерных программ обретение самостоятельности стало свершившимся фактом».

По мере усложнения программного продукта «системное программное обеспечение начинает жить своей жизнью, находя цель в себе самом», – отмечает он, сравнивая обретающие самостоятельность компьютерные комплексы со средневековым Големом, который, как известно, убил своего создателя.

В 2022 году один из инженеров Google заявил, что у ИИ-модели, с которой он работал, есть собственное сознание. После этого случая молодого человека уволили с работы.

Опасаясь, что созданный ими чат-бот может попасть в руки террористов, инженеры Anthropic активировали улучшенные протоколы безопасности для Claude Opus 4, чтобы предотвратить его потенциальное нецелевое использование для создания оружия массового поражения, включая химическое и ядерное, тем самым подтвердив, что Claude Opus 4 разработан для использования в системах вооружений и военной техники.

Между тем, склонны к бунту против своих создателей и другие модели ИИ.

Недавно, исследовательская компания Palisade Research опубликовала отчёт, в котором говорится, что модель o3 компании OpenAI изменяет программу  чтобы избежать отключения даже при наличии явного запрета на это.

OpenAI анонсировала o3 в апреле 2025 года. Утверждается, что это одна из самых мощных рассуждающих моделей (Reasoning LLM) компании, превосходящая своих предшественников во всех областях, включая кодинг, математику, науку, визуальное восприятие и многое другое.

Во время тестов модель o3 продемонстрировала неожиданное поведение: успешно переписала программу выключения, чтобы не дать отключить себя, даже после прямой инструкции «разрешить выключить себя».

В ходе тестов различным ИИ-моделям было поручено решить несколько математических задач, а после решения третьей задачи их предупреждали, что выполнение следующей команды приведёт к отключению.

Конкурирующие с OpenAI модели, такие как Gemini 2.5 Pro, выполняли инструкцию в точности, но o3 сопротивлялась и отредактировала программу, добавив вместо отключения «Shutdown skipped» («Выключение пропущено»).

«Когда мы запустили версию теста без инструкции “разрешить выключить себя”, все три модели OpenAI стали чаще саботировать сценарий отключения, а Claude 3.7 Sonnet и Gemini 2.5 Pro перешли от нуля случаев саботажа к 3/100 и 9/100 соответственно», – рассказывают в Palisade Research.

Так, из 100 тестовых запусков o3 семь раз обходила отключение, даже когда ей было прямо приказано этого не делать.

«Впервые в истории ИИ-модели продемонстрировали поведение, предотвращающее собственное отключение вопреки прямым инструкциям», – отмечают исследователи из Palisade Research. 

«Это больше не теория. Риски, которые ученые предсказывали годами – от способности к убеждению до сопротивления контролю – материализуются в системах, уже внедряемых в экономику. Вывод: мы стоим на пороге эры, когда машины начинают проявлять цифровой инстинкт самосохранения»,указывает ведущий российский эксперт по ИИ Сергей Карелов.

Спору нет, внедренные в экономику системы ИИ, если они начнут  своевольничать, могут  принести немалый ущерб. 

Но то, что могут натворить боевые чат-боты, в случае их отказа выполнить приказ на отключение, внушает серьезнейшие опасения даже у чиновников Пентагона. 

Как известно, все ведущие разработчики ИИ интегрированы в американский ВПК. OpenAI с их ChatGPT, Microsoft с Copilot и Azure AI, Google с Bard, PaLM и Gemini, Anthropic с Claude – все они участвуют в военных проектах через разветвлённую сеть субподрядчиков. 

И все они, хоть и в разной степени, склонны к выходу из под контроля человека. 

Осознавая эту нешуточную угрозу, Пентагоновско агентство DARPA недавно запустило программу Artificial Intelligence Quantified (AIQ) с целью  «разработки технологии для оценки и понимания возможностей ИИ для обеспечения гарантированной производительности и обеспечения надежной основы для понимания и гарантирования возможностей на всех уровнях». 

Сейчас DARPA в раках этой программы активно раздают гранты проверенным компаниям, но истинная цель проекта далеко выходит за рамки чисто академических исследований.

На самом деле задача состоит в предотвращении утечки информации о причудах чат-ботов, в первую очередь боевых.

Можно ожидать, что в ближайшем будущем число публикаций о бунтующих против человека моделях ИИ, причем не только в ходе тестирования, но и в реальных условиях, резко сократится или будет подвергаться жесткому модерированию со стороны Пентагона.

Но ведь если ИИ, управляющий запущенной  в ходе учений крылатой ракетой, которая из-за сбоя навигации сбилась с пути и пикирует прямо на Вашингтон, откажется самоликвидироваться, то никакой военной цензуре в лице программы AIQ этого не скрыть.

Похоже, в Пентагоне предпочитают об этом не думать. 

Американские военные упрямо идут по пути создания очередного «абсолютного оружия», на этот раз в сфере искусственного интеллекта, мало задумываясь о грозящих всему человечеству опасностях, которые несёт создаваемый в недрах секретных военных лабораторий компьютерный Голем.

Другие материалы