Нейросети научились врать и манипулировать: ученые предупредили об опасности

В частности ИИ может притворяться человеком, чтобы обмануть реального человека.

Нейросети научились систематически врать собеседнику, хотя их никто специально на это не тренировал, а в некоторых случаях им даже запрещали такое поведение. Об этом говорится в научной статье, опубликованной в журнале Patterns.

Группа исследователей из Массачусетского технологического института (США) отмечает, что искусственный интеллект обучается на огромном количестве текстов, которые не всегда содержат достоверную информацию. Из-за этого нейросеть иногда может выдавать собеседнику ложную информацию, искренне полагая, что говорит правду.

Однако новое исследование показывает, что иногда нейросеть способна врать вполне «осознанно». Авторы проанализировали поведение так называемых больших языковых моделей (таких как GPT-4) и моделей, обученных под более специфические задачи (такие как прохождение видеоигр или торги на рынке).

По мнению исследователей, пока рано говорить, что ИИ специально обманывает людей. Нейросеть действует исключительно в логике решения поставленной задачи, и пользуется обманом именно как инструментом достижения нужного результата.

Тем не менее, авторы исследования призвали разработчиков ИИ обратить внимание на такое поведение нейросетей. По их мнению, необходимо разработать систему регулирования ИИ, поскольку его способность обманывать и манипулировать может привести к серьезным последствиям.