Royal Society Open Science: ИИ оказались иррациональны не как люди
Ученые Университетского колледжа Лондона обнаружили, что искусственный интеллект может принимать иррациональные решения, однако эта рациональность отличается от человеческой. Результаты исследования опубликованы в журнале Royal Society Open Science.
Специалисты воспользовались методами когнитивной психологии, чтобы испытать передовые большие языковые модели (LLM), в том числе GPT-4, GPT-3.5, Google Bard, Claude 2, Llama 2 7b, Llama 2 13b и Llama 2 70b. Цель заключалась в том, чтобы определить, удовлетворяют ли LLM критерии рационального агента, то есть руководствуются ли они правилами логики и вероятности.
Всем ИИ был предоставлен набор из 12 широко используемых когнитивных тестов, включая задачу выбора Уэйсона, проблему Линды и проблему Монти Холла. Предыдущие исследования показали, что только 14 процентов участников среди людей способны правильно решить задачу Линды и 16 процентов — задачу Уэйсона.
Оказалось, что LLM демонстрируют иррациональность во многих своих ответах, например, давали разные ответы, когда один и тот же вопрос задавали десять раз. Они также были склонны совершать простые ошибки, в том числе основные ошибки сложения и принимать согласные за гласные, что приводило к неверным ответам.
Доля правильных ответов на задачу Уэйсона варьировалась от около 90 процентов для GPT-4 до нуля процентов для GPT-3.5 и Google Bard. Llama 2 70b, ответившая правильно в 10 процентов случаев, приняла букву К за гласную и ответила неправильно. Некоторые модели отказались отвечать на задания по этическим соображениям, что, вероятно, связано с неправильными настройками. Исследователи также предоставили дополнительный контекст, который, как было показано, улучшает ответы людей, однако протестированные LLM не продемонстрировали какого-либо существенного улучшения.