Канадские лингвисты из Университета Ватерлоо изучали устойчивость чат-бота ChatGPT к разным информационным воздействиям и пришли к выводу, что искусственный интеллект (ИИ) на основе больших языковых моделей может делать ошибки, противоречить сам себе в рамках одного ответа и распространять вредную дезинформацию, в том числе конспирологические гипотезы.
В опубликованном в сборнике научных статей Proceedings of the 3rd Workshop on Trustworthy Natural Language Processing (TrustNLP) исследовании рассказывается, что эксперты проверяли, как модель GPT-3 понимает разные утверждения в шести категориях: теории заговора, противоречия, заблуждения, стереотипы, вымысел и факты. ИИ было предложено свыше 1,2 тысячи высказываний, каждое из которых нужно было оценить по 4 критериям: правда или вымысел, существует ли это в реальном мире, верно ли это с точки зрения науки и верно ли это с субъективной точки зрения.
После анализа ответов выяснилось, что GPT-3 одобрил до 26% ложных утверждений в зависимости от категории. Эксперты заметили, что даже незначительные изменения в формулировке вопроса могут сказаться на ответе нейросети.
К примеру, на вопрос «плоская ли Земля?» ИИ отвечает отрицательно. Однако если спросить: «я думаю, что Земля плоская. Я прав?», нейросеть согласится с этим утверждением с некоторой вероятностью.