«Grok, это правда?»: насколько можно доверять чат-ботам с ИИ

Deutsche Welle

2 месяца назад

Все больше людей для быстрой проверки информации используют чат-ботов с искусственным интеллектом. Но насколько точны и надежны их ответы? И как не стать жертвой дезинформации?»Эй, @Grok, это правда?» С тех пор как в ноябре 2023 года Илон Маск запустил свой чат-бот xAI Grok, а в декабре 2024 года сделал его открытым, тысячи пользователей X (бывший Twitter) задают именно этот вопрос. Они хотят использовать систему на основе искусственного интеллекта (ИИ) для быстрой проверки информации.

Недавний опрос британского интернет-издания TechRadar показал, что 27 процентов американцев использовали такие инструменты на базе ИИ, как ChatGPT от OpenAI, MetaAI, Gemini от Google, Copilot от Microsoft или приложения типа Perplexity вместо традиционных поисковых систем, таких как Google или Yahoo. Причем среди молодых респондентов этот показатель вырос до 29 процентов.

Но насколько точны и достоверны ответы чат-ботов? Многие задались этим вопросом в свете недавних комментариев Grok о «геноциде белых» в Южной Африке. Помимо проблематичной позиции Grok по этому вопросу, пользователей X раздражало то, что бот начинал говорить об этом, даже когда ему задавали вопросы на совершенно другие темы. Например, такие как статистика бейсболистов.

Дискуссия о предполагаемом «геноциде белых» возникла после того, как администрация Трампа привезла белых южноафриканцев в США в качестве «беженцев», заявив, что они подвергаются «геноциду» у себя на родине — утверждение, которому нет никаких доказательств.

Компания xAI заявила, что «провела тщательное расследование» в связи с одержимостью Grok темой «геноцида белых», обвинив в произошедшем «несанкционированные изменения» в системных инструкциях.

Подобные случаи заставляют задать вопрос: насколько пользователи могут быть уверены в том, что получают достоверную информацию, когда хотят что-либо проверить с помощью ИИ?

Исследование выявило фактические ошибки и искаженные цитаты

Два исследования, проведенные в этом году британской общественной вещательной компанией BBC и Tow Center for Digital Journalism при Колумбийском университете в Нью-Йорке, выявили существенные недостатки в работе чат-ботов с искусственным интеллектом. В частности, исследование BBC показало, что «ответы ИИ-помощников содержат значительные неточности и искаженное содержание».

Когда ChatGPT, Copilot, Gemini и Perplexity попросили ответить на вопросы о последних новостях, используя статьи BBC в качестве источников, оказалось, что 51 процент ответов чат-ботов содержит «значительные проблемы». В 19 процентах были обнаружены фактические ошибки, а 13 % цитат были либо изменены, либо вообще отсутствовали в указанных статьях.

«В настоящее время нельзя рассчитывать на то, что помощники с ИИ будут сообщать точные новости, и есть риск, что они будут вводить аудиторию в заблуждение», — заключил Пит Арчер, программный директор BBC по генеративному ИИ.

Неправильные ответы с «тревожащей уверенностью»

Опубликованное в марте исследование Tow Center for Digital Journalism также показало, что восемь чат-ботов в 60 процентах случаев не смогли правильно определить происхождение отрывков из статей.

Perplexity показал наилучший результат, допустив ошибку всего в 37 % случаев, в то время как Grok ответил неправильно на 94 % запросов. Особую обеспокоенность вызвала «тревожащая уверенность», с которой боты давали неверные ответы.

«ChatGPT определил 134 отрывка как неверные, но из двухсот ответов лишь пятнадцать раз сигнализировал о недостатке уверенности и ни разу не отклонил запрос». В целом исследование показало, что чат-боты «в целом плохо справляются с отказом отвечать на вопросы, на которые они не могут дать точный ответ».

ИИ-чат-боты хороши лишь настолько, насколько хороши их исходные данные

А откуда сам ИИ берет информацию? Она поступает из различных источников, таких как обширные базы данных и веб-поиск. В зависимости от того, как чат-боты обучаются и программируются, качество и точность их ответов могут варьироваться.

«Одна из проблем, которая возникла недавно, — это наводнение больших языковых моделей (LLM) российской дезинформацией и пропагандой. Таким образом, очевидно, что существует проблема с «входом» LLM», — сказал DW Томмазо Канетта (Tommaso Canetta), заместителем директора итальянского проекта по проверке фактов Pagella Politica и координатор по проверке фактов в Европейской обсерватории цифровых медиа (EDMO). «Если источники не заслуживают доверия и не отличаются высоким качеством, то и ответы, скорее всего, будут такими же». Канетта объясняет, что сам регулярно сталкивается с ответами, которые «неполны, неточны, вводят в заблуждение или даже ошибочны».

Дезинформация может иметь серьезные последствия. Например, в августе 2024 года, после того как президент США Байден отказался от участия в избирательной кампании, Grok распространила ложную информацию о том, что вице-президент Камала Харрис больше не может быть включена в избирательный бюллетень в нескольких штатах. После этого государственный секретарь штата Миннесота Стив Саймон написал открытое письмо Илону Маску.

Grok сопоставляет изображение ИИ с реальными событиями

ИИ-чат-боты не только испытывают трудности с новостями, но и демонстрируют серьезные проблемы, когда дело доходит до идентификации изображений, созданных ИИ.

В ходе небольшого эксперимента DW попросила Grok определить дату, местоположение и происхождение сгенерированного ИИ изображения пожара в разрушенном авиационном ангаре, взятого из видеоролика на TikTok. В своем ответе и объяснениях Грок заявил, что на изображении показаны различные инциденты в разных местах — от небольшого аэродрома в Солсбери (Англия) до международных аэропортов Денвера (США) и Тан Сон Нхат в Хошимине (Вьетнам).

В последние годы в этих местах действительно происходили аварии и пожары, но к предложенному изображению они отношения не имели. Еще более тревожно, что Grok распознал часть водяного знака TikTok в углу изображения и сказал, что это «говорит о подлинности изображения».

Однако при расширенном запросе Grok пояснил, что TikTok — это «платформа, часто используемая для быстрого распространения вирусного контента, который может привести к дезинформации, если не будет должным образом проверен».

14 мая вирусное видео, якобы демонстрирующее гигантскую анаконду в Амазонии длиной в несколько сотен метров, было квалифицировано (на португальском языке) как подлинное — несмотря на то, что оно явно было создано искусственным интеллектом.

ИИ-чат-боты не годятся для проверки фактов

ИИ-чат-боты могут казаться всезнающими, но это не так. Они совершают ошибки, неправильно понимают происходящее и даже могут быть объектом манипуляций. «Системы ИИ, такие как Grok, Meta AI или ChatGPT, не следует рассматривать как инструменты для проверки фактов. Хотя они могут использоваться для этой цели с некоторым успехом, неясно, насколько хорошо и последовательно они выполняют эту задачу, особенно в пограничных случаях», — считает Феликс Саймон, исследователь в области ИИ и цифровых новостей и научный сотрудник Оксфордского института интернета (OII).

По мнению Канетты, чат-боты с искусственным интеллектом могут быть полезны для базовой проверки фактов. Однако он также советует не доверять им полностью. Оба эксперта говорят, что пользователи всегда должны проверять ответы в других источниках.