Крупнейший архив цифрового контента может исчезнуть из-за ИИ?

Deutsche Welle

2 месяца назад

Хранитель цифрового контента Wayback Machine борется за выживание. Все больше медиакомпаний отказывают веб-архиву в доступе к своим материалам и тем самым наносят ущерб человечеству и самим себе. Почему так происходит?Уже 30 лет интернет-портал archive.org занимается архивированием цифрового контента. Wayback Machine содержит более триллиона сохраненных веб-страниц и считается незаменимым инструментом для журналистов, исследователей, историков и юристов, позволяющим просматривать удаленный или измененный контент в его первоначальном виде. Однако сегодня этот уникальный проект некоммерческой организации из Сан-Франциско столкнулся с экзистенциальным кризисом — и новая угроза исходит как раз от тех, кто больше всего нуждается в работе этого архива: от самих СМИ.

Ведь все больше крупных медиа-холдингов отказывают интернет-архиву в доступе к своим материалам. Согласно исследованию Фонда Нимана для журналистов при Гарвардском университете, как минимум, 241 новостной портал из девяти стран, в том числе The Guardian, The New York Times, Le Monde и крупнейший концерн США USA Today блокируют работу поисковых роботов архива.

Медиакомпании лишают себя важного инструмента

Именно газета USA Today недавно опубликовала сенсационный репортаж о том, как американская иммиграционная служба ICE систематически скрывала информацию о своей политике содержания под стражей. Wayback Machine от archive.org послужила основой для расследования. Выходит, что та самая компания, которая смогла написать статью только благодаря архиву, теперь блокирует его доступ к своим собственным материалам?

Но почему же медиакомпании лишают себя одного из своих инструментов? Ответ прост: страх перед искусственным интеллектом. Издатели опасаются, что компании, занимающиеся ИИ, такие как OpenAI или Google, массово берут в архиве их журналистские материалы, чтобы обучать на них свои языковые модели — без разрешения и без вознаграждения. Пресс-секретарь The New York Times Грэм Джеймс открыто заявил: «Проблема в том, что контент Times в интернет-архиве используется компаниями, занимающимися ИИ, с нарушением авторских прав, чтобы напрямую конкурировать с нами».

До десятков тысяч запросов в секунду

Действительно, на сайте archive.org массово использовались боты, которые искали контент медиакомпаний, чтобы с его помощью обучать языковые модели искусственного интеллекта, и тем самым получить доступ к необходимым данным. Марк Грэм, директор Wayback Machine, подтвердил журналу Wired, что отдельные компании временами обращались к архивам с десятками тысяч запросов в секунду — вплоть до временной перегрузки серверов.

Archive.org не был к этому готов. Ведь эта некоммерческая организация привержена идеям открытого интернета. «Подобно традиционной библиотеке, мы предоставляем свободный доступ к информации исследователям, историкам, ученым, людям с ограниченными возможностями чтения и широкой общественности. Наша цель — обеспечить всем людям всеобщий доступ ко всем знаниям», — гласит ее девиз. Таким образом, допуск к материалам архива ботов и поисковых роботов исключается, что и привело к санкциям со стороны крупных издательств и медиа-холдингов.

Правозащитная организация Electronic Frontier Foundation (EFF), специализирующаяся на вопросах цифровых технологий, сравнивает действия СМИ с ситуацией, когда «газетное издательство объявляет, что библиотеки больше не имеют права хранить экземпляры его газеты».

История интернета может быть утеряна

К настоящему моменту более 100 журналистов подписали петицию в поддержку интернет-архива. В их открытом письме говорится: «В цифровом медиапространстве, где статьи исчезают из-за потери ссылок, слияний компаний или сокращения расходов, журналисты часто полагаются на архив Wayback Machine, чтобы восстановить контент, который иначе был бы утрачен. Без этой непрерывной работы по сохранению информации в интернете значительная часть недавней истории журналистики уже была бы утрачена».

Марк Грэм заявил журналу Wired, что ведет переговоры с медиа-компаниями о восстановлении доступа. Чем это закончится, пока неизвестно. Однако его вывод звучит как предупреждение: «Несомненно то, что все более широкая блокировка значительной части общедоступного интернета ограничивает способность общества понимать, что происходит в нашем мире».

Веб-архивирование является частью общественной инфраструктуры

Журналист и основатель сайта socialmedia watchblog.de Мартин Ферренсен считает archive.org единственной функционирующей системой хранения открытых источников в интернете. Если он больше не сможет выполнять свои задачи, это будет иметь серьезные последствия, сказал он DW. «Миллионы ссылок на источники в Википедии потеряют свою привязку, исследования по вопросам ответственности платформ, то есть какие условия использования действовали когда, какие правила модерации были переформулированы и как, станут значительно сложнее, исчезнет цифровое доказательство, имеющее силу в суде», — указал он. Именно для медиакомпаний блокировка архива является совершенно абсурдной.

Для урегулирования конфликта существуют два пути. «Нам нужен диалог с издателями, предполагающий четкое техническое разделение между архивированием и обучением ИИ — ведь именно в этом заключается суть конфликта, а не в самом архиве», — считает журналист. По его мнению, в среднесрочной перспективе необходимо создать особый правовой статус для веб-архивов. А в долгосрочной перспективе «веб-архивирование следует рассматривать как общественную инфраструктуру, а не как отдельный проект одной НПО в Сан-Франциско. То, что в 2026 году оно по-прежнему зависит от одной единственной организации, и является настоящим структурным провалом».

Лишь один из многих конфликтов, но самый драматичный

Интернет-архив не впервые борется за свое существование. В сентябре 2024 года в результате хакерской атаки были похищены данные 31 млн пользовательских аккаунтов — это был тяжелый удар, от которого организация с трудом пришла в себя. В том же году архив проиграл судебный спор об авторских правах Hachette v. Internet Archive в апелляционном суде США: издательства Hachette, Penguin Random House, HarperCollins и Wiley успешно подали иск против программы бесплатного проката электронных книг, запущенной архивом во время пандемии коронавируса. Более 500 тыс. книг пришлось изъять из свободного доступа. Тем не менее archive.org грозят иски о возмещении ущерба на миллионы долларов.

По сравнению с этими неудачами, нынешняя угроза, исходящая от блокировки доступа к медиаресурсам, носит более серьезный структурный характер, ведь ее невозможно устранить ни судебным решением, ни обновлением. Она является результатом множества корпоративных решений, которые в совокупности подрывают основную деятельность Wayback Machine: беспрерывную документацию публичной информации из интернета.