Как Internet Archive решает, что архивировать: приоритеты, частота, источники данных

info

Как Internet Archive решает, что архивировать: приоритеты, частота, источники данных

Опубликовано: 2026-03-06

Триллион сохранённых страниц. Более 99 петабайт данных. Сотни краулов, работающих каждый день одновременно. За этими цифрами стоит вопрос, который задаёт себе каждый, кто профессионально работает с веб-архивами: как именно Wayback Machine решает, какие сайты сканировать, как часто возвращаться к ним, и почему одни домены представлены в архиве тысячами снэпшотов, а другие имеют всего несколько записей за десять лет?
Понимание этих механизмов критически важно для всех, кто занимается восстановлением сайтов. Если вы знаете, как работает система изнутри, вы можете предсказать, что найдёте в архиве, а чего там не будет. И можете повлиять на архивирование собственных сайтов, пока они ещё живы.

Краткая история: от Alexa Internet до собственной инфраструктуры
Чтобы понять, как всё устроено сейчас, нужно знать, как всё начиналось. История архивирования веба в Internet Archive неразрывно связана с компанией Alexa Internet.
В 1996 году Брюстер Кейл основал одновременно два проекта: Internet Archive и Alexa Internet. Alexa занималась анализом веб-трафика и для этого сканировала интернет собственными краулерами. Полученные данные Alexa передавала в дар Internet Archive. Это была симбиотическая модель: Alexa получала данные для своей аналитики, а Internet Archive получал огромные объёмы веб-страниц без необходимости строить собственную инфраструктуру краулинга.
В 1999 году Amazon купил Alexa за 250 миллионов долларов. Но партнёрство с Internet Archive продолжилось: Amazon/Alexa по-прежнему сканировал интернет и передавал краулы в архив. На протяжении почти двух десятилетий Alexa была основным поставщиком данных для Wayback Machine.
Параллельно Internet Archive развивал собственные возможности. В 2003 году был создан Heritrix, открытый краулер, написанный на Java. Изначально Heritrix использовался для относительно небольших целевых краулов, но с 2008 года Internet Archive начал масштабировать собственное сканирование. К 2010 году были запущены так называемые "Worldwide Web Crawls", глобальные краулы, которые систематически обходят весь доступный интернет.
Поворотный момент наступил 1 мая 2022 года, когда Amazon закрыл сервис Alexa Internet. Рейтинг Alexa, который два десятилетия был стандартной метрикой популярности сайтов, перестал существовать. Вместе с ним прекратился и поток краулов от Alexa в Internet Archive.
Это стало серьёзным вызовом. Internet Archive лишился одного из крупнейших источников данных и был вынужден полностью полагаться на собственную инфраструктуру и партнёрства. Для тех, кто работает с веб-архивами, это означает одну важную вещь: характер и полнота архивных данных до 2022 года и после 2022 года могут существенно различаться.

Откуда берутся данные в Wayback Machine сегодня
Данные в Wayback Machine поступают из множества источников. Если навести курсор на точку на календаре в Wayback Machine, вы увидите метку "why", которая покажет, к какой коллекции или краулу принадлежит данный снэпшот. За каждым таким краулом стоит своя история.
Собственные краулы Internet Archive. Это основной источник данных. Краулер Heritrix (и его более новые версии, включая Brozzler для динамического контента) обходит миллиарды страниц. "Worldwide Web Crawls" работают непрерывно с 2010 года и представляют собой масштабные сканирования всего доступного веба. Один такой краул может длиться месяцы: например, "Wide Crawl Number 13" начался в январе 2015 и завершился только в июле 2016 года.
Save Page Now. С октября 2013 года любой пользователь может вручную сохранить страницу через интерфейс Wayback Machine. Достаточно ввести URL и нажать кнопку. Сохраняется только одна конкретная страница, не весь сайт. Важный нюанс: Save Page Now не добавляет URL в список для будущих автоматических краулов. Это разовое сохранение.
Cloudflare Always Online. В сентябре 2020 года Internet Archive заключил партнёрство с Cloudflare. Клиенты Cloudflare, включившие функцию Always Online, автоматически передают информацию о своих сайтах в Internet Archive. Cloudflare определяет самые популярные URL на сайте (по статистике GET-запросов с кодом 200 за последние пять часов) и отправляет их на сканирование в Wayback Machine. Это значительный источник: многие сайты, использующие Cloudflare, могли быть ранее неизвестны краулерам Internet Archive.
Archive-It. Это платная подписная служба, через которую библиотеки, университеты, государственные учреждения и другие организации заказывают регулярное сканирование определённых сайтов или коллекций. Archive-It позволяет настраивать, что именно сканировать и с какой частотой. Результаты попадают в Wayback Machine. Именно через Archive-It сохраняются многие правительственные сайты, особенно в периоды смены администраций.
Archive Team. Волонтёрская группа энтузиастов, которые самостоятельно архивируют интернет-контент, находящийся под угрозой исчезновения. Когда объявляется о закрытии какого-либо сервиса (GeoCities, Google+, Vine, Yahoo Answers), Archive Team организует массовое скачивание контента до момента отключения. Значительная часть этих данных передаётся в Internet Archive.
Common Crawl. Internet Archive импортирует зеркала краулов от проекта Common Crawl, о котором мы подробно писали в отдельной статье. Это дополнительный источник, расширяющий покрытие.
Ссылки из Википедии. Internet Archive систематически архивирует URL, на которые ссылаются статьи Википедии. Это логично: если ссылка используется в энциклопедии как источник, она должна быть доступна и в будущем.
Другие источники. Гранты и партнёрства, например, с фондом Слоуна (Sloan Foundation), Национальным управлением архивов и записей США (NARA), бывшим Internet Memory Foundation. Каждый из этих партнёров приносит свои коллекции краулов.

Что определяет частоту сканирования
Это ключевой вопрос, и ответ на него не такой простой, как хотелось бы. Internet Archive не публикует формулу приоритизации краулов, но из наблюдений, документации и высказываний сотрудников можно восстановить общую картину.
Ссылочная связность. Официальная документация Internet Archive прямо говорит: "crawls tend to find sites that are well linked from other sites". Краулер Heritrix работает по ссылкам: он заходит на одну страницу, находит ссылки и переходит по ним. Чем больше ссылок ведёт на ваш сайт с других ресурсов, тем выше вероятность, что краулер до вас доберётся. Это похоже на логику PageRank: хорошо связанные сайты обнаруживаются и сканируются чаще.
Список начальных URL (seed list). Каждый глобальный краул начинается с набора начальных URL, от которых краулер «разворачивается» по ссылкам. Чем ближе ваш сайт к этим seed-url, тем раньше и полнее он будет просканирован. В прежние годы seed-листы формировались на основе данных Alexa (списки самых посещаемых сайтов). После закрытия Alexa в 2022 году эти списки формируются из собственных данных Internet Archive, данных партнёров и ранее известных доменов.
Глубина краула. У каждого краула есть ограничение по глубине: сколько «кликов» от начальной страницы краулер готов пройти. Для крупных глобальных краулов глубина обычно ограничена, чтобы успеть обойти максимальное количество доменов. Это означает, что внутренние страницы небольших сайтов могут не попадать в архив, даже если главная страница сохранена.
Cloudflare и другие автоматические источники. Если ваш сайт работает через Cloudflare с включённым Always Online, его популярные страницы будут автоматически отправляться на сканирование. Частота зависит от тарифного плана Cloudflare. Это один из наиболее надёжных способов обеспечить регулярное попадание в архив.
Ручные запросы через Save Page Now. Каждое сохранение через Save Page Now создаёт запись в архиве. Некоторые пользователи и боты систематически сохраняют определённые сайты, что создаёт регулярные снэпшоты.
Множественные параллельные краулы. В любой момент одновременно работают сотни различных краулов с разными целями и масштабами. Один сайт может попасть в несколько краулов: глобальный, тематический, региональный, по заказу Archive-It. Поэтому частота сканирования для одного и того же сайта может сильно варьироваться: в одни месяцы десятки снэпшотов, в другие ни одного.

Почему вашего сайта может не быть в архиве
Несмотря на триллион сохранённых страниц, далеко не весь интернет попадает в Wayback Machine. Основные причины отсутствия:
robots.txt. Если файл robots.txt сайта запрещает доступ для краулеров, Heritrix это уважает. Более того, Wayback Machine исторически применял robots.txt ретроактивно: если текущий robots.txt блокирует краулер, скрываются даже старые архивные копии, сделанные до появления запрета. Правда, в последние годы Internet Archive начал пересматривать эту политику.
Динамический контент. Страницы, которые полностью генерируются JavaScript в браузере (React, Vue, Angular SPA), сохраняются плохо или не сохраняются вовсе. Heritrix получает от сервера «пустой» HTML-шаблон без содержимого. Более новый краулер Brozzler решает эту проблему, используя реальный браузер для рендеринга страниц, но его покрытие пока значительно меньше, чем у Heritrix.
Контент за авторизацией. Страницы, доступные только после логина, оплаты или заполнения форм, недоступны для краулеров. Это касается интернет-банков, личных кабинетов, платного контента за пейволом.
Краулер просто не знал о сайте. Если сайт новый, не имеет входящих ссылок и не зарегистрирован в каталогах, краулер может его никогда не обнаружить. До 2022 года Alexa помогала обнаруживать такие сайты через свой тулбар. После закрытия Alexa этот канал обнаружения перестал работать.
Блокировка по IP или User-Agent. Некоторые сайты блокируют краулеры Internet Archive на уровне сервера. В 2025-2026 годах это стало особенно актуально: крупные издатели вроде New York Times, The Guardian и Reddit начали блокировать archive.org_bot из-за опасений, что их контент через Wayback Machine используется для обучения AI-моделей.

Масштаб проблемы с блокировками в 2025-2026
Это заслуживает отдельного внимания. По данным Nieman Lab, проблемы с краулинговыми проектами привели к падению объёма сохранённых страниц новостных изданий на 87% в период с мая по октябрь 2025 года. New York Times полностью заблокировал краулеры Internet Archive и добавил archive.org_bot в свой robots.txt. The Guardian ограничил доступ к статьям, оставив для архивирования только главную страницу и разделы. Financial Times блокирует всех внешних ботов, включая Internet Archive.
Причина не в самом Internet Archive, а в опасениях издателей, что AI-компании используют Wayback Machine как удобный источник данных для обучения моделей. Анализ датасета Google C4 показал, что web.archive.org входил в число 200 наиболее представленных доменов в обучающих данных для моделей T5 и LLaMA. А в мае 2023 года одна из AI-компаний отправляла десятки тысяч запросов в секунду к серверам Internet Archive, что привело к временному отключению сервиса.
Для восстановления сайтов это означает, что архивные копии крупных медиа-ресурсов будут становиться всё менее полными. Если сайт ссылался на материалы заблокированных изданий, эти ссылки могут вести в никуда.

Как повлиять на архивирование своего сайта
Если вы хотите, чтобы ваш сайт попал в Wayback Machine и сканировался регулярно, вот что можно сделать.
Убедитесь, что robots.txt не блокирует краулеры. Проверьте, что в вашем robots.txt нет директив Disallow для User-Agent: ia_archiver или User-Agent: archive.org_bot. Если вы раньше блокировали эти боты, удалите правила.
Используйте Save Page Now. Регулярно сохраняйте важные страницы своего сайта вручную. Это можно автоматизировать через API Save Page Now. Сервис бесплатный, но имеет лимит в 15 запросов в минуту.
Включите Cloudflare Always Online. Если ваш сайт работает через Cloudflare, активируйте Always Online в настройках. Это автоматически обеспечит регулярное архивирование самых популярных страниц.
Обеспечьте хорошую ссылочную связность. Чем больше других сайтов ссылается на ваш, тем выше вероятность, что краулер его обнаружит и будет возвращаться к нему. Это работает и для поисковых систем, и для архивов.
Добавьте свои URL в Википедию. Если ваш контент может быть полезен как источник в статьях Википедии, добавление ссылок увеличит шансы на регулярное архивирование. Но не злоупотребляйте: Википедия жёстко модерирует ссылки, и спам там не выживает.
Рассмотрите Archive-It. Если вы представляете организацию, которая обязана сохранять веб-контент (библиотека, университет, государственное учреждение), подписка на Archive-It даёт полный контроль над частотой и глубиной сканирования.

Что означают пробелы в архиве
Когда вы открываете таймлайн сайта в Wayback Machine и видите пробелы (месяцы или годы без снэпшотов), это может означать разные вещи.
Сайт просто не попал в краул за этот период. Маленькие сайты с небольшим количеством входящих ссылок сканируются нерегулярно. Пробел в несколько месяцев для такого сайта нормален.
Владелец блокировал архивирование. Если robots.txt запрещал доступ, снэпшоты не создавались. А если запрет был добавлен позже, ранее сделанные снэпшоты могли быть скрыты ретроактивно.
Технические проблемы с сайтом. Если сайт возвращал ошибки 5xx или был недоступен в момент краула, снэпшот может не сохраниться или сохраниться с отметкой ошибки (красная точка на календаре Wayback Machine).
Домен истёк и стоял на парковке. В период между истечением домена и его перерегистрацией на нём обычно висит парковочная страница. Она тоже может быть сохранена в архиве, что важно учитывать при восстановлении (именно для этого в Archivarix существует параметр BEFORE).
Смена инфраструктуры краулинга. После закрытия Alexa в 2022 году некоторые сайты, которые раньше регулярно сканировались Alexa и передавались в Internet Archive, могли временно выпасть из покрытия, пока собственные краулы Internet Archive не компенсировали потерю.

Техническая сторона: как работает Heritrix
Для любопытных: краулер Heritrix (название означает «наследница» на архаичном английском) работает по следующему принципу. Он начинает со списка начальных URL (seed list), загружает каждую страницу, извлекает из неё все ссылки, ставит их в очередь и переходит к следующим. При этом для каждого домена поддерживается отдельная очередь, чтобы не перегружать один сервер слишком частыми запросами.
Heritrix уважает robots.txt и META-теги nofollow. Он также адаптирует скорость сканирования: если сервер отвечает медленно, краулер снижает частоту запросов. Скачанные данные сохраняются в формате WARC (Web ARChive), который является стандартом ISO для хранения веб-архивов.
Для динамического контента в 2015 году был создан Brozzler, который использует реальный браузер (Chrome через puppeteer) для рендеринга страниц перед сохранением. Brozzler также интегрирует youtube-dl для скачивания медиа-контента. Однако Brozzler значительно медленнее и ресурсоёмнее Heritrix, поэтому используется в основном для целевых краулов через Archive-It, а не для глобального сканирования.
Ещё один компонент: Umbra, промежуточный слой между Heritrix и браузером, который позволяет Heritrix «видеть» ссылки, генерируемые JavaScript, без полного рендеринга страницы в браузере.
После сканирования данные обрабатываются и индексируются. По состоянию на 2026 год задержка между сканированием страницы и её появлением в Wayback Machine составляет от 3 до 10 часов.

Практические выводы для восстановления сайтов
Всё вышеописанное имеет прямое значение для работы с восстановлением сайтов через Archivarix.
Популярные, хорошо связанные сайты имеют наиболее полные архивы. Если вы восстанавливаете крупный сайт с хорошим ссылочным профилем, в архиве скорее всего будет множество снэпшотов за разные даты, и вы сможете выбрать наиболее подходящий.
Для маленьких сайтов архив может быть скудным. Будьте готовы к тому, что нужной вам версии может не быть. В этом случае стоит проверить Common Crawl, кеши поисковиков и Archive.today как дополнительные источники.
Обращайте внимание на источник краула. Если снэпшот был сделан через Save Page Now (одна конкретная страница), он может не содержать полного набора ресурсов (изображения, CSS, скрипты), необходимых для визуально полного восстановления.
Архивы после 2022 года могут иметь другой характер покрытия. После закрытия Alexa некоторые категории сайтов могут быть представлены менее полно, чем в предыдущие годы.
Блокировки 2025-2026 годов могут создать «дыры» в архивах медиа-ресурсов. Если восстанавливаемый сайт ссылался на материалы крупных изданий, заблокировавших Internet Archive, эти ссылки могут быть потеряны.

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://archivarix.com/ru/blog/inside-archive-org/

Как Internet Archive решает, что архивировать: приоритеты, частота, источники данных

21 час назад

Как найти и купить истёкший домен с хорошей историей

Покупка истёкшего домена с историей это один из самых эффективных способов запустить новый проект с уже существующим ссылочным профилем, трастом и даже трафиком. Вместо того чтобы продвигать голый дом…

1 неделя назад

Common Crawl как альтернативный источник данных для восстановления сайтов

Когда речь заходит о восстановлении сайтов из архивов, почти все думают только о Wayback Machine. Это понятно: archive.org на слуху, у него удобный интерфейс, триллион сохранённых страниц. Но Wayback …

2 недели назад

Расширение Archivarix Cache Viewer для Chrome, Edge и Firefox

Мы выпустили браузерное расширение Archivarix Cache Viewer. Оно доступно сразу для трёх браузеров: Chrome, Edge и Firefox. Расширение бесплатное и без какой-либо рекламы.
Суть простая: быстрый доступ…

2 недели назад

AI-контент на восстановленных сайтах: как обнаружить и что с ним делать

Когда вы восстанавливаете сайт из Web Archive, вы ожидаете получить оригинальный контент, который когда-то был написан живыми людьми. Но если архивы сайта были сделаны после 2023 года, есть реальный ш…

3 недели назад

Веб Архив в 2026 году: что изменилось и как это влияет на восстановление сайтов

В октябре 2025 года Wayback Machine достиг отметки в один триллион сохранённых веб-страниц. Более 100 000 терабайт данных. Это огромное достижение для некоммерческой организации, которая работает с 19…

4 недели назад

Archivarix External Images Importer 2.0 - новая версия плагина для WordPress

Мы рады представить версию 2.0 нашего WordPress плагина для импорта внешних изображений. Это не просто обновление, плагин полностью переписан с нуля с учётом современных требований и отзывов пользоват…

1 месяц назад

Купоны Black Friday & Cyber Monday

Дорогие друзья!
Black Friday и Cyber Monday - лучшее время для экономии на будущих восстановлении сайтов.
Если вы планируете восстанавливать сайты, пополнить баланс заранее или просто хотите получит…

3 месяца назад

Archivarix 8 лет!

Дорогие друзья!
Сегодня мы празднуем 8-летие сервиса Archivarix, и это повод сказать вам огромное спасибо!
Мы искренне рады, что вы выбрали наш сервис для восстановления сайтов из веб-архива. Многие…

5 месяцев назад

7 лет Archivarix

Сегодня у нас особенный день — Archivarix празднует своё 7-летие! И мы хотим поблагодарить именно тебя за твоё доверие, идеи и обратную связь, которые помогли нам стать лучшими в деле восстановления с…

1 год назад