Блог Archivarix

commoncrawl

Common Crawl как альтернативный источник данных для восстановления сайтов

Когда речь заходит о восстановлении сайтов из архивов, почти все думают только о Wayback Machine. Это понятно: archive.org на слуху, у него удобный интерфейс, триллион сохранённых страниц. Но Wayback Machine не единственный крупный веб-архив в мире. Существует проект, который по объёму собранных данных сопоставим с Internet Archive, а в некоторых аспектах даже превосходит его. Этот проект называется Common Crawl, и о нём удивительно мало знают даже люди, профессионально работающие с веб-архивами.