Сколько живёт веб-страница: что говорят исследования о link rot

Опубликовано: 2026-06-26

Откройте любую статью десятилетней давности и пройдитесь по ссылкам в ней. С большой вероятностью часть из них уже никуда не ведёт. Вместо нужной страницы вас встретит ошибка 404, припаркованный домен с рекламой дешёвой страховки или редирект на чужой сайт. Это явление называется link rot, «гниение ссылок», и оно куда масштабнее, чем принято думать.

Веб с самого начала не проектировался как нечто вечное. Хостинг перестают оплачивать, компании закрываются, энтузиасты теряют интерес к своим проектам, серверы выводят из эксплуатации. Каждое из этих обыденных событий стирает что-то, что могло быть по-настоящему незаменимым. Чтобы понять, насколько быстро это происходит, исследователи десятилетиями измеряют скорость распада ссылок. Их выводы стоит собрать вместе.

40-100 дней

Брюстер Кейл, основатель Internet Archive, любит приводить цифры из ранней эпохи веба. По его оценкам, средняя продолжительность жизни веб-страницы составляет от 40 до 100 дней. Звучит почти невероятно, но речь идёт именно о средней странице, а не о крупных стабильных сайтах. Огромная масса контента в интернете создаётся и исчезает в течение пары месяцев, и это нормальный режим работы сети, а не сбой.

38% за десять лет

В 2024 году исследовательский центр Pew опубликовал работу под названием «Когда онлайн-контент исчезает». Вывод был сформулирован прямо: 38% веб-страниц, существовавших в 2013 году, спустя десять лет уже недоступны. Более того, около четверти всех страниц, существовавших в какой-либо момент между 2013 и 2023 годами, к моменту проверки перестали открываться.

Чтобы получить эти числа, исследователи собрали случайную выборку почти из миллиона страниц и проверили, открываются ли они сейчас. Важная деталь: link rot растёт со временем, но он бьёт даже по совсем свежим страницам. Среди страниц всего годичной давности недоступными оказались около 8%. То есть проблема начинается не через десятилетие, а буквально с первого года жизни ссылки.

Pew также заглянул туда, где надёжность ссылок критична. Хотя бы одна битая ссылка нашлась в 54% статей Википедии в разделе источников, на 23% новостных страниц и на 21% правительственных сайтов.

25% глубоких ссылок у New York Times

В 2021 году Джонатан Зиттрейн опубликовал в The Atlantic статью с говорящим названием «Интернет гниёт». Его команда проанализировала около двух миллионов внешних ссылок из статей New York Times. Результат: 25% глубоких ссылок, ведущих на конкретные страницы, уже не работали. А среди самых старых ссылок, из материалов 1998 года, мёртвыми оказались 72%.

Это особенно показательный пример. Речь идёт об одном из самых авторитетных и хорошо финансируемых изданий мира, которое ссылается не на случайные форумы, а на источники, заслуживающие, по мнению редакции, упоминания. И даже здесь ссылочная ткань расползается на глазах.

66,5% ссылок за девять лет

SEO-компания Ahrefs подошла к вопросу со своей стороны. В её исследовании 2024 года утверждается, что как минимум 66,5% ссылок, ведущих на сайты за последние девять лет, мертвы. С учётом временных ошибок и прочих проблем общая доля «потерянных» для целей ранжирования ссылок в их выборке доходила до 74,5%.

Причины здесь немного разнообразнее, чем просто исчезновение страницы. Ссылку могли убрать при обновлении контента, заменить на другую, удалить по корпоративной политике. Иногда конкурент просто решает больше на вас не ссылаться. Но итог для пользователя один: ссылка никуда не ведёт.

65% за четверть века

Возможно, самое масштабное на сегодня исследование провели в Университете Олд Доминион. Работа с характерным названием «Некоторые URL бессмертны, большинство эфемерны» проанализировала 27,3 миллиона адресов из индекса Wayback Machine, охватывающих более двух с половиной десятилетий. Вывод: около 65% адресов из выборки 1996-2021 годов оказались мёртвыми при проверке в 2023 году.

Заметная часть этих адресов даже не резолвила DNS, то есть соответствующие домены попросту больше не зарегистрированы. Исследователи отметили закономерность, которая повторяется почти во всех работах на эту тему: большинство страниц умирает быстро, в первые несколько лет своего существования. Зато те немногие, что переживают этот ранний период, могут жить очень долго.

Почему цифры так расходятся

Внимательный читатель заметит, что оценки скачут от 25% до 75%, и это закономерный вопрос. Дело в том, что разные исследования измеряют разные вещи. Кто-то берёт случайную выборку всех страниц, кто-то только внешние ссылки из конкретного издания, кто-то ссылки определённого возраста. Где-то «мёртвой» считается страница, отдающая ошибку HTTP, а где-то учитывают и DNS-сбои. Сравнивать их лоб в лоб трудно.

Но в главном все эти работы сходятся. Веб хрупок, и с течением времени всё больше ресурсов умирает. Расхождение в процентах не отменяет общего вектора, оно лишь показывает, что масштаб проблемы зависит от того, под каким углом на неё смотреть.

Что с этим делать

Здесь и выходит на первый план роль веб-архивов. Тот же анализ команды Internet Archive показывает, что Wayback Machine спасает заметную долю мёртвого веба. Из выборки Pew примерно одна из четырёх ссылок считалась бы недоступной, но если задействовать архив для доступа к мёртвым адресам, доля окончательно потерянных падает примерно до одной из десяти. По их подсчётам, около 38% от тех самых 38% мёртвых ссылок 2013 года удаётся восстановить через архив.

Из этого вытекает несколько практических привычек, полезных любому, кто работает с информацией в сети.

Ссылайтесь на стабильные источники. Официальные сайты, давно существующие проекты и архивы переживут случайный блог куда вероятнее.

Регулярно проверяйте свои ссылки. Существуют инструменты, которые сканируют сайт и находят битые ссылки, и эту проверку имеет смысл повторять.

Используйте редиректы. Если вы сами меняете URL на своём сайте, ставьте 301-редирект, чтобы не плодить мёртвые ссылки у тех, кто на вас ссылался.

Сохраняйте важное в архив заранее. Если страница исчезнет, архивная копия может стать единственным способом до неё добраться. Принцип, который продвигает Internet Archive, звучит коротко: увидел что-то важное, сохрани это.

Веб-страница в среднем живёт недолго, и в этом нет ничего катастрофического само по себе. Проблема возникает тогда, когда исчезает то, что мы считали постоянным: ссылка в научной работе, источник в новости, документ, на который кто-то опирался в суде. Распад ссылок похож на пожар в библиотеке, который идёт очень медленно, по одному битому адресу за раз. И именно потому, что он медленный, его легко не замечать, пока не станет поздно.

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://archivarix.com/ru/blog/link-rot/

Сколько живёт веб-страница: что говорят исследования о link rot

Откройте любую статью десятилетней давности и пройдитесь по ссылкам в ней. С большой вероятностью часть из них уже никуда не ведёт. Вместо нужной страницы вас встретит ошибка 404, припаркованный домен…

21 час назад
Archivarix Echo: проверьте 200+ веб-архивов одним запросом

Интернет постоянно осыпается. Страницы уходят в офлайн, аккаунты удаляют, статьи прячут за пейволл, проекты закрывают. Но копии чаще всего где-то остаются: Wayback Machine, archive.today, Common Crawl…

3 дня назад
AI-саммари видео в Archivarix Tube Search

Когда вы находите удалённое видео YouTube через Tube Search, вы обычно получаете метаданные: название, описание, дату загрузки и иногда субтитры. Это уже полезно. Но чтение необработанных субтитров, ч…

2 месяца назад
Archivarix Tube Search - Поисковая система по удаленным видео YouTube

Tube Search - это поисковый движок по архивным данным YouTube. Сервис агрегирует информацию из нескольких публичных источников: Wayback Machine (Internet Archive), Common Crawl и различных собранных д…

3 месяца назад
Archivarix Broken Links Recovery: бесплатный плагин WordPress для поиска и восстановления битых ссылок

Со временем внешние ссылки в записях Wordpress неизбежно ломаются, страницы удаляются, домены истекают, видео становятся недоступными. Проверять сотни или тысячи ссылок вручную непрактично. Archivarix…

3 месяца назад
Как Internet Archive решает, что архивировать: приоритеты, частота, источники данных

Триллион сохранённых страниц. Более 99 петабайт данных. Сотни краулов, работающих каждый день одновременно. За этими цифрами стоит вопрос, который задаёт себе каждый, кто профессионально работает с ве…

3 месяца назад
Как найти и купить истёкший домен с хорошей историей

Покупка истёкшего домена с историей это один из самых эффективных способов запустить новый проект с уже существующим ссылочным профилем, трастом и даже трафиком. Вместо того чтобы продвигать голый дом…

4 месяца назад
Common Crawl как альтернативный источник данных для восстановления сайтов

Когда речь заходит о восстановлении сайтов из архивов, почти все думают только о Wayback Machine. Это понятно: archive.org на слуху, у него удобный интерфейс, триллион сохранённых страниц. Но Wayback …

4 месяца назад
Расширение Archivarix Cache Viewer для Chrome, Edge и Firefox

Мы выпустили браузерное расширение Archivarix Cache Viewer. Оно доступно сразу для трёх браузеров: Chrome, Edge и Firefox. Расширение бесплатное и без какой-либо рекламы.
Суть простая: быстрый доступ…

4 месяца назад
AI-контент на восстановленных сайтах: как обнаружить и что с ним делать

Когда вы восстанавливаете сайт из Web Archive, вы ожидаете получить оригинальный контент, который когда-то был написан живыми людьми. Но если архивы сайта были сделаны после 2023 года, есть реальный ш…

4 месяца назад