Archivarix.net - Архив веб-сайтов и система поиска.

Опубликовано: 2020-09-18

 

В ближайшее время наша команда планирует запустить уникальный сервис, сочетающий в себе возможности системы Веб Архива (archive.org) и поисковой системы.
Мы планируем проиндексировать главные страницы всех сайтов, которые когда либо были сохранены Веб Архивом. В нашей базе сайтов будет так же присутствовать архив различных метрик, таких как Alexa, Ahrefs, Majestic, ключевые слова, WHOIS домена и прочие исторические данные за все время существования сайта. Таким образом можно будет осуществлять поиск нужного сайта для восстановления дропов или для извлечения удалённого контента по огромному количеству параметров, таких как ключевые слова в тексте и в тегах, трафик на определённую дату, наличие исторических ссылок, неймсервера и так далее. С помощью этой системы можно будет делать выборки любой сложности, к примеру найти все домены, удалённые в 2018 году, в контенте которых содержались слова webmaster analytics, имевшие тогда Alexa rank менее 300k и которые имели более 30 уников в день по определённому ключевому слову в 2016 году. Наш сервис будет иметь удобный интерфейс для поиска нужных данных и будет содержать в себе скриншоты сайтов со всеми параметрами в виде графиков и таблиц.
Следующим этапом развития системы будет индексация живых сайтов и расширение базы проиндексированного контента. Будут доступны для поиска медиафайлы и некоторые внутренние страницы сайта, выбранные по алгоритму учитывающему значимость этой страницы. В итоге система будет использовать преимущественно свою базу архивированных сайтов и станет не зависимой от Archive.org

Archivarix.net

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://archivarix.com/ru/blog/archivarix-net/

AI-саммари видео в Archivarix Tube Search

Когда вы находите удалённое видео YouTube через Tube Search, вы обычно получаете метаданные: название, описание, дату загрузки и иногда субтитры. Это уже полезно. Но чтение необработанных субтитров, ч…

3 недели назад
Archivarix Tube Search - поисковая система по удаленным видео YouTube

Tube Search - это поисковый движок по архивным данным YouTube. Сервис агрегирует информацию из нескольких публичных источников: Wayback Machine (Internet Archive), Common Crawl и различных собранных д…

1 месяц назад
Archivarix Broken Links Recovery: бесплатный плагин WordPress для поиска и восстановления битых ссылок

Со временем внешние ссылки в записях Wordpress неизбежно ломаются, страницы удаляются, домены истекают, видео становятся недоступными. Проверять сотни или тысячи ссылок вручную непрактично. Archivarix…

1 месяц назад
Как Internet Archive решает, что архивировать: приоритеты, частота, источники данных

Триллион сохранённых страниц. Более 99 петабайт данных. Сотни краулов, работающих каждый день одновременно. За этими цифрами стоит вопрос, который задаёт себе каждый, кто профессионально работает с ве…

1 месяц назад
Как найти и купить истёкший домен с хорошей историей

Покупка истёкшего домена с историей это один из самых эффективных способов запустить новый проект с уже существующим ссылочным профилем, трастом и даже трафиком. Вместо того чтобы продвигать голый дом…

2 месяца назад
Common Crawl как альтернативный источник данных для восстановления сайтов

Когда речь заходит о восстановлении сайтов из архивов, почти все думают только о Wayback Machine. Это понятно: archive.org на слуху, у него удобный интерфейс, триллион сохранённых страниц. Но Wayback …

2 месяца назад
Расширение Archivarix Cache Viewer для Chrome, Edge и Firefox

Мы выпустили браузерное расширение Archivarix Cache Viewer. Оно доступно сразу для трёх браузеров: Chrome, Edge и Firefox. Расширение бесплатное и без какой-либо рекламы.
Суть простая: быстрый доступ…

2 месяца назад
AI-контент на восстановленных сайтах: как обнаружить и что с ним делать

Когда вы восстанавливаете сайт из Web Archive, вы ожидаете получить оригинальный контент, который когда-то был написан живыми людьми. Но если архивы сайта были сделаны после 2023 года, есть реальный ш…

2 месяца назад
Веб Архив в 2026 году: что изменилось и как это влияет на восстановление сайтов

В октябре 2025 года Wayback Machine достиг отметки в один триллион сохранённых веб-страниц. Более 100 000 терабайт данных. Это огромное достижение для некоммерческой организации, которая работает с 19…

2 месяца назад
Archivarix External Images Importer 2.0 - новая версия плагина для WordPress

Мы рады представить версию 2.0 нашего WordPress плагина для импорта внешних изображений. Это не просто обновление, плагин полностью переписан с нуля с учётом современных требований и отзывов пользоват…

3 месяца назад