Archivarix.net - Архив веб-сайтов и система поиска.

Опубликовано: 2020-09-18

 

В ближайшее время наша команда планирует запустить уникальный сервис, сочетающий в себе возможности системы Веб Архива (archive.org) и поисковой системы.
Мы планируем проиндексировать главные страницы всех сайтов, которые когда либо были сохранены Веб Архивом. В нашей базе сайтов будет так же присутствовать архив различных метрик, таких как Alexa, Ahrefs, Majestic, ключевые слова, WHOIS домена и прочие исторические данные за все время существования сайта. Таким образом можно будет осуществлять поиск нужного сайта для восстановления дропов или для извлечения удалённого контента по огромному количеству параметров, таких как ключевые слова в тексте и в тегах, трафик на определённую дату, наличие исторических ссылок, неймсервера и так далее. С помощью этой системы можно будет делать выборки любой сложности, к примеру найти все домены, удалённые в 2018 году, в контенте которых содержались слова webmaster analytics, имевшие тогда Alexa rank менее 300k и которые имели более 30 уников в день по определённому ключевому слову в 2016 году. Наш сервис будет иметь удобный интерфейс для поиска нужных данных и будет содержать в себе скриншоты сайтов со всеми параметрами в виде графиков и таблиц.
Следующим этапом развития системы будет индексация живых сайтов и расширение базы проиндексированного контента. Будут доступны для поиска медиафайлы и некоторые внутренние страницы сайта, выбранные по алгоритму учитывающему значимость этой страницы. В итоге система будет использовать преимущественно свою базу архивированных сайтов и станет не зависимой от Archive.org

Archivarix.net

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://archivarix.com/ru/blog/archivarix-net/

День рождения Archivarix

З года назад, 29 сентября 2017 года заработал наш сервис по восстановлению сайтов из archive.org. Все эти 3 года мы непрерывно развивались, мы создали свою CMS, систему скачивания живых сайтов, значит…

3 недели назад
Archivarix.net - Архив веб-сайтов и система поиска.

Аналог Wayback Machine (web.archive.org). Сервис по поиску архивных копий сайтов. Данные за 1996 год. Полнотекстовый поиск.
В ближайшее время наша команда планирует запустить уникальный сервис, сочет…

1 месяц назад
Примеры использование регулярных выражений в Archivarix CMS

Как генерировать метатег description на всех страницах сайта? Как сделать, так чтобы сайт работал не из корня, а из директории?…

4 месяца назад
Как отобразить скрытые файлы в macOS

Как отобразить скрытые файлы в macOS. Отображение файлов начинающихся с точки, к примеру .htaсcess в macOS.…

5 месяцев назад
Система скачивания сайта. Как правильно выбрать количество файлов?

Наша система скачивания сайтов и конвертации их на нашу Archivarix CMS позволяет бесплатно скачивать до 200 файлов с сайта. Если на сайте файлов больше и все они нужны, то за эту услугу вы можете запл…

8 месяцев назад
Регулярные выражения, используемые в Archivarix CMS

В данной статье содержаться регулярные выражения, применяемые для поиска и замены в контенте сайтов, восстановленных с помощью системы Archivarix. Они не являются чем-то свойственным только этой систе…

8 месяцев назад
Простая и легкая Archivarix CMS. Редактор копированных сайтов.

Для того, чтобы вам было удобно редактировать восстановленные в нашей системе сайты, мы разработали простую Flat File CMS состоящую всего из одного небольшого файла. Не смотря на свой размер, эта CMS …

8 месяцев назад
Аналоги web.archive.org. Как найти удаленные сайты?

Веб Архив ( Archive.org) - самый известный и самый большой архив сайтов в мире. На их серверах сейчас находится более 400 миллиардов страниц. Существуют ли какие-либо системы, аналогичные Archive.org?…

9 месяцев назад
Как скачать сайт целиком из кэша Google?

Если нужный вам сайт был недавно удален, но Archive.org не сохранил последнюю версию, что можно сделать, чтобы получить его контент? Google Cache поможет это сделать. Все, что вам нужно, это установит…

9 месяцев назад
Как восстановить удаленные видео с YouTube?

Иногда вы можете увидеть это сообщение «Видео недоступно» на Youtube. Обычно это означает, что Youtube удалил это видео со своего сервера. Но есть простой способ, как получить его из Archive.org. Для …

10 месяцев назад
Последние новости:
2020.10.06
Новая верия Archivarix CMS.
- Поддержка интерфейса командной строки для развертывания веб-сайтов прямо из командной строки, импорта, настроек, статистики, очистки истории и обновления системы.
- Поддержка зашифрованных паролей password_hash(), которые можно использовать в CLI.
- Экспертный режим для включения дополнительной отладочной информации, экспериментальных инструментов и прямых ссылок на сохраненные снимки WebArchive.
- Инструменты для неработающих внутренних изображений и ссылок теперь могут возвращать список всех отсутствующих URL-адресов вместо удаления.
- Инструмент импорта показывает поврежденные / неполные zip-файлы, которые можно удалить.
- Улучшена поддержка файлов cookie, чтобы соответствовать требованиям современных браузеров.
- Настройка выбора редактора по умолчанию для HTML-страниц (визуальный редактор или код).
- Вкладка «Изменения», показывающая различия текста, по умолчанию отключена, может быть включена в настройках.
- Откатиться к конкретному изменению можно во вкладке «Изменения».
- Исправлен URL-адрес карты сайта XML для веб-сайтов, построенных с субдоменом www.
- Исправлено удаление временных файлов, которые были созданы в процессе установки / импорта.
- Более быстрая очистка истории.
- Удалены неиспользуемые фразы локализации.
- Переключение языка на экране входа в систему.
- Обновлены внешние пакеты до самых последних версий.
- Оптимизировано использование памяти для расчета текстовых различий на вкладке «Изменения».
- Улучшена поддержка старых версий расширения php-dom.
- Экспериментальный инструмент для исправления размеров файлов в базе данных, если вы редактировали файлы непосредственно на сервере.
- Экспериментальный и очень сырой инструмент экспорта плоской конструкции.
- Экспериментальная поддержка открытого ключа для будущих функций API.
2020.06.08
Первое июньское обновление Archivarix CMS с новыми, удобными фичами.
- Исправлено: Раздел История не работал при отсутствии включённого php расширения zip.
- Вкладка История с деталями изменений при редактировании текстовых файлов.
- Инструмент редактирования .htaccess.
- Возможность подчистить бэкапы до нужной точки отката.
- Блок "Отсутствующие урлы" убран из Инструментов, т.к. он доступен с главной панели
- В главную панель добавлена проверка и показ свободного места на диске.
- Улучшена проверка необходимых PHP расширений при запуске и начальной установке.
- Мелкие косметические правки.
- Все внешние инструменты обновлены на последние версии.
2020.05.21
Обновление, которое оценят веб-студии и те, кто использует аутсорс.
- Отдельный пароль для безопасного режима.
- Расширен безопасный режим. Теперь можно создавать кастомные правила и файлы, но без исполняемого кода.
- Переустановка сайта из CMS без необходимости что-либо вручную удалять с сервера.
- Возможность сортировать кастомные правила.
- Улучшены Поиск & Замена для очень больших сайтов.
- Дополнительные настройки у инструмента "Метатег viewport".
- Поддержка IDN доменов на хостингах со старой версией ICU.
- В начальной установке с паролем добавлена возможность разлогиниться.
- Если при интеграции с WP обнаружен .htaccess, то правила Archivarix допишутся в его начало.
- При скачивании сайтов по серийному номер используется CDN для повышения скорости.
- Другие мелкие улучшения и фиксы.
2020.05.12
Наша Archivarix CMS развивается семимильными шагами. Новое обновление, в котором появились:
- Новый дэшборд для просмотра статистики, настроек сервера и обновления системы.
- Возможность создавать шаблоны и удобным образом добавлять новые страницы на сайт.
- Интеграция с Wordpress и Joomla в один клик.
- Теперь в Поиске-Замене дополнительная фильтрация сделана в виде конструктора, где можно добавить любое количество правил.
- Фильтровать результаты теперь можно и по домену/поддоменам, дате-времени, размеру файлов.
- Новый инструмент сброса кэша в Cloudlfare или включения/отключения Dev Mode.
- Новый инструмент удаления версионности у урлов, к примеру, "?ver=1.2.3" у css или js. Позволяет чинить даже те страницы, которые криво выглядели в ВебАрхиве из-за отсутствия стилей с разными версиями.
- У инструмента robots.txt добавлена возможность сразу включать и добавлять Sitemap карту.
- Автоматическое и ручное создание точек откатов у изменений.
- Импорт умеет импортировать шаблоны.
- Сохранение/Импорт настроек лоадера содержит в себе созданные кастомные файлы.
- У всех действий, которые могут длиться больше таймаута, отображается прогресс-бар.
- Инструмент добавления метатега viewport во все страницы сайта.
- У инструментов удаления битых ссылок и изображений возможность учитывать файлы на сервере.
- Новый инструмент исправления неправильных urlencode ссылок в html коде. Редко, но может пригодиться.
- Улучшен инструмент отсутствующих урлов. Вместе с новым лоадером, теперь ведётся подсчёт обращений к несуществующим урлам.
- Подсказки по регулярным выражениями в Поиске & Замене.
- Улучшена проверка недостающих расширений php.
- Обновлены все используемые js инструменты на последние версии.

Это и много других косметических улучший и оптимизации по скорости.
2020.02.14
Новая пятница, новые обновления!
Много нового и полезного было сделано в Archivarix CMS:
- В Поиске и Замене теперь можно фильтровать по дате урла.
- Теперь внешние ссылки со всех страниц сайта можно удалять нажатием одной кнопки. Анкоры сохраняются.
- Новый параметр ACMS_SAFE_MODE, который запрещает менять настройки Лоадера/CMS и загружать кастомные файлы, у импортов тоже запрещается импортировать настройки и кастомные файлы.
- JSON-файлы настроек Лоадера и CMS теперь можно скачать себе на компьютер и загрузить в CMS из файла на компьютере. Таким образом перенос настроек на другие сайты стал ещё проще.
- Создание кастомных правил стало удобнее, есть часто используемые шаблоны, которые можно выбрать.
- Новые кастомные файлы можно создать в файл менеджере без необходимости загружать файл.
- Дерево урлов для основного домена всегда идёт первым.
- Если вы скрываете дерево урлов для домена/поддомена, то эта настройка сохраняется во время работы с CMS.
- Вместо двух кнопок раскрыть/свернуть дерево урлов, теперь одна, которая умеет и то и другое.
- Создание нового урла упростилось и при создании можно сразу указать файл с компьютера.
- В мобильной вёрстке основная рабочая часть идёт первой.
- После каждой манипуляции с файлом, в базе обновляется его размер.
- Исправлена работа кнопок выборочных откатов истории.
- Исправлено создание новых урлов для поддоменов, которые содержат цифры в названии домена.