Как работает Архиварикс?

Опубликовано: 2019-11-22

Система Архиварикс предназначена для скачивания и восстановления сайтов - как уже не работающих из Веб Архива, так и живых, находящихся в данный момент онлайн. В этом заключается ее основное отличие от прочих «качалок» и «парсеров сайтов». Задача Архиварикса - не только скачать, но и восстановить сайт в таком виде, в котором его можно будет использовать в дальнейшем на своем сервере.

Начнем с модуля, ответственного за скачивание сайтов из Веб Архива. Это виртуальные серверы, находящиеся в Калифорнии. Место расположения их было выбрано таким образом, чтобы получить максимально возможную скорость соединения с самим Веб Архивом, сервера которого расположены в Сан-Франциско. После ввода данных в соответствующих полях на странице модуля https://ru.archivarix.com/restore/ он делает скриншот архивного сайта и обращается к API Веб Архива с запросом списка файлов, содержащихся на указанную дату восстановления.

Получив ответ на запрос, система формирует письмо с анализом полученных данных. Пользователю остается только нажать кнопку подтверждения в полученном письме и тогда процесс скачивания сайта начнется.

Работа через API Веб Архива дает два преимущества перед скачиванием «в лоб» когда скрипт просто переходит по ссылкам сайта. Во-первых, сразу известны все файлы этого восстановления, можно оценить объем сайта и время, необходимое для его загрузки. Из-за особенностей работы Веб Архива, а он порой работает очень нестабильно, возможны разрывы соединения или неполная загрузка файлов, поэтому алгоритм модуля постоянно проверяет целостность полученных файлов и в подобных случаях пытается докачать контент повторно соединяясь с сервером Веб Архива. Во-вторых, из-за особенностей индексации сайтов Веб Архивом, не на все файлы сайта могут существовать прямые ссылки, а значит при попытке скачать сайт просто следуя по ссылкам они будут недоступны. Поэтому восстановление через API Веб Архива, которое использует Архиварикс, дает возможность восстановить максимально возможное количество контента архивного сайта за указанную дату.

Завершив работу, модуль скачивания из Веб Архива передает данные модулю обработки. Он формирует из полученных файлов сайт, пригодный для установки на Apache или Nginx сервер. Работа сайта основана на использовании SQLite базы данных, так что для начала работы требуется просто загрузить его на ваш сервер, ни каких установок дополнительных модулей, MySQL баз данных и создания пользователей не требуется. Модуль обработки осуществляет оптимизацию собранного сайта, она включает в себя оптимизацию изображений, а так же сжатие CSS и JS. Это может дать существенное увеличение скорости загрузки восстановленного сайта, по сравнению с оригинальным. Скорость загрузки некоторых неоптимизированных Wordpress сайтов с кучей плагинов и с несжатыми медиафайлами, после обработки этим модулем может возрасти многократно. Но, конечно, если сайт был оптимизирован изначально, большого прироста скорости загрузки это не даст.

Удаление рекламы, счетчиков и аналитики модуль обработки осуществляет путем проверки полученных файлов по обширной базе рекламных провайдеров и сборщиков аналитики. Удаление внешних ссылок и кликабельных контактов происходит просто по сигнатуре этого кода. В целом, очистка сайта от «следов предыдущего владельца» алгоритм проводит довольно эффективно, хотя порой это не исключает необходимость чего-либо подправить вручную. К примеру, самописный Java скрипт перенаправляющий, при определенных условиях, пользователей сайта на некую площадку монетизации, алгоритмом обнаружен не будет. Также порой необходимо добавить отсутствующие картинки либо удалить ненужный мусор, на подобие заспамленной гостевой книги. Поэтому возникает необходимость в редакторе полученного сайта. И он есть – это Archivarix CMS.

Это простая и компактная CMS, предназначенная для редактирования сайтов, созданных системой Архиварикс. Она дает возможность осуществлять поиск и замену кода по всему сайту с использованием регулярных выражений, редактирование контента в WYSIWYG редакторе, добавление новых страниц и файлов. Archivarix CMS может работать совместно с любой другой CMS на одном сайте.

Теперь опишем другой модуль системы – скачивание существующих сайтов. В отличие от модуля скачивания сайтов из Веб Архива, тут предугадать сколько и каких файлов надо скачать не получится, поэтому сервера модуля работают совершенно иначе. Паук сервера просто переходит по всем ссылкам, которые находятся на скачиваемом сайте. Для того чтобы скрипт не попал в бесконечный цикл скачки какой-нибудь автогенерируемой страницы максимальная глубина ссылок ограничена десятью кликами. А максимальное количество файлов, которые могут быть скачены с сайта должно быть указано заранее.

Для наиболее полного выкачивания именно того контента, который вам необходим придумано несколько фишек этого модуля. Можно выбрать различный User-Agent пауку сервиса – к примеру Chrome Desktop или Googlebot. Реферер для обхода клоакинга – если надо скачать именно то, что видит пользователь, зашедший из поиска, можно установить реферер Гугла, Яндекса или другого сайта. Для защиты от бана по IP можно выбрать скачивание сайта с использованием сети Tor, при этом IP паука сервиса меняется случайным образом в рамках этой сети. Остальные параметры, как, к примеру, оптимизация картинок, чистка рекламы и аналитики аналогичны параметрам модуля скачивания из Веб Архива.

После завершения скачивания сайта контент предается модулю обработки. Его работа в этом месте полностью аналогична работе со скаченным из Веб Архива сайтом, описанным выше.

Еще стоит упомянуть возможность сознания клонов восстановленного либо скаченного сайта. Иногда случается, что при восстановлении были выбраны не те параметры, которые оказались в итоге полезны. Например удаление внешних ссылок было излишним, и некоторые внешние ссылки вам оказались нужны, то не надо запускать скачивание снова. Достаточно на странице вашего восстановления задать новые параметры и запустить пересоздание сайта.

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://archivarix.com/ru/blog/how-does-it-works/

1 Как работает Архиварикс?

Система Архиварикс предназначена для скачивания и восстановления сайтов - как уже не работающих из Веб Архива, так и живых, находящихся в данный момент онлайн. В этом заключается ее основное отличие о…

10 месяцев назад
2 Как перенести контент из web.archive.org на Wordpress?

С помошью параметра "Извлечение структурированного контента" можно очень просто сделать Wordpress блог как из сайта, найденного в Веб Архиве, так и из любого другого сайта. Для этого находим сайт-исто…

10 месяцев назад
3 Простая и легкая Archivarix CMS. Редактор копированных сайтов.

Для того, чтобы вам было удобно редактировать восстановленные в нашей системе сайты, мы разработали простую Flat File CMS состоящую всего из одного небольшого файла. Не смотря на свой размер, эта CMS …

7 месяцев назад
4 Регулярные выражения, используемые в Archivarix CMS

В данной статье содержаться регулярные выражения, применяемые для поиска и замены в контенте сайтов, восстановленных с помощью системы Archivarix. Они не являются чем-то свойственным только этой систе…

7 месяцев назад
5 Система скачивания сайта. Как правильно выбрать количество файлов?

Наша система скачивания сайтов и конвертации их на нашу Archivarix CMS позволяет бесплатно скачивать до 200 файлов с сайта. Если на сайте файлов больше и все они нужны, то за эту услугу вы можете запл…

7 месяцев назад
Последние новости:
2020.06.08
Первое июньское обновление Archivarix CMS с новыми, удобными фичами.
- Исправлено: Раздел История не работал при отсутствии включённого php расширения zip.
- Вкладка История с деталями изменений при редактировании текстовых файлов.
- Инструмент редактирования .htaccess.
- Возможность подчистить бэкапы до нужной точки отката.
- Блок "Отсутствующие урлы" убран из Инструментов, т.к. он доступен с главной панели
- В главную панель добавлена проверка и показ свободного места на диске.
- Улучшена проверка необходимых PHP расширений при запуске и начальной установке.
- Мелкие косметические правки.
- Все внешние инструменты обновлены на последние версии.
2020.05.21
Обновление, которое оценят веб-студии и те, кто использует аутсорс.
- Отдельный пароль для безопасного режима.
- Расширен безопасный режим. Теперь можно создавать кастомные правила и файлы, но без исполняемого кода.
- Переустановка сайта из CMS без необходимости что-либо вручную удалять с сервера.
- Возможность сортировать кастомные правила.
- Улучшены Поиск & Замена для очень больших сайтов.
- Дополнительные настройки у инструмента "Метатег viewport".
- Поддержка IDN доменов на хостингах со старой версией ICU.
- В начальной установке с паролем добавлена возможность разлогиниться.
- Если при интеграции с WP обнаружен .htaccess, то правила Archivarix допишутся в его начало.
- При скачивании сайтов по серийному номер используется CDN для повышения скорости.
- Другие мелкие улучшения и фиксы.
2020.05.12
Наша Archivarix CMS развивается семимильными шагами. Новое обновление, в котором появились:
- Новый дэшборд для просмотра статистики, настроек сервера и обновления системы.
- Возможность создавать шаблоны и удобным образом добавлять новые страницы на сайт.
- Интеграция с Wordpress и Joomla в один клик.
- Теперь в Поиске-Замене дополнительная фильтрация сделана в виде конструктора, где можно добавить любое количество правил.
- Фильтровать результаты теперь можно и по домену/поддоменам, дате-времени, размеру файлов.
- Новый инструмент сброса кэша в Cloudlfare или включения/отключения Dev Mode.
- Новый инструмент удаления версионности у урлов, к примеру, "?ver=1.2.3" у css или js. Позволяет чинить даже те страницы, которые криво выглядели в ВебАрхиве из-за отсутствия стилей с разными версиями.
- У инструмента robots.txt добавлена возможность сразу включать и добавлять Sitemap карту.
- Автоматическое и ручное создание точек откатов у изменений.
- Импорт умеет импортировать шаблоны.
- Сохранение/Импорт настроек лоадера содержит в себе созданные кастомные файлы.
- У всех действий, которые могут длиться больше таймаута, отображается прогресс-бар.
- Инструмент добавления метатега viewport во все страницы сайта.
- У инструментов удаления битых ссылок и изображений возможность учитывать файлы на сервере.
- Новый инструмент исправления неправильных urlencode ссылок в html коде. Редко, но может пригодиться.
- Улучшен инструмент отсутствующих урлов. Вместе с новым лоадером, теперь ведётся подсчёт обращений к несуществующим урлам.
- Подсказки по регулярным выражениями в Поиске & Замене.
- Улучшена проверка недостающих расширений php.
- Обновлены все используемые js инструменты на последние версии.

Это и много других косметических улучший и оптимизации по скорости.
2020.02.14
Новая пятница, новые обновления!
Много нового и полезного было сделано в Archivarix CMS:
- В Поиске и Замене теперь можно фильтровать по дате урла.
- Теперь внешние ссылки со всех страниц сайта можно удалять нажатием одной кнопки. Анкоры сохраняются.
- Новый параметр ACMS_SAFE_MODE, который запрещает менять настройки Лоадера/CMS и загружать кастомные файлы, у импортов тоже запрещается импортировать настройки и кастомные файлы.
- JSON-файлы настроек Лоадера и CMS теперь можно скачать себе на компьютер и загрузить в CMS из файла на компьютере. Таким образом перенос настроек на другие сайты стал ещё проще.
- Создание кастомных правил стало удобнее, есть часто используемые шаблоны, которые можно выбрать.
- Новые кастомные файлы можно создать в файл менеджере без необходимости загружать файл.
- Дерево урлов для основного домена всегда идёт первым.
- Если вы скрываете дерево урлов для домена/поддомена, то эта настройка сохраняется во время работы с CMS.
- Вместо двух кнопок раскрыть/свернуть дерево урлов, теперь одна, которая умеет и то и другое.
- Создание нового урла упростилось и при создании можно сразу указать файл с компьютера.
- В мобильной вёрстке основная рабочая часть идёт первой.
- После каждой манипуляции с файлом, в базе обновляется его размер.
- Исправлена работа кнопок выборочных откатов истории.
- Исправлено создание новых урлов для поддоменов, которые содержат цифры в названии домена.
2020.02.07
Новая порция обновлений!
В исходном-коде файлов теперь ничего менять не нужно.
- Загружать сайты на сервер теперь можно загрузив на сервер лишь один скрипт с нашей Archivarix CMS.
- Для того чтобы что-то поменять в настройках CMS больше не нужно открывать её исходный код. Поставить пароль или понизить лимиты можно напрямую из раздела Настроек.
- Для подключения своих счётчиков, трекеров, кастомных скриптов теперь используется отдельная папка "includes" внутри папки .content.xxxxxx. Загружать кастомные файлы можно тоже напрямую через новый файловый менеджер в CMS. Добавление счётчиков и аналитики на все страницы сайта тоже стало удобным и понятным.
- Импорты поддерживают новую структуру файлов с настройками и папкой "includes".
- Добавлены комбинации клавиш для работы в редакторе кода.

Эти и многие другие улучшения в новой версии. Лоадер тоже обновился и работает с настройками, которые создаёт CMS.