Как перенести контент из web.archive.org на Wordpress?

Опубликовано: 2019-11-29

С помошью параметра "Извлечение структурированного контента" можно очень просто сделать Wordpress блог как из сайта, найденного в Веб Архиве, так и из любого другого сайта. Для этого находим сайт-источник, далее в инструменте Восстановить Сайт или Скачать сайт отмечаем опцию "Извлечь структурированный контент" и запускаем парсинг сайта. 

После завершения восстановления сайта система разворачивает его на нашем сервере и начинает извлекать контент. При формировании архива статей наш парсер учитывает только значащий контент исключая дубли статей, управляющие элементы и служебные страницы, оставляя только готовые к импорту на ваш сайт статьи с сохранённым форматированием. После окончания процесса извлечения статей вам придет письмо с подтверждением, открываем его и скачиваем контент - кнопка "Статьи (.zip)". 

В zip архиве находится извлеченный контент в различных форматах, из них выбираем файл с расширением .wxr. На вашем Wordpress сайте запускаем импорт контента - (В админ панели Wordpress - Инструменты - Импорт - Wordpress - Запустить импорт).

Если извлеченных контент был с изображениями, то ссылки на них будут содержаться в файле статей. Чтобы импортировать их на ваш Wordpress сайт нужно воспользоваться нашим плагином Archivarix External Images Importer. Во вкладке плагина "Download settings" можно поставить параметр "Start downloading" на "Immediately", тогда при импорте файла со статьями плагин будет сразу скачивать имеющиеся там изображения. Если у вас изображений много, то можно воспользоваться бекграунд импортом - в той же вкладке ставим "Put on queue" и затем нажимаем появившуюся кнопу "Run background processing". Через некоторое время все доступные медиафайлы будут импортированы на ваш сайт.

Если изображения, которые вы хотите загрузить на Wordpress блог, находятся на том же домене, поставьте параметр "Missing local images" - "Download".

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://archivarix.com/ru/blog/convert-archiveorg-to-wordpress/

1 Как работает Архиварикс?

Система Архиварикс предназначена для скачивания и восстановления сайтов - как уже не работающих из Веб Архива, так и живых, находящихся в данный момент онлайн. В этом заключается ее основное отличие о…

5 лет назад
2 Как перенести контент из web.archive.org на Wordpress?

С помошью параметра "Извлечение структурированного контента" можно очень просто сделать Wordpress блог как из сайта, найденного в Веб Архиве, так и из любого другого сайта. Для этого находим сайт-исто…

4 года назад
3 Простая и легкая Archivarix CMS. Редактор копированных сайтов.

Для того, чтобы вам было удобно редактировать восстановленные в нашей системе сайты, мы разработали простую Flat File CMS состоящую всего из одного небольшого файла. Не смотря на свой размер, эта CMS …

4 года назад
4 Регулярные выражения, используемые в Archivarix CMS

В данной статье содержаться регулярные выражения, применяемые для поиска и замены в контенте сайтов, восстановленных с помощью системы Archivarix. Они не являются чем-то свойственным только этой систе…

4 года назад
5 Система скачивания сайта. Как правильно выбрать количество файлов?

Наша система скачивания сайтов и конвертации их на нашу Archivarix CMS позволяет бесплатно скачивать до 200 файлов с сайта. Если на сайте файлов больше и все они нужны, то за эту услугу вы можете запл…

4 года назад
Последние новости:
2020.11.03
Новая верия CMS стала удобнее и понятее вебмастерам из разных стран мира.

- Полная локализация Archivarix CMS на 13 языков (Английский, Испанский, Итальянский, Немецкий, Французский, Португальский, Польский, Турецкий, Японский, Китайский, Русский, Украинский, Белорусский).
- Экспорт всех текущих данных сайта в zip архив для сохранения резервной копии или переноса на другой сайт.
- Показ и удаления битых zip архивов в инструментах импорта.
- Проверка версии PHP при установке.
- Информация для установки CMS на сервер с NGINX + PHP-FPM.
- В поиске при включенном режиме эксперта отображается дата/время страницы и ссылка на её копию в ВебАрхив.
- Улучшения пользовательского интерфейса.
- Оптимизация кода.

Если вы на уровне носителя владеете языком, на который наша CMS ещё не переведена, то приглашаем вас сделать наш продукт ещё лучше. Через сервис Crowdin вы можете подать заявку и стать нашим официальным переводчиком на новые языки.
2020.10.06
Новая верия Archivarix CMS.
- Поддержка интерфейса командной строки для развертывания веб-сайтов прямо из командной строки, импорта, настроек, статистики, очистки истории и обновления системы.
- Поддержка зашифрованных паролей password_hash(), которые можно использовать в CLI.
- Экспертный режим для включения дополнительной отладочной информации, экспериментальных инструментов и прямых ссылок на сохраненные снимки WebArchive.
- Инструменты для неработающих внутренних изображений и ссылок теперь могут возвращать список всех отсутствующих URL-адресов вместо удаления.
- Инструмент импорта показывает поврежденные / неполные zip-файлы, которые можно удалить.
- Улучшена поддержка файлов cookie, чтобы соответствовать требованиям современных браузеров.
- Настройка выбора редактора по умолчанию для HTML-страниц (визуальный редактор или код).
- Вкладка «Изменения», показывающая различия текста, по умолчанию отключена, может быть включена в настройках.
- Откатиться к конкретному изменению можно во вкладке «Изменения».
- Исправлен URL-адрес карты сайта XML для веб-сайтов, построенных с субдоменом www.
- Исправлено удаление временных файлов, которые были созданы в процессе установки / импорта.
- Более быстрая очистка истории.
- Удалены неиспользуемые фразы локализации.
- Переключение языка на экране входа в систему.
- Обновлены внешние пакеты до самых последних версий.
- Оптимизировано использование памяти для расчета текстовых различий на вкладке «Изменения».
- Улучшена поддержка старых версий расширения php-dom.
- Экспериментальный инструмент для исправления размеров файлов в базе данных, если вы редактировали файлы непосредственно на сервере.
- Экспериментальный и очень сырой инструмент экспорта плоской конструкции.
- Экспериментальная поддержка открытого ключа для будущих функций API.
2020.06.08
Первое июньское обновление Archivarix CMS с новыми, удобными фичами.
- Исправлено: Раздел История не работал при отсутствии включённого php расширения zip.
- Вкладка История с деталями изменений при редактировании текстовых файлов.
- Инструмент редактирования .htaccess.
- Возможность подчистить бэкапы до нужной точки отката.
- Блок "Отсутствующие урлы" убран из Инструментов, т.к. он доступен с главной панели
- В главную панель добавлена проверка и показ свободного места на диске.
- Улучшена проверка необходимых PHP расширений при запуске и начальной установке.
- Мелкие косметические правки.
- Все внешние инструменты обновлены на последние версии.
2020.05.21
Обновление, которое оценят веб-студии и те, кто использует аутсорс.
- Отдельный пароль для безопасного режима.
- Расширен безопасный режим. Теперь можно создавать кастомные правила и файлы, но без исполняемого кода.
- Переустановка сайта из CMS без необходимости что-либо вручную удалять с сервера.
- Возможность сортировать кастомные правила.
- Улучшены Поиск & Замена для очень больших сайтов.
- Дополнительные настройки у инструмента "Метатег viewport".
- Поддержка IDN доменов на хостингах со старой версией ICU.
- В начальной установке с паролем добавлена возможность разлогиниться.
- Если при интеграции с WP обнаружен .htaccess, то правила Archivarix допишутся в его начало.
- При скачивании сайтов по серийному номер используется CDN для повышения скорости.
- Другие мелкие улучшения и фиксы.
2020.05.12
Наша Archivarix CMS развивается семимильными шагами. Новое обновление, в котором появились:
- Новый дэшборд для просмотра статистики, настроек сервера и обновления системы.
- Возможность создавать шаблоны и удобным образом добавлять новые страницы на сайт.
- Интеграция с Wordpress и Joomla в один клик.
- Теперь в Поиске-Замене дополнительная фильтрация сделана в виде конструктора, где можно добавить любое количество правил.
- Фильтровать результаты теперь можно и по домену/поддоменам, дате-времени, размеру файлов.
- Новый инструмент сброса кэша в Cloudlfare или включения/отключения Dev Mode.
- Новый инструмент удаления версионности у урлов, к примеру, "?ver=1.2.3" у css или js. Позволяет чинить даже те страницы, которые криво выглядели в ВебАрхиве из-за отсутствия стилей с разными версиями.
- У инструмента robots.txt добавлена возможность сразу включать и добавлять Sitemap карту.
- Автоматическое и ручное создание точек откатов у изменений.
- Импорт умеет импортировать шаблоны.
- Сохранение/Импорт настроек лоадера содержит в себе созданные кастомные файлы.
- У всех действий, которые могут длиться больше таймаута, отображается прогресс-бар.
- Инструмент добавления метатега viewport во все страницы сайта.
- У инструментов удаления битых ссылок и изображений возможность учитывать файлы на сервере.
- Новый инструмент исправления неправильных urlencode ссылок в html коде. Редко, но может пригодиться.
- Улучшен инструмент отсутствующих урлов. Вместе с новым лоадером, теперь ведётся подсчёт обращений к несуществующим урлам.
- Подсказки по регулярным выражениями в Поиске & Замене.
- Улучшена проверка недостающих расширений php.
- Обновлены все используемые js инструменты на последние версии.

Это и много других косметических улучший и оптимизации по скорости.