Примеры использование регулярных выражений в Archivarix CMS

Опубликовано: 2020-05-29

Как генерировать метатег description на всех страницах сайта? Как сделать, так чтобы сайт работал не из корня, а из директории?

Иногда бывает, что на некоторых страницах восстановленного сайта нет тега description. Его можно добавить вручную, но если он отсутствует на сотнях или тысячах страниц, то сделать это будет сложно. Чтобы долго не думать над составлением описаний страниц, можно просто ставить в этот тег первую фразу, встречающуюся в тексте на этой странице. Как правило она будет релевантной.

На помощь тут может придти возможность применять регулярные выражения для поиска и замены в Archivarix CMS. Просто скопируйте указанные ниже выражения в соответствующие поля инструмента Поиск и замена и запустите процесс.

(</title>)(.*?<p>([^"<]{50,200}\.))

 

$1
<meta name="description" content="$3">
$2

 

meta name="description" 

 

Это выражение создает тег <meta name="description" content= сразу после закрывающего тега </title> и добавляет туда текст со страницы, начинающийся с тега абзаца <p> и имеющий минимально 20 символов, а максимально 200 символов и закрывает тег точкой . . Поле фильтра делает замены только на тех страницах, где нет meta name="description" , если он есть замена не производится.

 

Еще один пример: Восстановленный сайт можно переделать так, что он сможет работать из директории, а ни из корня. Это может понадобиться, если вам надо разместить несколько восстановленных сайтов на одном домене. 

Для начала поменяем все пути в структуре сайта. Это делается в инструменте Поиск и замена URL

Ко всем URL с начала ^ мы добавляем новый путь /newsite1

Далее заменяем все адреса внутри страниц используя регулярные выражения, обязательно галочкой включите в запрос все файлы (js, css, txt, json, xml):

\b((?:href|src)=['"]?)(/[^/])

$1/newsite1$2

Для исправления ссылок на картинки в файлах CSS можно воспользоваться таким регулярным выражением:

(url\(['"\s])(/[^/])

Теперь в файле .htaccess надо заменить строку RewriteRule . /index.php [L] на такую строку - RewriteRule . /newsite1/index.php [L]

Теперь ваш сайт будет работат по адресу domain.com/newsite1

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://archivarix.com/ru/blog/regex-add-description-website-on-subfolder/

Archivarix Tube Search - поисковая система по удаленным видео YouTube

Tube Search - это поисковый движок по архивным данным YouTube. Сервис агрегирует информацию из нескольких публичных источников: Wayback Machine (Internet Archive), Common Crawl и различных собранных д…

3 дня назад
Archivarix Broken Links Recovery: бесплатный плагин WordPress для поиска и восстановления битых ссылок

Со временем внешние ссылки в записях Wordpress неизбежно ломаются, страницы удаляются, домены истекают, видео становятся недоступными. Проверять сотни или тысячи ссылок вручную непрактично. Archivarix…

2 недели назад
Как Internet Archive решает, что архивировать: приоритеты, частота, источники данных

Триллион сохранённых страниц. Более 99 петабайт данных. Сотни краулов, работающих каждый день одновременно. За этими цифрами стоит вопрос, который задаёт себе каждый, кто профессионально работает с ве…

3 недели назад
Как найти и купить истёкший домен с хорошей историей

Покупка истёкшего домена с историей это один из самых эффективных способов запустить новый проект с уже существующим ссылочным профилем, трастом и даже трафиком. Вместо того чтобы продвигать голый дом…

4 недели назад
Common Crawl как альтернативный источник данных для восстановления сайтов

Когда речь заходит о восстановлении сайтов из архивов, почти все думают только о Wayback Machine. Это понятно: archive.org на слуху, у него удобный интерфейс, триллион сохранённых страниц. Но Wayback …

1 месяц назад
Расширение Archivarix Cache Viewer для Chrome, Edge и Firefox

Мы выпустили браузерное расширение Archivarix Cache Viewer. Оно доступно сразу для трёх браузеров: Chrome, Edge и Firefox. Расширение бесплатное и без какой-либо рекламы.
Суть простая: быстрый доступ…

1 месяц назад
AI-контент на восстановленных сайтах: как обнаружить и что с ним делать

Когда вы восстанавливаете сайт из Web Archive, вы ожидаете получить оригинальный контент, который когда-то был написан живыми людьми. Но если архивы сайта были сделаны после 2023 года, есть реальный ш…

1 месяц назад
Веб Архив в 2026 году: что изменилось и как это влияет на восстановление сайтов

В октябре 2025 года Wayback Machine достиг отметки в один триллион сохранённых веб-страниц. Более 100 000 терабайт данных. Это огромное достижение для некоммерческой организации, которая работает с 19…

1 месяц назад
Archivarix External Images Importer 2.0 - новая версия плагина для WordPress

Мы рады представить версию 2.0 нашего WordPress плагина для импорта внешних изображений. Это не просто обновление, плагин полностью переписан с нуля с учётом современных требований и отзывов пользоват…

1 месяц назад
Купоны Black Friday & Cyber Monday

Дорогие друзья!
Black Friday и Cyber Monday - лучшее время для экономии на будущих восстановлении сайтов.
Если вы планируете восстанавливать сайты, пополнить баланс заранее или просто хотите получит…

3 месяца назад