ai

AI-контент на восстановленных сайтах: как обнаружить и что с ним делать

Опубликовано: 2026-02-13

Когда вы восстанавливаете сайт из Web Archive, вы ожидаете получить оригинальный контент, который когда-то был написан живыми людьми. Но если архивы сайта были сделаны после 2023 года, есть реальный шанс столкнуться с текстами, сгенерированными языковыми моделями. Владельцы сайтов массово заменяли авторский контент на тексты от ChatGPT и аналогов, часто даже не пытаясь их отредактировать. Результат: вы восстанавливаете сайт, а на нём уже не оригинальные статьи, а переработанная каша из нейросети.
Это не просто вопрос качества. Google активно борется с низкокачественным AI-контентом, и восстановленный сайт с такими текстами рискует никогда не попасть в индекс. В этой статье разберём, как определить машинные тексты на восстановленном сайте и что с ними делать.

Массовое внедрение генеративного AI в создание контента началось в конце 2022 года, после выхода ChatGPT. К середине 2023-го сотни тысяч сайтов уже содержали тексты, полностью или частично написанные языковыми моделями. Причины разные: одни владельцы пытались сэкономить на копирайтерах, другие наращивали объём страниц ради SEO, третьи просто экспериментировали.
Wayback Machine архивирует всё подряд, без какой-либо фильтрации по способу создания контента. Если бот Internet Archive зашёл на страницу и увидел текст, он его сохранил. Неважно, написал этот текст человек или ChatGPT.
Особенно проблемными оказываются сайты, которые сменили владельца в период 2023-2025 годов. Типичный сценарий: новый владелец покупает домен с историей, удаляет старый контент и заливает сотни AI-статей для быстрого набора трафика. Если в Web Archive попали именно эти снэпшоты, при восстановлении вы получите не оригинальный сайт, а его AI-версию.
Ещё одна ситуация: сайт не менял владельца, но редакция решила «обновить» старые статьи с помощью AI. Формально URL-адреса остались теми же, но содержание страниц полностью изменилось. И именно эти обновлённые версии могли попасть в последние архивы.

Прежде чем заниматься детекцией AI-текстов, стоит попробовать избежать проблемы на этапе восстановления. Если сайт существовал до 2023 года, имеет смысл использовать ограничение по дате при скачивании через Archivarix.
В нашей системе при восстановлении сайта есть параметр "BEFORE", который позволяет выбрать верхнюю границу даты снэпшотов. Установив этот лимит на конец 2022 года, вы практически гарантируете себе контент без AI-генерации. Разумеется, при этом вы потеряете все обновления, которые были сделаны позже, но для многих задач это приемлемый компромисс.
Если же вам нужны именно свежие снэпшоты, или если сайт появился уже в эпоху AI, придётся проверять контент вручную.

За два с лишним года работы с восстановленными сайтами мы накопили достаточно опыта, чтобы выделить характерные маркеры машинного текста. Ни один из них не является стопроцентным доказательством, но их совокупность позволяет делать уверенные выводы.
Первый и самый очевидный признак: неестественная структурность. AI-тексты почти всегда разбиты на аккуратные секции с подзаголовками, каждый абзац примерно одинаковой длины, каждый пункт логически завершён. Живой текст так не выглядит. У живого текста бывают длинные абзацы и короткие, отступления от темы, неровный ритм. Когда вы открываете страницу и видите идеально симметричную структуру с заголовками типа «Что это такое», «Почему это важно», «Как это работает», «Заключение», это повод насторожиться.
Второй признак: характерная лексика. У каждой языковой модели есть слова-маркеры, которые она использует непропорционально часто. Для англоязычных текстов это "delve", "crucial", "landscape", "tapestry", "multifaceted", "it's important to note", "in today's rapidly evolving". Для русскоязычных: «в современном мире», «важно отметить», «в заключение хочется сказать», «данный аспект», «играет ключевую роль». Если на каждой странице сайта встречаются одни и те же конструкции из этого набора, текст почти наверняка машинный.
Третий признак: отсутствие конкретики. AI хорошо умеет писать «в целом», но плохо справляется с деталями. Если статья о ремонте автомобиля обходится без названий конкретных моделей, инструментов и запчастей, а вместо этого рассуждает об «общих принципах технического обслуживания», скорее всего это генерация. Живой автор, разбирающийся в теме, пишет конкретно: номера деталей, размеры ключей, особенности конкретных двигателей.
Четвёртый признак: однородность стиля по всему сайту. На реальном сайте с несколькими авторами тексты отличаются по стилю, глубине, подходу. Один автор пишет длинно и подробно, другой коротко и по делу, третий любит вставлять личные истории. Если все 200 статей на сайте написаны одинаковым «гладким» стилем без малейших вариаций, это признак массовой генерации.
Пятый признак: несоответствие контента дате публикации. AI-тексты часто содержат общие утверждения без привязки ко времени. Если статья датирована 2024 годом, но в ней нет ни одной ссылки на конкретные события этого года, ни одного упоминания актуальных на тот момент трендов, это подозрительно. Живой автор почти всегда привязывает текст к контексту своего времени.

Ручная проверка каждой страницы на большом сайте нереалистична. К счастью, существуют инструменты, которые автоматизируют эту работу.
Из бесплатных инструментов можно выделить GPTZero и ZeroGPT. Оба работают с английскими текстами достаточно уверенно, с русскими хуже, но всё же пригодны для первичного скрининга. Их основное ограничение: они анализируют тексты по одному, что неудобно для сайта с тысячами страниц.
Более серьёзный подход: использование API тех же сервисов для пакетной обработки. GPTZero предоставляет API, через который можно прогнать все тексты сайта автоматически. Вы извлекаете текстовое содержимое каждой страницы, отправляете его на проверку и получаете оценку вероятности AI-генерации.
Для тех, кто предпочитает работать локально, существуют open-source модели детекции. Например, модель RADAR (Robust AI-text Detection via Adversarial leaRning) или детекторы на базе Ghostbuster. Они требуют определённых вычислительных ресурсов, но позволяют проверять тексты без отправки данных третьим сторонам.
Отдельно стоит упомянуть метод перплексии. Суть проста: AI-текст обычно имеет низкую перплексию (предсказуемость), потому что языковые модели генерируют наиболее вероятные последовательности слов. Если текст слишком «гладкий» и предсказуемый с точки зрения статистической модели языка, он вероятно сгенерирован. Инструменты вроде Binoculars или DetectGPT работают именно на этом принципе.
Важно понимать, что ни один детектор не даёт стопроцентной точности. Тексты, написанные AI и затем серьёзно отредактированные человеком, часто проходят проверку как «человеческие». И наоборот: некоторые авторы с очень формальным стилем письма иногда ошибочно определяются как AI. Поэтому результаты автоматической проверки лучше использовать как фильтр для ручного анализа, а не как окончательный вердикт.

Когда вы определили, какие страницы содержат AI-текст, возникает вопрос: что с ними делать? Здесь нет единого рецепта, всё зависит от ваших целей.
Если цель восстановления сайта в сохранении оригинального контента (например, для исторической справки или портфолио), AI-тексты нужно удалять. Попробуйте найти более ранние снэпшоты тех же страниц в Web Archive, где ещё был оригинальный контент. Archivarix позволяет восстанавливать отдельные страницы из разных дат, так что можно «собрать» сайт из лучших версий разных периодов.
Если вы восстанавливаете сайт для последующего использования и продвижения, у вас три варианта. Первый: полностью переписать AI-тексты. Это самый надёжный путь. Переписывать конечно будет тоже AI, но уже новее и совершеннее. Не вы же сами это будете делать, правда? Второй: существенно отредактировать, добавив конкретику, личный опыт, актуальные данные и примеры. Хорошо отредактированный AI-текст может стать вполне качественной основой. Третий: удалить страницы с AI-контентом и оставить только оригинальные.
В любом случае не стоит оставлять явно машинные тексты без изменений. Google с 2024 года последовательно понижает позиции сайтов с массовым AI-контентом низкого качества. Обновления Helpful Content и мартовское core update 2024 года были направлены именно на это. Восстановленный сайт с сотнями непереработанных AI-статей имеет минимальные шансы на нормальную индексацию.

Не всегда ситуация однозначная. На многих сайтах AI использовался точечно: для написания мета-описаний, генерации FAQ-секций, создания описаний товаров в каталоге, или для «дописывания» существующих статей. В таких случаях страница содержит смесь оригинального и машинного текста.
Определить такие фрагменты сложнее. Автоматические детекторы обычно дают усреднённую оценку по всему тексту, а не указывают на конкретные абзацы. Здесь помогает внимательный ручной анализ: если в середине живой, эмоциональной статьи вдруг появляется блок с идеально структурированным, сухим текстом в стиле энциклопедии, скорее всего именно этот блок был добавлен с помощью AI.
Для FAQ-секций и мета-описаний вопрос стоит менее остро. Эти элементы по своей природе формальны и шаблонны, и поисковые системы не оценивают их так строго, как основной контент.

Проблема AI-контента в Web Archive будет только нарастать. По разным оценкам, в 2026 году от 20 до 40 процентов нового контента в интернете создаётся с участием генеративных моделей. А значит, и доля таких текстов в архивах будет расти с каждым годом.
Для тех, кто работает с восстановлением сайтов, это новая реальность, к которой нужно адаптироваться. Хорошая новость в том, что инструменты детекции тоже развиваются, и с каждым годом определять машинный текст становится проще. Плохая новость в том, что и модели генерации совершенствуются, и граница между человеческим и машинным текстом постепенно размывается.
В любом случае, проверка контента на AI-генерацию должна стать стандартной частью процесса восстановления сайтов. Это не занимает много времени, но может спасти от серьёзных проблем с индексацией в будущем.

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://archivarix.com/ru/blog/ai-content/

Расширение Archivarix Cache Viewer для Chrome и Firefox

Мы выпустили браузерное расширение Archivarix Cache Viewer. Оно доступно сразу для двух браузеров: Chrome и Firefox. Расширение бесплатное и без какой-либо рекламы.
Суть простая: быстрый доступ к кеш…

15 часов назад
AI-контент на восстановленных сайтах: как обнаружить и что с ним делать

Когда вы восстанавливаете сайт из Web Archive, вы ожидаете получить оригинальный контент, который когда-то был написан живыми людьми. Но если архивы сайта были сделаны после 2023 года, есть реальный ш…

1 день назад
Веб Архив в 2026 году: что изменилось и как это влияет на восстановление сайтов

В октябре 2025 года Wayback Machine достиг отметки в один триллион сохранённых веб-страниц. Более 100 000 терабайт данных. Это огромное достижение для некоммерческой организации, которая работает с 19…

1 неделя назад
Archivarix External Images Importer 2.0 - новая версия плагина для WordPress

Мы рады представить версию 2.0 нашего WordPress плагина для импорта внешних изображений. Это не просто обновление, плагин полностью переписан с нуля с учётом современных требований и отзывов пользоват…

2 недели назад
Купоны Black Friday & Cyber Monday

Дорогие друзья!
Black Friday и Cyber Monday - лучшее время для экономии на будущих восстановлении сайтов.
Если вы планируете восстанавливать сайты, пополнить баланс заранее или просто хотите получит…

2 месяца назад
Archivarix 8 лет!

Дорогие друзья!
Сегодня мы празднуем 8-летие сервиса Archivarix, и это повод сказать вам огромное спасибо!
Мы искренне рады, что вы выбрали наш сервис для восстановления сайтов из веб-архива. Многие…

4 месяца назад
7 лет Archivarix

Сегодня у нас особенный день — Archivarix празднует своё 7-летие! И мы хотим поблагодарить именно тебя за твоё доверие, идеи и обратную связь, которые помогли нам стать лучшими в деле восстановления с…

1 год назад
Всем кто ждал скидок на пополнение баланса!

Дорогие пользователи Archivarix, Поздравляем вас с наступающими праздниками и благодарим за то, что вы выбрали наш сервис для архивации и восстановления веб-сайтов!…

2 года назад
6 лет Archivarix

Наступил момент, когда мы гордимся не только своими достижениями, но и вашим участием в этом пути. В этом году Archivarix празднует своё 6-летие, и в первую очередь мы хотели бы выразить огромную благ…

2 года назад
Изменение цен

С 1 февраля 2023 года изменятся цены на восстановления и скачивания. Активируйте промо-код и получите бонус.…

3 года назад