Comment Archivarix agit-il?

Publié par: 2019-12-03

Le système Archivarix est conçu pour télécharger et restaurer les sites qui ne sont plus accessibles à partir de Web Archive et ceux qui sont actuellement en ligne. C'est la principale différence avec le reste des «téléchargeurs» et des «analyseurs de site». L'objectif d'Archivarix n'est pas seulement de télécharger, mais également de restaurer le site Web sous une forme qui le rendra accessible sur votre serveur.

Commençons par le module qui télécharge des sites Web à partir de Web Archive. Ce sont des serveurs virtuels situés en Californie. Leur emplacement a été choisi de manière à obtenir la vitesse de connexion maximale possible avec Web Archive elle-même, car ses serveurs sont situés à San Francisco. Une fois les données saisies dans le champ approprié de la page du module https://fr.archivarix.com/restore/, une capture d'écran du site Web archivé et l'adresse de l'API Web Archive pour demander une liste des fichiers contenus à la date de récupération spécifiée. 

Ayant reçu une réponse à la demande, le système génère un message avec l'analyse des données reçues. L'utilisateur n'a qu'à appuyer sur le bouton de confirmation dans le message reçu pour commencer à télécharger le site Web.

L'utilisation de l'API Web Archive offre deux avantages par rapport au téléchargement direct lorsque le script suit simplement les liens du site Web. Premièrement, tous les fichiers de cette récupération sont immédiatement connus, vous pouvez estimer le volume du site Web et le temps nécessaire pour le télécharger. En raison de la nature du fonctionnement de l'archive Web, elle fonctionne parfois de manière très instable, de sorte que des interruptions de connexion ou des téléchargements de fichiers incomplets sont possibles. Par conséquent, l'algorithme du module vérifie constamment l'intégrité des fichiers reçus. Dans ce cas, il tente de télécharger le contenu en se reconnectant à le serveur d'archives Web. Deuxièmement, en raison des particularités de l'indexation de sites Web par Web Archive, tous les fichiers de sites Web ne peuvent pas comporter de liens directs. En d'autres termes, lorsque vous essayez de télécharger un site Web simplement en suivant ces liens, ils ne sont pas disponibles. Par conséquent, la restauration via l’API d’archive Web utilisée par Archivarix permet de restaurer le maximum de contenu de site Web archivé pour une date donnée.

Une fois l'opération terminée, le module de téléchargement de Web Archive transfère les données au module de traitement. Il forme un site Web à partir des fichiers reçus, pouvant être installé sur un serveur Apache ou Nginx. Le fonctionnement du site Web est basé sur la base de données SQLite. Par conséquent, pour commencer, il vous suffit de le télécharger sur votre serveur. Aucune installation de modules supplémentaires, de bases de données MySQL et de création d'utilisateurs n'est requise. Le module de traitement optimise le site Web créé; il comprend l'optimisation de l'image, ainsi que la compression CSS et JS. Cela peut augmenter considérablement la vitesse de téléchargement du site Web restauré, par rapport au site Web d'origine. La vitesse de téléchargement de certains sites Wordpress non optimisés comportant de nombreux plug-ins et des fichiers multimédias non compressés peut être considérablement accrue après traitement par ce module. Il est évident que si le site Web avait été optimisé initialement, cela ne donnerait pas une augmentation importante de la vitesse de téléchargement.

Le module de traitement supprime les publicités, les compteurs et les analyses en comparant les fichiers reçus à une base de données étendue de fournisseurs de publicité et d’analyses. La suppression des liens externes et des contacts cliquables s'effectue simplement par code de contrôle. En général, cet algorithme effectue un nettoyage assez efficace du site Web des «traces du propriétaire précédent», bien que parfois cela n'exclue pas la nécessité de corriger manuellement quelque chose. Par exemple, un script Java auto-écrit redirigeant un utilisateur de site Web vers un certain site Web de monétisation ne sera pas supprimé par l'algorithme. Parfois, vous devez ajouter des images manquantes ou supprimer des résidus inutiles, en tant que livre d'or spammé. Par conséquent, il est nécessaire de recruter un éditeur du site Web résultant. Et ça existe déjà. Son nom est Archivarix CMS.

Il s'agit d'un système de gestion de contenu simple et compact conçu pour l'édition de sites Web créés par le système Archivarix. Il permet de rechercher et de remplacer du code sur l'ensemble du site à l'aide d'expressions régulières, d'éditer le contenu dans l'éditeur WYSIWYG, d'ajouter de nouvelles pages et de nouveaux fichiers. Archivarix CMS peut être utilisé avec n'importe quel autre CMS sur un site Web.

Parlons maintenant d’un autre module utilisé pour télécharger des sites Web existants. Contrairement au module de téléchargement de sites Web à partir de l’archive Web, il est impossible de prédire le nombre et le nombre de fichiers à télécharger. Les serveurs du module fonctionnent donc de manière complètement différente. Server Spider suit simplement tous les liens présents sur un site Web que vous allez télécharger. Pour que le script ne tombe pas dans le cycle de téléchargement sans fin d'une page générée automatiquement, la profondeur de lien maximale est limitée à dix clics. Et le nombre maximal de fichiers pouvant être téléchargés à partir du site Web doit être spécifié à l'avance.

Pour le téléchargement le plus complet possible du contenu dont vous avez besoin, plusieurs fonctionnalités ont été inventées dans ce module. Vous pouvez sélectionner un autre spider de service User-Agent, par exemple, Chrome Desktop ou Googlebot. Referrer for cloaking bypass - si vous devez télécharger exactement ce que l'utilisateur voit lorsqu'il est connecté à partir de la recherche, vous pouvez installer un référent Google, Yandex ou un autre site Web. Pour vous protéger contre les interdictions par IP, vous pouvez choisir de télécharger le site Web à l'aide du réseau Tor, pendant que l'adresse IP de l'araignée de service change de manière aléatoire sur ce réseau. D'autres paramètres, tels que l'optimisation de l'image, la suppression des publicités et les analyses, sont similaires aux paramètres du module de téléchargement à partir de l'archive Web.

Une fois le téléchargement terminé, le contenu est transféré dans le module de traitement. Ses principes de fonctionnement sont complètement similaires à ceux du fonctionnement avec le site Web téléchargé à partir des archives Web décrites ci-dessus.

Il convient également de mentionner la possibilité de cloner des sites Web restaurés ou téléchargés. Il arrive parfois que lors de la récupération, on ait choisi d'autres paramètres que ceux qui se sont avérés nécessaires à la fin. Par exemple, il était inutile de supprimer les liens externes et si vous en aviez besoin, vous n'avez pas besoin de recommencer à télécharger. Vous devez simplement définir de nouveaux paramètres sur la page de récupération et commencer à recréer le site.

 

L'utilisation de matériel d'article n'est autorisée que si le lien vers la source est publié: https://archivarix.com/fr/blog/how-does-it-works/

Dernières actualités:
2020.11.03
La nouvelle version de CMS est devenue plus pratique et compréhensible pour les webmasters du monde entier.

- Localisation complète du CMS Archivarix en 13 langues (anglais, espagnol, italien, allemand, français, portugais, polonais, turc, japonais, chinois, russe, ukrainien, biélorusse).
- Exportez toutes les données actuelles du site vers une archive zip pour enregistrer une sauvegarde ou un transfert vers un autre site.
- Afficher et supprimer les archives zip cassées dans les outils d'importation.
- Vérification de la version PHP lors de l'installation.
- Informations pour l'installation de CMS sur un serveur avec NGINX PHP-FPM.
- Dans la recherche, lorsque le mode expert est activé, la date / heure de la page et un lien vers sa copie dans le WebArchive sont affichés.
- Améliorations de l'interface utilisateur.
- Optimisation du code.

Si vous êtes un locuteur natif d'une langue dans laquelle notre CMS n'a pas encore été traduit, nous vous invitons à améliorer encore notre produit. Via le service Crowdin, vous pouvez postuler et devenir notre traducteur officiel dans de nouvelles langues.
2020.10.06
Nouvelle version du CMS Archivarix.
- Prise en charge de l'interface de ligne de commande pour le déploiement de sites Web directement à partir de la ligne de commande, des importations, des paramètres, des statistiques, de la suppression de l'historique et des mises à jour du système.
- Prise en charge des mots de passe cryptés password_hash (), qui peuvent être utilisés dans la CLI.
- Mode expert pour inclure des informations de débogage supplémentaires, des outils expérimentaux et des liens directs vers des instantanés WebArchive enregistrés.
- Les outils pour les images internes et les liens brisés peuvent désormais renvoyer une liste de toutes les URL manquantes au lieu de les supprimer.
- L'outil d'importation affiche les fichiers zip corrompus / incomplets qui peuvent être supprimés.
- Amélioration de la prise en charge des cookies pour répondre aux exigences des navigateurs modernes.
- Définition du choix de l'éditeur par défaut pour les pages HTML (éditeur visuel ou code).
- L'onglet «Modifications» affichant les différences de texte, désactivé par défaut, peut être activé dans les paramètres.
- Vous pouvez revenir à une modification spécifique dans l'onglet "Modifications".
- Correction de l'url du plan de site XML pour les sites Web créés avec le sous-domaine www.
- Correction de la suppression des fichiers temporaires créés lors de l'installation / importation.
- Nettoyage plus rapide de l'histoire.
- Suppression des phrases de localisation inutilisées.
- Changement de langue sur l'écran de connexion.
- Mise à jour des packages externes vers les versions les plus récentes.
- Utilisation de la mémoire optimisée pour le calcul des différences de texte dans l'onglet Modifications.
- Prise en charge améliorée des anciennes versions de l'extension php-dom.
- Un outil expérimental pour corriger la taille des fichiers dans la base de données si vous éditez les fichiers directement sur le serveur.
- Un outil d'export de design plat expérimental et très grossier.
- Prise en charge expérimentale de la clé publique pour les futures fonctions de l'API.
2020.06.08
La première mise à jour de juin du CMS Archivarix avec de nouvelles fonctionnalités pratiques.
- Corrigé: la section Historique ne fonctionnait pas lorsque l'extension zip php n'était pas activée.
- Onglet Historique avec les détails des modifications lors de l'édition de fichiers texte.
- Outil d'édition .htaccess.
- Possibilité de nettoyer les sauvegardes au point de restauration souhaité.
- Le bloc "URL manquantes" a été supprimé des outils, car il est accessible depuis le panneau principal
- Ajout de la vérification et de l'affichage de l'espace disque libre dans le panneau principal.
- Amélioration de la vérification des extensions PHP nécessaires au démarrage et à l'installation initiale.
- Modifications cosmétiques mineures.
- Tous les outils externes mis à jour vers les dernières versions.
2020.05.21
Une mise à jour que les studios web et ceux qui utilisent l'externalisation apprécieront.
- Mot de passe séparé pour le mode sans échec.
- Mode sécurisé étendu. Vous pouvez maintenant créer des règles et des fichiers personnalisés, mais sans code exécutable.
- Réinstaller le site à partir du CMS sans avoir à supprimer manuellement quoi que ce soit du serveur.
- Possibilité de trier les règles personnalisées.
- Recherche et remplacement améliorés pour les très grands sites.
- Paramètres supplémentaires pour l'outil "Viewport meta tag".
- Prise en charge des domaines IDN sur l'hébergement avec l'ancienne version d'ICU.
- Dans l'installation initiale avec un mot de passe, la possibilité de se déconnecter est ajoutée.
- Si .htaccess est détecté lors de l'intégration avec WP, les règles Archivarix seront ajoutées à son début.
- Lors du téléchargement de sites par numéro de série, CDN est utilisé pour augmenter la vitesse.
- Autres améliorations et corrections mineures.
2020.05.12
Notre CMS Archivarix se développe à pas de géant. Nouvelle mise à jour dans laquelle est apparue:
- Nouveau tableau de bord pour afficher les statistiques, les paramètres du serveur et les mises à jour du système.
- Possibilité de créer des modèles et d'ajouter facilement de nouvelles pages au site.
- Intégration avec Wordpress et Joomla en un clic.
- Maintenant, dans Search-Substitution, un filtrage supplémentaire est effectué en tant que constructeur, où vous pouvez ajouter un nombre illimité de règles.
- Vous pouvez maintenant filtrer les résultats par domaine / sous-domaines, date-heure, taille de fichier.
- Un nouvel outil pour réinitialiser le cache dans Cloudlfare ou activer / désactiver le mode Dev.
- Un nouvel outil pour supprimer le versioning dans les URL, par exemple, "?ver=1.2.3" dans css ou js. Vous permet de réparer même les pages qui semblaient tordues dans WebArchive en raison du manque de styles avec différentes versions.
- L'outil robots.txt a la possibilité d'activer et d'ajouter immédiatement une carte Sitemap.
- Création automatique et manuelle de points de restauration pour les modifications.
- L'importation peut importer des modèles.
- L'enregistrement / importation des paramètres du chargeur contient les fichiers personnalisés créés.
- Pour toutes les actions qui peuvent durer plus longtemps qu'un timeout, une barre de progression s'affiche.
- Un outil pour ajouter une balise META viewport à toutes les pages d'un site.
- Les outils pour supprimer les liens et les images rompus ont la capacité de prendre en compte les fichiers sur le serveur.
- Un nouvel outil pour corriger les liens urlencode incorrects dans le code html. Rarement, mais peut être utile.
- Amélioration de l'outil URL manquant. Avec le nouveau chargeur, compte désormais les appels vers des URL inexistantes.
- Conseils Regex dans la recherche et la substitution.
- Amélioration de la vérification des extensions php manquantes.
- Mise à jour de tous les outils js utilisés vers les dernières versions.

Ceci et bien d'autres améliorations cosmétiques et optimisations de vitesse.