Comment Archivarix agit-il?

Publié par: 2019-12-03

Le système Archivarix est conçu pour télécharger et restaurer les sites qui ne sont plus accessibles à partir de Web Archive et ceux qui sont actuellement en ligne. C'est la principale différence avec le reste des «téléchargeurs» et des «analyseurs de site». L'objectif d'Archivarix n'est pas seulement de télécharger, mais également de restaurer le site Web sous une forme qui le rendra accessible sur votre serveur.

Commençons par le module qui télécharge des sites Web à partir de Web Archive. Ce sont des serveurs virtuels situés en Californie. Leur emplacement a été choisi de manière à obtenir la vitesse de connexion maximale possible avec Web Archive elle-même, car ses serveurs sont situés à San Francisco. Une fois les données saisies dans le champ approprié de la page du module https://fr.archivarix.com/restore/, une capture d'écran du site Web archivé et l'adresse de l'API Web Archive pour demander une liste des fichiers contenus à la date de récupération spécifiée. 

Ayant reçu une réponse à la demande, le système génère un message avec l'analyse des données reçues. L'utilisateur n'a qu'à appuyer sur le bouton de confirmation dans le message reçu pour commencer à télécharger le site Web.

L'utilisation de l'API Web Archive offre deux avantages par rapport au téléchargement direct lorsque le script suit simplement les liens du site Web. Premièrement, tous les fichiers de cette récupération sont immédiatement connus, vous pouvez estimer le volume du site Web et le temps nécessaire pour le télécharger. En raison de la nature du fonctionnement de l'archive Web, elle fonctionne parfois de manière très instable, de sorte que des interruptions de connexion ou des téléchargements de fichiers incomplets sont possibles. Par conséquent, l'algorithme du module vérifie constamment l'intégrité des fichiers reçus. Dans ce cas, il tente de télécharger le contenu en se reconnectant à le serveur d'archives Web. Deuxièmement, en raison des particularités de l'indexation de sites Web par Web Archive, tous les fichiers de sites Web ne peuvent pas comporter de liens directs. En d'autres termes, lorsque vous essayez de télécharger un site Web simplement en suivant ces liens, ils ne sont pas disponibles. Par conséquent, la restauration via l’API d’archive Web utilisée par Archivarix permet de restaurer le maximum de contenu de site Web archivé pour une date donnée.

Une fois l'opération terminée, le module de téléchargement de Web Archive transfère les données au module de traitement. Il forme un site Web à partir des fichiers reçus, pouvant être installé sur un serveur Apache ou Nginx. Le fonctionnement du site Web est basé sur la base de données SQLite. Par conséquent, pour commencer, il vous suffit de le télécharger sur votre serveur. Aucune installation de modules supplémentaires, de bases de données MySQL et de création d'utilisateurs n'est requise. Le module de traitement optimise le site Web créé; il comprend l'optimisation de l'image, ainsi que la compression CSS et JS. Cela peut augmenter considérablement la vitesse de téléchargement du site Web restauré, par rapport au site Web d'origine. La vitesse de téléchargement de certains sites Wordpress non optimisés comportant de nombreux plug-ins et des fichiers multimédias non compressés peut être considérablement accrue après traitement par ce module. Il est évident que si le site Web avait été optimisé initialement, cela ne donnerait pas une augmentation importante de la vitesse de téléchargement.

Le module de traitement supprime les publicités, les compteurs et les analyses en comparant les fichiers reçus à une base de données étendue de fournisseurs de publicité et d’analyses. La suppression des liens externes et des contacts cliquables s'effectue simplement par code de contrôle. En général, cet algorithme effectue un nettoyage assez efficace du site Web des «traces du propriétaire précédent», bien que parfois cela n'exclue pas la nécessité de corriger manuellement quelque chose. Par exemple, un script Java auto-écrit redirigeant un utilisateur de site Web vers un certain site Web de monétisation ne sera pas supprimé par l'algorithme. Parfois, vous devez ajouter des images manquantes ou supprimer des résidus inutiles, en tant que livre d'or spammé. Par conséquent, il est nécessaire de recruter un éditeur du site Web résultant. Et ça existe déjà. Son nom est Archivarix CMS.

Il s'agit d'un système de gestion de contenu simple et compact conçu pour l'édition de sites Web créés par le système Archivarix. Il permet de rechercher et de remplacer du code sur l'ensemble du site à l'aide d'expressions régulières, d'éditer le contenu dans l'éditeur WYSIWYG, d'ajouter de nouvelles pages et de nouveaux fichiers. Archivarix CMS peut être utilisé avec n'importe quel autre CMS sur un site Web.

Parlons maintenant d’un autre module utilisé pour télécharger des sites Web existants. Contrairement au module de téléchargement de sites Web à partir de l’archive Web, il est impossible de prédire le nombre et le nombre de fichiers à télécharger. Les serveurs du module fonctionnent donc de manière complètement différente. Server Spider suit simplement tous les liens présents sur un site Web que vous allez télécharger. Pour que le script ne tombe pas dans le cycle de téléchargement sans fin d'une page générée automatiquement, la profondeur de lien maximale est limitée à dix clics. Et le nombre maximal de fichiers pouvant être téléchargés à partir du site Web doit être spécifié à l'avance.

Pour le téléchargement le plus complet possible du contenu dont vous avez besoin, plusieurs fonctionnalités ont été inventées dans ce module. Vous pouvez sélectionner un autre spider de service User-Agent, par exemple, Chrome Desktop ou Googlebot. Referrer for cloaking bypass - si vous devez télécharger exactement ce que l'utilisateur voit lorsqu'il est connecté à partir de la recherche, vous pouvez installer un référent Google, Yandex ou un autre site Web. Pour vous protéger contre les interdictions par IP, vous pouvez choisir de télécharger le site Web à l'aide du réseau Tor, pendant que l'adresse IP de l'araignée de service change de manière aléatoire sur ce réseau. D'autres paramètres, tels que l'optimisation de l'image, la suppression des publicités et les analyses, sont similaires aux paramètres du module de téléchargement à partir de l'archive Web.

Une fois le téléchargement terminé, le contenu est transféré dans le module de traitement. Ses principes de fonctionnement sont complètement similaires à ceux du fonctionnement avec le site Web téléchargé à partir des archives Web décrites ci-dessus.

Il convient également de mentionner la possibilité de cloner des sites Web restaurés ou téléchargés. Il arrive parfois que lors de la récupération, on ait choisi d'autres paramètres que ceux qui se sont avérés nécessaires à la fin. Par exemple, il était inutile de supprimer les liens externes et si vous en aviez besoin, vous n'avez pas besoin de recommencer à télécharger. Vous devez simplement définir de nouveaux paramètres sur la page de récupération et commencer à recréer le site.

 

L'utilisation de matériel d'article n'est autorisée que si le lien vers la source est publié: https://archivarix.com/fr/blog/how-does-it-works/

Dernières actualités:
2020.06.08
La première mise à jour de juin du CMS Archivarix avec de nouvelles fonctionnalités pratiques.
- Corrigé: la section Historique ne fonctionnait pas lorsque l'extension zip php n'était pas activée.
- Onglet Historique avec les détails des modifications lors de l'édition de fichiers texte.
- Outil d'édition .htaccess.
- Possibilité de nettoyer les sauvegardes au point de restauration souhaité.
- Le bloc "URL manquantes" a été supprimé des outils, car il est accessible depuis le panneau principal
- Ajout de la vérification et de l'affichage de l'espace disque libre dans le panneau principal.
- Amélioration de la vérification des extensions PHP nécessaires au démarrage et à l'installation initiale.
- Modifications cosmétiques mineures.
- Tous les outils externes mis à jour vers les dernières versions.
2020.05.21
Une mise à jour que les studios web et ceux qui utilisent l'externalisation apprécieront.
- Mot de passe séparé pour le mode sans échec.
- Mode sécurisé étendu. Vous pouvez maintenant créer des règles et des fichiers personnalisés, mais sans code exécutable.
- Réinstaller le site à partir du CMS sans avoir à supprimer manuellement quoi que ce soit du serveur.
- Possibilité de trier les règles personnalisées.
- Recherche et remplacement améliorés pour les très grands sites.
- Paramètres supplémentaires pour l'outil "Viewport meta tag".
- Prise en charge des domaines IDN sur l'hébergement avec l'ancienne version d'ICU.
- Dans l'installation initiale avec un mot de passe, la possibilité de se déconnecter est ajoutée.
- Si .htaccess est détecté lors de l'intégration avec WP, les règles Archivarix seront ajoutées à son début.
- Lors du téléchargement de sites par numéro de série, CDN est utilisé pour augmenter la vitesse.
- Autres améliorations et corrections mineures.
2020.05.12
Notre CMS Archivarix se développe à pas de géant. Nouvelle mise à jour dans laquelle est apparue:
- Nouveau tableau de bord pour afficher les statistiques, les paramètres du serveur et les mises à jour du système.
- Possibilité de créer des modèles et d'ajouter facilement de nouvelles pages au site.
- Intégration avec Wordpress et Joomla en un clic.
- Maintenant, dans Search-Substitution, un filtrage supplémentaire est effectué en tant que constructeur, où vous pouvez ajouter un nombre illimité de règles.
- Vous pouvez maintenant filtrer les résultats par domaine / sous-domaines, date-heure, taille de fichier.
- Un nouvel outil pour réinitialiser le cache dans Cloudlfare ou activer / désactiver le mode Dev.
- Un nouvel outil pour supprimer le versioning dans les URL, par exemple, "?ver=1.2.3" dans css ou js. Vous permet de réparer même les pages qui semblaient tordues dans WebArchive en raison du manque de styles avec différentes versions.
- L'outil robots.txt a la possibilité d'activer et d'ajouter immédiatement une carte Sitemap.
- Création automatique et manuelle de points de restauration pour les modifications.
- L'importation peut importer des modèles.
- L'enregistrement / importation des paramètres du chargeur contient les fichiers personnalisés créés.
- Pour toutes les actions qui peuvent durer plus longtemps qu'un timeout, une barre de progression s'affiche.
- Un outil pour ajouter une balise META viewport à toutes les pages d'un site.
- Les outils pour supprimer les liens et les images rompus ont la capacité de prendre en compte les fichiers sur le serveur.
- Un nouvel outil pour corriger les liens urlencode incorrects dans le code html. Rarement, mais peut être utile.
- Amélioration de l'outil URL manquant. Avec le nouveau chargeur, compte désormais les appels vers des URL inexistantes.
- Conseils Regex dans la recherche et la substitution.
- Amélioration de la vérification des extensions php manquantes.
- Mise à jour de tous les outils js utilisés vers les dernières versions.

Ceci et bien d'autres améliorations cosmétiques et optimisations de vitesse.
2020.02.14
Nouveau vendredi, nouvelles mises à jour!
Beaucoup de nouveautés et d'utilités ont été réalisées dans Archivarix CMS:
- Dans Rechercher et remplacer, vous pouvez désormais filtrer par date d'URL.
- Désormais, les liens externes de toutes les pages du site peuvent être supprimés en cliquant sur un bouton. Les ancres sont conservées.
- Un nouveau paramètre ACMS_SAFE_MODE, qui interdit de modifier les paramètres Loader / CMS et de charger des fichiers personnalisés, il est également interdit pour les importations d'importer des paramètres et des fichiers personnalisés.
- Paramètres du chargeur et du CMS Les fichiers JSON peuvent maintenant être téléchargés sur votre ordinateur et téléchargés sur le CMS à partir d'un fichier sur votre ordinateur. Ainsi, le transfert des paramètres vers d'autres sites est devenu encore plus facile.
- La création de règles personnalisées est devenue plus pratique, il existe souvent des modèles que vous pouvez choisir.
- De nouveaux fichiers personnalisés peuvent être créés dans le gestionnaire de fichiers sans avoir à télécharger le fichier.
- L'arborescence d'URL pour le domaine principal vient toujours en premier.
- Si vous masquez l'arborescence des URL du domaine / sous-domaine, ce paramètre est enregistré lorsque vous travaillez avec le CMS.
- Au lieu de deux boutons, ouvrez / réduisez l'arborescence des URL, maintenant celui qui peut faire les deux.
- La création d'une nouvelle URL a été simplifiée et lors de la création, vous pouvez immédiatement spécifier le fichier depuis l'ordinateur.
- Dans la disposition mobile, la partie principale de travail vient en premier.
- Après chaque manipulation du fichier, sa taille est mise à jour dans la base de données.
- Boutons fixes pour les annulations sélectives de l'historique.
- Correction de la création de nouvelles URL pour les sous-domaines contenant des numéros dans le nom de domaine.
2020.02.07
Nouvelle portion de mises à jour!
Il n'est pas nécessaire de modifier quoi que ce soit dans le code source des fichiers maintenant.
- Vous pouvez désormais télécharger des sites sur le serveur en téléchargeant sur le serveur un seul script à partir de notre CMS Archivarix.
- Pour changer quelque chose dans les paramètres du CMS, vous n'avez plus besoin d'ouvrir son code source. Vous pouvez définir un mot de passe ou des limites inférieures directement à partir de la section Paramètres.
- Pour connecter vos compteurs, trackers, scripts personnalisés, un dossier séparé "comprend" est désormais utilisé dans le dossier .content.xxxxxx. Vous pouvez également télécharger des fichiers personnalisés directement via le nouveau gestionnaire de fichiers dans CMS. L'ajout de compteurs et d'analyses à toutes les pages du site est également devenu pratique et compréhensible.
- Les importations prennent en charge une nouvelle structure de fichiers avec des paramètres et le dossier "comprend".
- Ajout de raccourcis clavier pour travailler dans l'éditeur de code.

Ces améliorations et bien d'autres dans la nouvelle version. Le chargeur a également été mis à jour et fonctionne avec les paramètres créés par le CMS.