Come funziona Archivarix?

Postato da: 2019-12-03

Il sistema Archivarix è progettato per scaricare e ripristinare siti non più accessibili da Web Archive e quelli attualmente online. Questa è la differenza principale rispetto al resto dei "downloader" e dei "parser del sito". L'obiettivo di Archivarix non è solo quello di scaricare, ma anche di ripristinare il sito Web in una forma che sarà accessibile sul tuo server.

Cominciamo con il modulo che scarica i siti Web da Web Archive. Questi sono server virtuali situati in California. La loro posizione è stata scelta in modo tale da ottenere la massima velocità di connessione possibile con il Web Archive stesso, poiché i suoi server si trovano a San Francisco. Dopo aver inserito i dati nell'apposito campo nella pagina del modulo https://it.archivarix.com/restore/, prende uno screenshot del sito Web archiviato e si rivolge all'API Web Archive per richiedere un elenco di file contenuti nella data di recupero specificata .

Dopo aver ricevuto una risposta alla richiesta, il sistema genera un messaggio con l'analisi dei dati ricevuti. L'utente deve solo premere il pulsante di conferma nel messaggio ricevuto per iniziare a scaricare il sito Web.

L'uso dell'API Web Archive offre due vantaggi rispetto al download diretto quando lo script segue semplicemente i collegamenti del sito Web. Innanzitutto, tutti i file di questo recupero sono immediatamente noti, è possibile stimare il volume del sito Web e il tempo necessario per scaricarlo. A causa della natura dell'operazione Web Archive, a volte funziona in modo molto instabile, quindi sono possibili interruzioni della connessione o download incompleto dei file, pertanto l'algoritmo del modulo verifica costantemente l'integrità dei file ricevuti e in tali casi tenta di scaricare il contenuto ricollegandosi a il server Web Archive. In secondo luogo, a causa delle peculiarità dell'indicizzazione del sito Web tramite Web Archive, non tutti i file del sito Web possono avere collegamenti diretti, il che significa che quando si tenta di scaricare un sito Web semplicemente seguendo i collegamenti, questi non saranno disponibili. Pertanto, il ripristino tramite l'API Web Archive utilizzata da Archivarix consente di ripristinare la massima quantità possibile di contenuto del sito Web archiviato per una data specifica.

Dopo aver completato l'operazione, il modulo di download dall'archivio Web trasferisce i dati al modulo di elaborazione. Forma un sito Web dai file ricevuti adatto per l'installazione su server Apache o Nginx. Il funzionamento del sito Web si basa sul database SQLite, quindi per iniziare è sufficiente caricarlo sul server e non è necessaria l'installazione di moduli aggiuntivi, database MySQL e la creazione dell'utente. Il modulo di elaborazione ottimizza il sito Web creato; include l'ottimizzazione delle immagini, nonché la compressione CSS e JS. Potrebbe aumentare significativamente la velocità di download del sito Web ripristinato, se confrontato con il sito Web originale. La velocità di download di alcuni siti Wordpress non ottimizzati con un sacco di plugin e file multimediali non compressi può essere notevolmente aumentata dopo l'elaborazione da questo modulo. È ovvio che se il sito Web è stato inizialmente ottimizzato, ciò non aumenterà notevolmente la velocità di download.

Il modulo di elaborazione rimuove la pubblicità, i contatori e le analisi controllando i file ricevuti rispetto a un ampio database di fornitori di pubblicità e analisi. La rimozione di collegamenti esterni e contatti cliccabili avviene semplicemente tramite il codice di checksum. In generale, questo algoritmo esegue una pulizia abbastanza efficiente del sito Web delle "tracce del precedente proprietario", sebbene a volte ciò non escluda la necessità di correggere manualmente qualcosa. Ad esempio, l'algoritmo non eliminerà uno script Java auto-scritto che reindirizza l'utente del sito Web a un determinato sito Web di monetizzazione. A volte è necessario aggiungere immagini mancanti o rimuovere residui non necessari, come libro degli ospiti spammato. Pertanto, è necessario assumere un editor del sito Web risultante. Ed esiste già. Si chiama Archivarix CMS.

Questo è un CMS semplice e compatto progettato per la modifica di siti Web creati dal sistema Archivarix. Permette di cercare e sostituire il codice in tutto il sito Web usando espressioni regolari, modificando il contenuto nell'editor WYSIWYG, aggiungendo nuove pagine e file. Archivarix CMS può essere utilizzato insieme a qualsiasi altro CMS su un sito Web.

Parliamo ora di altri moduli utilizzati per il download di siti Web esistenti. A differenza del modulo per il download di siti Web dall'archivio Web, è impossibile prevedere quanti e quali file è necessario scaricare, quindi i server del modulo funzionano in un modo completamente diverso. Server spider segue semplicemente tutti i collegamenti presenti su un sito Web che si intende scaricare. Affinché lo script non rientri nel ciclo infinito di download di qualsiasi pagina generata automaticamente, la profondità massima del collegamento è limitata a dieci clic. E il numero massimo di file che è possibile scaricare dal sito Web deve essere specificato in anticipo.

Per il download più completo del contenuto di cui hai bisogno, ci sono diverse funzionalità che sono state inventate in questo modulo. Puoi selezionare un altro spider del servizio User-Agent, ad esempio Chrome Desktop o Googlebot. Referrer per il cloaking bypass: se devi scaricare esattamente ciò che l'utente vede quando ha effettuato l'accesso dalla ricerca, puoi installare un referrer di Google, Yandex o di altri siti web. Al fine di proteggere dal divieto tramite IP, è possibile scegliere di scaricare il sito Web utilizzando la rete Tor, mentre l'IP del servizio spider cambia casualmente all'interno di questa rete. Altri parametri, come l'ottimizzazione delle immagini, la rimozione degli annunci e l'analisi sono simili ai parametri del modulo di download dal Web Archive.

Al termine del download, il contenuto viene trasferito al modulo di elaborazione. I suoi principi di funzionamento sono completamente simili all'operazione con il sito Web scaricato dall'Archivio Web sopra descritto.

Vale anche la pena menzionare la possibilità di clonare siti Web ripristinati o scaricati. A volte capita che durante il recupero, si siano scelti altri parametri rispetto a quelli che si sono rivelati necessari alla fine. Ad esempio, la rimozione di collegamenti esterni non era necessaria e alcuni collegamenti esterni necessari, quindi non è necessario ricominciare a scaricare. Hai solo bisogno di impostare nuovi parametri nella pagina di recupero e iniziare a ricreare il sito.

 

L'uso del materiale dell'articolo è consentito solo se la fonte è pubblicata: https://archivarix.com/it/blog/how-does-it-works/

Ultime notizie:
2020.06.08
Il primo aggiornamento di giugno di Archivarix CMS con nuove funzionalità utili.
- Risolto: la sezione Cronologia non funzionava se l'estensione php zip non era abilitata.
- Scheda Cronologia con i dettagli delle modifiche durante la modifica dei file di testo.
- Strumento di modifica .htaccess.
- Possibilità di ripulire i backup fino al punto di rollback desiderato.
- Il blocco "URL mancanti" è stato rimosso dagli Strumenti, come è accessibile dal pannello principale
- Aggiunto controllo e visualizzazione dello spazio libero su disco nel pannello principale.
- Miglioramento della verifica delle estensioni PHP necessarie all'avvio e all'installazione iniziale.
- Piccoli cambiamenti estetici.
- Tutti gli strumenti esterni aggiornati alle ultime versioni.
2020.05.21
Un aggiornamento apprezzato dagli studi Web e da coloro che utilizzano l'outsourcing.
- Password separata per la modalità sicura.
- Modalità di sicurezza estesa. Ora puoi creare regole e file personalizzati, ma senza codice eseguibile.
- Reinstallazione del sito dal CMS senza dover eliminare manualmente nulla dal server.
- Possibilità di ordinare regole personalizzate.
- Ricerca e sostituzione migliorate per siti molto grandi.
- Impostazioni aggiuntive per lo strumento "View tag meta tag"
- Supporto per domini IDN sull'hosting con la vecchia versione di ICU.
- Nell'installazione iniziale con una password, viene aggiunta la possibilità di disconnettersi.
- Se .htaccess viene rilevato durante l'integrazione con WP, le regole di Archivarix verranno aggiunte all'inizio.
- Quando si scaricano siti per numero di serie, la CDN viene utilizzata per aumentare la velocità.
- Altri miglioramenti e correzioni minori.
2020.05.12
Il nostro CMS Archivarix si sta sviluppando a passi da gigante. Nuovo aggiornamento in cui è apparso:
- Nuova dashboard per la visualizzazione di statistiche, impostazioni del server e aggiornamenti di sistema.
- Possibilità di creare modelli e aggiungere comodamente nuove pagine al sito.
- Integrazione con Wordpress e Joomla in un clic.
- Ora in Ricerca-sostituzione, il filtro aggiuntivo viene eseguito come costruttore, in cui è possibile aggiungere un numero qualsiasi di regole.
- Ora puoi filtrare i risultati per dominio / sottodomini, data-ora, dimensione del file.
- Un nuovo strumento per ripristinare la cache in Cloudlfare o abilitare / disabilitare la modalità Dev.
- Un nuovo strumento per rimuovere il controllo delle versioni negli URL, ad esempio "?ver=1.2.3" in css o js. Ti consente di riparare anche quelle pagine che sembravano storte nel WebArchive a causa della mancanza di stili con versioni diverse.
- Lo strumento robots.txt ha la possibilità di abilitare e aggiungere immediatamente una mappa Sitemap.
- Creazione automatica e manuale di punti di rollback per le modifiche.
- L'importazione può importare modelli.
- Il salvataggio / importazione delle impostazioni del caricatore contiene i file personalizzati creati.
- Per tutte le azioni che possono durare più a lungo di un timeout, viene visualizzata una barra di avanzamento.
- Uno strumento per aggiungere un meta tag viewport a tutte le pagine di un sito.
- Gli strumenti per la rimozione di collegamenti e immagini interrotti hanno la capacità di tenere conto dei file sul server.
- Un nuovo strumento per correggere collegamenti urlencode errati nel codice HTML. Raramente, ma può tornare utile.
- Miglioramento dello strumento per gli URL mancanti. Insieme al nuovo caricatore, ora conta le chiamate a URL inesistenti.
- Suggerimenti Regex in Ricerca e Sostituzione.
- Controllo migliorato per le estensioni php mancanti.
- Aggiornato tutti gli strumenti js usati alle ultime versioni.

Questo e molti altri miglioramenti cosmetici e ottimizzazioni della velocità.
2020.02.14
Nuovo venerdì, nuovi aggiornamenti!
Molto nuovo e utile è stato fatto in Archivarix CMS:
- In Cerca e sostituisci, ora puoi filtrare per data URL.
- Ora i collegamenti esterni da tutte le pagine del sito possono essere rimossi con un clic di un pulsante. Le ancore sono preservate.
- Un nuovo parametro ACMS_SAFE_MODE, che vieta la modifica delle impostazioni Loader / CMS e il caricamento di file personalizzati, è inoltre vietato alle importazioni importare impostazioni e file personalizzati.
- I file delle impostazioni JSON per Loader e CMS ora possono essere scaricati sul computer e scaricati sul CMS da un file sul computer. Pertanto, il trasferimento delle impostazioni su altri siti è diventato ancora più semplice.
- La creazione di regole personalizzate è diventata più conveniente, ci sono spesso motivi usati che puoi scegliere.
- È possibile creare nuovi file personalizzati nel file manager senza dover scaricare il file.
- L'albero degli URL per il dominio principale viene sempre per primo.
- Se nascondi l'albero degli URL per il dominio / sottodominio, questa impostazione viene salvata mentre lavori con il CMS.
- Invece di due pulsanti, apri / comprimi l'albero degli URL, ora uno che può fare entrambi.
- La creazione di un nuovo URL è stata semplificata e durante la creazione è possibile specificare immediatamente il file dal computer.
- Nel layout mobile, la parte principale di lavoro viene prima di tutto.
- Dopo ogni manipolazione del file, le sue dimensioni vengono aggiornate nel database.
- Corretti pulsanti per rollback cronologici selettivi.
- Risolto il problema con la creazione di nuovi URL per sottodomini che contenevano numeri nel nome di dominio.
2020.02.07
Nuova porzione di aggiornamenti!
Non è necessario modificare nulla nel codice sorgente dei file ora.
- Ora puoi caricare siti sul server caricando sul server solo uno script dal nostro CMS Archivarix.
- Per modificare qualcosa nelle impostazioni CMS, non è più necessario aprire il suo codice sorgente. È possibile impostare una password o limiti inferiori direttamente dalla sezione Impostazioni.
- Per connettere contatori, tracker, script personalizzati, ora viene utilizzata una cartella "include" separata all'interno della cartella .content.xxxxxx. Puoi anche caricare file personalizzati direttamente tramite il nuovo file manager in CMS. L'aggiunta di contatori e analisi a tutte le pagine del sito è diventata anche conveniente e comprensibile.
- Le importazioni supportano una nuova struttura di file con impostazioni e la cartella "include".
- Aggiunte scorciatoie da tastiera per lavorare nell'editor di codice.

Questi e molti altri miglioramenti nella nuova versione. Anche il caricatore è stato aggiornato e funziona con le impostazioni create dal CMS.