Como o Archivarix funciona?

Postado por: 2019-12-03

O sistema Archivarix foi projetado para baixar e restaurar sites que não são mais acessíveis no Web Archive e aqueles que estão atualmente online. Essa é a principal diferença do restante dos "downloaders" e "site parsers". O objetivo do Archivarix não é apenas fazer o download, mas também restaurar o site de uma forma que seja acessível no seu servidor.

Vamos começar com o módulo que baixa sites da Web Archive. Estes são servidores virtuais localizados na Califórnia. Sua localização foi escolhida de forma a obter a velocidade máxima de conexão possível com o próprio Web Archive, porque seus servidores estão localizados em São Francisco. Depois de inserir dados no campo apropriado na página do módulo https://pt.archivarix.com/restore/, a captura de tela do site arquivado e endereça a API de arquivamento da Web para solicitar uma lista de arquivos contidos na data de recuperação especificada .

Após receber uma resposta à solicitação, o sistema gera uma mensagem com a análise dos dados recebidos. O usuário só precisa pressionar o botão de confirmação na mensagem recebida para iniciar o download do site.

O uso da API de arquivamento da Web oferece duas vantagens sobre o download direto quando o script simplesmente segue os links do site. Primeiro, todos os arquivos dessa recuperação são imediatamente conhecidos; você pode estimar o volume do site e o tempo necessário para fazer o download. Devido à natureza da operação de arquivamento da Web, algumas vezes funciona muito instável, de modo que são possíveis quebras de conexão ou download incompleto de arquivos; portanto, o algoritmo do módulo verifica constantemente a integridade dos arquivos recebidos e, nesses casos, tenta baixar o conteúdo reconectando-se a o servidor de arquivamento da Web. Segundo, devido às peculiaridades da indexação de sites pelo Web Archive, nem todos os arquivos de sites podem ter links diretos, o que significa que quando você tenta baixar um site simplesmente seguindo os links, eles ficam indisponíveis. Portanto, a restauração por meio da API de arquivamento da Web usada pelo Archivarix possibilita restaurar a quantidade máxima possível de conteúdo arquivado do site por uma data especificada.

Após a conclusão da operação, o módulo de download do Web Archive transfere dados para o módulo de processamento. Ele forma um site a partir dos arquivos recebidos adequados para instalação no servidor Apache ou Nginx. A operação do site é baseada no banco de dados SQLite, portanto, para começar, basta carregá-lo no servidor e não é necessário instalar módulos adicionais, bancos de dados MySQL e criação de usuários. O módulo de processamento otimiza o site criado; inclui otimização de imagem, além de compactação CSS e JS. Isso pode aumentar significativamente a velocidade de download do site restaurado, se comparado ao site original. A velocidade de download de alguns sites Wordpress não otimizados com vários plugins e arquivos de mídia não compactados pode ser significativamente aumentada após o processamento por este módulo. É óbvio que, se o site foi otimizado inicialmente, isso não dará um grande aumento na velocidade de download.

O módulo de processamento remove publicidade, contadores e análises, verificando os arquivos recebidos em um extenso banco de dados de fornecedores de publicidade e análise. A remoção de links externos e contatos clicáveis ​​ocorre simplesmente por código de soma de verificação. Em geral, esse algoritmo realiza uma limpeza bastante eficiente do site de “vestígios do proprietário anterior”, embora às vezes isso não exclua a necessidade de corrigir algo manualmente. Por exemplo, um script Java auto-escrito que redireciona o usuário do site para um determinado site de monetização não será excluído pelo algoritmo. Às vezes, você precisa adicionar fotos ausentes ou remover resíduos desnecessários, como um livro de visitas com spam. Portanto, é necessário contratar um editor do site resultante. E isso já existe. Seu nome é Archivarix CMS.

Este é um CMS simples e compacto projetado para editar sites criados pelo sistema Archivarix. Permite pesquisar e substituir código em todo o site usando expressões regulares, editando o conteúdo no editor WYSIWYG, adicionando novas páginas e arquivos. O Archivarix CMS pode ser usado junto com qualquer outro CMS em um site.

Agora vamos falar sobre outro módulo usado para baixar sites existentes. Ao contrário do módulo para baixar sites do Web Archive, é impossível prever quantos e quais arquivos você precisa baixar, para que os servidores do módulo funcionem de uma maneira completamente diferente. O Server spider simplesmente segue todos os links presentes em um site que você irá baixar. Para que o script não caia no ciclo de download interminável de qualquer página gerada automaticamente, a profundidade máxima do link é limitada a dez cliques. E o número máximo de arquivos que podem ser baixados do site deve ser especificado com antecedência.

Para o download mais completo do conteúdo que você precisa, existem vários recursos que foram inventados neste módulo. Você pode selecionar uma aranha de serviço de agente de usuário diferente, por exemplo, Chrome Desktop ou Googlebot. Referenciador para desvio de camuflagem - se você precisar fazer o download exato do que o usuário vê ao fazer login na pesquisa, poderá instalar um referenciador do Google, Yandex ou outro site. Para se proteger contra o banimento por IP, você pode optar por baixar o site usando a rede Tor, enquanto o IP do serviço da aranha muda aleatoriamente nessa rede. Outros parâmetros, como otimização de imagens, remoção de anúncios e análises, são semelhantes aos parâmetros do módulo de download do Web Archive.

Após a conclusão do download, o conteúdo é transferido para o módulo de processamento. Seus princípios de operação são completamente semelhantes aos da operação com o site baixado do Web Archive descrito acima.

Também vale mencionar a possibilidade de clonar sites restaurados ou baixados. Às vezes acontece que durante a recuperação, um escolheu outros parâmetros que, no final, eram necessários. Por exemplo, a remoção de links externos era desnecessária e, para alguns links externos, você não precisava iniciar o download novamente. Você só precisa definir novos parâmetros na página de recuperação e começar a recriar o site.

 

O uso de materiais de artigo é permitido apenas se o link para a fonte for publicado: https://archivarix.com/pt/blog/how-does-it-works/

Últimas notícias:
2020.11.03
A nova versão do CMS tornou-se mais conveniente e compreensível para webmasters de todo o mundo.

- Localização completa do Archivarix CMS em 13 idiomas (inglês, espanhol, italiano, alemão, francês, português, polonês, turco, japonês, chinês, russo, ucraniano, bielorrusso).
- Exportar todos os dados atuais do site para um arquivo zip para salvar um backup ou transferir para outro site.
- Mostra e remove arquivos zip quebrados nas ferramentas de importação.
- Verificação da versão do PHP durante a instalação.
- Informações para instalar o CMS em um servidor com NGINX PHP-FPM.
- Na busca, quando o modo especialista está ligado, são exibidos a data / hora da página e um link para sua cópia no WebArchive.
- Melhorias na interface do usuário.
- Otimização de código.

Se você é um falante nativo de um idioma para o qual nosso CMS ainda não foi traduzido, nós o convidamos a tornar nosso produto ainda melhor. Através do serviço Crowdin, você pode se inscrever e se tornar nosso tradutor oficial para novos idiomas.
2020.10.06
Nova versão do Archivarix CMS.
- Suporte à interface de linha de comando para implantação de sites diretamente da linha de comando, importações, configurações, estatísticas, histórico de limpeza e atualizações do sistema.
- Suporte para senhas criptografadas password_hash (), que podem ser usadas no CLI.
- Modo especialista para incluir informações de depuração adicionais, ferramentas experimentais e links diretos para instantâneos salvos do WebArchive.
- As ferramentas para imagens e links internos corrompidos agora podem retornar uma lista de todos os URLs ausentes em vez de removê-los.
- A ferramenta de importação mostra arquivos zip corrompidos / incompletos que podem ser removidos.
- Suporte aprimorado de cookies para atender aos requisitos dos navegadores modernos.
- Definir a escolha do editor padrão para páginas HTML (editor visual ou código).
- Aba "Mudanças" mostrando diferenças de texto, desabilitada por padrão, pode ser habilitada nas configurações.
- Você pode reverter para uma alteração específica na guia "Alterações".
- Corrigido url de mapa de site XML para sites construídos com subdomínio www.
- Corrigida a exclusão de arquivos temporários que foram criados durante a instalação / importação.
- Limpeza mais rápida da história.
- Removidas frases de localização não utilizadas.
- Mudar o idioma na tela de login.
- Pacotes externos atualizados para as versões mais recentes.
- Uso de memória otimizado para calcular diferenças de texto na guia Alterações.
- Suporte aprimorado para versões antigas de extensão php-dom.
- Uma ferramenta experimental para corrigir os tamanhos dos arquivos no banco de dados se você editou os arquivos diretamente no servidor.
- Uma ferramenta de exportação de design plano experimental e muito crua.
- Suporte experimental de chave pública para funções API futuras.
2020.06.08
A primeira atualização de junho do Archivarix CMS com recursos novos e convenientes.
- Corrigido: a seção Histórico não funcionava se o php da extensão zip não estava ativado.
- Guia Histórico com detalhes das alterações ao editar arquivos de texto.
- Ferramenta de edição de .htaccess.
- Capacidade de limpar backups até o ponto de reversão desejado.
- O bloco "URLs ausentes" foi removido das Ferramentas, pois é acessível no painel principal
- Adicionado verificação e exibição de espaço livre em disco no painel principal.
- Verificação aprimorada das extensões PHP necessárias na inicialização e instalação inicial.
- Pequenas mudanças cosméticas.
- Todas as ferramentas externas atualizadas para as versões mais recentes.
2020.05.21
Uma atualização que os estúdios da web e aqueles que usam terceirização apreciarão.
- Senha separada para o modo de segurança.
- Modo de segurança estendido. Agora você pode criar regras e arquivos personalizados, mas sem código executável.
- Reinstalar o site do CMS sem precisar excluir manualmente nada do servidor.
- Capacidade de classificar regras personalizadas.
- Pesquisa e substituição aprimoradas para sites muito grandes.
- Configurações adicionais para a ferramenta "Meta tag Viewport"
- Suporte para domínios IDN na hospedagem com a versão antiga da UTI.
- Na instalação inicial com uma senha, a capacidade de sair é adicionada.
- Se .htaccess for detectado durante a integração com o WP, as regras do Archivarix serão adicionadas ao seu início.
- Ao baixar sites por número de série, o CDN é usado para aumentar a velocidade.
- Outras pequenas melhorias e correções.
2020.05.12
Nosso Archivarix CMS está se desenvolvendo aos trancos e barrancos. Nova atualização em que apareceu:
- Novo painel para visualização de estatísticas, configurações do servidor e atualizações do sistema.
- Capacidade de criar modelos e adicionar convenientemente novas páginas ao site.
- Integração com Wordpress e Joomla em um clique.
- Agora, na Pesquisa-Substituição, a filtragem adicional é feita como um construtor, onde você pode adicionar qualquer número de regras.
- Agora você pode filtrar os resultados por domínio / subdomínios, data e hora, tamanho do arquivo.
- Uma nova ferramenta para redefinir o cache no Cloudlfare ou ativar / desativar o Modo de Desenvolvimento.
- Uma nova ferramenta para remover controle de versão em URLs, por exemplo, "?ver=1.2.3" em css ou js. Permite reparar até mesmo as páginas que pareciam tortas no WebArchive devido à falta de estilos com versões diferentes.
- A ferramenta robots.txt tem a capacidade de ativar e adicionar imediatamente um mapa do Sitemap.
- Criação automática e manual de pontos de reversão para alterações.
- Importar pode importar modelos.
- Salvar / Importar as configurações do carregador contém os arquivos personalizados criados.
- Para todas as ações que podem durar mais que um tempo limite, uma barra de progresso é exibida.
- Uma ferramenta para adicionar uma meta tag de viewport a todas as páginas de um site.
- As ferramentas para remover links e imagens quebrados têm a capacidade de contabilizar arquivos no servidor.
- Uma nova ferramenta para corrigir links de códigos de URL incorretos no código html. Raramente, mas pode ser útil.
- Melhoria na ferramenta de URLs ausentes. Juntamente com o novo carregador, agora conta chamadas para URLs inexistentes.
- Dicas Regex em pesquisa e substituição.
- Melhoria na verificação de extensões php ausentes.
- Atualizadas todas as ferramentas js usadas para as versões mais recentes.

Esta e muitas outras melhorias cosméticas e otimizações de velocidade.