É uma situação comum, quando o administrador cria o sistema para backup automático e o esquece. Somente depois que um sistema falha nas notificações do administrador, esse sistema de backup foi interrompido antes ou os backups não podem ser restaurados por causa de alguma falha e ele não possui um backup atual para restaurar a partir de ... Então, quais são as práticas recomendadas para evitar essas situações?
backup
monitoring
backup-restoration
best-practices
Kazimieras Aliulis
fonte
fonte
Respostas:
Execute exercícios de combate a incêndio ... a cada dois meses, é uma boa idéia dizer que o sistema XYZ está inoperante ... e, na verdade, repita o processo de colocá-lo novamente online em uma nova VM, etc. Isso mantém as coisas honestas e ajuda você a entender erros.
fonte
modo soapbox: ON
Eu diria que é tão simples que os backups que não são testados regularmente são inúteis.
No meu trabalho anterior, tínhamos uma política de que todo sistema (produção, teste, monitoramento de desenvolvimento etc.) deveria ser restaurado a cada 6 meses.
Esse também era o trabalho do administrador mais jovem, para que a documentação estivesse atualizada. Junior sendo definido por quanto trabalho ele / ela tinha no sistema específico, em algum momento (na maioria das vezes na verdade) foi o "gerente do grupo" que o fez
Tínhamos hardware especial dedicado a isso (uma Intel e uma caixa IBM / AIX) com baixa especificação para tudo, menos o espaço em disco, pois não precisávamos executar nada real no host restaurado.
Muito trabalho nas primeiras rodadas, mas isso nos levou a otimizar o processo de restauração, que é a parte importante do backup.
fonte
Como você parece estar se referindo ao fato de o administrador não perceber que a tarefa de backup "quebra" e não tanto que uma cópia de segurança não funcionou corretamente, sugiro criar algum tipo de script de monitoramento em torno dos backups.
Ao criar uma solução de backup doméstica, eu faria algo assim:
Uma vez feito tudo isso, você deve ficar bem. Uma coisa extra a fazer seria executar restaurações de teste regulares. Se você tiver um hardware extra para doar à causa, isso é.
Onde trabalho, temos um site quente, uma vez por mês, escolhemos aleatoriamente um sistema ou banco de dados, acessamos nosso site quente e realizamos um exercício de restauração de teste em bare-metal para garantir a capacidade de recuperar nossos dados.
Honestamente, se seus dados são muito importantes para você, seria do seu interesse investir em algum software para gerenciar seus backups para você. Existem centenas de produtos disponíveis para isso, desde o barato e o simples, até a classe corporativa.
Se você depende de um conjunto de scripts escritos à mão em execução no crontab para backups de suas empresas, mais cedo ou mais tarde, provavelmente será queimado.
fonte
Temos versões 'Reference' de 60% do tamanho de nossos sistemas de 'Produção', usamos para testes finais de alterações, restauramos backups de 'Produção' para esses sistemas - ele testa o backup e garante que os dois ambientes estejam em sintonia. .
fonte
Uma abordagem é criar um script para um trabalho de "recuperação" para executar periodicamente, por exemplo, um que captura um arquivo de texto específico do backup mais recente e envia por e-mail seu conteúdo. Se possível, isso deve ser feito - pelo menos algumas vezes - usando uma caixa diferente daquela que criou ou fez backup dos dados, apenas para garantir que funcione se você precisar fazer isso. A vantagem é que você pode ter certeza de que seus mecanismos de criptografia / descriptografia, compactação e armazenamento estão funcionando.
Isso é um pouco mais complicado para backups especializados, como servidores de e-mail e banco de dados, apesar de executar algum tipo de recuperação em pequena escala de um pequeno backup de banco de dados ou de caixa de correio no nível de bloco e verificar se o conteúdo é certamente possível, apenas um pouco mais envolvido.
Essa abordagem também não deve substituir uma restauração completa periódica para garantir que você possa recuperar dados em caso de emergência - apenas permite que você fique um pouco mais confiante sobre a integridade do seu trabalho de backup diário.
fonte
Ao executar a restauração de teste, eu realmente não me sinto confortável no ponto "isso parece bom, os arquivos são restaurados, parece que nenhum arquivo está faltando, até os tamanhos correspondem" ou no ponto "isso parece bom", iniciei meu aplicativo. .. não falha, exibe alguns dados decentes ".
Quero restaurar o servidor / cluster a partir do zero e depois usá-lo para produção . Nem por um minuto, nem por uma hora, mas permanentemente . Se você afirmar que sua restauração foi bem-sucedida, não há absolutamente nenhuma razão para não iniciar uma produção. Este não é um sistema "sujo", que deve ser esquecido. Este é o sistema que você enfrentará após um desastre real. Então, se passar o estágio "parece legal", viva com ele. Faça backup na noite seguinte. Esqueça o original. Você provavelmente vai descobrir algumas falhas usando esta abordagem, e você será forçado a corrigir todos eles . A próxima restauração do mesmo sistema tem uma chance decente de ser 100% bem-sucedida.
Isso inclui seu software e servidor de backup. Sim, você precisa restaurá-los também.
Não tem orçamento para comprar hardware dedicado para restauração?
fonte
Você provavelmente descobrirá que alguns tipos de backup podem ser facilmente testados para restauração por scripts (como bancos de dados), enquanto outros precisam de alguma entrada manual (restauração do Active Directory). Automatize o máximo possível disso, verifique se há algum tipo de relatório e se "alguém" executa os testes manuais também em intervalos regulares. Um ambiente isolado (cópia reduzida do prod) facilitará a execução de testes de restauração.
fonte
Embora não testemos backups, temos o componente centralizado de verificação e geração de relatórios no sistema que desenvolvemos o BackupRadar.com. Sinta-se livre para conferir se isso ajuda com esse componente. Ele anexa uma cópia dos e-mails de êxito / falha à política de backup e também anexa capturas de tela se o seu software de backup também é capaz de enviá-las.
Obrigado Patrick
fonte
Verifique se a atividade de backup está registrada e, em seguida, escreva algo (em perl, é claro) que analise os logs que procuram falhas, descreva-os e envie-os como um email diário.
fonte