E se um tornado passasse pelo SEU data center?

8

No final de semana passado, tivemos fortes tempestades aqui na Virgínia e, claro, a crise no Japão é um lembrete de que as coisas podem dar errado em um piscar de olhos! Uma pergunta que me faço: "E se um tornado atingir meu data center, estou preparado?"

Eu tenho ótimos sistemas de backup "no meu rack", incluindo um backup em fita. Como o datacenter não está próximo, não é possível mover fitas para fora do local. O que eu gostaria de encontrar ou criar é um sistema que, em uma programação, possa fazer backup de itens críticos, como sites, bancos de dados e copiá-los remotamente, ou seja, meu servidor em casa. Eu tenho FIOS com serviço de 35 mbit, então eu tenho banda larga, o que eu preciso é do "sistema" para fazer isso. Eu sou um programador para poder criar algo que as informações de FTP não estejam em um cronograma, mas estou curioso para saber se há algo lá fora que preencha essa necessidade de backup remoto agora? Meus servidores SQL são armazenados em backup em matrizes de armazenamento, eu poderia derrubar esses backups ou até agendar meu servidor SQL aqui para sincronizar com os servidores de produção em uma programação. Eu uso o Windows Server 2008 R2 e o SQL Server 2008 R2.

O que todos vocês recomendam para a estratégia fora do local em uma crise como um desastre natural que afeta nosso data center? Você está preparado? Espero que outros se façam essa pergunta e aprendam com esses desastres naturais que estamos vendo com muita frequência.

Neal
fonte

Respostas:

6

Suas opções devem ser ditadas pelos seus acordos de nível de serviço com seus clientes e limitadas pelo seu orçamento.

No mínimo, você deve ter backups externos de todos os dados críticos. Hoje, todos os dados que você não pode recriar do zero precisam ser armazenados em outro local. Os backups off-line são melhores: backups ou replicação on-line podem ajudar quando um tornado ocorre, mas o que acontece se um funcionário irritado abandona um banco de dados ou destrói um sistema de arquivos?

A partir de uma linha de base de backups offline, você pode começar a explorar opções que agilizarão a recuperação em troca de um custo mais alto. Há um grande número de opções aqui, variando de um único host para backups on-line que você descreve até ambientes completamente replicados, com replicação síncrona de dados em execução ativa (ativa) + por tempo de inatividade quase zero.

Você achará a recuperação do zero muito mais fácil se você separar os dados da sua infraestrutura da maneira mais organizada possível. Por exemplo, a recuperação a partir do zero será muito, muito mais rápida se você implantar usando sistemas como fantoche ou chef em vez de manualmente. Refazer todo o trabalho que você dedicou à construção de seus sistemas será muito mais rápido se você puder automatizar o máximo possível. Manter os dados separados também reduz a quantidade de dados que você precisa fazer backup: não desative gigabytes de sistema operacional se você realmente precisar de apenas alguns megas de configurações do sistema e dados de aplicativos.

As opções podem ficar bastante caras, então você precisa determinar o que sua empresa está disposta a gastar na recuperação de desastres e quanto tempo de inatividade seus clientes podem tolerar. Elimine as opções que são muito caras ou muito lentas para seus clientes.

Depois de escolher uma solução de recuperação de desastres, certifique-se de praticá-la. Eu recomendaria pelo menos uma vez por ano ou sempre que sua arquitetura mudar, o que ocorrer com mais frequência.

Cakemox
fonte
2

A continuidade dos negócios vai muito, muito além de apenas garantir que você tenha acesso a backups legíveis. Mas, limitando o escopo da resposta a isso, em última análise, só será viável quando a largura de banda de ponta a ponta do datacenter ao local de backup for suficientemente grande para lidar com o volume de alterações de dados.

Quando você está falando de um datacenter, para a maioria das pessoas isso significa Gigaytes de dados por semana.

IME, mesmo em pequena escala, a melhor solução é uma operação distribuída (ou espelhada). Planeje-o corretamente e deve haver pouco custo adicional em comparação com um único datacenter.

Mas se você precisar copiar todos os dados para um local em espera ou mesmo apenas para armazenamento remoto,

1) não use FTP - é apenas a maneira errada de fazê-lo por várias razões

2) para arquivos genéricos, use algo como rsync, que é otimizado para a finalidade

3) para bancos de dados, observe as ferramentas disponíveis especificamente para o seu DBMS - a estrutura do arquivo pode sofrer grandes alterações sem que os dados sejam muito alterados. Nota: isso inclui o registro do MSWindows e os dados do MSAD.

symcbean
fonte
1

Temos uma VPN do nosso escritório para o nosso datacenter externo. No datacenter externo, temos um servidor com um compartilhamento de rede montado que configuramos como destino em nosso software de backup (executamos o Symantec BackupExec), por exemplo, \ OFFSITEDATACENTER \ OFFSITESTORAGE

Em seguida, fazemos - um backup completo no final de semana para esse local
- um incremental a cada noite

Assim como nossos backups "no local" normais

Também executamos o VMWare VDR para capturar imagens de nossos servidores principais a cada semana, que são colocadas em um disco SATA de 2 TB criptografado usando o FreeOTFE, que eu levo para casa toda semana.

Phil
fonte
1

Temos vários data centers ativos / ativos ou ativos / semi-ativos separados com> 50 milhas entre eles, diferentes fornecedores de energia, segurança, links de 10GBps roteados de diversas rotas entre eles, e enviamos nossos discos de backup entre eles também. Isso faz para nós.

Chopper3
fonte
0

Os detalhes de como lidar com um determinado esquema de backup foram cobertos ad nauseum aqui e em outros lugares. Vou abordar essa questão do ponto de vista de mais alto nível das diretrizes gerais para ajudá-lo a decidir como abordar a recuperação de desastres. Eu já estive em várias situações em que o planejamento precisava ser implementado, caso o datacenter se tornasse uma cratera fumegante. Felizmente, tivemos que usá-lo apenas uma vez. As coisas mais importantes a serem lembradas são:

1) Não perca seu tempo tentando fazer engenharia excessiva e faça com que tudo falhe com <1ms de precisão, se você não precisar. Uma falha completa dessa magnitude geralmente justifica algumas horas de recuperação.

2) Como corolário do item 1, verifique se as expectativas são realisticamente determinadas e codificadas em uma política em algum lugar. É importante ter uma meta definida para atingir o tempo de recuperação, pois você pode gastar tempo ilimitado e a obtenção de fundos é "ainda melhor".

3) Priorize seus sistemas. O plano de recuperação precisa ser construído em torno de uma lista definitiva da importância de todo e qualquer sistema. Também não perca as coisas óbvias, como atualizar o DNS e o AD antes do restante dos servidores Windows.

4) Se não for externo e fora da rede, é apenas uma cópia. Isso está alinhado com outra coisa importante a ser lembrada: o RAID não é um plano de backup.

5) Teste, teste, teste! Teste cada centímetro do seu plano que puder. Se você conseguir obter o valor de um fim de semana durante um período de manutenção, desconecte o uplink e / ou o poder de construção e teste o tempo de reação e a eficácia de sua equipe. Um plano de recuperação de desastre que nunca é testado é apenas uma ilusão.

Hyppy
fonte