Transferir 10 TB de arquivos dos EUA para o datacenter do Reino Unido

96

Estou migrando meu servidor dos EUA para o Reino Unido de um data center para outro. Meu anfitrião disse que eu deveria conseguir 11 megabytes por segundo.

O sistema operacional é o Windows Server 2008 nas duas extremidades.

Meu tamanho médio de arquivo é de cerca de 100 MB e os dados são divididos em cinco unidades de 2 TB.

Qual seria a maneira recomendada de transferir esses arquivos?

  • FTP
  • SMB
  • Rsync / Robocopy
  • De outros?

Não estou muito preocupado com a segurança, pois esses são arquivos públicos, mas quero apenas uma solução que possa aumentar a taxa de transferência de 11 MB / s para minimizar o tempo total de transferência.

Paul Hinett
fonte
19
11 MB / s ou 11 Mb / s?
Wim
14
transferir os dados para cartões perfurados binário e usar um pombo-correio :)
enterzero
9
Você deve fornecer detalhes. Quantos pombos-correio você acha que seriam necessários? Mostre seu trabalho.
Evik James
18
@Evik Europeu ou Africano?
wim
8
Além disso, o Wolfram Alpha é a maneira mais conveniente de fazer o cálculo, "10 TB a 11 MB / s". wolframalpha.com/input/?i=10+TB+at+11MB%2Fs
pufferfish

Respostas:

173

Envie discos rígidos através do oceano.

A 11 Mbps com plena utilização, você espera apenas 90 dias para transferir 10 TB.


11 Mbps = 1.375 MBps = 116.015 GB / dia .

10240 GB / 116,015 GB / dia = ~ 88,3 dias .

Shane Madden
fonte
42
+1 para Sneakernet . Além disso, você esqueceu a sobrecarga do TCP / IP. É mais ou menos ~ 100 dias em circunstâncias ideais.
Chris S
43
Um homem sábio disse uma vez: "Nunca subestime a largura de banda de uma caminhonete cheia de fitas rolando pela estrada". Esta equação é muito verdadeira e não é substancialmente alterada alterando a perua para um barco. ( bpfh.net/sysadmin/never-underestimate-bandwidth.html )
Rob Moir
5
É melhor enviar fitas ou discos azuis, em vez de unidades. Se você for com unidades, verifique se os originais são mantidos em segurança e disponíveis apenas por precaução. Eu mesmo optaria pelas unidades (a menos que eu tivesse unidades Ultrium 4) porque 10 TB = 410 discos azuis de camada única!
Allen
9
Acabei de perceber que eu digitei 11Mbps, no entanto, o que eu realmente quis dizer foi 11MB / s. Suponho que isso faça uma grande diferença, meus cálculos levam cerca de 11 a 14 dias aproximadamente ... isso está correto?
Paul Hinett
18
ainda acredita que o envio de um homem para supervisionar com o backup de 10 TB enquanto o disco oficial ainda está funcionando, depois que a configuração estiver concluída, você poderá almoçar um rsync para atualizar o novo servidor para qualquer alteração. Você teria sua máquina em funcionamento em cerca de um dia.
Loïc Faure-Lacroix
26

Eu diria que rsync, com 11 MB / s, você analisará 10 a 14 dias e, mesmo que seja interrompido, o rsync começará facilmente onde parou da última vez.

A 11 Mbps eu enviava os discos rígidos como sugerido acima :)

Lucas Kauffman
fonte
1
Sua estimativa difere significativamente do que outras pessoas postaram (e eu não sei quem está correto). Você pode fornecer sua metodologia para chegar a esses números?
John Gardeniers
9
A diferença surge do OP que afirma 11 Mbps quando na verdade ele quis dizer 11 MBps - o que é 8 vezes mais rápido. BTW, reiniciar um rsync de 10 TB no caso de uma interrupção provavelmente levará um tempo, não é? Horas ou mais?
Frank # Farmer #
@FrankFarmer: eu não me preocuparia em reiniciar o rsync; Eu mantenho uma cópia externa de ~ 20 TB em uma linha sem fio de 30 Mbps e a reinicialização está na faixa de segundos. a cópia inicial demorou algumas semanas, mas a atualização noturna geralmente dura algumas horas.
Javier
@FrankFarmer - rsync parece escalar muito bem. Eu tenho ~ 2 TB em uma linha ADSL1 rural que foi inicializada com sneakernet, mas leva ~ 5 minutos para sincronizar todas as noites se nada mudou.
Flexo
6
O tempo de reinicialização do rsync é escalonado com o número de arquivos (principalmente do stattempo, na minha experiência), não com o total de dados. Eu não esperaria uma espera significativa (no máximo, vários minutos). Embora minha experiência com o rsync tenha um pouco menos de 5 TB.
derobert
15

Rsync, é claro.

Pelo menos você pode continuar a qualquer momento após um intervalo, e sem dor.

Korjavin Ivan
fonte
7
Mais de 3 meses para copiar com 100% de utilização. Desculpe, mas essa é uma maneira terrível de transferir tantos dados.
Chris S
Eu tenho que concordar com @ChrisS, usar rsyncapenas para copiar arquivos grandes não é eficiente. Para minhas coisas, acabei usando tarmais netcatou sshpara a transferência inicial. É muito mais rápido e começa a ser transferido imediatamente, enquanto rsyncverifica todos os arquivos primeiro, o que leva tempo. Se isso for interrompido, você ainda poderá usá-lo rsyncposteriormente. De fato, faço isso algumas vezes depois de tarqualquer maneira para garantir que todas as permissões, arquivos de soquete etc. estejam corretos.
Martin Scharrer
1
Após o OP corrigir que ele tem uma conexão de ~ 100Mb, não 11Mb, o rsync faz muito mais sentido. +1 para o primeiro a mencionar.
Chris S
12

Nunca subestime a largura de banda de uma caminhonete cheia de fitas

- Trad.

No seu caso, discos ou fitas enviados pelo correio, mas o princípio ainda se aplica. Se você não está preocupado com a latência, isso será muito mais barato que a largura de banda da rede para transferir 10 TB de dados em um período de tempo razoável.

ConcernedOfTunbridgeWells
fonte
Jeff Atwood correu os números em um de seus posts antigos Coding Horror .. codinghorror.com/blog/2007/02/the-economics-of-bandwidth.html
tardate
10

Você deve usar o rsync. Ele comprimirá os dados e os duplicará antes de enviá - los. Também pode retomar transferências parciais, o que é muito importante para grandes transferências.

É provável que não transfira 10 TB; se for logs e texto e tal, pode ter menos de 1 TB; talvez bem abaixo de 1 TB.

Existem ferramentas que fazem um trabalho de compactação melhor que o rsync e provavelmente encontram mais correspondências. Você poderia usar lrzip, etc.

Existem tipos específicos de dados que não compactam bem e não contêm dupes literais - vídeos e outras mídias, por exemplo. Nesses casos, o FTP e o rsync estão fazendo o mesmo esforço.

Vai
fonte
3
O RSync deduplica dados? Eu acho que só faz isso no nível do arquivo, o que significa que a desduplicação é praticamente inútil nesse caso.
Devocenull 5/10/11
6

Sei que isso já foi aceito, mas você já pensou em levar seus discos para um data center / provedor / host em que possa obter mais largura de banda? Provavelmente custará algum dinheiro, mas copiar 10240Gb para discos de backup e enviar também custará tempo e dinheiro (2 x dinheiro).

Você também garantirá que seus discos não quebrem no transporte.

Asken
fonte
Como essa resposta é diferente da resposta aceita?
Chris S
2
@ Chris Esta resposta sugere o transporte dos discos para um tubo maior no mesmo continente.
Alex Jasmin #
5

11Mbps? Essa é uma limitação que você tem aqui. Na sua situação, eu simplesmente:

  • Clonar os dados
  • Comprima
  • Alugue servidores nas duas extremidades com pelo menos 10 vezes mais largura de banda (nos mesmos datacenters ou no final, em um datacenter próximo a você).
  • Transferir os arquivos
  • Aplique os dados ao novo servidor.

Se você realmente não tem uma solução para aumentar a largura de banda ... O envio de uma unidade física será muito mais rápido.

Pela minha experiência dolorosa, os discos rígidos tendem a aparecer no correio ... os drives flash USB são uma solução muito melhor para transferências frequentes de dados. No seu caso, seriam necessários alguns deles :) Portanto, envie 2 cópias dos seus dados em vários discos rígidos.

Considerando a quantidade de dados que você possui, você também pode enviar unidades de uma matriz RAID 5 ou RAID 6 se tiver o mesmo hardware / software do outro lado para conectar suas unidades. Mas, nesse caso, lembre-se de marcar a ordem das suas unidades e seus números de série; portanto, ao reconfigurar, eles não se confundem.

Coiote
fonte
1
desculpe, o 11Mbps foi um erro de digitação, é 11MB / s ... eu mencionei em um dos comentários acima.
Paul Hinett 4/11/11
4

Embora eu tenha que concordar com a resposta "enviar usando discos rígidos", neste caso, aqui uma solução de cópia que eu uso quando preciso copiar grandes quantidades de arquivos pela primeira vez:

Embora rsyncseja bom manter dois armazenamentos de dados sincronizados, ele introduz uma sobrecarga desnecessária na transferência inicial. Achei que o caminho mais rápido é o tarque é direcionado netcat. No site receptor você também pode usar netcatem ouvir modo que canaliza os dados de entrada para uma extração tar. O benefício é que tarcomeça o envio imediato e o netcatenvia como fluxo TCP simples, sem sobrecarga de protocolo de nível superior. Isso deve ser o mais rápido possível. No entanto, não é simples possível reiniciar uma transferência interrompida na última posição.

Também é fácil compactar os dados para a transferência usando as taropções corretas ou adicionar uma ferramenta de compressão nos tubos. Observe que netcatenvia a data não criptografada. Nos casos em que isso não é uma opção, uma sshconexão criptografada pode ser usada ( tar <options> | ssh <target> -c 'tar -x <options>').

Se todos os dados forem transferidos, rsyncpoderá ser usado para garantir que todos os arquivos que foram atualizados nesse meio tempo sejam sincronizados. Além disso, o IIRC tarnão cria soquetes que serão perdidos de outra forma, mas eles não são realmente usados ​​para dados do datacenter.

Martin Scharrer
fonte
A desvantagem é que não é tolerante com interuptions
Joel Coel
3

Você já considerou IPoAC ?

Um único pombo pode ser capaz de transportar dezenas de gigabytes de dados em cerca de uma hora, o que, em termos de largura de banda média, se compara muito favoravelmente aos padrões atuais de ADSL, mesmo quando contabiliza unidades perdidas.

wim
fonte
21
Os pombos sofreriam perda de sinal à distância descrita pelo OP.
Roy Tinker
O IPoAC liberado pelo @RoyTinker precisa ser implementado usando um processo de janelas.
precisa
3

Novamente, a primeira sugestão é enviar as unidades.

A segunda sugestão é usar o rsync para o rsyncd, não sobre o SSH. Eu tentei muitas coisas e geralmente é o mais rápido. Lembre-se de ativar a compactação. Além disso, observe como aumentar ou diminuir o tamanho do buffer rsync para obter a taxa de transferência ideal. Também pode ajudar a aumentar o tamanho da MTU . Isso só ajuda se os roteadores em rota não fragmentarem seus pacotes. Existem maneiras de determinar se o fazem.

Infelizmente, não existe uma configuração que seja sempre a melhor. Você precisará experimentar para descobrir o que funciona melhor em sua situação.

sjbotha
fonte
2

Você mencionou que os servidores estão executando o Windows 2008. O Microsoft DFS seria adequado? Há alguma mágica na extremidade inferior que tenta obter o máximo possível de largura de banda da conexão e também possui compactação e desduplicação (IIRC).

Lembre-se, discos rígidos, DVDs ou BluRays seriam mais rápidos ... Meu cálculo é de 11 dias no total de 11 MB / s ...

TiernanO
fonte
1

Você pode usar um torrent para isso.

Crie um torrent privado em uma extremidade e use o cliente na outra.

Embora exista criptografia, você deve verificar seus requisitos.

Dragos
fonte
1
Uma relação de torrent de 1 para 1 não é melhor do que uma transferência de arquivos de 1 para 1. Se houver um cano limitado entre os dois locais, você precisará de vários semeadores em canos diferentes, idealmente distribuídos geograficamente.
Jeremy
@ Jeremy - não é melhor ou pior em termos de taxa de transferência. Pode ser melhor em termos de confiabilidade (fácil de pausa / currículo), que para este tamanho xfer poderia ser importante
Joel Coel