Como os serviços com altas taxas de ingestão instalam discos rígidos suficientes com rapidez suficiente?

13

Amazon, Facebook e Google devem receber TBs, se não PBs por dia, o que significa que eles têm pessoas instalando continuamente novos discos rígidos e cabos em novos racks da mesma maneira que você pode criar um servidor comum ou há uma tecnologia diferente usada para conectar unidades em massa?

jl6
fonte
Outra faceta a se pensar é aumentar as taxas de falhas com tanto armazenamento e como elas se mantêm. Algumas pessoas estimaram que o Google pode ter uma nova falha de unidade em algum lugar a cada minuto.
26613 Matt

Respostas:

16

Não sei se algum deles está realmente instalando hardware, um servidor por vez. Em 2008, a MS começou a construir seus datacenters, entregando servidores em contêineres selados e pré-cabeados de servidores que eles só precisavam descarregar de um caminhão e conectar as conexões de energia / rede. Embora a versão 08 tenha sido uma mistura de contêineres e tradicional para o datacenter mais recente, eles adotaram um design pré-fabricado personalizado à prova de intempéries e não precisa ser alojado em prédios separados.

Tanto a HP quanto a IBM vendem pacotes semelhantes com contêineres pré-construídos, cheios de servidores que precisam apenas de conexões de energia / dados para implantar.

Boyden Virginia Data Center, da Microsoft, com módulos pré-fabricados expostos ao clima.

Dan está brincando com Firelight
fonte
Esta é, para mim, a única resposta que realmente aborda a questão inicial. +1
mveroone 30/08/13
1
BTW, aqui está a fonte para essa imagem . É um datacenter do Microsoft Azure na Virgínia.
tedder42
Alguém ainda precisa criar / conectar / testar o servidor de contêiner de remessa por vez e o google / facebook costuma fazer seu hardware internamente.
26613 Matt
@mindthemonkey que é feito na mesma fábrica usando o mesmo trabalho chinês barato que cremalheira ordinária servidores montados / lâminas usadas pelo resto de nós são montados em.
Dan é Fiddling por Firelight
7

O Google possui várias tecnologias que eles desenvolveram internamente para armazenar essas enormes massas de dados. Usando essas tecnologias, eles podem realmente adicionar cargas de caminhões de discos rígidos ao cluster sem tempo de inatividade, mas sim, eles ainda precisam de pessoas fazendo isso.

Tanto quanto sei no blog do Google, as duas partes principais são o sistema de arquivos do Google, que é um sistema de arquivos distribuído que pode ser dimensionado para uma escala realmente grande: sistema de arquivos do Google

E no topo do sistema de arquivos do Google, eles têm o Big Table, que é algum tipo de banco de dados de valor-chave e também se transforma em enormes escalas: Big Table

Para garantir alta disponibilidade, tudo é redundante muitas vezes, mais de 3 vezes na maioria dos casos.

repetição
fonte
1
Eu acho que a pergunta é mais orientada a hardware, e sua resposta é um pouco fora de tópico, mas essa é uma informação interessante.
precisa saber é o seguinte
5

Isso é precisamente correto. Lembro-me de que, ao mesmo tempo, os datacenters do Facebook adicionavam três reboques de tratores cheios de discos rígidos e servidores montados em rack em um dia normal. Obviamente, eles têm esquemas complicados para tornar o armazenamento escalável e redundante. O Google, por exemplo, possui GFS . O Facebook possui três centros de dados apenas para seus equipamentos, cada um maior que dois Wal-Marts e um novo planejado quatro vezes maior que seus centros existentes.

David Schwartz
fonte
2

Com as soluções de armazenamento Open Compute de nova geração capazes de caber 180 TB de disco em 4 unidades de rack, um PB não é realmente uma quantidade enorme de espaço: adicionar 1PB por dia significaria acumular 5 desses servidores por dia, não um grande problema. Melhor ainda, eles podem ser adquiridos por cerca de US $ 10 mil, o que significa que você está pagando menos de US $ 60 por TB.

Então, sim, a tecnologia está disponível para todos nós fazermos o mesmo, a um preço que não custa muito.

Mas você deve ter em mente que as empresas maiores sempre conseguem um acordo melhor e assinam grandes contratos para adquirir grandes quantidades de armazenamento. Eles podem receber pequenas remessas espalhadas ao longo do ano, mas não é como se eles pedissem apenas 1 PB por vez.

Andrea Campi
fonte
1
As especificações do cofre aberto estão online . Com unidades de 4 TB, eles são de até 120 TB em 2U.
26613 Matt
0

Aqui está um post interessante do BackBlaze sobre como eles fazem isso (eles provavelmente não precisam de tantos discos quanto o Google ou o Facebook, mas ainda assim todo), e o que eles precisavam fazer quando houvesse inundações na Tailândia que tornavam o disco rígido caro e mais difícil de obter:

http://blog.backblaze.com/2012/10/09/backblaze_drive_farming/

Jens Timmerman
fonte