Como é medida a velocidade do disco e o que é rápido? Quanto tempo deve levar uma cópia de 1500 GB?

11

Como é medida a velocidade do disco? É Mbit ou Mbyte por segundo lido? O que é média hoje e o que é rápido e o que é muito rápido no setor?

Digamos que alguém diga que leva muito tempo para fazer uma cópia de um arquivo de 1500 GB (digamos, um arquivo de banco de dados), quanto tempo isso levaria em um sistema profissional e como isso pode ser calculado levando em consideração a velocidade do disco rígido? ?

hol
fonte

Respostas:

19

As velocidades do disco são geralmente medidas em;

  • Velocidade de rotação em rotações por minuto (menor em 4200rpm, depois 5400, 7200, 10k e 15k - isso não é aplicável a SSDs ou memória flash).
  • A velocidade da interface é a mais rápida que a eletrônica de discos pode tentar enviar os dados para o controlador de disco (eles variam de 100 MBps da ATA a 150/300/600 Mbps da SATA, 2/4/8/16 Gbps da Fibre Channel e até velocidades PCIe para armazenamento baseado em flash, como o FusionIO).
  • O tempo de busca é simplesmente o tempo que leva para começar a ler ou gravar um setor específico do disco - eles podem variar de 3 a 15 ms para discos a uma pequena fração disso para discos SSD / flash.
  • Então chegamos à velocidade real que você pode esperar, existem quatro velocidades com as quais você deve se preocupar; leitura seqüencial (leitura de um bloco muito grande de dados), gravação sequencial (igual mas gravação), leitura aleatória (obtendo dados de todo o disco) e gravação aleatória. Eles variam enormemente, mas para discos giratórios, você pode esperar algo entre 25 MBps e 150 MBps para leitura e gravação seqüencial e qualquer coisa entre 3 MBps e 50Mps para leitura e gravação aleatória. Os SSDs normalmente estão na faixa de 200 MBps para operações seqüenciais e geralmente um pouco menos para operações aleatórias. O FusionIO pode atingir facilmente 1 GBps para todos, mas geralmente é pequeno e caro.

Como você pode ver, não há uma média real. Se você quiser recomendações sobre o que comprar, sinta-se à vontade para voltar para nós com o máximo de informações possível - isso deve incluir orçamento, tipo de aplicativo, tamanho do conjunto de dados, base de usuários , hardware / SO e qualquer outra coisa que você ache útil.

Quanto à sua cópia de 1,5 TB, bem, se você estiver fazendo isso em um disco SATA USB de 7200 rpm com 2 USB, deverá obter pelo menos 30 MBps a 40 MBps ou mais, para que o 1,5 TB completo leve mais de 10 horas. Se esse fosse um sistema DAS / SAN profissional típico, eu esperaria na região de 100 MBps, o que levaria cerca de 3 horas.

Espero que isso ajude, oh e apenas para esclarecer, MB = megabytes, Mb é megabits.

Chopper3
fonte
8

Existem muitas variáveis ​​envolvidas nesses tipos de cálculos. Os sistemas de disco do mundo real têm muitas interdependências. Apenas dentro de um único computador:

  • Velocidade nominal real da própria unidade (geralmente as RPMs, 5200, 7200, 10K, 15K)
  • O sistema de arquivos em uso
  • Se um sistema RAID está ou não em uso
    • Se for, o desempenho da placa RAID
    • O tipo de RAID
  • O sistema operacional em uso
  • As operações de leitura e gravação têm características de desempenho completamente diferentes
  • A taxa de leitura / gravação para operações
  • Para operações seqüenciais, o fator de fragmentação do armazenamento

Como você pode ver, a velocidade de um disco em si é apenas um dos muitos fatores. É um fator largish, mas ainda é um de muitos. Se essa cópia de 1,5 TB estiver no mesmo disco, o disco (95% provável) estará executando um desempenho 100% aleatório de leitura / gravação, que geralmente gera as piores métricas de desempenho. Se a cópia for de um disco para outro e os dados forem 100% seqüenciais e o disco de destino estiver completamente vazio, isso deverá gerar o desempenho mais rápido possível com esse subsistema de disco. O desempenho no mundo real estará em algum lugar entre esses dois extremos.

Se você estiver copiando entre dois servidores separados, há ainda mais fatores envolvidos.

Tenho uma matriz de armazenamento em funcionamento que pode saturar canais SAS 3Gb (gigaBIT) ao executar operações amplamente seqüenciais. Se eu tivesse um SAS de 6Gb, provavelmente também poderia estar muito perto de saturá-lo. Para E / S aleatória, esse sistema em particular atua de maneira muito diferente com base no sistema operacional (o OpenSolaris, por exemplo, teve a pior E / S aleatória e o Linux XFS, o melhor por um fator de 3).

Existem variáveis ​​demais para responder a essas perguntas definitivamente.

sysadmin1138
fonte
3

O tempo necessário para a cópia de 1,5 TB de dados depende muito do tipo de dados. Se você tiver alguns 1.500 arquivos de 1 GB, provavelmente levará apenas algumas horas, mas se você tiver um bilhão e meio de 1 KB, provavelmente levará dias.

Isso ocorre devido a duas especificações rivais nos discos: a taxa de transferência e o tempo médio de acesso. Um disco tradicional com taxa de transferência de 100 MB / s e tempo de acesso de 10 ms é bastante comum. Se você puder transmitir dados sequencialmente, poderá obter 100 MB / s. No entanto, se você precisar pular para outro local, leva 10 ms. Se você estivesse transmitindo, poderia escrever 1 MB de dados no tempo necessário para ir para outro local.

A criação de um arquivo pode levar várias buscas, portanto, a criação de um arquivo de 1 KB pode "custar" tanto quanto o fluxo de vários MB de dados.

Portanto, em alguns casos, é melhor fazer uma cópia em disco bruto do dispositivo de bloco do que copiar no sistema de arquivos por meio de algo como rsync. Se você possui muitos arquivos, em um sistema de arquivos com 50% ou mais de tamanho, geralmente é melhor copiar o dispositivo de bloco completo via "dd", o tempo que for necessário. Obviamente, você não pode fazer isso enquanto o sistema de arquivos está montado, portanto, isso também tem desvantagens.

Os SSDs podem ajudar a atenuar isso, porque seus tempos de acesso são cerca de 100 vezes mais rápidos, mas as unidades SSD MLC têm problemas de acesso complicados, dependendo da disponibilidade de um conjunto de blocos pré-apagados. Os SSDs SLC podem ajudar nisso.

Os controladores RAID com cache interno podem ajudar nas buscas, assim como algo como o módulo do kernel flashcache que permite armazenar em cache um dispositivo de bloco por meio de um SSD.

Os sistemas RAID podem permitir várias buscas paralelas, reduzindo efetivamente o tempo médio de acesso e também a paralelização para aumentar a taxa de transferência. Mas seu desempenho geral geralmente depende de quantos arquivos estão envolvidos.

Sean Reifschneider
fonte