Nós (e com isso queremos dizer Jeff) estamos estudando a possibilidade de usar discos SSD Consumer MLC em nosso data center de backup.
Queremos tentar manter os custos baixos e aumentar o espaço útil - para que os X25-E da Intel tenham praticamente 700 dólares cada e 64 GB de capacidade.
O que estamos pensando em fazer é comprar alguns dos SSDs mais baixos que oferecem mais capacidade a um preço mais baixo. Meu chefe não acha que gastar cerca de 5k em discos em servidores esgotados no data center de backup vale a pena o investimento.
Essas unidades seriam usadas em uma matriz RAID de 6 unidades em um Lenovo RD120. O controlador RAID é um Adaptec 8k (com a marca Lenovo).
Quão perigosa é essa abordagem e o que pode ser feito para mitigar esses perigos?
Respostas:
Alguns pensamentos;
Boa sorte - apenas não os frite com gravações :)
fonte
Eu encontrei este link, que tem uma análise interessante e completa dos SSDs MLC vs SLC em servidores
Observe que alguns fornecedores de SSD da MLC afirmam que suas unidades são "empresariais" o suficiente para sobreviver às gravações:
Há uma análise mais aprofundada dessas reivindicações na AnandTech .
Além disso, agora a Intel registrou que o SLC pode ser um exagero em servidores 90% das vezes :
A Intel, mesmo para suas unidades SSD orientadas para servidor, migrou do SLC para o MLC com um espaço de "superprovisionamento" muito alto com a nova série Intel SSD 710 . Essas unidades alocam até 20% do armazenamento geral para redundância internamente:
fonte
Sempre baseie esse tipo de coisa em fatos e não em suposições. Nesse caso, é fácil coletar fatos: grave perfis IOPS de leitura / gravação a longo prazo de seus sistemas de produção e descubra com o que você pode viver em um cenário de recuperação de desastre. Você deve usar algo como o percentil 99 como sua medida. Você não usar médias ao medir IOPS cpacity - os picos são tudo o que importa! Então você precisa comprar a capacidade e IOPS necessários, conforme necessário para o seu site de recuperação de desastres. Os SSDs podem ser a melhor maneira de fazer isso, ou talvez não.
Portanto, por exemplo, se seus aplicativos de produção exigirem 7500 IOPS no percentil 99, você poderá decidir que pode viver com 5000 IOPS em um desastre. Porém, são necessários pelo menos 25 discos de 15K no local do seu DR, portanto, o SSD pode ser uma escolha melhor se as necessidades de capacidade forem pequenas (parece que são). Mas se você medir apenas 400 IOPS em produção, compre 6 unidades SATA, economize um pouco de moeda e use o espaço extra para armazenar mais instantâneos de backup no site de DR. Você também pode separar leituras e gravações em sua coleta de dados para descobrir quanto tempo os SSDs não corporativos durarão para sua carga de trabalho com base em suas especificações.
Lembre-se também de que os sistemas de DR podem ter memória menor que a produção, o que significa que são necessárias mais IOPS (mais trocas e menos cache do sistema de arquivos).
fonte
Mesmo que o SSD da MLS tenha durado apenas um ano, em alguns anos as substituições ficarão muito mais baratas. Então, você pode lidar com a necessidade de substituir o SSD da MLS quando eles estão fora?
fonte
Se deixarmos de lado o problema da quantidade de gravação (ou provarmos que os SSDs no nível do consumidor podem lidar com isso), acho que os SSDs são uma boa coisa a acrescentar aos ambientes de nível corporativo. Você provavelmente estará usando os SSDs em uma matriz RAID. RAID5 ou RAID6. E o problema com isso é que, após uma falha de unidade única, o array se torna cada vez mais vulnerável a falhas. E o tempo para reconstruí-lo depende muito do volume da matriz. Uma matriz de vários TB pode levar dias para ser reconstruída, enquanto é acessada constantemente. No caso de SSDs, as matrizes RAID serão a) inevitavelmente menores b) o tempo de reconstrução diminui drasticamente.
fonte
Um whitepaper sobre as diferenças entre o SLC e o MLC da SuperTalent coloca a resistência do MLC e um décimo da resistência de um SSD do SLC, mas as chances são de que os SSDs da MLS sobreviverão ao hardware em que você os está colocando. Não tenho certeza de quão confiáveis essas estatísticas / fatos são da SuperTalent.
Supondo que você obtenha um nível de suporte semelhante do fornecedor dos SSDs da MLC, o preço mais baixo fará valer a pena.
fonte
Você deve apenas calcular a quantidade de gravações diárias que possui com sua configuração atual e comparar com o que o fabricante garante que suas unidades SSD podem suportar. A Intel parece ser a mais aberta sobre isso - por exemplo, dê uma olhada nas folhas de dados principais das unidades SSD: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm
A seção 3.5 (3.5.4, especificamente) do documento de especificações diz que você garante que sua unidade dure pelo menos 5 anos com 20 GB de gravações por dia. Suponho que isso esteja sendo calculado ao usar toda a capacidade da unidade e não provisione espaço livre para você mesmo gravar.
Também é interessante a folha de dados sobre o uso de SSDs convencionais em um ambiente corporativo.
fonte
Eu implantei um par de unidades SLC de 32GB há alguns anos atrás como um buffer para algum aplicativo horrivelmente mal projetado que estávamos usando.
O aplicativo tinha 90% de pequenas gravações (<4k) e estava sendo executado consistentemente (24/7) a 14k w / s uma vez nas unidades SSD. Eles foram configurados como RAID 1, tudo estava bem, latência baixa!
No entanto, aproximadamente um mês depois, e a primeira unidade empacotou, literalmente em 3 horas, a segunda unidade também morreu. RAID 1 não é um plano tão bom, afinal :)
Eu concordo com os outros pôsteres de algum tipo de RAID 6, se nada mais espalhar essas gravações em mais unidades.
Agora, lembre-se de que isso foi há alguns anos e essas coisas são muito mais confiáveis agora e você pode não ter um perfil de E / S similar.
O aplicativo foi reprojetado, no entanto, como um gap que pode ou não ajudá-lo, criamos um grande disco ram, criamos alguns scripts para reconstruir / fazer backup do disco ram e sofrer uma hora ou mais de perda de dados /tempo de recuperação.
Novamente, o ciclo de vida dos seus dados pode ser diferente.
fonte