É seguro usar SSDs MLC de consumidor em um servidor?

44

Nós (e com isso queremos dizer Jeff) estamos estudando a possibilidade de usar discos SSD Consumer MLC em nosso data center de backup.

Queremos tentar manter os custos baixos e aumentar o espaço útil - para que os X25-E da Intel tenham praticamente 700 dólares cada e 64 GB de capacidade.

O que estamos pensando em fazer é comprar alguns dos SSDs mais baixos que oferecem mais capacidade a um preço mais baixo. Meu chefe não acha que gastar cerca de 5k em discos em servidores esgotados no data center de backup vale a pena o investimento.

Essas unidades seriam usadas em uma matriz RAID de 6 unidades em um Lenovo RD120. O controlador RAID é um Adaptec 8k (com a marca Lenovo).

Quão perigosa é essa abordagem e o que pode ser feito para mitigar esses perigos?

Zypher
fonte
4
Qual é a lógica para usar o SSD em vez de giradores? A sabedoria popular sobre o desempenho do SSD é "pague ou não incomode", mas certamente existem outros aspectos que podem ser uma vantagem.
peterchen
Estou curioso sobre o problema que você está tentando resolver aqui. Se é apenas um dos custos, por que os SSDs estão sendo considerados no lugar das unidades convencionais?
John Gardeniers 2/02
@ Peterchen, você pode usar um par de SSDs ou cinquenta fusos de 15K.
Mircea Chirea
@iconiK - você quer dizer "para um servidor, você precisa gastar muito dinheiro"? Se sim - sim, é por isso que eu estava pensando também.
Peterchen

Respostas:

61

Alguns pensamentos;

  • Os SSDs têm memória de "supercomprometimento". Essa é a memória usada no lugar das células 'danificadas' pela escrita. Os SSDs low-end podem ter apenas 7% do espaço de supercomprometimento; mid-range em torno de 28%; e discos corporativos em até 400%. Considere esse fator.
  • Quanto você vai escrever para eles por dia? Mesmo SSDs de nível intermediário, como os baseados nos 1200 chips da Sandforce, raramente apreciam mais de 35 GB de gravações por dia antes de reduzir seriamente a memória supercomprometida.
  • Normalmente, o dia 1 de um novo SSD é cheio de gravações, seja SO ou dados. Se você tiver significativamente mais de> 35 GB de gravações no primeiro dia, considere copiá-lo em lotes para dar ao SSD algum "tempo de organização" entre os lotes.
  • Sem o suporte ao TRIM, o desempenho de gravação aleatória pode cair em até 75% em semanas, se houver muita gravação durante esse período - se você puder, use um sistema operacional compatível com TRIM
  • Os processos internos de coleta de lixo que os SSDs modernos executam são feitos de maneira muito específica durante períodos silenciosos e param na atividade. Isso não é um problema para um PC de mesa em que o disco pode ficar quieto por 60% de seu ciclo normal de 8 horas, mas você executa um serviço de 24 horas ... quando esse processo terá a chance de ser executado?
  • Geralmente, ele está enterrado nas especificações, mas, como discos baratos 'regulares', os SSDs baratos também devem ter um ciclo de trabalho de cerca de 30%. Você os usará por quase 100% do tempo - isso afetará sua taxa de MTBF.
  • Embora os SSDs não sofram os mesmos problemas mecânicos que os discos comuns, eles apresentam erros de um e de vários bits - considere fortemente RAID-los, mesmo que o instinto não seja. Obviamente, isso afetará toda a adorável velocidade de gravação aleatória que você acabou de comprar, mas considere de qualquer maneira.
  • Ainda não é SATA, SAS, portanto, seu gerenciamento de filas não será tão bom em um ambiente de servidor, mas, novamente, o aumento extra de desempenho será bastante dramático.

Boa sorte - apenas não os frite com gravações :)

Chopper3
fonte
2
Você quer dizer 400% para o espaço extra ou 40%? Eu ia editar sua resposta, mas não consegui encontrar uma citação, então suponho que possa ser de 400%. (É um ponto muito bom, por sinal)
ChrisInEdmonton
9
Também nem sempre é claro se o TRIM é suportado em uma configuração RAID. Lembre-se, os SSDs são retirados do SO com RAID. Certifique-se de verificar com o fornecedor RAID.
Matt Sherman
5
Eu quis dizer 400 Chris, especificamente os usados ​​nas SANs do FC, muito caros, muito.
precisa saber é o seguinte
5
Um truque para obter mais espaço de reserva de uma unidade é fazer a exclusão segura e particioná-la com uma grande fração não utilizada. Esse espaço livre aumentará o desempenho e a vida útil do SSD.
Zan Lynx 02/02
1
Só quero marcar +1 com o @ZanLynx. Normalmente, particiono apenas cerca de 80% da unidade quando estou usando SSD + Raid.
precisa saber é o seguinte
12

Eu encontrei este link, que tem uma análise interessante e completa dos SSDs MLC vs SLC em servidores

Na minha opinião, usar um array SSD flash MLC para um aplicativo corporativo sem usar pelo menos os efeitos de redução de desgaste (alegados) de uma tecnologia como a MFT da Easyco é como saltar de um avião sem pára-quedas.

Observe que alguns fornecedores de SSD da MLC afirmam que suas unidades são "empresariais" o suficiente para sobreviver às gravações:

A SandForce pretende ser a primeira empresa com um controlador que suporta chips flash de célula de vários níveis para unidades de estado sólido usadas em servidores. Ao usar chips MLC, o SF-1500 abre caminho para menor custo e maior densidade de unidades que os fabricantes de servidores desejam. Até o momento, as unidades flash para servidores usavam chips flash de célula de nível único. Isso ocorre porque a resistência e a confiabilidade dos chips MLC geralmente não atendem aos requisitos dos servidores.

Há uma análise mais aprofundada dessas reivindicações na AnandTech .

Além disso, agora a Intel registrou que o SLC pode ser um exagero em servidores 90% das vezes :

"Acreditávamos que o SLC [célula de nível único] era necessário, mas o que descobrimos através de estudos com a Microsoft e até a Seagate é que esses aplicativos de uso intensivo de computação realmente não escrevem tanto quanto pensavam", disse Winslow. "Noventa por cento dos aplicativos de data center podem utilizar esta unidade MLC [célula multinível]".

.. ao longo do ano passado, os fornecedores reconheceram que, usando software especial nos controladores de unidade, eles podem aumentar a confiabilidade e a resiliência de seus SSDs MLC de classe de consumidor até o ponto em que as empresas os adotaram. servidores de data center e matrizes de armazenamento de alto desempenho. Os fornecedores de SSD começaram a usar o termo eMLC (enterprise MLC) NAND flash para descrever esses SSDs.

"Do ponto de vista do volume, vemos que realmente existem ambientes de computação com alto desempenho de gravação e alto desempenho que ainda precisam de SLC, mas isso está entre os 10% mais altos dos requisitos de data center corporativo", disse Winslow.

A Intel está alimentando 10% do mercado de data centers corporativos por meio de uma joint venture com a Hitachi Global Storage Technologies. A Hitachi está produzindo a linha SSD400S de SSDs Serial Attached SCSI, com 6 Gbit / s. taxa de transferência - o dobro de seus SSDs SATA baseados em MLC.

A Intel, mesmo para suas unidades SSD orientadas para servidor, migrou do SLC para o MLC com um espaço de "superprovisionamento" muito alto com a nova série Intel SSD 710 . Essas unidades alocam até 20% do armazenamento geral para redundância internamente:

O desempenho não é a principal prioridade do SSD 710. Em vez disso, a Intel tem como objetivo fornecer resistência no nível de SLC a um preço razoável usando o eMLC HET NAND mais barato. O SSD 710 também suporta excesso de provisionamento configurável pelo usuário (20%), o que aumenta significativamente a resistência da unidade. A garantia do SSD 710 é de 3 anos ou até que um indicador de desgaste atinja um determinado nível, o que ocorrer primeiro. Esta é a primeira vez que vimos a garantia SSD limitada dessa maneira.

Jeff Atwood
fonte
7

Sempre baseie esse tipo de coisa em fatos e não em suposições. Nesse caso, é fácil coletar fatos: grave perfis IOPS de leitura / gravação a longo prazo de seus sistemas de produção e descubra com o que você pode viver em um cenário de recuperação de desastre. Você deve usar algo como o percentil 99 como sua medida. Você não usar médias ao medir IOPS cpacity - os picos são tudo o que importa! Então você precisa comprar a capacidade e IOPS necessários, conforme necessário para o seu site de recuperação de desastres. Os SSDs podem ser a melhor maneira de fazer isso, ou talvez não.

Portanto, por exemplo, se seus aplicativos de produção exigirem 7500 IOPS no percentil 99, você poderá decidir que pode viver com 5000 IOPS em um desastre. Porém, são necessários pelo menos 25 discos de 15K no local do seu DR, portanto, o SSD pode ser uma escolha melhor se as necessidades de capacidade forem pequenas (parece que são). Mas se você medir apenas 400 IOPS em produção, compre 6 unidades SATA, economize um pouco de moeda e use o espaço extra para armazenar mais instantâneos de backup no site de DR. Você também pode separar leituras e gravações em sua coleta de dados para descobrir quanto tempo os SSDs não corporativos durarão para sua carga de trabalho com base em suas especificações.

Lembre-se também de que os sistemas de DR podem ter memória menor que a produção, o que significa que são necessárias mais IOPS (mais trocas e menos cache do sistema de arquivos).

rmalayter
fonte
5

Mesmo que o SSD da MLS tenha durado apenas um ano, em alguns anos as substituições ficarão muito mais baratas. Então, você pode lidar com a necessidade de substituir o SSD da MLS quando eles estão fora?

Ian Ringrose
fonte
um bom ponto, principalmente porque eles estarão em uma matriz RAID. Enquanto "muitos" deles não falharem ao mesmo tempo, isso é realmente plausível.
Jeff Atwood
@ Jeff, se você puder trocar e receber alguns com seus PCs de mesa, para que nem todos recebam algum padrão de uso, isso tornará menos difícil que todos falhem ao mesmo tempo.
Ian Ringrose
@ Jeff, acho que em grande medida, falha == "começar a fazer os direitos muito lentas" rathern então "dan't ler os dados"
Ian Ringrose
você não ama auto-correção :-)
Jeroen Wiert Pluimers
3

Se deixarmos de lado o problema da quantidade de gravação (ou provarmos que os SSDs no nível do consumidor podem lidar com isso), acho que os SSDs são uma boa coisa a acrescentar aos ambientes de nível corporativo. Você provavelmente estará usando os SSDs em uma matriz RAID. RAID5 ou RAID6. E o problema com isso é que, após uma falha de unidade única, o array se torna cada vez mais vulnerável a falhas. E o tempo para reconstruí-lo depende muito do volume da matriz. Uma matriz de vários TB pode levar dias para ser reconstruída, enquanto é acessada constantemente. No caso de SSDs, as matrizes RAID serão a) inevitavelmente menores b) o tempo de reconstrução diminui drasticamente.

Vlad
fonte
3

Um whitepaper sobre as diferenças entre o SLC e o MLC da SuperTalent coloca a resistência do MLC e um décimo da resistência de um SSD do SLC, mas as chances são de que os SSDs da MLS sobreviverão ao hardware em que você os está colocando. Não tenho certeza de quão confiáveis ​​essas estatísticas / fatos são da SuperTalent.

Supondo que você obtenha um nível de suporte semelhante do fornecedor dos SSDs da MLC, o preço mais baixo fará valer a pena.

chunkyb2002
fonte
1
Vida útil de 5 anos para uso típico em desktops foram mencionados. Se essa é uma estimativa precisa, eles não sobreviverão ao servidor em um ambiente de datacenter!
21411 JamesRyan
@ JamesRyan: Embora não seja mostrado na maioria dos cálculos, a vida útil depende muito da fração do espaço livre.
Ben Voigt
1
Nas organizações em que trabalhei, sempre colocamos a atualização de hardware do servidor em três anos. Fiquei com a impressão de que as melhores práticas geralmente eram aceitas, mas me corrija se estiver errado.
chunkyb2002
3

Você deve apenas calcular a quantidade de gravações diárias que possui com sua configuração atual e comparar com o que o fabricante garante que suas unidades SSD podem suportar. A Intel parece ser a mais aberta sobre isso - por exemplo, dê uma olhada nas folhas de dados principais das unidades SSD: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

A seção 3.5 (3.5.4, especificamente) do documento de especificações diz que você garante que sua unidade dure pelo menos 5 anos com 20 GB de gravações por dia. Suponho que isso esteja sendo calculado ao usar toda a capacidade da unidade e não provisione espaço livre para você mesmo gravar.

Também é interessante a folha de dados sobre o uso de SSDs convencionais em um ambiente corporativo.

cearny
fonte
Infelizmente, isso não é tão simples, porque o nivelamento de desgaste amplifica as gravações (lembre-se de que ele foi projetado para espalhar gravações e não reduzi-las) de uma maneira proprietária e que pode variar enormemente em sua eficácia com base no padrão de uso.
21411 JamesRyan
Hum, ponto muito bom. Além disso, a perda do comando TRIM se o uso das unidades em uma configuração RAID também deve aumentar a amplificação de gravação. Eu acho que tudo se resume à idéia de cada fabricante do padrão de uso típico.
cearny
2

Eu implantei um par de unidades SLC de 32GB há alguns anos atrás como um buffer para algum aplicativo horrivelmente mal projetado que estávamos usando.

O aplicativo tinha 90% de pequenas gravações (<4k) e estava sendo executado consistentemente (24/7) a 14k w / s uma vez nas unidades SSD. Eles foram configurados como RAID 1, tudo estava bem, latência baixa!

No entanto, aproximadamente um mês depois, e a primeira unidade empacotou, literalmente em 3 horas, a segunda unidade também morreu. RAID 1 não é um plano tão bom, afinal :)

Eu concordo com os outros pôsteres de algum tipo de RAID 6, se nada mais espalhar essas gravações em mais unidades.

Agora, lembre-se de que isso foi há alguns anos e essas coisas são muito mais confiáveis ​​agora e você pode não ter um perfil de E / S similar.

O aplicativo foi reprojetado, no entanto, como um gap que pode ou não ajudá-lo, criamos um grande disco ram, criamos alguns scripts para reconstruir / fazer backup do disco ram e sofrer uma hora ou mais de perda de dados /tempo de recuperação.

Novamente, o ciclo de vida dos seus dados pode ser diferente.

sysboy
fonte