Qual é o estado atual (2016) dos SSDs no RAID?

51

Há muitos recursos disponíveis online que discutem o uso de unidades SSD em configurações RAID - no entanto, elas datam de alguns anos e o ecossistema SSD é muito veloz - exatamente como esperamos o lançamento do produto "Optane" da Intel ainda este ano o que mudará tudo ... de novo.

Prefácio minha pergunta afirmando que há uma diferença qualitativa entre SSDs de nível de consumidor (por exemplo, Intel 535) e SSDs de nível de datacenter (por exemplo, Intel DC S3700).

Minha principal preocupação está relacionada ao TRIMsuporte em cenários RAID. No meu entender, apesar de serem mais de 6 anos desde que os SSDs foram introduzidos em computadores de consumo e 4 anos desde que o NVMe estava disponível comercialmente - os controladores RAID modernos ainda não suportam a emissão de TRIMcomandos para SSDs conectados - com exceção dos controladores RAID da Intel no modo RAID-0.

Estou surpreso que o TRIMsuporte não esteja presente no modo RAID-1, dado o modo como as unidades se espelham, parece simples. Mas eu discordo.

Observo que, se você deseja tolerância a falhas com discos (HDD e SSD), os usaria em uma configuração RAID - mas como os SSDs estariam sem TRIM, eles sofreriam amplificação de gravação, o que resultaria em desgaste extra, o que por sua vez, faria com que os SSDs falhassem prematuramente - isso é uma ironia infeliz: um sistema projetado para proteger contra falhas na unidade pode acabar resultando diretamente nela.

Assim:

  1. O TRIMsuporte é necessário para SSDs modernos (da era 2015-2016)?

    1.1 Existe alguma diferença na necessidade de TRIMsuporte entre SSDs baseados em SATA, SATA-Express e NVMe?

  2. Freqüentemente, as unidades são anunciadas como tendo uma coleta de lixo interna aprimorada; isso evita a necessidade TRIM? Como o processo de GC deles funciona em ambientes RAID?

    1.1 Por exemplo, consulte este controle de qualidade de 2010 que descreve uma degradação de desempenho muito ruim devido a não-TRIMming ( https://superuser.com/questions/188985/how-badly-do-ssds-degrade-without-trim ) - e isso O artigo de 2015 defende que o uso do TRIM é altamente recomendado ( http://arstechnica.com/gadgets/2015/04/ask-ars-my-ssd-does-garbage-collection-so-i-dont-need-trim -direita / ). Qual é a sua resposta a esses argumentos fortes para a necessidade de TRIM?

  3. Muitos artigos e discussões de anos anteriores dizem respeito ao flash SLC vs MLC e que o SLC é preferível, devido à sua vida útil muito mais longa - no entanto, parece que todos os SSDs atualmente (independentemente de onde estão no espectro Consumidor para Empresa) são MLC esses dias - essa distinção é mais relevante?

    1.1 E o flash TLC?

  4. Os SSDs corporativos tendem a ter limites de resistência / gravação muito mais altos (geralmente medidos em quantas vezes você pode sobrescrever completamente a unidade em um dia, durante a vida útil prevista de 5 anos da unidade) - se o limite do ciclo de gravação for muito alto (por exemplo, 100 gravações completas por dia) isso significa que elas não precisam TRIM, porque esses limites são muito altos ou, pelo contrário, esses limites são atingíveis apenas usando-se TRIM?

Dai
fonte
6
Embora eu não possa responder à sua pergunta, acho que deve ser considerado à luz do fato de que nossa indústria está tentando o melhor para eliminar o RAID proprietário, todos os provedores de nuvem pública usam SSDs agora em serviços de computação e armazenamento, certamente eles resolveram isso. com software, codificação de apagamento etc. As inovações da computação em nuvem expuseram coisas como RAID de hardware, o Cisco IOS e redes de área de armazenamento proprietárias como mercadorias inúteis fermentando no topo da cadeia alimentar e realmente prejudicando a inovação. RAID hardware não pode ser vendido em grande escala (a AWS, Azure, CERN) assim ....
Sum1sAdmin
@ Sum1sAdmin, todos os provedores de nuvem pública usam SSDs agora em serviços de computação e armazenamento Você está dizendo que a AWS ou o BlackBlaze armazenam dados apenas em SSDs?
AL
@AL bem não, eu só estou apontando que a oferta SSD para o bloco, arquivo, objeto e armazenamento efêmero
Sum1sAdmin
Discordo completamente da "diferença qualitativa" entre comercial e consumidor. Posso garantir que não há diferença na fabricação de NAND. Certamente existem fabricantes diferentes (Samsung vs Intel), mas nenhum deles possui um processo de fabricação especial para o consumidor. Certamente existem diferenças de recursos, mas não diferenças de qualidade.
Jim B
Falando em Optane, estamos quase na metade de 2016 e não está à vista ... Alguém sabe qual é o acordo?
Jeff Meden

Respostas:

24

Vamos tentar responder uma pergunta de cada vez:

  • O suporte TRIM é necessário para SSDs modernos (da era 2015-2016)?

Resposta curta: na maioria dos casos, não. Resposta longa: se você reservar espaço livre suficiente (~ 20%), mesmo a unidade de nível consumidor geralmente possui valores de consistência de desempenho muito bons (mas você precisa evitar as unidades que, em vez disso, se engasgam com gravações sustentadas). As unidades de nível corporativo são ainda melhores, tanto porque possuem maior espaço livre por padrão quanto porque o conjunto controlador / firmware é otimizado para o uso contínuo da unidade. Por exemplo, dê uma olhada na unidade S3700 que você referenciou: mesmo sem aparar, ela tem uma consistência de gravação muito boa.

  • Frequentemente, as unidades são anunciadas como tendo uma coleta de lixo interna aprimorada, isso evita a necessidade do TRIM? Como o processo do GC funciona em ambientes RAID

O coletor de lixo da unidade faz sua mágica dentro da caixa de proteção da unidade - não sabe nada sobre o ambiente externo. Isso significa que não é afetado (principalmente) pelo nível RAID da matriz. Dito isso, alguns níveis de RAID (basicamente o baseado em paridade) podem às vezes (e em alguma implementação específica) aumentar o fator de amplificação de gravação, o que, por sua vez, significa um trabalho mais alto para as rotinas do GC.

  • Muitos artigos e discussões de anos anteriores dizem respeito ao flash SLC vs MLC e que o SLC é preferível, devido à sua vida útil muito mais longa, porém parece que todos os SSDs (independentemente de onde estão no espectro Consumidor para Empresa) são MLC nos dias de hoje - essa distinção de relevância é mais

Os drives SLC basicamente desapareceram da empresa, sendo relegados principalmente a tarefas militares e algumas tarefas industriais. A empresa marcada agora está dividida em três graus:

  • O flash HMLC / MLCe é aquele com os melhores chips MLC binados e certificado para sustentar pelo menos 25000/30000 ciclos de reescrita;
  • Os chips 3D MLC são classificados em cerca de 5000-10000 ciclos de reescrita;
  • os chips planares normais de MLC e 3D TLC são classificados em cerca de 3000 ciclos de reescrita.

Na realidade, qualquer um dos tipos de flash acima deve fornecer uma capacidade total de gravação total e, de fato, você pode encontrar unidades corporativas com todos os tipos de flash acima.

A real diferenciação entre unidades empresariais e consumidor é:

  • o conjunto controlador / firmware, com unidades corporativas muito mais difíceis de morrer devido a um erro inesperado no controlador;
  • o cache de gravação protegido por energia, extremamente importante para evitar danos à FTL (Flash Translation Layer), que é armazenada no próprio flash.

Drivers de nível corporativo são melhores principalmente devido a seus controladores e capacitores de energia, em vez de melhor flash.

  • Os SSDs corporativos tendem a ter limites de resistência / gravação muito mais altos (geralmente medidos em quantas vezes você pode sobrescrever completamente a unidade em um dia, durante a vida útil prevista de 5 anos da unidade), isso evita qualquer preocupação com a amplificação de gravação causada por não está executando o TRIM?

Como afirmado acima, as unidades de nível empresarial têm um espaço livre padrão muito maior (~ 20%), o que, por sua vez, reduz drasticamente a necessidade de TRIMs regulares

Enfim, como uma observação lateral, considere alguns RAIDs de software que suportam TRIMs (alguém disse Linux MDRAID? )

shodanshok
fonte
Apenas 35000 ciclos de gravação ?! Isso não parece muito. Acho que faz sentido se o aumento das substituições de unidades for mais barato do que comprar a mesma capacidade no SLC.
User253751
~ 30000 ciclos mínimos de reescrita garantidos não são nada ruins: com o aumento da capacidade trazida pelo comutador para NAND de 2 bits por célula, os drives MLC são muito mais baratos que os SLC, mantendo uma taxa de resistência semelhante. Além disso, os dias em que as células SLC da classe de 50 nm foram classificadas em> 100000 ciclos de reescrita provavelmente se foram: até as unidades corporativas têm flash de classe 34 / 25nm (ou menor), com resistência intrinsecamente mais baixa (que também afeta as unidades SLC).
Shodanshok 13/05
@shodanshok Sua conclusão é "Use SSDs de nível empresarial (SAS) conectados a um controlador RAID normal e não se preocupe com isso" - e que não verei um desempenho atingido nos 5 anos em que uma unidade é necessária? E que os problemas de desempenho documentados por outros usuários afetam apenas unidades de consumo?
Dai
@Dai para unidades de "nível empresarial" não quero dizer apenas SSDs SAS, mas também SSDs SATA selecionados podem ser considerados "nível empresarial". E sim, as unidades corporativas têm uma consistência de desempenho muito boa, mesmo em estado estacionário (ou seja: completamente cheio). Para um exemplo de tais unidades, consulte aqui . Mesmo algumas unidades de consumo, quando combinadas com uma superprovisão generosa, podem ser bastante consistentes. Veja aqui um exemplo.
Shodanshok 14/05
11
Binning é o processo através de chips de silício que são examinados e agrupados com base em sua qualidade. Portanto, os chips MLC NAND corporativos são basicamente os chips "melhor fabricados" e melhor testados.
Shodanshok 19/05/19
9

TRIM não é algo com que me preocupo ao usar SSDs em controladores RAID modernos. Os SSDs melhoraram, os recursos do controlador RAID de hardware foram otimizados para essas cargas de trabalho, e os relatórios de resistência geralmente estão disponíveis.

TRIM é para unidades SATA de extremidade inferior. Para SSDs SAS, temos o unmap de SCSI, e talvez seja por isso que não encontro as necessidades do TRIM ...

Mas o outro comentarista está correto. O armazenamento definido por software (SDS) está mudando a maneira como usamos SSDs. Nas soluções SDS, os controladores RAID são irrelevantes. E coisas como TRIM tendem a ser menos importantes porque os SSDs estão preenchendo funções especificadas. Penso no cache de leitura do Nimble storage ou no ZFS L2ARC e ZIL ... Todos atendem a necessidades específicas e o software está aproveitando os recursos de maneira mais inteligente.

ewwhite
fonte
3
UNMAP e TRIM fazem exatamente a mesma coisa.
Michael Hampton
2
Aparar / unmap é sempre necessário-sem ele, você tem que confiar totalmente na coleta de lixo interna
Jim B
A coleta de lixo interna não substitui o TRIM. Não há função de firmware que possa substituir o que o TRIM faz. É um pouco alarmante que muitas respostas aqui não entendam o que o TRIM realmente faz e por que é necessário. Consulte artigos como este arstechnica.com/gadgets/2015/04/…
Shiv
1

Níveis de RAID com SSD Uma resposta acima sugere que os níveis de RAID com paridade, como o RAID 5, aumentam a amplificação de gravação. Existe realmente mais de uma maneira de interpretar isso: o impacto em uma unidade ou o impacto no conjunto de unidades.

Comparado a nenhuma redundância, o RAID 5 adiciona gravações ao conjunto à medida que adiciona paridade de soma de verificação. Comparado a uma matriz RAID 0 de unidades (n-1), o impacto por unidade da matriz RAID 5 com n unidades não é nada. Cada uma das n unidades recebe o mesmo número de gravações. O RAID 5 adiciona 1 / (n-1) gravações extras ao conjunto. No entanto, o RAID 1 e o RAID 10 adicionam gravações 100% extras ao conjunto, porque tudo o que é gravado em um SSD é gravado em seu espelho.

Portanto, em termos de gravação em um conjunto RAID 5 versus um conjunto RAID 10 com o mesmo número de unidades, os SSDs no conjunto RAID 5 receberão menos gravações. E isso permanece verdadeiro mesmo se você aumentar o número de SSDs no conjunto RAID 10 para igualar a capacidade útil.

Keith J
fonte
0

shodanshok tocou na resposta real aqui. Se você reservar espaço extra, "provisionamento em excesso", a resistência do SSD e a consistência no desempenho de gravação serão aprimoradas ao longo do tempo, e a falta de suporte ao TRIM se tornará irrelevante. A reserva desse espaço extra pode ser feita de maneira simples, começando com um novo SSD, particionando menos do que a capacidade total. A maioria dos controladores in-drive trata o espaço nunca usado da mesma forma que o espaço reservado e, assim, reduz significativamente a amplificação de gravação. Para inicialização e sistema operacional, 10% de espaço reservado é provavelmente suficiente. Para unidades que são reescritas com frequência, aumente esse espaço.

Keith J
fonte