Soluções caseiras de armazenamento automático em camadas com Linux? (Memória -> SSD -> HDD -> armazenamento remoto)

13

Relacionado a esta pergunta sobre o uso de um SSD para sistema e HDD para dados , exceto que eu gostaria que meu sistema fizesse isso automaticamente ...

É possível ter várias camadas de armazenamento e enviar itens automaticamente entre eles, usando um software de código aberto de preferência gratuito?

Conheço soluções de classe empresarial extremamente caras, como o arquivamento automático do EMC SAN-> EMC Centera , mas fiquei imaginando se esse tipo de armazenamento em estágios é possível de ser feito automaticamente.

Seria bom poder ter várias camadas nisto: Memória-> SSD-> HDD-> HDD mais lento ou fita ou alguma outra solução de arquivamento.

Existem sistemas de arquivos que podem fazer isso automaticamente? (ZFS, Btrfs, HAMMER?)

Quaisquer variantes do Unix são boas, pois estou interessado em saber como isso funciona e se é provável que seja portátil para Linux ou outros tipos (BSD etc).

David Gardner
fonte

Respostas:

14

Bem, o ZFS usa uma camada de armazenamento chamada Hybrid Storage Pool (HSP) :

  1. Camada: memória
  2. Camada: caches de leitura baseados em SSD (L2ARC) e caches de gravação (log de intenção separado, também conhecido como slog).
  3. Camada: discos rígidos (baratos)

Com o HSP, é fácil se beneficiar automaticamente das vantagens dos SSDs, em comparação com uma solução apenas de disco rígido. Um sistema que usa HSP pode ser mais rápido e mais barato que o último. Veja este link para alguns bons exemplos e mais detalhes.

Acho que existem planos em relação ao gerenciamento hierárquico de armazenamento (HSM) para ZFS (veja, por exemplo, o projeto OpenSolaris da Migração automática de dados (ADM) ), mas não sei seu status atual.

Knweiss
fonte
Era exatamente isso que eu estava pensando, obrigado! (Agora para ajudar na porta Linux ...;)
David Gardner
Eu não chamaria isso de classificação em camadas, mas de cache. No sentido de que o armazenamento em cache significa manter uma cópia dos blocos usados ​​com freqüência, coloca em camadas os dados para um armazenamento mais lento / mais rápido. Eu não chamaria o log de intenção no ZFS de um cache de gravação real se o entendesse corretamente.
mrossi
5

O TIER parece atender às suas necessidades. É um módulo do kernel do linux que pode criar um armazenamento em camadas. Parece aprender por si só o padrão e otimizar a colocação no armazenamento

http://www.lessfs.com/wordpress/?p=776

Dolanor
fonte
Só vi a questão é velho ... Desculpe ^^'
Dolanor
2
Revitalizar perguntas antigas é melhor do que apodrecer com informações antigas e desatualizadas!
9788 David Gardner
Estou preocupado que esse cara queira reduzir a redundância por uma capacidade extra (especialmente quando os SSDs são comparativamente pequenos e não confiáveis).
Tobu
Também preocupado com a sugestão de invasão como solução, quando o software experimental mais precisa de backups.
Tobu
Porém, aqui está um feedback mais positivo: permalink.gmane.org/gmane.comp.file-systems.ceph.devel/8316
Tobu:
1

Respondendo à minha própria pergunta com algo que acabei de encontrar:

Eu estava apenas atualizando o kernel e olhando para as novas coisas que foram adicionadas, e agora existe uma opção 'CACHEFILES' que permite armazenar em cache (geralmente remotos) sistemas de arquivos em um sistema de arquivos local. Eu acho que eu poderia usar isso para armazenar em cache um mecanismo de armazenamento mais lento (HDD) para um mais rápido (SSD), pelo menos para um nível de hierarquia.

David Gardner
fonte
Você tentou esta solução? Como funciona?
Skolima
1
Deixa pra lá - descobri que o CacheFS por enquanto só suporta NFS e AFS.
Skolima
Usar sistemas de arquivos de rede para isso não é uma má idéia, eles tendem a amadurecer muito mais rápido que os conjuntos de patches do kernel. Gostaria de saber se Ceph ou DRBD têm modos úteis para armazenamento em camadas.
Tobu
1

Alguns links relevantes. YMMV.

http://code.google.com/p/fscops/ - "O Gerenciador de armazenamento hierárquico on-line (OHSM) é a primeira tentativa de um gerenciador de armazenamento de dados de código aberto de nível corporativo que move automaticamente os dados entre o armazenamento de alto e o baixo custo meios de comunicação.".

http://www.tack.ch/unix/dmapi/ - XFS + DMAPI no Linux

http://jfs.sourceforge.net/ - JFS + DMAPI no Linux

sendmoreinfo
fonte
O projeto OHSM parece interessante para seguir. Somente o ext2 e o kernel 2.6.30 são suportados por enquanto, mas espero que funcione bem, pois isso ganhará mais sistemas de arquivos.
David Gardner
Esse projeto parece abandonado, a atividade mais recente foi em 2009.
sendmoreinfo
0

Os instantâneos LVM2 vêm à mente ... mas você realmente não pode fazer mais do que um único instantâneo.

dyasny
fonte
0

O SAM-QFS é o produto existente da Sun e foi de código aberto no ano passado. É CDDL, então você só pode portá-lo diretamente para * BSD.

TRS-80
fonte