Artigos sobre tratamento de falhas em sistemas distribuídos

10

Quais documentos sobre o tratamento de erros em sistemas distribuídos você recomenda?

Alexandru
fonte
2
Não estou familiarizado com o assunto, mas não há muitos? Além disso, recomendo para quê?
Tsuyoshi Ito
5
A questão parece ser muito ampla; Eu acho que metade de todos os trabalhos em computação distribuída estão relacionados à tolerância a falhas.
Jukka Suomela 6/10/10
2
definitivamente muito amplo. votar para fechar ...
Suresh Venkat
Talvez a pergunta não seja tão ruim. Tentei recomendar alguns trabalhos abaixo.
Dai Le
11
A pergunta teria sido melhor se você tivesse originalmente incluído essas informações como motivação.
Dave Clarke

Respostas:

8

Você pode dar uma olhada nas obras que ganharam Tushar D. Chandra, Vassos Hadzilacos e Sam Toueg, o Prêmio Edsger W. Dijkstra em 2010 :

Estes documentos introduzem a noção de detectores de falha em um sistema distribuído em uma estrutura geral e precisa. Intuitivamente, eles tentaram estudar a quantidade mínima de informações de falha necessárias para resolver o consenso. Acontece que você não precisa de um detector de falhas perfeito para resolver o consenso. Mesmo detectores de falhas não confiáveis ​​que satisfaçam certas condições mínimas serão suficientes para a tarefa. Esses documentos foram muito influentes sobre como lidar com falhas em sistemas distribuídos.

Dai Le
fonte
3

Que tipo de falhas no sistema? Você está procurando soluções para lidar com falhas bizantinas ou apenas o modelo clássico de parada de falhas? Soluções na presença de nós bizantinos em um sistema distribuído é o problema mais intrigante. O problema foi formalizado por Leslie Lamport (o problema dos generais bizantinos "e o artigo de 1999 de Barbara Liskov e Miguel Castro apresenta a solução prática mais prática" Tolerância a falhas bizantina prática ". Os modelos formais originais para lidar com a tolerância a falhas incluem o estado- abordagem de máquina de Fred Schneider e replicação com impressão de ponto de vista Eu concordo que a questão é muito geral, o campo é imenso e a teoria forma a base da maioria dos sistemas atualmente em execução online Talvez um modelo de falha mais específico e o domínio do problema ajudem a obter melhores respostas

kryptos
fonte
3

Aqui está uma coleção de padrões para lidar com erros em sistemas distribuídos:

Como alternativa, para trabalhos mais genéricos, há o livro Introdução à Programação Distribuída Confiável, de Rachid Guerraoui e Luis Rodrigues, que possui uma vasta gama de algoritmos práticos, incluindo muitas variantes de recuperação de falhas. O texto mais clássico Algoritmos Distribuídos de Nancy Lynch cobre um terreno semelhante de uma perspectiva mais teórica.

Dave Clarke
fonte