Artigos sobre tratamento de falhas em sistemas distribuídos

Quais documentos sobre o tratamento de erros em sistemas distribuídos você recomenda?

reference-request dc.distributed-comp Alexandru
fonte

Não estou familiarizado com o assunto, mas não há muitos? Além disso, recomendo para quê?

Tsuyoshi Ito

A questão parece ser muito ampla; Eu acho que metade de todos os trabalhos em computação distribuída estão relacionados à tolerância a falhas.

Jukka Suomela 6/10/10

definitivamente muito amplo. votar para fechar ...

Suresh Venkat

Talvez a pergunta não seja tão ruim. Tentei recomendar alguns trabalhos abaixo.

Dai Le

A pergunta teria sido melhor se você tivesse originalmente incluído essas informações como motivação.

Dave Clarke

Respostas:

Você pode dar uma olhada nas obras que ganharam Tushar D. Chandra, Vassos Hadzilacos e Sam Toueg, o Prêmio Edsger W. Dijkstra em 2010 :

Tushar D. Chandra e Sam Toueg. Detectores de falhas não confiáveis para sistemas distribuídos confiáveis , Journal of the ACM, 43 (2): 225-267, 1996
Tushar D. Chandra, Vassos Hadzilacos e Sam Toueg. O Detector de Falha Mais Fraco para Resolução de Consenso , Journal of the ACM, 43 (4): 685-722, 1996.

Estes documentos introduzem a noção de detectores de falha em um sistema distribuído em uma estrutura geral e precisa. Intuitivamente, eles tentaram estudar a quantidade mínima de informações de falha necessárias para resolver o consenso. Acontece que você não precisa de um detector de falhas perfeito para resolver o consenso. Mesmo detectores de falhas não confiáveis que satisfaçam certas condições mínimas serão suficientes para a tarefa. Esses documentos foram muito influentes sobre como lidar com falhas em sistemas distribuídos.

Dai Le
fonte

Que tipo de falhas no sistema? Você está procurando soluções para lidar com falhas bizantinas ou apenas o modelo clássico de parada de falhas? Soluções na presença de nós bizantinos em um sistema distribuído é o problema mais intrigante. O problema foi formalizado por Leslie Lamport (o problema dos generais bizantinos "e o artigo de 1999 de Barbara Liskov e Miguel Castro apresenta a solução prática mais prática" Tolerância a falhas bizantina prática ". Os modelos formais originais para lidar com a tolerância a falhas incluem o estado- abordagem de máquina de Fred Schneider e replicação com impressão de ponto de vista Eu concordo que a questão é muito geral, o campo é imenso e a teoria forma a base da maioria dos sistemas atualmente em execução online Talvez um modelo de falha mais específico e o domínio do problema ajudem a obter melhores respostas

kryptos
fonte

Aqui está uma coleção de padrões para lidar com erros em sistemas distribuídos:

Padrões para geração, tratamento e gerenciamento de erros de Andy Longshaw e Eoin Woods, EuroPlop 2004.

Como alternativa, para trabalhos mais genéricos, há o livro Introdução à Programação Distribuída Confiável, de Rachid Guerraoui e Luis Rodrigues, que possui uma vasta gama de algoritmos práticos, incluindo muitas variantes de recuperação de falhas. O texto mais clássico Algoritmos Distribuídos de Nancy Lynch cobre um terreno semelhante de uma perspectiva mais teórica.

Dave Clarke
fonte