Existem dois tipos principais de falhas de processador nos modelos de computação distribuída:
(1) Falhas de falha: um processador para e nunca inicia novamente. (2) Falhas bizantinas: os processadores se comportam de maneira adversa e maliciosa.
Minha pergunta é:
Quais são alguns outros tipos de falhas de processador que foram estudados, que não se reduzem a falhas ou falhas bizantinas?
Além disso, uma pergunta mais específica:
Foi estudado um modelo em que, com alguma probabilidade, um processo está ativado no momento , e fora disso? Portanto, cada processo está piscando, por assim dizer.
Estou mais interessado em como essas falhas se relacionam com o consenso e outros problemas de acordos distribuídos.
Obrigado.
reference-request
dc.distributed-comp
Aaron Sterling
fonte
fonte
Respostas:
Copiado dos comentários sobre a pergunta conforme solicitação.
Adotei a teoria da computação distribuída com Michel Raynal e ele descreveu um terceiro modelo, no qual as mensagens podem ser descartadas aleatoriamente. Nesse modelo, uma mensagem pode falhar silenciosamente ao ser entregue, mas isso não significa necessariamente que o nó falhou. Trata-se de falhas de link em vez de falhas de nó "modelo de canal com perdas justas", você pode ler mais sobre isso aqui: Transmissão confiável de uniforme quieto como uma pesquisa introdutória para oráculos de detectores de falhas - Michel Raynal (ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz)
fonte
Devido ao alto custo de recursos envolvido na tolerância a falhas bizantina, os modelos de falhas com suposições cada vez mais fortes foram analisados, é claro, especialmente nos requisitos de recursos para tolerar falhas de tipo restrito. ( Azadmanesh e Kieckhafer, 2002 ) fornecem uma taxonomia muito agradável (ver Fig. 1)
Outra maneira de modelar as premissas do modo de falha é afastar-se do ponto de vista central do nó, em que a perda de mensagem é modelada como falha do remetente, em direção ao modelo de falha de link, que é apenas uma visão dupla, uma vez que as inconsistências que eles podem causar. o sistema é considerado. Esse modelo foi investigado por ( Schmid, Weiss e Rushby, 2002 ), contornando um resultado impossível ( Gray, 1978 ), mostrando uma solução determinística do problema do Ataque Coordenado sob falhas de link.
fonte
Não sei se @M. Alaggan estava falando sobre esse tipo de falhas, mas elas certamente se parecem: falhas transitórias.
No modelo do DVFS , onde é possível modificar a frequência e a tensão para reduzir o consumo de energia, Zhu e Aydin neste artigo (pdf) usaram um modelo de falha para o DVFS. Eles consideram falhas transitórias, que são falhas causadas por erros de software, por exemplo. Eles invalidam apenas a execução da tarefa atual e o processador sujeito a essa falha poderá recuperar e executar a tarefa subseqüente atribuída a ele (se houver).
Desculpe postar isso muito tempo após o post original, mas encontrei essa pergunta enquanto trabalhava nesse assunto :). Quando não está estudando o DVFS, essas falhas ainda existem, as fórmulas provavelmente ainda são válidas (ou adaptáveis). Você pode encontrar mais informações sobre falhas transitórias sem o DVFS aqui .
fonte
Em relação aos modelos de falha por omissão já mencionados, consulte o NeigerToueg , que considera diferentes tipos.
Isso soa como um modelo de recuperação de falhas. Não conheço nenhum modelo em que os processos sejam ativados / desativados probabilisticamente. Há também variantes em que os processos são bizantinos por algum tempo e depois se recuperam, onde, com o tempo, todos os processos podem ser bizantinos (embora considerados principalmente para sincronização de relógio).
Observe que se desligando você apenas quer dizer que um processo não está apenas progredindo (ele não perde seu estado e nem as mensagens são perdidas devido ao receptor estar "desligado"), o que você está vendo é chamado de assíncrono sistema. No contexto da memória compartilhada, sua pergunta pode estar intimamente relacionada a este artigo de Aspnes .
fonte
Pode haver outros tipos de falhas. Por exemplo, alguns dos processadores (por exemplo, nos protocolos de difusão ou multicast) podem ficar sobrecarregados e não conseguiriam processar todas as mensagens recebidas. Isso resulta em fazer o processador parecer offline para alguns processadores no sistema distribuído.
fonte