Como não há troca de pilha dedicada à Engenharia de Confiabilidade do Site, achei que isso fecha uma.
Existem vários recursos excelentes para serem usados como inspiração para o slidedeck sobre os princípios do SRE [slides do SRE].
Ainda não consigo encontrar:
- baixo
- conciso
- exemplos
- motivando recursos para implementar o SRE na organização.
Quase tudo o que vivi na vida profissional foram casos e números altamente confidenciais. Preocupa-me que a maioria dos números que os SREs conhecem, permaneçam "internos" para serem apresentados internamente nas empresas.
No entanto, talvez você conheça algum estudo (de preferência um conjunto de) bons exemplos de post-morthems (até um por um é bom), a partir dos quais poderíamos apresentar fortes argumentos como "depois de introduzir o modelo SRE na velocidade de organização das mudanças geradas a partir de n m liberar impulsos por x, com aumento da disponibilidade em y e diminuição dos custos em z "(brainstorming) ou outros pontos de dados concretos?
[Slides do SRE] - alguns exemplos:
- Engenharia de confiabilidade do site: uma história de adoção corporativa (um webinar da ITSM Academy) da ITSM Academy, Inc.
- SRE From Scratch por Grier Johnson, engenheiro de plataforma na Square
- GOTO 2017 • Engenharia de confiabilidade do site no Google • Christof Leng
PS Se essa pergunta puder ser reformulada para se ajustar melhor às diretrizes deste site, forneça uma sugestão no comentário e faça uma alteração para melhorar. Caso contrário, aprecio outras plataformas melhores (no entanto, por exemplo, reddit.com/r/sre não me impressionou muito)
Respostas:
Os tipos de números que você está procurando pode ser difícil de encontrar, porque eles são altamente variável (mesmo dentro de uma organização, que varia serviço-a-serviço e equipe-a-equipe, na minha experiência.) O SRE livro agora está disponível gratuitamente e inclui dois estudos de caso (capítulo 3) que podem ser úteis. Além disso, o SRE eBook da New Relic faz um bom trabalho de resumir o SRE de maneira concisa.
Outra maneira de abordar isso seria tentar usar o que você sabe sobre seu serviço hoje para criar uma avaliação de risco e estimar o tempo de inatividade que você pode evitar se você tivesse suporte a SRE e dev para eliminar esses riscos.
fonte
Estou operando nas organizações DevOps e Engenharia de Confiabilidade do Site em várias empresas. Eu diria que o SRE tem a vantagem de ser muito mais concreto que o DevOps.
O DevOps enfatiza princípios e mentalidades, por exemplo, as três maneiras do DevOps: pensamento sistêmico, amplificação de ciclos de feedback e uma cultura de experimentação e aprendizado contínuos. DevOps mais uma extensão para o Agile que um modelo operacional diferente.
A Engenharia de confiabilidade do site enfatiza as abordagens, métricas e medidas específicas que o Google (e outros) aplicam para alcançar um alto nível de disponibilidade de serviço e confiança no cliente. f.ex: a proporção de trabalho e melhorias, análise quantitativa de riscos e abordagens matemáticas para SLIs e SLOs.
Como o SRE implementa o DevOps , é um pouco injusto tentar comparar organizações que fazem uma, mas não fazem a outra, então eu sugeriria que todo o conteúdo do Accelerate pode ser aplicado com a mesma facilidade à Engenharia de Confiabilidade do Site, portanto, se você precisam de análises baseadas em dados revisadas por pares para começar por aí.
fonte