Como você monitora e documenta a manutenção de rotina?

10

Que software ou sistema vocês usam com falha no servidor para lembrá-lo de fazer manutenção de rotina? Como você lista e registra os vários itens que deve verificar? Você tem um documento de processo interno? Você tem o cron mail toda semana com lembretes para verificar os logs do sistema?

Além disso, você trabalha em equipe para fazer a manutenção do sistema e, em caso afirmativo, como você coordena quem fará a manutenção?

Se você usa um sistema de rastreamento de bugs / problemas para inserir tarefas, você tem um trabalho cron para inserir tarefas recorrentes?

Zak
fonte

Respostas:

5

Atualmente, estou usando o Rastreador de solicitações ( http://www.bestpractical.com/rt )
Todos os eventos de manutenção recebem um ticket associado na fila "sistemas". As anotações sobre os problemas encontrados, quem fez o que funcionou quando, etc. são inseridas no ticket, juntamente com as aprovações necessárias.

No momento, nossas tarefas recorrentes (correções trimestrais etc.) são criadas manualmente, mas podem ser automatizadas com bastante facilidade (cron job + email).

Coordenar quem está realizando o trabalho é relativamente fácil para nós, pois há apenas 2 pessoas em nosso grupo de administradores, mas, à medida que expandimos o plano, é criar um ticket mestre para eventos de manutenção e usar tickets filhos atribuídos às partes responsáveis ​​para delegar o trabalho .


As coisas diárias (verificações de log etc.) são outra questão: eu tenho tudo isso em processos automatizados:

  • O InterMapper fica de olho no status geral dos servidores (consultas SNMP procurando alta carga, pouco espaço em disco etc.), funcionalidade de nossas interfaces da web e várias outras coisas que podem indicar problemas.
  • O Syslog-NG coleta logs de nossos hosts e os alimenta através de vários scripts que verificam se há defeitos óbvios. Ocasionalmente, olho os logs para verificar a integridade dos scripts, mas não é agendado regularmente.
voretaq7
fonte
2

A automação implementada adequadamente acaba com a necessidade de tarefas e listas de verificação. Por que você deseja verificar manualmente as coisas quando possui computadores que podem fazer o trabalho com muito mais eficácia e eficiência?

Qualquer coisa que precise de verificação periódica é verificada pelo sistema de monitoramento. As tarefas de rotina são automatizadas sempre que possível e são enviados lembretes para as poucas tarefas que precisam ser realizadas manualmente. A documentação é outra questão, mas, da maneira correta, seus computadores podem criar sua própria documentação.

Pare de procurar maneiras manuais melhores e comece a procurar maneiras automatizadas para realizar qualquer trabalho. Os computadores estão lá para trabalhar para nós, não para trabalharmos para eles.

John Gardeniers
fonte
Boa regra geral: um administrador de sistema sempre deve ser competente e preguiçoso. O desejo de não fazer o trabalho levará bons administradores de sistemas a implementar uma boa automação.
voretaq7
Deixe-me dar um exemplo específico: preciso monitorar patches de segurança para o Apache, gerar uma nova compilação e testá-la quando um patch for lançado. A parte de rotina é monitorar uma nova versão do Apache. Não é possível atualizar apenas diretamente do repositório (principal) porque ele não terá os módulos corretos compilados. Além disso, é necessário fazer uma auditoria para garantir que as liberações tenham sido verificadas. Isso faz mais sentido?
Zak
Além disso, não quero apenas lançar o último lote de qualquer software até que a compilação tenha passado no controle de qualidade. Grande parte do controle de qualidade é automatizado, mas não todo.
Zak
E existe um motivo que nem todos podem ser roteirizados? Verificações automatizadas de atualizações, enviando um alerta quando algumas estão disponíveis, seguidas por uma compilação e instalação com script, prontas para você testar. Deixe a máquina fazer a maior parte do trabalho e informe quando sua atenção é necessária.
John Gardeniers
1

Para o trabalho do projeto, ele é expulso do aplicativo Gerenciamento de Projetos (email e calendário integrados com a capacidade de documentar um trabalho detalhado e agendá-lo para pessoas específicas).

Para manutenção, atualizações, correções, etc., temos um sistema de bilhética que se integra mais ou menos ao nosso processo de Gerenciamento de Mudanças para lidar com solicitações e agendamento.

Para trabalhos totalmente conduzidos internamente e em ciclos longos (trimestral, anual etc.):

Os lembretes para fazer as coisas são agendados. Existe documentação informal / semi-formal ("wiki") sobre qual pode ser o cronograma geral.

Existe um pouco de "como fazer" e documentação processual sobre como executar tarefas e é acessível à equipe em geral, mas as pessoas têm seus próprios "livros negros" de administração e registros com anotações e receitas.

damorg
fonte
1

Um sistema de monitoramento pode ajudar com estas coisas:

  • Documentamos cada rodada de manutenção mensal em um arquivo doc do Word com caixas de seleção. Todos os meses, salvamos o relatório em uma pasta em nosso NAS. Monitoramos a idade mínima do arquivo da pasta. Se a idade mínima do arquivo for superior a 40 dias, receberemos um alarme.

  • Uma parte de nossa manutenção de rotina é reiniciar servidores e dispositivos selecionados uma vez por mês. Utilizamos sensores de "tempo de atividade do sistema" (SNMP / WMI) em nosso software de monitoramento e, se o tempo de atividade for superior a 40 dias, receberemos um alarme.

  • Para backups, monitoramos a idade mínima do arquivo na pasta de backup de cada servidor em nosso NAS. Se a idade mínima do arquivo for superior a 10 dias, receberemos um alarme.

Dirk Paessler
fonte
1

Uso o Checkpanel ( https://checkpanel.com ) para gerenciar minhas tarefas de manutenção recorrentes. Ele fornece listas de verificação reutilizáveis ​​e uma interface fácil para registrar os resultados de cada verificação.

Após a verificação de um item, ele não é apenas "concluído", mas permanece disponível para verificações adicionais. Cada verificação é registrada para que você possa revisar facilmente um histórico de todas as verificações anteriores de um item - incluindo detalhes opcionais (por exemplo, mensagens de erro para verificações com falha).

Você pode definir um recorrente para cada item para garantir que você o verifique pelo menos uma vez por semana / a cada 2 dias / etc. Há uma visão consolidada de todos os itens devidos. Se você quiser, também poderá receber um e-mail diário com todos os itens devidos.

Há um modelo de listas de verificação de manutenção do servidor que você pode usar como base para suas próprias listas de verificação. Outros modelos incluem listas de verificação para aplicativos da web, WordPress e muito mais.

Divulgação: Sou o fundador da Checkpanel.

Florian Sander
fonte