Atualmente, estou usando o Rastreador de solicitações ( http://www.bestpractical.com/rt )
Todos os eventos de manutenção recebem um ticket associado na fila "sistemas". As anotações sobre os problemas encontrados, quem fez o que funcionou quando, etc. são inseridas no ticket, juntamente com as aprovações necessárias.
No momento, nossas tarefas recorrentes (correções trimestrais etc.) são criadas manualmente, mas podem ser automatizadas com bastante facilidade (cron job + email).
Coordenar quem está realizando o trabalho é relativamente fácil para nós, pois há apenas 2 pessoas em nosso grupo de administradores, mas, à medida que expandimos o plano, é criar um ticket mestre para eventos de manutenção e usar tickets filhos atribuídos às partes responsáveis para delegar o trabalho .
As coisas diárias (verificações de log etc.) são outra questão: eu tenho tudo isso em processos automatizados:
- O InterMapper fica de olho no status geral dos servidores (consultas SNMP procurando alta carga, pouco espaço em disco etc.), funcionalidade de nossas interfaces da web e várias outras coisas que podem indicar problemas.
- O Syslog-NG coleta logs de nossos hosts e os alimenta através de vários scripts que verificam se há defeitos óbvios. Ocasionalmente, olho os logs para verificar a integridade dos scripts, mas não é agendado regularmente.
Para o trabalho do projeto, ele é expulso do aplicativo Gerenciamento de Projetos (email e calendário integrados com a capacidade de documentar um trabalho detalhado e agendá-lo para pessoas específicas).
Para manutenção, atualizações, correções, etc., temos um sistema de bilhética que se integra mais ou menos ao nosso processo de Gerenciamento de Mudanças para lidar com solicitações e agendamento.
Para trabalhos totalmente conduzidos internamente e em ciclos longos (trimestral, anual etc.):
Os lembretes para fazer as coisas são agendados. Existe documentação informal / semi-formal ("wiki") sobre qual pode ser o cronograma geral.
Existe um pouco de "como fazer" e documentação processual sobre como executar tarefas e é acessível à equipe em geral, mas as pessoas têm seus próprios "livros negros" de administração e registros com anotações e receitas.
fonte
Um sistema de monitoramento pode ajudar com estas coisas:
Documentamos cada rodada de manutenção mensal em um arquivo doc do Word com caixas de seleção. Todos os meses, salvamos o relatório em uma pasta em nosso NAS. Monitoramos a idade mínima do arquivo da pasta. Se a idade mínima do arquivo for superior a 40 dias, receberemos um alarme.
Uma parte de nossa manutenção de rotina é reiniciar servidores e dispositivos selecionados uma vez por mês. Utilizamos sensores de "tempo de atividade do sistema" (SNMP / WMI) em nosso software de monitoramento e, se o tempo de atividade for superior a 40 dias, receberemos um alarme.
Para backups, monitoramos a idade mínima do arquivo na pasta de backup de cada servidor em nosso NAS. Se a idade mínima do arquivo for superior a 10 dias, receberemos um alarme.
fonte
Uso o Checkpanel ( https://checkpanel.com ) para gerenciar minhas tarefas de manutenção recorrentes. Ele fornece listas de verificação reutilizáveis e uma interface fácil para registrar os resultados de cada verificação.
Após a verificação de um item, ele não é apenas "concluído", mas permanece disponível para verificações adicionais. Cada verificação é registrada para que você possa revisar facilmente um histórico de todas as verificações anteriores de um item - incluindo detalhes opcionais (por exemplo, mensagens de erro para verificações com falha).
Você pode definir um recorrente para cada item para garantir que você o verifique pelo menos uma vez por semana / a cada 2 dias / etc. Há uma visão consolidada de todos os itens devidos. Se você quiser, também poderá receber um e-mail diário com todos os itens devidos.
Há um modelo de listas de verificação de manutenção do servidor que você pode usar como base para suas próprias listas de verificação. Outros modelos incluem listas de verificação para aplicativos da web, WordPress e muito mais.
Divulgação: Sou o fundador da Checkpanel.
fonte