Provavelmente deve ser um wiki da comunidade. Estou tentando criar uma lista de todas as tarefas do administrador de sistema que deveríamos realizar regularmente porque acredito que não estamos fazendo o suficiente em nossa empresa. A atitude por aqui é que a correção de problemas é inconveniente, mas não temos tempo para fazer manutenção preventiva ou melhoria contínua.
Diariamente:
- trocar fita / unidade de backup noturno
- verifique se as atualizações de antivírus foram enviadas a todos os sistemas
Semanal:
- trocar fita / unidade de backup semanal
- limpe arquivos temporários de todos os sistemas
- desfragmentar todos os sistemas
Por mês:
- planejar melhorias na infraestrutura
- entregar / enviar equipamentos obsoletos para a recicladora de eletrônicos
- reconstruir ou substituir estações de trabalho antigas
- restauração de teste do backup
Anual:
- reconstruir ou substituir servidores antigos
- substituir baterias UPS
best-practices
maintenance
Scott
fonte
fonte
Respostas:
Se você tiver tempo insuficiente para fazer a manutenção preventiva e passar a maior parte do tempo resolvendo problemas, toda a sua metodologia precisará ser revisada. Em vez de lhe dizer o que você deve fazer a cada período, darei algumas idéias para que você não precise fazer as coisas.
Primeiro, você precisa de um bom sistema de monitoramento e de tanta automação quanto possível. Esses dois itens devem liberar mais tempo do que muitos administradores imaginam até depois de configurá-lo bem.
Apenas algumas das coisas que seu sistema de monitoramento deve fazer por você são:
A desfragmentação não deve estar na sua lista de tarefas, pois deve ser um processo automatizado. No intervalo desejado, faça o servidor executar verificações de disco e desfragmentar após uma reinicialização. Considere associar isso a um sistema para instalar atualizações e patches na fila (que foram testadas anteriormente em uma máquina que não seja de produção).
Pastas temporárias também podem ser limpas com automação. Crio um aplicativo simples que é acionado após uma reinicialização que aguarda 10 minutos e depois limpa todos os locais temporários. O atraso é garantir que ele não exclua os arquivos necessários para uma instalação ou atualização concluída após a reinicialização (aprendi da maneira mais difícil!).
Uma coisa que você deve fazer manualmente, em qualquer período que seja adequado, é monitorar o sistema de monitoramento e a automação, apenas para garantir a segurança. Verifico o meu diariamente, mas na verdade não encontro um problema há mais de um ano.
Quando você obtém o sistema e a automação, certifique-se de ter um sistema de controle de versão para instalá-lo. Pode ser realmente irritante descobrir que o último pequeno ajuste quebrou outra coisa, mas você não consegue se lembrar exatamente do que mudou.
fonte
Em Diariamente, eu teria que verificar logs de eventos, manualmente ou através de um script de algum tipo.
Talvez o Monthly possa incluir atualizações do sistema operacional?
Eu diria também que anualmente veja onde a manutenção / garantia está em seus servidores.
fonte
Por mês:
Trimestral:
fonte
Aqui estão alguns backups mensais nos quais você talvez não tenha pensado:
fonte
Em Diariamente, recomendo que você inscreva-se nas conhecidas listas de discussão sobre vulnerabilidades de patches e tenha um processo sobre patches / atualizações.
Isso pode acontecer apenas uma vez por mês, mas é preciso apenas uma mensagem perdida sobre a vulnerabilidade de um produto para causar muitas interrupções.
Eu acho que isso poderia ser reduzido em duas palavras para caber em uma linha, se você concordar.
BTW; Esta é uma ótima lista, estou ansioso para ver sua conclusão /.
fonte
Audições internas:
fonte