Tarefas diárias / semanais / mensais / anuais de administrador de sistemas

8

Provavelmente deve ser um wiki da comunidade. Estou tentando criar uma lista de todas as tarefas do administrador de sistema que deveríamos realizar regularmente porque acredito que não estamos fazendo o suficiente em nossa empresa. A atitude por aqui é que a correção de problemas é inconveniente, mas não temos tempo para fazer manutenção preventiva ou melhoria contínua.

Diariamente:

  • trocar fita / unidade de backup noturno
  • verifique se as atualizações de antivírus foram enviadas a todos os sistemas

Semanal:

  • trocar fita / unidade de backup semanal
  • limpe arquivos temporários de todos os sistemas
  • desfragmentar todos os sistemas

Por mês:

  • planejar melhorias na infraestrutura
  • entregar / enviar equipamentos obsoletos para a recicladora de eletrônicos
  • reconstruir ou substituir estações de trabalho antigas
  • restauração de teste do backup

Anual:

  • reconstruir ou substituir servidores antigos
  • substituir baterias UPS
Scott
fonte
Você está certo, deve ser um wiki da comunidade. Além disso, não tenha pressa em segregar tarefas como essa. por exemplo, o planejamento, a reconstrução de máquinas etc. deve ser feito conforme necessário, não atribuído como uma tarefa semanal (ou qualquer outro período específico).
John Gardeniers 14/10/10

Respostas:

7

Se você tiver tempo insuficiente para fazer a manutenção preventiva e passar a maior parte do tempo resolvendo problemas, toda a sua metodologia precisará ser revisada. Em vez de lhe dizer o que você deve fazer a cada período, darei algumas idéias para que você não precise fazer as coisas.

Primeiro, você precisa de um bom sistema de monitoramento e de tanta automação quanto possível. Esses dois itens devem liberar mais tempo do que muitos administradores imaginam até depois de configurá-lo bem.

Apenas algumas das coisas que seu sistema de monitoramento deve fazer por você são:

  • Alertá-lo quando as filas de filtros de email ou spam aumentarem muito ou de repente.
  • Alertá-lo quando o espaço em disco estiver muito baixo, o uso da CPU estiver muito alto etc.
  • Registre coisas como a utilização do disco para poder ver tendências ao longo do tempo.
  • A mesma coisa com caixas de correio.
  • Alertá-lo quando o firewall registrar um número anormal de ocorrências.
  • O mesmo vale para qualquer coisa que sirva ao mundo exterior. por exemplo, DNS e servidores web.
  • Alertá-lo se as atualizações do AV forem muito antigas ou se algum computador tiver o software AV desligado ou desinstalado.

A desfragmentação não deve estar na sua lista de tarefas, pois deve ser um processo automatizado. No intervalo desejado, faça o servidor executar verificações de disco e desfragmentar após uma reinicialização. Considere associar isso a um sistema para instalar atualizações e patches na fila (que foram testadas anteriormente em uma máquina que não seja de produção).

Pastas temporárias também podem ser limpas com automação. Crio um aplicativo simples que é acionado após uma reinicialização que aguarda 10 minutos e depois limpa todos os locais temporários. O atraso é garantir que ele não exclua os arquivos necessários para uma instalação ou atualização concluída após a reinicialização (aprendi da maneira mais difícil!).

Uma coisa que você deve fazer manualmente, em qualquer período que seja adequado, é monitorar o sistema de monitoramento e a automação, apenas para garantir a segurança. Verifico o meu diariamente, mas na verdade não encontro um problema há mais de um ano.

Quando você obtém o sistema e a automação, certifique-se de ter um sistema de controle de versão para instalá-lo. Pode ser realmente irritante descobrir que o último pequeno ajuste quebrou outra coisa, mas você não consegue se lembrar exatamente do que mudou.

John Gardeniers
fonte
Qual sistema de monitoramento único pode fazer tudo isso? Se existe, eu quero!
Cypher
@ Cypress, você está pensando muito estreitamente. Um único sistema de monitoramento normalmente inclui vários componentes, como Nagios e MRTG, assim como um sistema operacional é mais de um componente.
John Gardeniers 15/10/10
Suponho que realmente esperava ter perdido alguma ferramenta incrível que pudesse substituir a dúzia de ferramentas que atualmente uso para todas essas coisas. :) +1 para ferramentas de automação e monitoramento automatizado: se eu tiver que fazer algo mais de uma vez, ele será automatizado.
Cypher
@ Cypress, esse pedágio incrível que você está procurando nada mais é que o próprio computador. Faça com que funcione para você, em vez de trabalhar para ele. ;)
John Gardeniers 16/10/10
1

Em Diariamente, eu teria que verificar logs de eventos, manualmente ou através de um script de algum tipo.

Talvez o Monthly possa incluir atualizações do sistema operacional?

Eu diria também que anualmente veja onde a manutenção / garantia está em seus servidores.

Christopher
fonte
1

Por mês:

  • revisar o uso da infraestrutura - isso pode estar associado ao bit 'planejar melhorias na infraestrutura', mas você não pode fazer planos a menos que saiba (ou seja, 'tenha dados concretos') quais bits precisam ser aprimorados.

Trimestral:

  • Failover de infraestrutura de teste - da camada de aplicativo (servidor da web, email) à camada de rede (switch, link de rede) e camada física (energia), se você tiver redundância no sistema que espera poder salvar, precisa ser mantido e testado periodicamente.
pjz
fonte
1

Aqui estão alguns backups mensais nos quais você talvez não tenha pensado:

1) Mesmo automatizado, eu ainda copio minha configuração do switch de rede principal para uma máquina local
2) Configurações de firewall
3) configurações de SAN
4) configurações ISA exportadas (vitória em 2003)
5) reservas estáticas de DHCP (vitória de 2008)
6) Entradas DNS (vitória em 2008)
7) Chaves de criptografia (armazenadas em arquivos binários) no KeePass, especialmente porque nossos backups são criptografados - salvos adicionalmente fora de nossos sistemas de backup
8) nossa pasta de documentação de TI, salva adicionalmente fora de nossos sistemas de backup
jftuga
fonte
0

Em Diariamente, recomendo que você inscreva-se nas conhecidas listas de discussão sobre vulnerabilidades de patches e tenha um processo sobre patches / atualizações.

Isso pode acontecer apenas uma vez por mês, mas é preciso apenas uma mensagem perdida sobre a vulnerabilidade de um produto para causar muitas interrupções.

Eu acho que isso poderia ser reduzido em duas palavras para caber em uma linha, se você concordar.

BTW; Esta é uma ótima lista, estou ansioso para ver sua conclusão /.

Nick O'Neil
fonte
0

Audições internas:

  • Compare os sistemas que entraram no ar com a lista de sistemas que estão sendo copiados. Alguma coisa entrou na produção sem backup? (pelo menos mensalmente, se não mais frequentemente, dependendo de quanto é implantado)
  • Vá visitar suas fitas se você tiver um cofre externo. Verifique se eles estão onde deveriam estar. (uma ou duas vezes por ano)
damorg
fonte