Melhor acidente com administrador do sistema [fechado]
87
Estou procurando histórias divertidas de acidentes com administradores de sistemas que você já teve. Excluir o email do CEO, formatar o disco rígido errado etc.
Vou adicionar minha própria história como resposta.
Isso realmente é mais uma enquete do que uma pergunta. Provavelmente, isso deve ser definido como wiki da comunidade.
Zoredache
7
Sim, este definitivamente deve ser um wiki da comunidade. No entanto, na intenção da pergunta, minha história favorita é o email de 500 milhas - ibiblio.org/harris/500milemail.html - embora, obviamente, não tenha sido eu.
Mihai Limbăşan
o 500miles é simplesmente maravilhoso
Hubert Kario
Isso deve ser chamado de "pior acidente com o administrador do sistema".
Rilindo 02/09/11
Respostas:
133
Diverti-me descobrindo a diferença entre o comando "killall" do linux (mata todos os processos correspondentes ao nome especificado, útil para parar zumbis) e o comando "killall" do solaris (mata todos os processos e interrompe o sistema, útil para parar o servidor de produção em no meio do horário de pico e fazendo com que todos os seus colegas de trabalho riam de você por uma semana).
Estive lá, fiz isso. Aliasmos o comando killall nas caixas solaris depois disso: alias killall = 'echo ORLLY?' =)
Comandante Keen
29
Também há uma diferença importante no Solaris entre 'ifconfig -a4' (mostra as informações IPv4 de todas as interfaces) e 'ifconfig -a 4' (defina todas as interfaces como 0.0.0.4).
Zanchey
3
+1 "opa, esse vento está conectado ao solaris?"
Mark Harrison
4
@ Comandante, eu estava indo para votar seu comentário, mas há exatamente 42 votos neste exato momento ... Eu simplesmente não podia .
Massimo
5
Além disso, hostname -fno Linux imprime o nome de domínio totalmente qualificado no Linux. No Solaris, ele define o nome do host como -f.
200_success 14/10/10
73
Eu era responsável pelo nosso proxy corporativo da Web, que na época era o produto da Netscape. Enquanto brincava nos formulários de administração (era uma interface baseada na Web), havia um botão grande (e eu juro que era vermelho) que dizia Excluir banco de dados do usuário . Não tem problema, pensei. Vamos ver quais são as opções que me oferecem quando eu acerto isso. Certamente haverá um prompt de confirmação se não houver opções.
Sim, sem confirmação. Sem opções. Não há mais usuários.
Então, fui até o Sr. Solaris Sysadmin e disse que eu estava precisando desesperadamente de uma restauração da fita à qual ele respondeu: "Eu não apoio essa caixa".
"Uh, venha novamente", eu respondi.
"Eu não apoio essa caixa. Está na minha lista de coisas para adicionar à rotação de backup, mas ainda não cheguei a isso".
"Este servidor está em produção há quase 8 meses!" Eu gritei.
Definitivamente, essa é uma história para todas as pessoas que se queixam daqueles irritantes 'Você tem certeza?' dialogs;) #
MikeyB
45
Eu não tenho certeza que você deve ser o único a estar gritando para ele ...
Mikeage
14
Isto não é realmente um acidente - você pressionou o botão Excluir banco de dados do usuário de propósito, vamos lá cara ...
Wayne Koorts
5
Sim você está certo. Apertar o botão não foi um acidente. Na verdade, excluir o banco de dados foi a parte do acidente. Seja qual for ...
squillman
7
Esse botão deveria ter sido seguido por dois ou três prompts de confirmação. Como é um recurso útil excluir o banco de dados do usuário? Eu culpo totalmente o programador que colocou o botão lá. E o fato de que o banco de dados não foi copiado. "O gênio pode ter suas limitações, mas a estupidez não é, portanto, prejudicada". (atrai Elbert Hubbard). Construir com a suposição de que os humanos não têm curiosidade, macacos descuidados está apenas construindo um desastre.
Jared Updike
66
Há muitos anos, a empresa em que trabalhei tinha um cliente que executava um backup noturno do NT 4.0 Server em uma unidade Jaz (como um disco zip de alta capacidade).
Configuramos um arquivo em lotes, que foi executado como um trabalho agendado da noite para o dia. Todas as manhãs, eles coletavam o disco das últimas noites da unidade e, antes de partirem, inseriam o próximo disco na sequência.
De qualquer forma, o arquivo em lotes tinha a seguinte aparência (a unidade Jaz era a unidade F :).
@echo off
F:
deltree /y *.*
xcopy <important files> F:
De qualquer forma, uma noite eles esqueceram de colocar o disco. A alteração na unidade F: falhou (nenhum disco na unidade) e o arquivo em lotes continuou em execução. O diretório de trabalho padrão para o arquivo em lotes? C :. Primeira vez que vi uma rotina de backup destruir o servidor que estava fazendo backup.
Aprendi um pouco sobre administração de sistemas (e manipulação de exceções) naquele dia.
... temos que explicar o que são os drives Jaz? Eu sou realmente tão velho?
Spencer Ruport
3
Era uma coisa da IOMEGA (lembra dos Zip Drives?) Era o irmão mais velho dos Zip Drives, e era como um disco rígido sem cabeça, apenas os pratos, que ficavam dentro de uma caixa de plástico com uma pequena janela e, quando inseridos em a unidade, a unidade inseriu os cabeçalhos nela. Onde como 1 ou 2 GB, caro, e tendem a superaquecer, por isso não foi recomendado para deixar os cartuchos no interior do leitor (isto dito por um velho chefe IOMEGA)
Andor
3
Hehe, eu gosto de como o jaz drive é explicado em comparação com o zip drive tão morto quanto irrelevante.
9309 Luke
2
Se isso faz você se sentir mais velho, existem administradores de sistemas que nunca viram deltree antes.
Joseph
5
Eu tive que explicar para muitos programadores que quando você tenta uma operação que altera um estado e, no entanto, pode falhar e deixá-lo no estado anterior, é necessário verificar se foi bem-sucedido se você faria algo perigoso. você deve estar no estado anterior. Por que eu tenho que explicar isso?
ea partir de então, o uso do comando 'file' foi adicionado ao crontab limpeza ... :)
MikeyB
3
Oh meu Deus .... #
squillman
4
Oh meu Deus ... uau. Vou fazer uma anotação mental desta, para nunca fazer isso.
Glenn Willen
60
Adoro a maneira como todos qualificam sua história como "quando eu era jovem / verde", como se nunca mais fizessem isso de novo. Acidentes podem acontecer até para os profissionais mais experientes.
Meu pior momento é tão ruim que ainda tenho palpitações pensando nisso ...
Tínhamos uma SAN com dados de produção. Crítico para a empresa. Meu "mentor" decidiu estender uma partição para liberar espaço em disco. Você pode ver para onde isso está indo? Ele disse que o software SAN poderia fazer isso ao vivo, em horas de produção e ninguém notaria. Os alarmes deveriam ter começado a tocar, mas estavam visivelmente silenciosos. Ele disse que fez isso "muitas vezes antes" sem problemas. Mas aqui está a coisa - ele me fez clicar no botão que dizia "você tem certeza?"! Como eu era novo na empresa, presumi que esse cara sabia do que estava falando. Grande erro. A boa notícia foi que o LUN foi estendido. As más notícias eram ... bem, eu sabia que havia más notícias quando comecei a ver erros de gravação de disco na caixa do Windows.
Estou feliz por estar usando calça marrom.
Tivemos que explicar por que 1 TB de dados desapareceu na hora do almoço. Foi um dia muito, muito ruim.
Na verdade, é um bom princípio - antes que você faça alguma dúvida, imagine ter que explicar à gerência se algo der errado. Se você não consegue encontrar uma boa resposta para explicar suas ações, não faça isso.
+1 para o último parágrafo - a técnica de "sentar-se em suas mãos", a um minuto vital para a reflexão
Andy
12
Há uma certa habilidade que você obtém depois de trabalhar com sistemas ativos por um tempo: uma sensação de aranha sobre o que é perigoso e o que não é. Como pausar um segundo extra antes de pressionar return em um prompt raiz ou garantir que a instrução SQL update tenha uma cláusula where apropriada (que já foi executada em uma contagem de seleção (*)).
Jplindstrom 09/09/09
18
Quero um pop-up que diga algo como "Deseja imprimir seu currículo antes de continuar?" .. e tem apenas uma opção: "Sim"
warren
+1 para o conselho no último parágrafo
Jeroen Huinink 25/06
3
+1, idem. Lembro-me de ouvir de um amigo administrador de sistemas que houve problemas em sua avaliação anual de desempenho sobre sua baixa velocidade de digitação, que ele desprezou (e corretamente) descartou com "Não sou pago para digitar rápido. Sou pago para pressionar enter muito lenta e pensativamente. "
MadHatter
54
O Nagios nos enviou um ping uma manhã quando o horário comercial começou a dizer que não era possível conectar-se a um servidor não crítico. Ok, caminhe para a sala do servidor. É um servidor antigo, um Dell 1650 adquirido em 2002, e sabíamos que os anos 1650 estavam tendo problemas de hardware. O PFY apunhala o botão liga / desliga. Nada. Aperte-o novamente e mantenha-o pressionado por cinco segundos para 'forçar a ligação' ... o que substitui a proteção contra erros do BMC, pois sem um DRAC não há como examinar os logs do BMC sem ligar o chassi.
A máquina inicia o POST e depois morre novamente. Estou de pé sobre ele e digo: "Sinto cheiro de fumaça". Puxamos o servidor pelos trilhos e uma das fontes de alimentação fica quente, então o PFY o puxa e está prestes a fechar a caixa novamente. Eu digo: "Não, isso não é fumaça da fonte de alimentação, é fumaça da placa-mãe".
Abrimos o estojo novamente e procuramos a fonte do cheiro de queimado. Acontece que uma bobina de indutor e um capacitor explodiram algo no regulador de tensão da placa-mãe e pulverizaram cobre fundido e capacitor em tudo, causando um curto-circuito e fazendo uma grande bagunça.
A pior parte para mim foi reconhecer que havia fumado hardware suficiente para reconhecer a diferença entre o cheiro de uma placa-mãe queimada e de uma fonte de alimentação queimada.
Os critérios de seleção deste trabalho incluem: bom olfato. Brilhante.
Mlp 07/07/2009
13
Meu amigo enroscou um conjunto de trilhos de unidade em um disco tão longe que eles entraram na placa de circuito e o colocaram em curto. Fumaça muito rosa. Muito distinguível.
squillman
47
Há três dias (sério), eu estava conectado remotamente a um servidor escolar, instalando o Service Pack 2 em um servidor de arquivos do Windows Server 2008.
Decidi agendar a reinicialização necessária tarde da noite, quando os professores não estavam logados para terminar seus boletins de final de ano. Eu digitei algo como:
às 23:59 "shutdown -r -t 0"
... o que pode ter funcionado bem.
Mas então eu me adivinhei. Minha sintaxe de 'desligamento' estava correta? Tentei ver a ajuda de uso digitando
desligamento / h
... e perdi instantaneamente minha conexão RDP. Em pânico, entrei no Google para obter a sintaxe. Uma pesquisa rápida revelou que a versão de desligamento do Server 2008 inclui uma opção / h, que (como você deve ter adivinhado) hiberna a máquina.
Os professores começaram a me ligar em questão de minutos para informar que não podiam mais abrir ou salvar os boletins em que estavam trabalhando. Como eu estava fora do local e a sala do servidor estava trancada, tive que ligar diretamente para o diretor da escola e orientá-la no processo de ligar novamente a máquina.
Hoje eu trouxe biscoitos caseiros para todos como uma forma de desculpas.
Um exemplo perfeito de design de interface do usuário defeituoso na linha de comando: o que aconteceu com o "Princípio da menor surpresa"?
Mei
9
no DOS / Windows não é /?
Jared Updike
3
Geralmente é /? no Win, mas existem muitos utilitários que são portados de UNIX ou escritos por pessoas UNIX (incluindo muito poucos tais na MS), que são -H ou / h
Richard Gadsden
6
..mas você ainda tenta sempre o /?primeiro!
Warren
14
É por isso que eu gosto do Linux. man shutdown. Eu sei que não vou causar problemas com man!
13139 Josh
37
Em um trabalho anterior, tínhamos um ótimo sistema interno que registrava e arquivava cada correio que entrava, saía ou ficava na empresa.
Explodiu toda a sua caixa de correio? Sem problemas! Procurando uma correspondência que alguém lhe enviou uma semana / mês / ano atrás, mas você não consegue se lembrar de quem a enviou ou qual era o assunto? Sem problemas! Apenas enviaremos tudo de fevereiro para você em uma pasta especial.
Em algum momento, surgiu a necessidade de o CEO da empresa monitorar as correspondências entre um concorrente e um vendedor interno sob suspeita. Por isso, configuramos um script que era executado todas as noites e entregamos correspondências relevantes do dia anterior ao CEO. Sem problemas!
Cerca de um mês depois, surgiu a palavra de um problema urgente com mais de duas vezes. Parece que, enquanto o CEO lia a lista de emails enviados para $ OTHERCOMPANY, ele se deparou com este:
To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)
Naturalmente, sendo o CEO uma pessoa importante e tudo, ele estava ocupado demais para clicar em todas as caixas de diálogo "Enviar recibo de leitura" no Outlook e configurou seu cliente para apenas enviar todos eles. Uma das mensagens capturadas pelo filtro de monitoramento tinha uma solicitação de confirmação de leitura definida. Adivinha o que o Outlook fez? Certamente atrapalhou o monitoramento 'clandestino'.
Nossa próxima tarefa: adicionar regras ao filtro de email para bloquear os recibos de leitura de saída do CEO para essa empresa. Sim, era a maneira mais fácil. :)
Ah, bem, esse é o seu país. :) No Canadá, está tudo bem.
MikeyB
7
Não é legal monitorar e-mails entrando ou saindo dos servidores da sua própria empresa? em que país você mora?
Andrew Ensley
1
+1 para o
jornal
36
Ahhh, o meu foi há cerca de 10 anos atrás, quando eu ainda estava molhando os pés. Tive a alegria de instalar backups de bateria em todos os computadores dos programadores. Eles também queriam que o software fosse carregado para avisar sobre queda de energia e desligado corretamente.
Então, configurei-o no meu computador para testar tudo primeiro, é claro, e garantir que tudo funcionasse. Portanto, desconecto o cabo de alimentação e a mensagem aparece na minha tela. "energia externa perdida, iniciando o desligamento do sistema".
Então pensei: Ei legal, funcionou. Mas, por algum motivo estranho, eu nem me lembro, ele enviou essa mensagem como uma mensagem de rede para que todos os mais de 200 computadores da empresa recebessem essa mensagem, onde mais de 100 usuários estavam programados.
Sim, fale sobre surtos em massa !!
Eu mantive minha cabeça baixa naquele lugar por um tempo!
Haha, parece o que aconteceu com um amigo meu aqui com "net send" e cerca de 1300 destinatários :) #
squillman
10
Ugh. Também fiz o "envio líquido" na faculdade. Eu pensei que "eles tinham que ter desativado esse" problema! ba-ding! em todo o laboratório, os computadores receberam a mensagem. Decidi pedir desculpas ao administrador da rede e, no meu caminho, todos os computadores que eu passava tinham a mensagem. / suspiro
Matt Simmons
3
Sim, andar de vergonha ali! Meu amigo não saiu da cadeira. Também não se incomodou em atender o telefone.
squillman
10
Haha um amigo meu net send'd todos na escola "Ajuda eu estou preso no quarto 114!" E, claro, 60 segundos mais tarde, um pequeno exército de pessoas apareceram para descobrir quem tinha enviado a mensagem
Mark Henderson
2
Na verdade, usamos esse recurso para punk the sys admin na minha faculdade. Limpou todos os laboratórios de informática com mensagens antivírus falsas e mensagens de desligamento do sistema que pareciam ter vindo dele. Ele suspeitava fortemente que éramos os culpados, mas eu e meu amigo cada um tinha um álibi (enviei o primeiro quando ele estava na sala de aula e ele enviou o segundo enquanto eu estava na sala de aula) e os computadores tinham logons genéricos de laboratório
Shial
35
Costumava usar o comando "sys-unconfig" nas máquinas Solaris para redefinir o serviço de nome da máquina, o endereço IP e a senha raiz. Eu estava em um sistema de usuários e entrei no servidor de instalação do edifício e procurei algo (como root), esquecendo que havia feito login em outra máquina (prompt "#" não descritivo)). Executei o comando "sys-unconfig".
# sys-unconfig
WARNING
This program will unconfigure your system. It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.
This program will also halt the system.
Do you want to continue (y/n) ? y
Connection closed
#
Essa mensagem de "conexão fechada" se transformou lentamente em pânico ... em qual máquina eu estava conectado quando executei esse comando.
A pior parte disso não foi o momento difícil que meus colegas de trabalho me deram, mas fiz o mesmo um mês depois.
Oh, o clássico, "em que máquina eu estou?" momento de pânico. Eu estive lá. Eu sinto sua dor.
sysadmin1138
2
Eu também. Qualquer pessoa que tenha experimentado isso sabe exatamente o que significa a frase "sangue frio".
22430 Matt Simmons
21
Há uma razão para a minha janela de comandos sempre inclui o nome de usuário e hostname ...
derobert
2
Certa vez, configurei aliases para fazer login nas diferentes máquinas para obter fundos coloridos diferentes para poder reconhecer ainda mais claramente em qual máquina eu estava.
Zitrax 11/06/09
Como eu uso Linux em servidores e minha máquina local, muitas vezes tenho prompts raiz abertos em servidores e meu PC, os servidores têm avisos vermelhos para distinção
Hubert Kario
27
Eu tenho uma muito boa. É certo que era antes do meu tempo como administrador de sistemas, mas ainda relacionado à tecnologia, então imaginei que o adicionaria.
Naquela época, eu trabalhava como técnico de banda larga / satélite para a USAF. Tendo me graduado recentemente na escola técnica, me vi na Coréia do Sul. Logo após chegar à estação, surgiu a oportunidade de viajar para o sul com os "grandões", que estavam lá por um tempo e realmente trabalhavam em alguns equipamentos do mundo real (ou seja, `produção ').
Fui com a equipe e, como um técnico jovem e ansioso, estava mastigando um pouco, bastante empolgado com a perspectiva de colocar minhas mãos em um equipamento real que passava pelo tráfego militar de voz e dados ao vivo.
Para começar devagar, eles me entregaram um manual, voltaram-se para a seção de manutenção preventiva e me apontaram na direção de quatro racks cheios de vários grandes multiplexadores digitais. O equipamento era fácil, havíamos coberto o mesmo equipamento na escola de tecnologia.
Primeira página do manual lida; "Aplique energia ao multiplexador digital. Coloque os dois interruptores traseiros na posição ON (ligado) e aguarde a inicialização do equipamento e inicie os testes". Eu olhei para cima e já havia energia APLICADA!
Eu estava em um dilema, com certeza. Sem saber como proceder, dei o melhor de mim, "Ummmm ... meio que perdi aqui", olhando para o veterano.
Ele olhou para mim e riu: "Não, não, está tudo bem. Você pode ignorar essa parte da lista de verificação". Então, quando ele notou o olhar no meu rosto, (desde que fomos ensinados na escola a NUNCA, NUNCA ignorava qualquer parte de uma lista de verificação, e era certa morte e destruição se alguém o fizesse), ele olhou seriamente para ele. cara e disse: "Ignore APENAS essa parte! Siga o resto, conforme a letra!"
Obedientemente, eu segui as instruções da MP em várias etapas, feliz como um molusco e orgulhoso por estarem deixando uma tecnologia tão baixa (embora inteligente) fazer esse trabalho importante.
Em algum lugar entre a quinta e a sexta lista de verificação de manutenção preventiva nesses enormes multiplexadores, comecei a perceber um aumento no nível de atividade ao meu redor. Os telefones estavam tocando, as pessoas estavam se movendo rapidamente. Olhares interrogativos estavam sendo trocados.
Finalmente, um grupo de pessoas correu até mim, liderado por um dos técnicos mais antigos que me derrubou.
"Ei! Estamos vendo ENORME interrupções no tráfego de dados e isolamos / rastreamos o caminho de volta aos racks em que você está trabalhando! Você está vendo algum estranho .."
(Naquele momento, ele foi cortado por outro dos solucionadores de problemas que havia percorrido o caminho para o primeiro grupo de multiplexadores em que eu estava executando as MPs.)
"PORCAS SAGRADAS! ELES DESLIGARAM! ELE ESTÁ DESLIGANDO-OS !!!!"
Em pouco tempo, observei enquanto eles corriam apressadamente o primeiro passo do manual: "Coloque os dois interruptores traseiros na posição LIGADO ..." Quando o técnico sênior terminou, ele se aproximou de mim e perguntou, incrédulo, o que eu estava pensando. desligando as peças críticas do equipamento.
Assustado, entreguei a ele a lista de verificação que eu estava seguindo, jurando que não havia me desviado. Que eu tinha seguido, "à letra", como ele havia instruído.
Depois de um tempo, ele riu e apontou onde estava o problema.
No manual, a etapa FINAL na lista de verificação de manutenção preventiva foi:
"Grave a leitura final da sonda, limpe o painel frontal, remova toda a poeira e partículas e coloque os dois interruptores traseiros na posição OFF".
O último passo para desligar as máquinas não parecia um pouco estranho? Apenas me perguntando.
Andrew Ensley
2
Provavelmente parecia estranho, mas lembre-se, ele estava no exército. Imagine tentar comandar um exército onde todos os soldados dizem: "Espere, você tem certeza? Essa ordem me parece engraçada".
Kyralessa
26
É um tipo de acidente com administradores de sistemas. Na medida em que os administradores de sistemas ocasionalmente precisam transportar fisicamente um grande número de máquinas do ponto A ao ponto B (onde A e B aparentemente sempre estão separados por vários lances de escada em um prédio sem elevador). Na n-ésima viagem do dia, parei para descansar três lances acima do nível de carregamento do porão para conversar com alguém descendo, apoiando a torre de tamanho normal com a estação que eu estava arrastando no corrimão interno da escada aberta e ... bem, você adivinhou ... perdi um pouco o controle. Mergulhou direto no poço e, quando chegou ao fundo, er ... não tanto com a funcionalidade desse! Total de peças recuperáveis: duas unidades de RAM, uma unidade de disquete e uma placa ISDN (Deus abençoe o pessoal da engenharia da Hermstedt!). Todo o resto rachado,
Pela graça de Deus, ninguém estava andando por baixo, o que, felizmente para mim, foi o primeiro do meu chefe, então eu tenho que manter meu emprego. Senti-me muito doente por mais ou menos uma hora.
@ J.Pablo - Não, acho que isso foi há mais de dez anos, quando as câmeras eram grandes e tinham produtos químicos nelas e outras coisas. Se eu tivesse feito isso recentemente, teria resultado no YouTube em dez minutos!
avstrallen
História verdadeira: isso aconteceu comigo há 9 anos, mas com um ar condicionado e pela janela do 9º andar . Não foi minha culpa (eu estava apenas ajudando alguém) e ninguém ficou ferido, mas fiquei doente por dias .
imgx64
26
Eu estava recarregando um sistema para alguém e, durante o processo de backup manual, perguntei a ele a pergunta "Você tem outros programas que usa?" e "Há mais alguma coisa importante que você faz no computador?"
Ele disse "não" VÁRIAS vezes.
Fiquei convencido e formatou a unidade.
Cerca de 30 minutos depois, ele disse "oh meu deus" e colocou as duas mãos na cabeça.
Acontece que ele estava trabalhando em um roteiro de livro por mais de 10 anos em um programa especializado. Isso foi quando os programas usados para salvar dados do usuário em seu diretório de arquivos de programa e eu os perdi.
Whhhhooooops.
Ele não estava bravo comigo, mas era um sentimento sóbrio.
Você lhe ensinou uma lição valiosa: Backups são importantes
MikeyB
5
Apenas ler isso realmente dói. Tão doloroso. Claro que uma lição, mas ...
Mafu
Ainda é uma boa experiência para o pobre rapaz. Ele poderia estar trabalhando há 30 anos e ter um ataque cardíaco na sua frente.
halp
Cara, eu me lembro de fazer algo semelhante. Aparentemente, meu tio tinha uma tonelada de coisas de clientela semelhante para esse aplicativo personalizado de contabilidade do Windows que seu trabalho lhe dava. Estava em arquivos de programas / suspiro. Felizmente, lembrei-me disso quando consertei o computador do meu pai, que tinha algum aplicativo de seguro personalizado.
PHGamer 16/10/10
@phgamer, posso pedir para você assistir seu idioma, por favor - esse não é esse tipo de lugar.
Chopper3
23
Meu favorito pessoal não é realmente meu, e estou MUITO feliz com isso. Dê uma olhada aqui.
Eu estava trabalhando em uma empresa que fabricava softwares executados em máquinas Linux fornecidas pelo cliente. Essencialmente, nós 'assumimos' as máquinas, as configuramos completamente de acordo com nossas especificações e fazemos todo o gerenciamento e monitoramento. Essencialmente, éramos uma equipe de 10 a 15 administradores de sistema, gerenciando milhares de servidores para centenas de clientes. Erros estavam prestes a acontecer.
Um de nossa equipe encontrou alguns problemas em um servidor (um backup, acredito) e decidiu que ele deveria executar o fsck nele. Ele interrompeu todos os serviços relevantes, certificou-se de que o sistema recebera backups recentemente e executou o fsck, mas queixou-se de que o sistema de arquivos estava montado. Como éramos remotos e não tínhamos acesso remoto (DRAC, OIT etc.), ele não podia fazer o fsck, mas tinha certeza de que era seguro fazê-lo com o sistema de arquivos montado, se você fosse cuidadoso.
Ele decidiu tentar sozinho executando fsck em sua partição raiz, com resultados previsíveis - ele corrompeu sua partição raiz e não pôde mais inicializar.
Confuso, ele foi falar com o líder da nossa equipe. O líder disse que tinha certeza de que você não poderia fazer isso, e o membro da equipe disse 'Claro que você pode!', Pegou o teclado do líder e mostrou a ele que você podia - executando fsck na partição raiz do líder. Que corrompia completamente a partição raiz do HIS.
Resultado final? Nenhum dado do cliente foi perdido, graças ao teste do membro da equipe. Dois dias de produtividade dos funcionários foram perdidos, mas isso valeu muito, muito menos que os dados na máquina do cliente. E para o registro? Você pode executar o fsck em uma unidade montada, mas apenas para verificar os dados. Não para repará-lo. Esse foi o erro do membro da equipe.
-
Para adicionar minha própria história, eu trabalhava na mesma empresa e tentava redefinir uma senha de usuário. Nosso sistema se recusou a permitir que eu a definisse com a senha que ele precisava, porque rastreava hashes de senha antigos e se recusava a permitir que você duplicasse a senha. O mecanismo era simples: validava sua senha contra o hash mais recente no banco de dados.
(E, para o registro, precisava ser a senha antiga porque era uma conta compartilhada e garantir que todos soubessem que a nova senha era impraticável)
Decidi simplesmente entrar no banco de dados dos usuários e excluir os novos registros para que usassem o antigo. É tudo apenas SQL (executando uma versão antiga do Sybase), por isso é fácil. Primeiro, eu tive que encontrar os registros:
SELECT * FROM users_passwords WHERE username='someuser';
Encontrei o antigo recorde que ele queria manter; havia mais dois na frente dele. Eu decidi ser inteligente e apenas excluir algo mais novo do que o registro antigo. Observando o conjunto de resultados, vi que a senha antiga era o ID # 28 no banco de dados e as novas eram o ID # vários milhares (sistema muito ocupado). Isso é simples, todas as linhas antigas tinham> 28, então:
DELETE FROM users_passwords WHERE id > 28;
Não há nada pior do que fazer uma simples remoção de linha e ver '212.500 linhas afetadas'. Felizmente, tínhamos dois servidores de banco de dados mestre (com o ID do usuário), mas a Sybase (pelo menos, nossa versão) não suportava a replicação automática, portanto não eliminava automaticamente os registros antigos. Era uma questão trivial obter um despejo da tabela users_passwords e reimportá-lo. Ainda assim, um grande 'oh f ** k!' momento.
Mais exatamente, é por isso que você sempre emite um "DELETE FROM xxx" como um "SELECT * FROM xxx" primeiro. Em seguida, verifique o que é exibido e substitua SELECT * por DELETE.
sleske
1
FYI, eu não tenho certeza que até mesmo um fsck w / o mudanças é seguro em ext3 montado, ele faz um replay revista depois de tudo ...
derobert
14
Não, é por isso que você sempre emite primeiro um tran tran. Então, quando você vir muito mais linhas afetadas do que o pretendido, poderá emitir uma reversão.
pipTheGeek
1
@ Dan Isso é quase o mesmo que qualquer outro RDBMS, você só precisa executar sua instrução, ter suas verificações já planejadas, como verificar apenas as linhas afetadas ou ter um select pronto para verificar o resultado de uma atualização e depois confirmar ou retroceder. Ele me salvou de uma vez, quando eu esqueci de destacar a cláusula WHERE em uma instrução T-SQL em MS-SQL 2005
pipTheGeek
22
Outro dos meus favoritos:
Ao configurar um computador e uma impressora a laser local em um sistema, tive a brilhante idéia de conectá-los ao no-break do computador. Você já tentou imprimir em uma impressora a laser local quando está conectada a um no-break de mesa? Bem, se você não sabe, tende a puxar todos os amplificadores ... O que reinicia o computador ... E o trabalho de impressão nunca termina ...!
Sempre receba a ligação: ' Sempre que imprimo, ele reinicia o computador e não imprime !!! '?
Onde você estava antes de eu acabar com o banco de dados ao vivo!
3107 Ian Boyd #
1
Esse é um tipo de ritual de passagem; todo DBA novato precisa fazer isso pelo menos uma vez. Esperemos que em algo que não é muito importante ...
RainyRat
22
Digitado kill 1como raiz. inite todos os seus filhos morreram. E todos os filhos deles. etc, etc. Opa.
O que eu pretendia digitar era kill %1
Depois que percebi o que fiz, corri para o painel de controle de uma máquina de classificação de fardos de lã GRANDE e apertei o botão de parada de emergência. Isso fez com que a máquina se rasgasse em pedaços, pois acabei de matar o software que a controlava.
Aquele me fez rir! Tendo trabalhado com grandes máquinas no passado, posso aperfeiçoar sistemas de controle.
SpaceManSpiff
1
No BSD, kill -1 1 fez o init reler o inittab ou o / etc / ttys. Deixando de fora o "menos" teve consequências ...
kmarsh
2
Graças a Deus por esse botão de parada de emergência! :-)
staticsan
+1 por não poder dizer "Você não pode causar nenhum dano ao hardware, mexendo no software".
out 31/08
21
Estávamos no meio de uma queda de energia e vimos que o no-break estava funcionando com 112% da carga configurada. Isso não era um problema, pois estávamos funcionando no gerador na época.
Então, saímos puxando cabos de energia de backup para reduzir o uso de energia naquele no-break (tínhamos dois, um muito maior que o outro). Chegamos ao comutador de rede que executava a sala do servidor (essa era a sala do servidor com todos os servidores internos da empresa, com o cliente enfrentando servidores em outra sala do servidor). O switch era um grande switch de classe empresarial com três fontes de alimentação. Como os suprimentos eram N + 1, precisávamos de apenas dois para executar o switch.
Pegamos um cabo e o puxamos para fora. Infelizmente para nós, os outros dois foram conectados a uma única régua de energia, que explodiu rapidamente quando a carga subiu nas duas fontes de alimentação que estavam conectadas a ela. O administrador de sistemas entrou em pânico e conectou o terceiro cabo. O switch tentou acionar, colocando toda a carga do switch na fonte de alimentação única. Em vez de a fonte de alimentação ser desligada, ela explodiu em uma chuva de faíscas a menos de 30 cm do meu rosto, fazendo-me voltar para o rack de servidores.
Por instinto, tentei pular para o lado, mas infelizmente à minha esquerda havia uma parede e duas à minha direita era um cara muito grande de 6'4 ". Eu consegui pular sobre ele, ou possivelmente através dele ricocheteando. dos racks Compaq (aqueles com frentes de malha fina) sem colocar um todo no rack e sem tocar no cara das instalações.
Obrigado. Denis, o cara das instalações, ficou impressionado com o fato de eu não o derrubar.
mrdenny
20
Em algum momento da minha carreira, uma investigação legal na empresa em que eu estava trabalhando exigia que todos os emails fossem mantidos "deste dia" em diante, até que seja informado o contrário. Após cerca de um ano armazenando backups completos diários de nosso ambiente de troca (1 TB por noite), começamos a ficar sem espaço.
Os administradores da troca sugeriram que mantivéssemos apenas cada oitava cópia do e-mail. Para fazer isso, pedimos que restaurassem um dia dos bancos de dados do Exchange, extraíssem o email necessário (pessoas específicas sinalizadas para investigação) e o arquivassem novamente. Eles faziam isso a cada oitavo dia de email para todos os nossos backups. O oitavo dia foi escolhido porque a troca tinha um conjunto de parâmetros em que "itens excluídos" são mantidos no banco de dados por 8 dias.
Depois que eles terminavam cada arquivo, eu voltava e excluía os backups mais antigos do que eles haviam arquivado.
O TSM não tem uma maneira fácil de fazer isso; portanto, você deve excluir manualmente os objetos do banco de dados de backup.
Escrevi um script que excluiria todos os backups anteriores a alguma data, por meio de um cálculo de data usando a diferença entre hoje e a data em questão. Em algum dia, tive que excluir cerca de um mês de backups, exceto quando fiz o cálculo da data, digitei um erro de digitação e digitei a data como 10/07/2007 em vez de 10/10/2007 e executei o script. Eu apaguei um mês extra inteiro de dados, acidentalmente que fazia parte de um processo muito importante.
Depois disso, adicionei algumas etapas ao script para confirmar que você deseja excluir os dados e mostrar o que ele iria excluir ...
Felizmente, eles nunca usaram nenhum dos dados que trabalhamos tanto para preservar e ainda tenho meu trabalho.
1 TB por dia de dados do Exchange? Uau - vocês tinham 365 terabytes dedicados APENAS para backups extras do Exchange? Isso é um armazenamento sério que você tem por aí.
Carl C
28
Você teria perdido apenas 1 dia se estivesse na Europa :-) #
7283
20
Após um longo dia ou desempenho, rastreando e ajustando um grande mainframe (você conhece as bestas que demoram algumas horas antes de todos os sites de backup concordarem que ele é realmente inicializado novamente e totalmente sincronizado) Eu estiquei meus dedos, digitei desligamento satisfeito -p agora no prompt do meu laptop, fechei a tampa e puxei o cabo serial para fora do mainframe, com a antecipação de um bom copo de cerveja gelada.
De repente, ouço o som ensurdecedor da rotação do mainframe enquanto meu laptop ainda exibe o X.
Enquanto esperava a máquina ficar totalmente on-line novamente, decidi que tinha tempo para fazer com que minha ACPI funcionasse no meu laptop, para nunca ficar tentada a desligar meu laptop.
Se girar os mainframes para baixo faz um barulho, não quero ouvi-lo girando para cima, ou pior, em velocidade máxima.
Mircea Chirea
16
Este acidente não aconteceu ... mas vale a pena mencionar:
Fui enviado para um data center muito usado para realizar testes de largura de banda em um novo circuito. Cheguei à sala demarcada / IDF, encontrei um local em um dos racks do meu roteador de teste, fiz minhas conexões e iniciei os testes. Infelizmente, falhei completamente em perceber que o roteador de borda em produção não estava exatamente exatamente no próximo rack (quase no mesmo nível), mas que também era da mesma marca e modelo do meu roteador de teste.
Quando o teste foi concluído, comecei a pressionar o botão liga / desliga na posição desligado (... imagine em câmera lenta ...) e, juro, quando estava aplicando pressão, percebi que o roteador era meu. desligar era o que estava em produção. Meu coração parou e eu quase ... bem, use sua imaginação.
Deixei o MDF do centro de dados parecendo assustado e pálido, mas ao mesmo tempo feliz por ainda ter um emprego!
Imagine que poderia ter sido uma daquelas situações de minas terrestres. Você percebe que o seu dedo está pressionando o botão que você fez e não pode removê-lo ou o servidor será desativado. Então, tudo o que você pode fazer é ficar parado e gritar por socorro.
21430 Tom Ritter
20
LOL .. não tinha pensado nisso! Teria sido uma história MUITO melhor. Eu posso imaginar os engenheiros de rede do data center se aproximando, lançando soluções diferentes para o problema. Talvez um deles tivesse postado (se o SF estivesse disponível) uma pergunta como: "Como podemos desativar o botão liga / desliga em um roteador depois que ele é pressionado por um idiota técnico?" (+500 pontos de recompensa)
l0c0b0x 16/06/09
21
Se for semelhante ao local onde trabalhei, a solução envolveria remover rapidamente o dedo ofensor e substituí-lo por uma grande quantidade de fita adesiva. (E então pretendo agendar o tempo de inatividade da máquina para remover a fita, mas adie por 18 meses até que a fita finalmente falhe).
315 de Ian
16
Excluí a conta de alguém por engano, misturei os nomes com os que eu deveria excluir. Opps
A parte legal é que eles nunca souberam o que aconteceu. Recebi a ligação que eles não conseguiam acessar, o centavo caiu sobre a conta que eu excluí.
Enquanto estava no telefone com eles, recriei rapidamente a conta deles, reconectei a caixa de correio antiga (felizmente o Exchange não exclui as caixas de correio imediatamente) e apontei-a de volta para os arquivos de usuário antigos.
Então eu os culpei por esquecer a senha que eu havia redefinido para eles :)
Estou dividido entre a marcar com +1 as bolas que você tinha que usar essa desculpa, e -1'ing por mentir para o usuário ....
Babu
22
+1 por culpar o usuário
JJ01 03/08/09
16
Instalei acidentalmente um arquivo tar.gz na minha caixa do Gentoo Linux no lugar errado e deixou arquivos em todo o lugar. Deve ter sido por volta de 1999, 19 na época (obrigado pelos comentários abaixo)
Sendo o nerd que sou, decidi tentar me tirar do trabalho de passar manualmente por cada arquivo.
Então eu tentei:
tar --list evilevilpackage.tar.gz | xargs rm -rf
Não demorou muito tempo para perceber que o tar também listava todos os diretórios que o programa estava usando, os incluídos eram '' / usr, / var, / etc '' e alguns outros que eu realmente não queria.
CTRL-C! CTRL-C! CTRL-C! Muito tarde! Tudo se foi, reinstale o tempo. Felizmente, a caixa não continha nada de importante.
Eu odeio a importunar os detalhes, mas eu tenho certeza que Gentoo começou por volta de 2002
Matt Simmons
Sim, 1.0 foi lançado em 2002. RedHat ou Slackware seria uma escolha mais provável em 98
saschabeaumont 02/06/2009
A menos que ele estava realmente incondicional, Enoch Linux liberar 0,75 em dezembro de 1999 e, eventualmente, tornou-se Gentoo com a versão 1.0 em 2002
Shial
Estava morando no porão da minha mãe na época, então é por essa época, pelo menos antes de 2000. Não tenho certeza se é um núcleo duro ou não; foi o próximo passo lógico após o Slackware.
Andrioid 20/08/09
O Slackware tinha pacotes .tgz.
Marius Gedminas
12
Como parte pequena de minha vida anterior, administrei o servidor de arquivos da empresa, uma caixa de netware 4:11. NUNCA precisava de nenhuma entrada, mas, se precisasse, você abriu uma janela do console remoto.
Acostumado a usar o DOS o tempo todo, quando terminava, naturalmente digitava "Sair". Para o Netware, "exit" é o comando para desligar o sistema operacional. Felizmente, ele não permitirá que você desligue, a menos que você primeiro "desligue" o servidor. (Torne-o indisponível para a rede / clientes) Portanto, quando você digita "Exit" no console, ele diz: "Você deve primeiro digitar" Abaixo "antes que você possa sair"
Pergunte-me quantas vezes eu 1: digitei "exit" na sessão do console e 2: Obedientemente digitei "Down" e depois "Exit" para que eu pudesse "terminar o que estava tentando fazer"
É por isso que eu uso ^ D para sair. Apenas termina uma sessão shell.
Hubert Kario
11
Outra história que não aconteceu (ufa):
Estávamos fazendo backups incrementais religiosamente todos os dias em uma unidade de fita.
Por acaso, escrevemos uma fita contendo dados para enviar a outra pessoa. Eles disseram 'não podemos ler sua fita'. De fato, nós também não. Ou qualquer fita de fato.
Compramos outra unidade de fita e prendemos a respiração até a instalar.
Moral da história. Sempre certifique-se de testar seus backups.
O último lugar em que trabalhei, meu colega de trabalho teve seus filhos com ele na sala do servidor (por quê? Não tenho idéia!).
Ele se certificou de que eles estavam longe dos servidores e explicou a seu filho de 5 anos que ele não deveria tocar em QUALQUER dos servidores e, ESPECIALMENTE, em nenhum dos interruptores.
Na verdade, ele os tinha bem perto da porta ... (você pode ver para onde isso está indo ...?)
O garoto não tocou em nenhum dos botões de energia do servidor ... Não, isso seria muito fácil de explicar. Em vez disso, ele apertou o GRANDE BOTÃO VERMELHO que estava perto da porta ... O botão que desliga a energia da SALA DE SERVIDORES INTEIROS !!!
As linhas telefônicas começaram imediatamente a se perguntar por que Exchange, Servidores de Arquivos etc. não estavam disponíveis ... Imagine tentar explicar ISSO ao CEO!
tivemos um correio para fazer a mesma coisa. Não foi um acidente de administrador de sistemas, apesar de uma caixa de metal estranha aparecer repentinamente sobre o Grande Botão Vermelho depois disso.
Meu irmão fez o mesmo quando tinha 3 anos em um site de links de comunicação em que meu pai trabalhava. Metade da rede de links caiu quando ele ligou o interruptor principal que estava convenientemente a 18 polegadas do chão. Felizmente, a rede foi totalmente duplicada, de modo nenhum tráfego foi perdido, mas ainda assim ...
staticsan
@ martty - a citação adequada é: "Por quê? Eu não sei. Ele está em terceiro. e eu não dou a mínima." "O que?" "Eu não dou a mínima." "Oh! Essa é a nossa parada!"
warren
10
Uma vez tive uma briga com o software de monitoramento da APC UPS. Sendo uma empresa pequena, tínhamos alguns no-breaks pequenos e vários servidores foram configurados para monitorá-los. A maioria dos servidores era Linux, mas alguns estavam executando o Windows e, portanto, eram os usados porque o software APC é apenas para Windows.
No entanto, o software da APC na época era codificado para assumir que o no-break com o qual está falando também está ligando o PC que está sendo executado! Este não era o caso deste servidor, mas descobri que era tarde demais para pedir para ele parar. Infelizmente, o programador líder estava demonstrando o produto da empresa para um parceiro - era um aplicativo baseado na Web, rodando no mesmo servidor que eu não queria que o software da APC fosse desligado ...
Bem, nós fazemos agora. Este incidente foi há 10 anos. :-)
staticsan
8
Eu estava dando um novo sysadmin um tour de um aplicativo Service Manager. Eu disse "se você precisar interromper esse serviço, clique nesse botão, mas nunca o fará durante o dia". Você nunca acreditaria em como o botão do mouse dela era sensível!
Dois minutos depois, o serviço havia reiniciado e ninguém parecia notar.
Tropeçando em um servidor em torre preso atrás de um rack e batendo na minha cabeça na parte de trás do roteador principal da Cisco no caminho para baixo. Revelando, assim, quão frouxamente os cabos de alimentação estavam realmente assentados nas fontes de alimentação na parte frontal do Catalyst 6500 .
Sim. Agora temos um capacete de segurança na sala dos servidores. Com o meu nome nele.
Respostas:
Diverti-me descobrindo a diferença entre o comando "killall" do linux (mata todos os processos correspondentes ao nome especificado, útil para parar zumbis) e o comando "killall" do solaris (mata todos os processos e interrompe o sistema, útil para parar o servidor de produção em no meio do horário de pico e fazendo com que todos os seus colegas de trabalho riam de você por uma semana).
fonte
hostname -f
no Linux imprime o nome de domínio totalmente qualificado no Linux. No Solaris, ele define o nome do host como-f
.Eu era responsável pelo nosso proxy corporativo da Web, que na época era o produto da Netscape. Enquanto brincava nos formulários de administração (era uma interface baseada na Web), havia um botão grande (e eu juro que era vermelho) que dizia Excluir banco de dados do usuário . Não tem problema, pensei. Vamos ver quais são as opções que me oferecem quando eu acerto isso. Certamente haverá um prompt de confirmação se não houver opções.
Sim, sem confirmação. Sem opções. Não há mais usuários.
Então, fui até o Sr. Solaris Sysadmin e disse que eu estava precisando desesperadamente de uma restauração da fita à qual ele respondeu: "Eu não apoio essa caixa".
"Uh, venha novamente", eu respondi.
"Eu não apoio essa caixa. Está na minha lista de coisas para adicionar à rotação de backup, mas ainda não cheguei a isso".
"Este servidor está em produção há quase 8 meses!" Eu gritei.
encolher de ombros , ele respondeu. "Desculpa."
fonte
Há muitos anos, a empresa em que trabalhei tinha um cliente que executava um backup noturno do NT 4.0 Server em uma unidade Jaz (como um disco zip de alta capacidade).
Configuramos um arquivo em lotes, que foi executado como um trabalho agendado da noite para o dia. Todas as manhãs, eles coletavam o disco das últimas noites da unidade e, antes de partirem, inseriam o próximo disco na sequência.
De qualquer forma, o arquivo em lotes tinha a seguinte aparência (a unidade Jaz era a unidade F :).
De qualquer forma, uma noite eles esqueceram de colocar o disco. A alteração na unidade F: falhou (nenhum disco na unidade) e o arquivo em lotes continuou em execução. O diretório de trabalho padrão para o arquivo em lotes? C :. Primeira vez que vi uma rotina de backup destruir o servidor que estava fazendo backup.
Aprendi um pouco sobre administração de sistemas (e manipulação de exceções) naquele dia.
Jim.
PS: A correção? "deltree / y F: \ *. *".
fonte
root @ dbhost # find / -name core -exec rm -f {} \;
Eu: "Você não pode entrar? OK. Qual é o nome do banco de dados?"
Cu: "Núcleo".
Eu: "Oh".
fonte
Adoro a maneira como todos qualificam sua história como "quando eu era jovem / verde", como se nunca mais fizessem isso de novo. Acidentes podem acontecer até para os profissionais mais experientes.
Meu pior momento é tão ruim que ainda tenho palpitações pensando nisso ...
Tínhamos uma SAN com dados de produção. Crítico para a empresa. Meu "mentor" decidiu estender uma partição para liberar espaço em disco. Você pode ver para onde isso está indo? Ele disse que o software SAN poderia fazer isso ao vivo, em horas de produção e ninguém notaria. Os alarmes deveriam ter começado a tocar, mas estavam visivelmente silenciosos. Ele disse que fez isso "muitas vezes antes" sem problemas. Mas aqui está a coisa - ele me fez clicar no botão que dizia "você tem certeza?"! Como eu era novo na empresa, presumi que esse cara sabia do que estava falando. Grande erro. A boa notícia foi que o LUN foi estendido. As más notícias eram ... bem, eu sabia que havia más notícias quando comecei a ver erros de gravação de disco na caixa do Windows.
Estou feliz por estar usando calça marrom.
Tivemos que explicar por que 1 TB de dados desapareceu na hora do almoço. Foi um dia muito, muito ruim.
Na verdade, é um bom princípio - antes que você faça alguma dúvida, imagine ter que explicar à gerência se algo der errado. Se você não consegue encontrar uma boa resposta para explicar suas ações, não faça isso.
fonte
O Nagios nos enviou um ping uma manhã quando o horário comercial começou a dizer que não era possível conectar-se a um servidor não crítico. Ok, caminhe para a sala do servidor. É um servidor antigo, um Dell 1650 adquirido em 2002, e sabíamos que os anos 1650 estavam tendo problemas de hardware. O PFY apunhala o botão liga / desliga. Nada. Aperte-o novamente e mantenha-o pressionado por cinco segundos para 'forçar a ligação' ... o que substitui a proteção contra erros do BMC, pois sem um DRAC não há como examinar os logs do BMC sem ligar o chassi.
A máquina inicia o POST e depois morre novamente. Estou de pé sobre ele e digo: "Sinto cheiro de fumaça". Puxamos o servidor pelos trilhos e uma das fontes de alimentação fica quente, então o PFY o puxa e está prestes a fechar a caixa novamente. Eu digo: "Não, isso não é fumaça da fonte de alimentação, é fumaça da placa-mãe".
Abrimos o estojo novamente e procuramos a fonte do cheiro de queimado. Acontece que uma bobina de indutor e um capacitor explodiram algo no regulador de tensão da placa-mãe e pulverizaram cobre fundido e capacitor em tudo, causando um curto-circuito e fazendo uma grande bagunça.
A pior parte para mim foi reconhecer que havia fumado hardware suficiente para reconhecer a diferença entre o cheiro de uma placa-mãe queimada e de uma fonte de alimentação queimada.
fonte
Há três dias (sério), eu estava conectado remotamente a um servidor escolar, instalando o Service Pack 2 em um servidor de arquivos do Windows Server 2008.
Decidi agendar a reinicialização necessária tarde da noite, quando os professores não estavam logados para terminar seus boletins de final de ano. Eu digitei algo como:
... o que pode ter funcionado bem.
Mas então eu me adivinhei. Minha sintaxe de 'desligamento' estava correta? Tentei ver a ajuda de uso digitando
... e perdi instantaneamente minha conexão RDP. Em pânico, entrei no Google para obter a sintaxe. Uma pesquisa rápida revelou que a versão de desligamento do Server 2008 inclui uma opção / h, que (como você deve ter adivinhado) hiberna a máquina.
Os professores começaram a me ligar em questão de minutos para informar que não podiam mais abrir ou salvar os boletins em que estavam trabalhando. Como eu estava fora do local e a sala do servidor estava trancada, tive que ligar diretamente para o diretor da escola e orientá-la no processo de ligar novamente a máquina.
Hoje eu trouxe biscoitos caseiros para todos como uma forma de desculpas.
fonte
/?
primeiro!man shutdown
. Eu sei que não vou causar problemas comman
!Em um trabalho anterior, tínhamos um ótimo sistema interno que registrava e arquivava cada correio que entrava, saía ou ficava na empresa.
Explodiu toda a sua caixa de correio? Sem problemas! Procurando uma correspondência que alguém lhe enviou uma semana / mês / ano atrás, mas você não consegue se lembrar de quem a enviou ou qual era o assunto? Sem problemas! Apenas enviaremos tudo de fevereiro para você em uma pasta especial.
Em algum momento, surgiu a necessidade de o CEO da empresa monitorar as correspondências entre um concorrente e um vendedor interno sob suspeita. Por isso, configuramos um script que era executado todas as noites e entregamos correspondências relevantes do dia anterior ao CEO. Sem problemas!
Cerca de um mês depois, surgiu a palavra de um problema urgente com mais de duas vezes. Parece que, enquanto o CEO lia a lista de emails enviados para $ OTHERCOMPANY, ele se deparou com este:
Naturalmente, sendo o CEO uma pessoa importante e tudo, ele estava ocupado demais para clicar em todas as caixas de diálogo "Enviar recibo de leitura" no Outlook e configurou seu cliente para apenas enviar todos eles. Uma das mensagens capturadas pelo filtro de monitoramento tinha uma solicitação de confirmação de leitura definida. Adivinha o que o Outlook fez? Certamente atrapalhou o monitoramento 'clandestino'.
Nossa próxima tarefa: adicionar regras ao filtro de email para bloquear os recibos de leitura de saída do CEO para essa empresa. Sim, era a maneira mais fácil. :)
fonte
Ahhh, o meu foi há cerca de 10 anos atrás, quando eu ainda estava molhando os pés. Tive a alegria de instalar backups de bateria em todos os computadores dos programadores. Eles também queriam que o software fosse carregado para avisar sobre queda de energia e desligado corretamente.
Então, configurei-o no meu computador para testar tudo primeiro, é claro, e garantir que tudo funcionasse. Portanto, desconecto o cabo de alimentação e a mensagem aparece na minha tela. "energia externa perdida, iniciando o desligamento do sistema".
Então pensei: Ei legal, funcionou. Mas, por algum motivo estranho, eu nem me lembro, ele enviou essa mensagem como uma mensagem de rede para que todos os mais de 200 computadores da empresa recebessem essa mensagem, onde mais de 100 usuários estavam programados.
Sim, fale sobre surtos em massa !!
Eu mantive minha cabeça baixa naquele lugar por um tempo!
fonte
Costumava usar o comando "sys-unconfig" nas máquinas Solaris para redefinir o serviço de nome da máquina, o endereço IP e a senha raiz. Eu estava em um sistema de usuários e entrei no servidor de instalação do edifício e procurei algo (como root), esquecendo que havia feito login em outra máquina (prompt "#" não descritivo)). Executei o comando "sys-unconfig".
Essa mensagem de "conexão fechada" se transformou lentamente em pânico ... em qual máquina eu estava conectado quando executei esse comando.
A pior parte disso não foi o momento difícil que meus colegas de trabalho me deram, mas fiz o mesmo um mês depois.
fonte
Eu tenho uma muito boa. É certo que era antes do meu tempo como administrador de sistemas, mas ainda relacionado à tecnologia, então imaginei que o adicionaria.
Naquela época, eu trabalhava como técnico de banda larga / satélite para a USAF. Tendo me graduado recentemente na escola técnica, me vi na Coréia do Sul. Logo após chegar à estação, surgiu a oportunidade de viajar para o sul com os "grandões", que estavam lá por um tempo e realmente trabalhavam em alguns equipamentos do mundo real (ou seja, `produção ').
Fui com a equipe e, como um técnico jovem e ansioso, estava mastigando um pouco, bastante empolgado com a perspectiva de colocar minhas mãos em um equipamento real que passava pelo tráfego militar de voz e dados ao vivo.
Para começar devagar, eles me entregaram um manual, voltaram-se para a seção de manutenção preventiva e me apontaram na direção de quatro racks cheios de vários grandes multiplexadores digitais. O equipamento era fácil, havíamos coberto o mesmo equipamento na escola de tecnologia.
Primeira página do manual lida; "Aplique energia ao multiplexador digital. Coloque os dois interruptores traseiros na posição ON (ligado) e aguarde a inicialização do equipamento e inicie os testes". Eu olhei para cima e já havia energia APLICADA!
Eu estava em um dilema, com certeza. Sem saber como proceder, dei o melhor de mim, "Ummmm ... meio que perdi aqui", olhando para o veterano.
Ele olhou para mim e riu: "Não, não, está tudo bem. Você pode ignorar essa parte da lista de verificação". Então, quando ele notou o olhar no meu rosto, (desde que fomos ensinados na escola a NUNCA, NUNCA ignorava qualquer parte de uma lista de verificação, e era certa morte e destruição se alguém o fizesse), ele olhou seriamente para ele. cara e disse: "Ignore APENAS essa parte! Siga o resto, conforme a letra!"
Obedientemente, eu segui as instruções da MP em várias etapas, feliz como um molusco e orgulhoso por estarem deixando uma tecnologia tão baixa (embora inteligente) fazer esse trabalho importante.
Em algum lugar entre a quinta e a sexta lista de verificação de manutenção preventiva nesses enormes multiplexadores, comecei a perceber um aumento no nível de atividade ao meu redor. Os telefones estavam tocando, as pessoas estavam se movendo rapidamente. Olhares interrogativos estavam sendo trocados.
Finalmente, um grupo de pessoas correu até mim, liderado por um dos técnicos mais antigos que me derrubou.
"Ei! Estamos vendo ENORME interrupções no tráfego de dados e isolamos / rastreamos o caminho de volta aos racks em que você está trabalhando! Você está vendo algum estranho .."
(Naquele momento, ele foi cortado por outro dos solucionadores de problemas que havia percorrido o caminho para o primeiro grupo de multiplexadores em que eu estava executando as MPs.)
"PORCAS SAGRADAS! ELES DESLIGARAM! ELE ESTÁ DESLIGANDO-OS !!!!"
Em pouco tempo, observei enquanto eles corriam apressadamente o primeiro passo do manual: "Coloque os dois interruptores traseiros na posição LIGADO ..." Quando o técnico sênior terminou, ele se aproximou de mim e perguntou, incrédulo, o que eu estava pensando. desligando as peças críticas do equipamento.
Assustado, entreguei a ele a lista de verificação que eu estava seguindo, jurando que não havia me desviado. Que eu tinha seguido, "à letra", como ele havia instruído.
Depois de um tempo, ele riu e apontou onde estava o problema.
No manual, a etapa FINAL na lista de verificação de manutenção preventiva foi:
"Grave a leitura final da sonda, limpe o painel frontal, remova toda a poeira e partículas e coloque os dois interruptores traseiros na posição OFF".
:)
fonte
É um tipo de acidente com administradores de sistemas. Na medida em que os administradores de sistemas ocasionalmente precisam transportar fisicamente um grande número de máquinas do ponto A ao ponto B (onde A e B aparentemente sempre estão separados por vários lances de escada em um prédio sem elevador). Na n-ésima viagem do dia, parei para descansar três lances acima do nível de carregamento do porão para conversar com alguém descendo, apoiando a torre de tamanho normal com a estação que eu estava arrastando no corrimão interno da escada aberta e ... bem, você adivinhou ... perdi um pouco o controle. Mergulhou direto no poço e, quando chegou ao fundo, er ... não tanto com a funcionalidade desse! Total de peças recuperáveis: duas unidades de RAM, uma unidade de disquete e uma placa ISDN (Deus abençoe o pessoal da engenharia da Hermstedt!). Todo o resto rachado,
Pela graça de Deus, ninguém estava andando por baixo, o que, felizmente para mim, foi o primeiro do meu chefe, então eu tenho que manter meu emprego. Senti-me muito doente por mais ou menos uma hora.
Moral: a gravidade sempre vence!
fonte
Eu estava recarregando um sistema para alguém e, durante o processo de backup manual, perguntei a ele a pergunta "Você tem outros programas que usa?" e "Há mais alguma coisa importante que você faz no computador?"
Ele disse "não" VÁRIAS vezes.
Fiquei convencido e formatou a unidade.
Cerca de 30 minutos depois, ele disse "oh meu deus" e colocou as duas mãos na cabeça.
Acontece que ele estava trabalhando em um roteiro de livro por mais de 10 anos em um programa especializado. Isso foi quando os programas usados para salvar dados do usuário em seu diretório de arquivos de programa e eu os perdi.
Whhhhooooops.
Ele não estava bravo comigo, mas era um sentimento sóbrio.
fonte
Meu favorito pessoal não é realmente meu, e estou MUITO feliz com isso. Dê uma olhada aqui.
fonte
Isso não aconteceu comigo, mas ...
Eu estava trabalhando em uma empresa que fabricava softwares executados em máquinas Linux fornecidas pelo cliente. Essencialmente, nós 'assumimos' as máquinas, as configuramos completamente de acordo com nossas especificações e fazemos todo o gerenciamento e monitoramento. Essencialmente, éramos uma equipe de 10 a 15 administradores de sistema, gerenciando milhares de servidores para centenas de clientes. Erros estavam prestes a acontecer.
Um de nossa equipe encontrou alguns problemas em um servidor (um backup, acredito) e decidiu que ele deveria executar o fsck nele. Ele interrompeu todos os serviços relevantes, certificou-se de que o sistema recebera backups recentemente e executou o fsck, mas queixou-se de que o sistema de arquivos estava montado. Como éramos remotos e não tínhamos acesso remoto (DRAC, OIT etc.), ele não podia fazer o fsck, mas tinha certeza de que era seguro fazê-lo com o sistema de arquivos montado, se você fosse cuidadoso.
Ele decidiu tentar sozinho executando fsck em sua partição raiz, com resultados previsíveis - ele corrompeu sua partição raiz e não pôde mais inicializar.
Confuso, ele foi falar com o líder da nossa equipe. O líder disse que tinha certeza de que você não poderia fazer isso, e o membro da equipe disse 'Claro que você pode!', Pegou o teclado do líder e mostrou a ele que você podia - executando fsck na partição raiz do líder. Que corrompia completamente a partição raiz do HIS.
Resultado final? Nenhum dado do cliente foi perdido, graças ao teste do membro da equipe. Dois dias de produtividade dos funcionários foram perdidos, mas isso valeu muito, muito menos que os dados na máquina do cliente. E para o registro? Você pode executar o fsck em uma unidade montada, mas apenas para verificar os dados. Não para repará-lo. Esse foi o erro do membro da equipe.
-
Para adicionar minha própria história, eu trabalhava na mesma empresa e tentava redefinir uma senha de usuário. Nosso sistema se recusou a permitir que eu a definisse com a senha que ele precisava, porque rastreava hashes de senha antigos e se recusava a permitir que você duplicasse a senha. O mecanismo era simples: validava sua senha contra o hash mais recente no banco de dados.
(E, para o registro, precisava ser a senha antiga porque era uma conta compartilhada e garantir que todos soubessem que a nova senha era impraticável)
Decidi simplesmente entrar no banco de dados dos usuários e excluir os novos registros para que usassem o antigo. É tudo apenas SQL (executando uma versão antiga do Sybase), por isso é fácil. Primeiro, eu tive que encontrar os registros:
Encontrei o antigo recorde que ele queria manter; havia mais dois na frente dele. Eu decidi ser inteligente e apenas excluir algo mais novo do que o registro antigo. Observando o conjunto de resultados, vi que a senha antiga era o ID # 28 no banco de dados e as novas eram o ID # vários milhares (sistema muito ocupado). Isso é simples, todas as linhas antigas tinham> 28, então:
Não há nada pior do que fazer uma simples remoção de linha e ver '212.500 linhas afetadas'. Felizmente, tínhamos dois servidores de banco de dados mestre (com o ID do usuário), mas a Sybase (pelo menos, nossa versão) não suportava a replicação automática, portanto não eliminava automaticamente os registros antigos. Era uma questão trivial obter um despejo da tabela users_passwords e reimportá-lo. Ainda assim, um grande 'oh f ** k!' momento.
fonte
Outro dos meus favoritos:
Ao configurar um computador e uma impressora a laser local em um sistema, tive a brilhante idéia de conectá-los ao no-break do computador. Você já tentou imprimir em uma impressora a laser local quando está conectada a um no-break de mesa? Bem, se você não sabe, tende a puxar todos os amplificadores ... O que reinicia o computador ... E o trabalho de impressão nunca termina ...!
Sempre receba a ligação: ' Sempre que imprimo, ele reinicia o computador e não imprime !!! '?
Opa!
JFV
fonte
Instrução DELETE sem uma cláusula WHERE, no banco de dados de usuários ativos dos clientes.
fonte
Digitado
kill 1
como raiz.init
e todos os seus filhos morreram. E todos os filhos deles. etc, etc. Opa.O que eu pretendia digitar era
kill %1
Depois que percebi o que fiz, corri para o painel de controle de uma máquina de classificação de fardos de lã GRANDE e apertei o botão de parada de emergência. Isso fez com que a máquina se rasgasse em pedaços, pois acabei de matar o software que a controlava.
fonte
Estávamos no meio de uma queda de energia e vimos que o no-break estava funcionando com 112% da carga configurada. Isso não era um problema, pois estávamos funcionando no gerador na época.
Então, saímos puxando cabos de energia de backup para reduzir o uso de energia naquele no-break (tínhamos dois, um muito maior que o outro). Chegamos ao comutador de rede que executava a sala do servidor (essa era a sala do servidor com todos os servidores internos da empresa, com o cliente enfrentando servidores em outra sala do servidor). O switch era um grande switch de classe empresarial com três fontes de alimentação. Como os suprimentos eram N + 1, precisávamos de apenas dois para executar o switch.
Pegamos um cabo e o puxamos para fora. Infelizmente para nós, os outros dois foram conectados a uma única régua de energia, que explodiu rapidamente quando a carga subiu nas duas fontes de alimentação que estavam conectadas a ela. O administrador de sistemas entrou em pânico e conectou o terceiro cabo. O switch tentou acionar, colocando toda a carga do switch na fonte de alimentação única. Em vez de a fonte de alimentação ser desligada, ela explodiu em uma chuva de faíscas a menos de 30 cm do meu rosto, fazendo-me voltar para o rack de servidores.
Por instinto, tentei pular para o lado, mas infelizmente à minha esquerda havia uma parede e duas à minha direita era um cara muito grande de 6'4 ". Eu consegui pular sobre ele, ou possivelmente através dele ricocheteando. dos racks Compaq (aqueles com frentes de malha fina) sem colocar um todo no rack e sem tocar no cara das instalações.
fonte
Em algum momento da minha carreira, uma investigação legal na empresa em que eu estava trabalhando exigia que todos os emails fossem mantidos "deste dia" em diante, até que seja informado o contrário. Após cerca de um ano armazenando backups completos diários de nosso ambiente de troca (1 TB por noite), começamos a ficar sem espaço.
Os administradores da troca sugeriram que mantivéssemos apenas cada oitava cópia do e-mail. Para fazer isso, pedimos que restaurassem um dia dos bancos de dados do Exchange, extraíssem o email necessário (pessoas específicas sinalizadas para investigação) e o arquivassem novamente. Eles faziam isso a cada oitavo dia de email para todos os nossos backups. O oitavo dia foi escolhido porque a troca tinha um conjunto de parâmetros em que "itens excluídos" são mantidos no banco de dados por 8 dias.
Depois que eles terminavam cada arquivo, eu voltava e excluía os backups mais antigos do que eles haviam arquivado.
O TSM não tem uma maneira fácil de fazer isso; portanto, você deve excluir manualmente os objetos do banco de dados de backup.
Escrevi um script que excluiria todos os backups anteriores a alguma data, por meio de um cálculo de data usando a diferença entre hoje e a data em questão. Em algum dia, tive que excluir cerca de um mês de backups, exceto quando fiz o cálculo da data, digitei um erro de digitação e digitei a data como 10/07/2007 em vez de 10/10/2007 e executei o script. Eu apaguei um mês extra inteiro de dados, acidentalmente que fazia parte de um processo muito importante.
Depois disso, adicionei algumas etapas ao script para confirmar que você deseja excluir os dados e mostrar o que ele iria excluir ...
Felizmente, eles nunca usaram nenhum dos dados que trabalhamos tanto para preservar e ainda tenho meu trabalho.
fonte
Após um longo dia ou desempenho, rastreando e ajustando um grande mainframe (você conhece as bestas que demoram algumas horas antes de todos os sites de backup concordarem que ele é realmente inicializado novamente e totalmente sincronizado) Eu estiquei meus dedos, digitei desligamento satisfeito -p agora no prompt do meu laptop, fechei a tampa e puxei o cabo serial para fora do mainframe, com a antecipação de um bom copo de cerveja gelada.
De repente, ouço o som ensurdecedor da rotação do mainframe enquanto meu laptop ainda exibe o X.
Enquanto esperava a máquina ficar totalmente on-line novamente, decidi que tinha tempo para fazer com que minha ACPI funcionasse no meu laptop, para nunca ficar tentada a desligar meu laptop.
fonte
Este acidente não aconteceu ... mas vale a pena mencionar:
Fui enviado para um data center muito usado para realizar testes de largura de banda em um novo circuito. Cheguei à sala demarcada / IDF, encontrei um local em um dos racks do meu roteador de teste, fiz minhas conexões e iniciei os testes. Infelizmente, falhei completamente em perceber que o roteador de borda em produção não estava exatamente exatamente no próximo rack (quase no mesmo nível), mas que também era da mesma marca e modelo do meu roteador de teste.
Quando o teste foi concluído, comecei a pressionar o botão liga / desliga na posição desligado (... imagine em câmera lenta ...) e, juro, quando estava aplicando pressão, percebi que o roteador era meu. desligar era o que estava em produção. Meu coração parou e eu quase ... bem, use sua imaginação.
Deixei o MDF do centro de dados parecendo assustado e pálido, mas ao mesmo tempo feliz por ainda ter um emprego!
fonte
Excluí a conta de alguém por engano, misturei os nomes com os que eu deveria excluir. Opps
A parte legal é que eles nunca souberam o que aconteceu. Recebi a ligação que eles não conseguiam acessar, o centavo caiu sobre a conta que eu excluí.
Enquanto estava no telefone com eles, recriei rapidamente a conta deles, reconectei a caixa de correio antiga (felizmente o Exchange não exclui as caixas de correio imediatamente) e apontei-a de volta para os arquivos de usuário antigos.
Então eu os culpei por esquecer a senha que eu havia redefinido para eles :)
fonte
Instalei acidentalmente um arquivo tar.gz na minha caixa do Gentoo Linux no lugar errado e deixou arquivos em todo o lugar. Deve ter sido por volta de 1999, 19 na época (obrigado pelos comentários abaixo)
Sendo o nerd que sou, decidi tentar me tirar do trabalho de passar manualmente por cada arquivo.
Então eu tentei:
Não demorou muito tempo para perceber que o tar também listava todos os diretórios que o programa estava usando, os incluídos eram '' / usr, / var, / etc '' e alguns outros que eu realmente não queria.
CTRL-C! CTRL-C! CTRL-C! Muito tarde! Tudo se foi, reinstale o tempo. Felizmente, a caixa não continha nada de importante.
fonte
Como parte pequena de minha vida anterior, administrei o servidor de arquivos da empresa, uma caixa de netware 4:11. NUNCA precisava de nenhuma entrada, mas, se precisasse, você abriu uma janela do console remoto.
Acostumado a usar o DOS o tempo todo, quando terminava, naturalmente digitava "Sair". Para o Netware, "exit" é o comando para desligar o sistema operacional. Felizmente, ele não permitirá que você desligue, a menos que você primeiro "desligue" o servidor. (Torne-o indisponível para a rede / clientes) Portanto, quando você digita "Exit" no console, ele diz: "Você deve primeiro digitar" Abaixo "antes que você possa sair"
Pergunte-me quantas vezes eu 1: digitei "exit" na sessão do console e 2: Obedientemente digitei "Down" e depois "Exit" para que eu pudesse "terminar o que estava tentando fazer"
E então o telefone começa a tocar ...
ri muito
fonte
Outra história que não aconteceu (ufa):
Estávamos fazendo backups incrementais religiosamente todos os dias em uma unidade de fita.
Por acaso, escrevemos uma fita contendo dados para enviar a outra pessoa. Eles disseram 'não podemos ler sua fita'. De fato, nós também não. Ou qualquer fita de fato.
Compramos outra unidade de fita e prendemos a respiração até a instalar.
Moral da história. Sempre certifique-se de testar seus backups.
fonte
O último lugar em que trabalhei, meu colega de trabalho teve seus filhos com ele na sala do servidor (por quê? Não tenho idéia!).
Ele se certificou de que eles estavam longe dos servidores e explicou a seu filho de 5 anos que ele não deveria tocar em QUALQUER dos servidores e, ESPECIALMENTE, em nenhum dos interruptores.
Na verdade, ele os tinha bem perto da porta ... (você pode ver para onde isso está indo ...?)
O garoto não tocou em nenhum dos botões de energia do servidor ... Não, isso seria muito fácil de explicar. Em vez disso, ele apertou o GRANDE BOTÃO VERMELHO que estava perto da porta ... O botão que desliga a energia da SALA DE SERVIDORES INTEIROS !!!
As linhas telefônicas começaram imediatamente a se perguntar por que Exchange, Servidores de Arquivos etc. não estavam disponíveis ... Imagine tentar explicar ISSO ao CEO!
-JFV
fonte
Uma vez tive uma briga com o software de monitoramento da APC UPS. Sendo uma empresa pequena, tínhamos alguns no-breaks pequenos e vários servidores foram configurados para monitorá-los. A maioria dos servidores era Linux, mas alguns estavam executando o Windows e, portanto, eram os usados porque o software APC é apenas para Windows.
No entanto, o software da APC na época era codificado para assumir que o no-break com o qual está falando também está ligando o PC que está sendo executado! Este não era o caso deste servidor, mas descobri que era tarde demais para pedir para ele parar. Infelizmente, o programador líder estava demonstrando o produto da empresa para um parceiro - era um aplicativo baseado na Web, rodando no mesmo servidor que eu não queria que o software da APC fosse desligado ...
fonte
Eu estava dando um novo sysadmin um tour de um aplicativo Service Manager. Eu disse "se você precisar interromper esse serviço, clique nesse botão, mas nunca o fará durante o dia". Você nunca acreditaria em como o botão do mouse dela era sensível!
Dois minutos depois, o serviço havia reiniciado e ninguém parecia notar.
fonte
Tropeçando em um servidor em torre preso atrás de um rack e batendo na minha cabeça na parte de trás do roteador principal da Cisco no caminho para baixo. Revelando, assim, quão frouxamente os cabos de alimentação estavam realmente assentados nas fontes de alimentação na parte frontal do Catalyst 6500 .
Sim. Agora temos um capacete de segurança na sala dos servidores. Com o meu nome nele.
fonte