Você com certeza testemunhou com seus próprios olhos (ou vai) mais cedo ou mais tarde: aquele projeto / sistema / situação terrível em que algo ficou tão estragado que você simplesmente não pode acreditar que realmente foi como aconteceu.
Má gestão? Misbudgeting? Mal entendido? Apenas ignorância pura e boba? Cite sua causa, com certeza aconteceu (e continua acontecendo muito, infelizmente; veja aqui ).
Descreva-o aqui, para diversão (embora um pouco do tipo cínico) e aprendizado (espero).
Algumas regras:
- Este não é o lugar para erros de administração aleatórios (mesmo que totalmente devastadores), por isso, evite "argh digitei errado esse rm -r" ou "OMG, APENAS COPIEI O BANCO DE DADOS CORROMPIDO NO MEU ÚLTIMO BOM BACKUP" (estive lá, fiz isso) ; essas coisas são melhores aqui . Trata-se de "que tipo de drogas estava exatamente sob a influência de quem projetou / implementou este sistema?".
- Um WTF por postagem, para que eles possam ser devidamente comentados.
- Poste algo que você realmente testemunhou :-)
- Se foi você quem fez isso, ainda se qualifica :-)
Em breve, adicionarei algum material, fique à vontade para adicionar o seu; e faça :-)
Respostas:
Resposta por email de um engenheiro de suporte da Microsoft para um problema relatado:
Ouro!
fonte
Fui chamado de uma empresa que eu nunca tinha ouvido falar antes, que tinha a tarefa de implementar um servidor de correio do Exchange 2003 para um cliente e não tinha idéia de como fazê-lo; nada muito estranho, certo? Eu trabalho como consultor freelancer, então estou perfeitamente bem fazendo trabalhos que você não sabe fazer por você (e recebendo seu dinheiro por isso).
Então, fui ao site do cliente e descobri algo bastante estranho: cada servidor da rede era um controlador de domínio ; todos os 15 ou mais deles.
Então, descobri algo ainda mais estranho: ninguém estava replicando adequadamente com nenhum outro, o comportamento geral do Active Directory só poderia ser descrito como "irregular", os usuários estavam tendo qualquer problema de rede que você possa imaginar e o Exchange simplesmente se recusou a instalar com arquivos desconhecidos. erros para a humanidade.
Então, observei a configuração da rede no servidor e vi ... estava usando os servidores DNS públicos do ISP. Então eu olho para outro servidor ... e era o mesmo. Então eu olho para uma DC ... a mesma coisa. Então perguntei ... e foi confirmado oficialmente: todos os computadores da rede (cerca de 1500) estavam usando o DNS do ISP em vez de um controlador de domínio legítimo.
Continuei explicando que o DNS é bastante crítico para a operação adequada do Active Directory e pude reconstruir a história por trás:
fonte
Era uma vez um cliente que era uma pequena empresa (10 pessoas) com um prontuário eletrônico. (Não é médico). Notei um dia que os backups estavam falhando. No teste, a unidade de fita não estava funcionando. Mencionei isso ao proprietário, que disse estar ciente de que a unidade estava ruim, mas era muito cara para substituir.
Claro - isso não é muito WTF.
O WTF é que ele tinha sua equipe girando a fita diariamente, levando-a para um cofre e todo esse jazz pelos 6-9 meses desde que ela morreu .
"Não conte aos funcionários, isso pode preocupá-los"
fonte
Eu trabalhava como administrador de sistemas de uma grande agência governamental (um dos principais órgãos do governo da Itália) e administrava o data center há alguns meses. Uma noite, meu telefone toca e meu chefe me diz que algo de muito ruim está acontecendo: falta de energia total .
Ok, temos no-breaks, certo?
Sim, mas eles não vão durar muito, então é melhor ir lá e desligar tudo até que a energia retorne.
Vou até lá, atravesso os corredores escuros, chego à sala dos servidores ... e sou recebido pelo que só pode ser descrito como puro inferno . Literalmente. O quarto estava tão quente que você poderia assar bolos. A energia do no-break estava ok, mas metade dos servidores já havia desligado por superaquecimento e os demais estavam gritando de agonia.
O motivo?
Os servidores estavam com a energia da UPS ... o ar-condicionado não estava .
fonte
Falha do ventilador HP ProLiant ML370 G3 ... Os sensores de ventilador na placa-mãe deste modelo tendem a ficar mal após 5 anos. O servidor não pode inicializar quando a combinação incorreta de ventiladores não é detectada. Eu tive que orientar o cliente ao iniciar a máquina com um shop-vac (para fazer os fãs girarem na inicialização) e foi assim que eles mantiveram o servidor funcionando até que eu pudesse chegar com um novo sistema.
fonte
Eu costumava ser consultor de software contábil para contabilidade Dac-Easy. Uma vez, fui chamado ao escritório principal de uma empresa local e o contador me disse que, se não conseguisse resolver por que o programa estava cheio de erros contábeis todo fim de semana, eles precisariam encontrar outro aplicativo e consultor. Analisando os arquivos de log administrativos, descobri que todas as entradas eram feitas geralmente nas noites de sexta ou sábado. Descobri então que a esposa do proprietário estava acessando o computador do sistema contábil em casa usando o PC Anywhere e tentando equilibrar as contas com o talão de cheques depois de vários copos de vinho. Quando os números pareciam bons, ela terminava a sessão.
fonte
Peguei um computador que recebi do escritório de nossa controladora quando ouvi algo chocalhando por dentro. Quando abri o estojo, encontrei 1/2 cheio de mini-trigos geados. Eu acho que um rato estava morando nele ou usando um cache de alimentos. O provável ponto de entrada foi o espaço entre o gabinete e o conector do teclado DIN.
Não é exatamente o que você pediu, mas um WTF definitivo.
fonte
Outro cliente, outra história de horror.
No post principal, eu falei sobre ter substituído erroneamente um bom backup com o banco de dados corrompido que ele deveria substituir; acontece :-(
Portanto, uma restauração do backup foi necessária. Felizmente, há realmente ERA um backup lá: foi feito diariamente, em um servidor de backup central, com uma biblioteca de fitas Really Big ligado a ele; esse servidor gerenciava backups para toda a empresa, era realmente caro e tinha um software de backup real instalado.
Por enquanto, tudo bem. Procuramos a tarefa de backup, carregamos a fita adequada, iniciamos a operação de restauração, a fita é carregada, a restauração é iniciada ... e simplesmente nada acontece.
Tentamos novamente, alguma coisa.
Descarregamos, recarregamos, reiniciamos, tentamos restaurar backups anteriores ... nada muda.
Assumimos algum tempo operação estava acontecendo e a deixamos a noite inteira ... no dia seguinte, ainda nada muda.
Ok, hora de ligar para o suporte do fornecedor do Real Backup Software ... mas isso não pode ser feito, estamos no domingo. Tentamos procurar no site de suporte do fornecedor, mas é necessário um código de acesso especial, e apenas um gerente o possui ... o mesmo gerente que ficará muito chateado ao descobrir que o sistema ainda está inativo na segunda-feira, quando ele começa a trabalhar.
Outro dia de dor, e eu descobri que o bug é bem conhecido e foi corrigido por um patch de fornecedor, que (obviamente) ninguém se importa em aplicar. Então, eu vou aplicá-lo ... mas isso não pode ser feito: a gerência não quer arriscar quebrar nada, a menos que o fornecedor confirme que o patch pode ser aplicado com segurança; o fato de o servidor de backup não ter sido capaz de restaurar nada aparentemente não parecia suficiente "violado" para eles.
Somente após quatro dias no total, várias chamadas de suporte e o fornecedor enviando um engenheiro de suporte no local, finalmente conseguimos aplicar o patch e restaurar o backup; o servidor de backup NUNCA foi capaz de fazer restaurações, mas ninguém nunca o testou, então ninguém percebeu.
fonte
Emulação de terminal por diversão e lucro
Eu trabalho com um sistema mais antigo - essencialmente um monte de terminais de texto que se conectam a uma caixa Unix, com alguns computadores Windows instalados apenas para complicar as coisas.
Alguns fatos essenciais
Eu acho que você pode ver para onde estou indo com isso.
Houve tentativas tímidas de adicionar suporte de terminal adequado aos arquivos terminfo e termcap, mas estes são apenas parcialmente funcionais. O arquivo termcap proprietário usado pelo aplicativo principal do sistema funciona, mas é principalmente irrelevante, pois o $ TERM nunca é definido corretamente.
Ao fazer login, cada usuário precisa basicamente selecionar de onde está efetuando login e qual layout de teclado deseja usar - não há detecção automática envolvida. Isso definirá $ TERM como ANSI, independentemente de qual terminal esteja sendo usado no lado do cliente, e uma variável de ambiente definida para que o aplicativo de software primário refaça algumas das chaves adequadamente.
No caso de pessoas que usam o layout do teclado incorporado nos terminais de texto, um script é executado para reprogramar algumas das teclas do layout incorporado (impressas fisicamente no próprio teclado), mas não todas. Nos PCs com Windows, um mapa de teclas do cliente é carregado para remapear a maioria das teclas de função para ANSI. Não é possível remapear todos eles, caso contrário, algumas das outras chaves deixarão de funcionar.
O login em qualquer outra coisa a partir de qualquer um dos terminais é um exercício de falha e só pode ser razoavelmente feito diretamente no próprio servidor. Como tudo funciona, é difícil justificar o tempo e o esforço necessários para corrigi-lo. Mas adicionar algo mais novo do que os terminais de texto de 20 anos com os quais estamos presos agora exigiria essencialmente uma reescrita de todo o sistema.
Choro um pouco por dentro toda vez que vejo.
fonte
Eu conhecia alguém que decidiu reorganizar os arquivos em seu computador colocando todos os .exe em uma pasta.
fonte
Uma rede com ~ 60 ( SIXTY ) PCs.
Um chefe fanático por segurança.
Alguns novos switches com recursos de VLAN.
Um "plano de reorganização de rede" envolvendo ~ 20 ( VINTE ) VLANs.
Graças a alguma força superior desconhecida, saí antes que tudo isso pudesse realmente começar ...
fonte
Demos a um de nossos administradores de Unix uma caixa do Windows. Isso foi pouco depois de termos fornecido caixas de Linux para administradores do Windows, na tentativa de aumentar nossa familiaridade em diferentes sistemas operacionais. Como administrador do Windows, tentando não estragar minha caixa do Linux, fiz uma tonelada de perguntas à equipe do Unix. Espero que esse seja o objetivo do exercício. Depois de uma palestra severa sobre como certificar-se de dimensionar todos os meus volumes corretamente e não colocar tudo em um volume ou em uma única partição, fui adiante e construí uma caixa perfeitamente adequada, que ainda está em produção dois anos depois.
Quando o cara do Unix que me deu a palestra sobre volumes diferentes e não a construção de coisas para que um disco inteiro pudesse travar o sistema operacional criou sua caixa do Windows, ele colocou tudo em C :. Quando eu disse: "Não posso fazer backup disso com nenhuma política que tenhamos e quando esses logs preencherem sua caixa, haverá uma falha". Ele disse: "Bem, imaginei que fosse o Windows, tudo em C: faz sentido". Ele não fez outra partição. Eu estava seriamente desconcertado com isso. Absolutamente WTF você estava pensando tipo de coisa. Aparentemente, não lhe ocorreu que algumas práticas recomendadas são as mesmas, independentemente do sistema operacional.
fonte
MassimoA resposta de me lembra outra WTF ...
Um pequeno escritório possui um servidor Windows 2003 com Exchange, Symantec AV etc. A empresa geralmente nos usa para fazer todo o trabalho de TI. Mas esse novo hotshot está no escritório e comprou um novo PC. Nós os tínhamos em uma plataforma unificada Dell Optiplex, esse cara decidiu substituir três deles por "grandes máquinas" que estavam à venda na Best Buy.
Independentemente disso - eles de alguma forma conseguem ingressar no domínio.
Primeira chamada:
Não podemos encontrar perspectivas. A máquina veio com o Word (Microsoft Works), portanto, onde está todo o resto.
Segunda chamada:
Como usamos o antivírus de rede?
Este é o wtf. Fui no local e sete de suas máquinas foram configuradas como Symantec Antivirus SERVERS , em vez de instalar o cliente. Aparentemente, o senhor não gostou que tivéssemos bloqueado as configurações do cliente e decidimos "reinstalar" o cliente para que ele pudesse mudar quando ele fosse digitalizado. Aparentemente, o primeiro CD do Symantec AV que havíamos deixado de fora de alguma forma o convenceu a instalar o "servidor", e não o cliente.
fonte
Um cliente me chamou para ajudar com algumas compilações de servidores. Durante a compilação, fui informado de que eram servidores de substituição dos dois inferiores do rack. Achei estranho que a posição do rack fosse relevante e perguntei o porquê. Acontece que a sala do servidor foi inundada depois que o cano de água que corre no meio dele estourou.
Então, o que um cano de água está fazendo no meio da sala do servidor? Bem, o banheiro feminino fica ao lado e a sala do servidor está convenientemente fora da vista. Qual o melhor lugar para colocar o alimento principal no banheiro?
fonte
Oh, é fácil ...
Eu tinha uma instalação de sistema Linux para uma empresa situada em um armazém na zona rural de Kentucky. Este sistema é o aplicativo de contabilidade / inventário para a organização. Eu estava substituindo um servidor SCO da época de 1998 por um novo servidor CentOS 4. Como resultado, eu esperava o pior quando se tratava de conectividade e clientes. Você sabe, PCs antigos, cabos ruins, etc. Enviei novos switches, cabos, thin clients, etc. para o site ...
No entanto, eu não esperava que o "armário" da fiação estivesse no banheiro ! Na verdade, o cabeamento estava localizado no espaço acima do teto suspenso, diretamente acima do banheiro do armazém. Isso inclui o modem DSL, o HUB de 10 megabits e um bloco de 66 para os telefones ...
fonte
Mesmo cliente envolvido na coisa DNS From Hell.
O servidor Exchange continuou funcionando por anos normalmente e até sobreviveu a algumas falhas de disco (obrigado, RAID e, mais ainda, backups). Um dia, fui chamado novamente para um problema não relacionado, e eles me disseram en passant algo estava incomodando: algumas vezes antes, eles descobriram todo mundo foi capaz de todos aberto outra caixa de correio; eles pensaram que era estranho, mas não fizeram nada, porque não sabem como consertar isso e, de qualquer forma, os emails estavam funcionando e (quase) ninguém havia descoberto isso.
Fiquei bastante chocado aqui: todo mundo foi capaz de abrir a caixa de correio de qualquer outra pessoa, e eles pensaram que isso era APENAS UM NÚCLEO MENOR e não se incomodaram em fazer nada por TRÊS MESES . Qualquer pessoa comum teria puxado o cabo de rede do servidor imediatamente, mas não eles.
A origem do problema era ... estranha: alguém havia definido "Todos / Controle total" no nível da organização do Exchange no Active Directory, para que todos imediatamente se tornassem um administrador completo do Exchange; a única sorte deles era que poucas pessoas notavam isso.
A partir de hoje, ninguém sabe ainda quem realmente fez isso.
fonte
Trabalhou como programador em tempo integral e administrador de meio período em uma pequena empresa que fabrica software de contabilidade (leia-se: cobrança de clientes e solicitações de seguro). Recebi uma ligação de um grande cliente informando que o servidor estava inoperante; era o novo produto executando o Altos Unix SysV / 386. Desde que eu era tudo o que eles tinham, eles me enviaram e a nova garota.
Chegamos lá e havia uma sala cheia de operadores de entrada de dados digitando documentos do WordPerfect o mais rápido possível. Havia uma linha de longo curso saindo do estado onde outro conjunto de operadores fazia o mesmo.
O diretório de documentos tinha cerca de 10.000 documentos perfeitos, todos seguindo o mesmo formato. TUDO EM UM DIRETÓRIO. Fulano foi ferido e sofre de tal ou tal. Parece que esse médico foi o principal candidato a advogados movendo ações judiciais.
Tentei inicializar com o disquete e obtive apenas muitos ruídos de busca. Puxei o disquete e ele estava completamente coberto de teias de aranha, estou falando de alguns aqui. Era um consultório médico, então eu exigi cotonetes e álcool (era o único disco de inicialização Unix que tínhamos, e a única chance de consertar as coisas nessa chamada de serviço), e comecei a limpar o disquete, a unidade e o servidor.
Havia dois problemas, um era o servidor estava cheio de sujeira do escritório acarpetado e de sua localização no canto da sala (no grosso tapete felpudo), e estava superaquecido no escritório de 80 graus. O sistema de arquivos precisava de um FSCK sério e eu dividi os arquivos de 10K em um novo conjunto de subdiretórios alfabéticos e sugeri que eles os quebrassem ainda mais.
O médico era um buraco perfeito que nos rasgou um novo quando entramos pela porta. Quando saímos, explicamos que a compra da opção WordPerfect for UNIX não significava que dimensionamos o servidor para a criação de documentos intracontinentais; além disso, ele precisava de um A / C, um servidor sem tapete, um no-break, um RAID externo e um melhor protocolo de arquivamento de diretório. De repente, ele era todo ouvidos, e foi assim que ele ganhou todo o seu dinheiro. Forneci todas as informações a Sales, mas deixei o emprego logo depois por outros motivos.
fonte
Meu melhor WTF teve origem no meu atual empregador, quando comecei aqui.
Praticamente os primeiros dois meses no cargo envolveram um estado constante de pânico e horror total quando descobri o estado dos servidores. No meu nível atual de experiência, eu poderia apenas recomendar incendiar o local e coletar o seguro. Mas a melhor parte foi a política de uma empresa:
Não havia contabilidade para clientes de discagem. Em um provedor de serviços de Internet que obtém metade de sua receita com clientes discados. Na verdade, essa era uma política que estava em vigor há cerca de 6 anos quando comecei, e me surpreendeu que nada tivesse sido feito a respeito. A linha padrão era "apenas confiamos em nossos clientes para não usar muito". O fato de o local estar rodando com um orçamento apertado e não ter um administrador de verdade durante todo esse tempo não ajudou em nada, eu acho.
O resultado final dessa política, é claro, foi que os spammers haviam basicamente dominado o pool de discagem. Quase todas as noites, eles usavam uma conta para discar para vários modems até que todo o pool estivesse cheio, e então enviavam spam o mais rápido possível. A versão do AAA RADIUS não ajudou em nada, pois não havia uma troca rápida de "permitir apenas um usuário por vez" por vez. Eu hackeei algo juntos no Perl para desconectar qualquer pessoa com dois logons até o momento em que o servidor RADIUS pudesse ser substituído, e isso resolveu o problema em algum momento da primeira semana ou duas. Parte do outro problema era que eu não tinha tempo suficiente para consertar as coisas (veja: orçamento apertado), pois eu também estava dando suporte técnico ao mesmo tempo. Mas parte do motivo de eu ainda estar aqui é que eu tinha reinado livre sobre tudo isso. Acho que não realmente já me disseram para não seguir em frente e implementar alguma boa idéia. A única restrição que já tive foi dinheiro.
fonte
Há dez anos, entrevistei uma empresa cujo cabeamento principal da sala de servidores parecia sopa de espaguete. O equipamento de rede estava em 3 racks perto de um canto de uma sala de 20 pés x 60 pés. Havia uma cascata de cabos de rede de todos os tipos de cores caindo pelos racks e terminando em um conjunto de cabos emaranhados com cerca de 7 pés de largura e saindo a cerca de 5 pés dos racks. Não havia documentação e ninguém sabia o que foi aonde.
A empresa detinha uma participação de mercado de 95% em um campo que tratava de segurança de vida e propriedade. Tudo o que posso dizer é que isso pode dar uma pausa real.
Entre a empresa ainda está no negócio e, aparentemente, limpou muitas coisas desde então.
fonte
Estava em um armário Demarc há não muito tempo e encontrou essa configuração interessante em um site:
Instalação do cabo de fibra Elite = LAÇO DE TORÇÃO
texto alternativo http://locobox.googlepages.com/Fiber.jpg texto alternativo http://locobox.googlepages.com/Fiber2.jpg
fonte
Há alguns anos, a empresa na qual eu trabalhava adquiriu um de nossos concorrentes e tive que auditar suas máquinas (Centos) para garantir que eles atendessem aos nossos padrões em termos de configuração (o administrador do sistema recusou a oportunidade de ingressar em nossa empresa em favor de fundar sua própria empresa que desenvolveu soluções chave na mão).
Em /etc/rc.local (a casa de todos os grandes WTFs), encontrei:
e
Nota: eth1 foi configurado no ifcfg-eth1 com uma máscara de rede 255.255.255.0
Aparentemente, os administradores de sistemas reais não usam esses arquivos de configuração clichê como / etc / fstab e / etc / sysconfig / network-scripts / *
fonte
No início deste ano, contratamos uma nova garota. Me pediram para garantir que todas as fontes da empresa estivessem instaladas no computador dela. Eu sabia que eles estavam, mas decidi escolher minhas batalhas e apenas instalá-las novamente. Recebi uma ligação da garota cerca de 5 minutos depois e ela queria que eu aparecesse e lhe mostrasse como usar o novo "software" que instalei. Fui até lá, abri o Word e a acompanhei como alterar fontes ... e foi isso que eu instalei.
Essa garota tinha um PHD !! Ela não trabalha mais aqui, mas não porque não sabia como usar fontes.
fonte