O Ubuntu 12.04 congelou, exigindo powercycle. O que devo procurar / grep nos logs?

8

Esta não é a primeira vez que o Ubuntu congelou. Da última vez, eu verifiquei 'arquivos atualizados recentemente' em /var/log/e /var/crash/e a causa do problema parecia ser 'LibreOffice'.

Agora, aconteceu novamente.

Nada funciona, exceto o botão de desligar (com base na experiência anterior). Eu não posso nem abrir o tty usandoCtrl+Alt+F{1..6}

Tenho bastante memória (7,7 GB), RAM (2 x 3,16 Ghz) e espaço no disco rígido (100 GB em um SSD de 256 GB).

Não há nada que eu possa fazer, exceto desligar. O computador passou em um teste de memoria.

O que devo procurar (grep) nos logs?

Atualização: enviei um bug aqui: https://bugs.launchpad.net/ubuntu/+source/xorg/+bug/1023916/

Abe
fonte
Exact duplicar aqui: askubuntu.com/questions/4408/...
Tom Brossman
1
@TomBrossman pergunta semelhante, exceto que todas as respostas assumem alguma resposta. A [resposta mais próxima] (você apenas terá que ligar e desligar a máquina. Que nunca chegue a esse ponto.) Aborda este caso muito brevemente no final "você terá que ligar e desligar a máquina. nunca chegue a esse ponto ". Isso não me ajuda a impedir a próxima ocorrência.
Abe
1
@TomBrossman Eu atualizei a questão para ser mais específico
Abe

Respostas:

2

Um congelamento parece muito com um erro no Xorg ou no kernel. Você tentou ssh na caixa? Às vezes, isso funciona mesmo que as interfaces de usuário locais sejam irresponsivas. Uma conexão ssh funcionando pode ser muito útil para depurar esse tipo de problema.

Dos dados que você forneceu, eu procuraria o log do kernel. Parece que o libreoffice travou por algum motivo e, em um segundo, o chrome também desapareceu. Definitivamente, havia algum tipo de problema naquele momento. Dê uma olhada no log em torno dessas linhas de erro e veja se é possível identificar a primeira mensagem de erro dessa cascata de eventos. Os carimbos de data e hora à esquerda devem ser úteis, pois qualquer evento relacionado ao congelamento deve estar bem próximo dos dois que mencionei.

Apenas a julgar pelos dois eventos incluídos no seu log, parece provável que a falha do libreoffice tenha tornado o X instável, causando o congelamento da interface do usuário e a falha do chrome. Você notará que o chrome falhou em uma biblioteca X.

MvG
fonte
1
Eu posso de fato ssh dentro da caixa. Qual o proximo?
Abe
Dê uma olhada /var/log/Xorg.0.log. Execute dmesgpara ver a saída recente do kernel. Talvez execute pstreee / ou ps -Aveja quais processos ainda estão por aí. Depois disso, você pode decidir coletar mais informações ou verificar se é possível reiniciar o servidor X. O último é sudo restart lightdmiirc, mas posso estar errado lá.
MvG
OK. Após encontrar alguns bits nos fóruns do ubuntu sobre a mensagem "Xorg Tainted P" /var/log/kern.log, percebi que não havia reinstalado o driver proprietário da ATI após a atualização para a versão 12.04, e que esse poderia ser o problema. Então, eu reinstalei o driver da ATI. A propósito, ele /var/log/Xorg.0.logtinha mais de 1000 linhas, tudo a partir de hoje, então eu nem sabia por onde começar. Obrigado pela ajuda. Eu vou deixar você saber o que eu acho.
Abe
Não, a instalação do driver proprietário não o corrigiu.
Abe
1
OK. Eu já reiniciei; mas quando isso acontece na próxima vez (nota para auto :) aqui estão as instruções para relatar um "GPU lockup Bug" wiki.ubuntu.com/X/Troubleshooting/Freeze
Abe
0

Eu estava rodando no modo padrão 'vanilla', embora eu tenha o xfce e o kde instalados.

Uma instalação de baunilha, na minha opinião, significa uma instalação limpa de uma distribuição. Tente uma instalação limpa (como no formato tudo , crie um novo usuário e tente novamente). Obviamente, faça backup de seus arquivos importantes antes de fazer isso.

Além disso, em vez de reinstalar, você pode tentar criar um novo usuário . Isso pode identificar o problema: se o novo usuário funcionar, o problema estará localizado nas configurações do usuário doméstico. Caso contrário, é um problema do sistema (e a reinstalação provavelmente o resolveria)

Não instale mais nada. Não use PPAs. Atualize o software apenas através do gerenciador de atualizações ou apt-get, sem alterar / adicionar o sources.list. Isso significa instalação de baunilha. Veja como o sistema responde por 3-4 dias. Em seguida, comece a adicionar o software um por um para descobrir o pacote problemático.

Após uma reinicialização, o sistema geralmente acrescenta ".old" ou ".0" ao nome do arquivo.

Eu diria que esses arquivos de log seriam informativos:

tar czf mylogs.tar.gz --ignore-failed-read ~/.xsession-errors.old /var/log/Xorg.0.log.old /var/log/dmesg.0 /var/log/syslog.1 /var/log/kern.log.1 /var/log/apport.log.1 /var/log/pm-powersave.log.1
file-roller mylogs.tar.gz

... ou se você preferir separadamente:

cat ~/.xsession-errors.old
cat /var/log/Xorg.0.log.old
cat /var/log/dmesg.0
cat /var/log/syslog.1
cat /var/log/kern.log.1
cat /var/log/apport.log.1
cat /var/log/pm-powersave.log.1
Savvas Radevic
fonte
Eu quis dizer "modo vanilla" como ao selecionar "ubuntu" em vez de "gnome classic", "ubuntu 2D", "xubuntu", etc. no login - em oposição a uma "instalação vanilla". Não tenho certeza do que mais chamar. Mas vou tentar depurar ainda mais antes de uma reinstalação.
Abe
Seria útil publicar todos esses logs? Em caso afirmativo, como posso remover quaisquer dados particulares?
Abe
Não sei se isso ajudaria alguém, certamente não eu. Talvez alguém estivesse disposto a olhar os logs. Não sei como limpar dados privados dos logs, você pode navegar por cada um e decidir por si mesmo, com base nos seus níveis de privacidade e preocupações. Por que você não tenta criar um novo usuário ? Se o novo usuário funcionar, o problema está localizado nas configurações do usuário doméstico. Se isso não acontecer, é um problema do sistema (e reinstalar resolveria provavelmente)
Savvas Radevic
0

Várias aplicações segfault e oops do kernel geralmente são sintomas de problemas de hardware. Tente primeiro executar um teste de memória, pois provavelmente falhará com erros.

Giovanni Toraldo
fonte
Eu já executei um memtest e passei, mas essa é obviamente uma abordagem útil para tentar. Eu editei minha pergunta para adicionar essas informações.
Abe