Estou tendo alguns problemas com um servidor Dell 1950. Estou instalando o RHEL 4.6 junto com o Oracle e alguns outros softwares aqui.
Estou recebendo aleatoriamente uma mensagem de erro dizendo "kernel: journal commit I / O error" na minha sessão ssh e no monitor que eu conectei ao servidor, vejo um erro rolando pela mensagem "EXT3-fs error (device sda5) em start_transaction: o diário foi abortado. "
Isso já aconteceu várias vezes, mas nunca no mesmo ponto durante a instalação. Na verdade, desta última vez, o sistema estava em funcionamento e eu estava apenas tentando importar um banco de dados para o oracle.
Isso aconteceu em vários discos rígidos, por isso tenho certeza de que esse não é o problema. Isso me faz pensar que o controlador RAID está indo mal.
O que é que vocês acham?
** ATUALIZAÇÃO **
Tenho certeza que foi um disco rígido ruim. Joguei outra unidade no servidor e ela está em execução há cerca de 48 horas sem problemas.
Pode ser que o controlador RAID esteja com problemas, como você disse (tente um sobressalente, se você tiver um.) Pode ser o driver do controlador (verifique se há drivers alternativos, se disponíveis, mesmo que o desempenho seja pior, é bom ter um ponto de referência .) Pode ser o kernel (menos provável que no RHEL, é bastante bem testado.) Pode haver uma RAM ruim atrapalhando o cache do bloco.
Um problema de hardware é a causa mais provável, com base no comportamento de erro aparentemente aleatório.
fonte
Verifique se o disco não está cheio - em particular a partição raiz. Use df para ver o uso do disco do sistema de arquivos:
Procure partições próximas ou iguais a 100% de utilização
fonte
tentar:
shutdown -rF now
fonte