Como um hóspede do ESX pode encontrar problemas com este tipo de io?
[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current]
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
- fisicamente os dados estão nos vmfs armazenados em uma matriz raid6 (adaptec 5805), o que parece feliz
- também o host ESX não registra nenhum problema
- o tamanho do disco relatado pelo convidado parece o mesmo que o tamanho do disco provisionado
- através do esx, o hóspede tem 9 unidades iguais anexadas e apenas 2 apresentam esse problema
linux
vmware-esxi
Tobi Oetiker
fonte
fonte
dd if=/dev/sdg bs=512 skip=430203455 count=1
para reler ou apenasbadblocks -w -b 512 /dev/sdg 430203457 430203455
para executar um ciclo de leitura-teste-gravação-reescrita se você estiver se sentindo corajoso.Respostas:
Eu experimentei algo semelhante no volume de backup do MS SQL no convidado do Win 2008 no ESX 4.0 - é um volume bruto exposto do arquivador NetApp.
O SO convidado está relatando (e ainda informa) setores defeituosos nesse volume.
Acho que isso aconteceu devido a muitas operações de gravação de E / S, tempo limite temporário ou sobrecarga de arquivador.
Não há mais setores ruins relatados. A "limpeza de disco" da NetApp diz que está tudo bem. Nenhum erro de arquivador relatado.
Mas vamos recriar esse volume de qualquer maneira e ver se ele corrige isso.
E os outros volumes deste arquivador? Você pode verificar este volume com o comando "badblocks / dev / sdg"? (cuidado: sobrecarga de leitura enorme)
fonte
Afinal, era um problema de hardware / firmware. Enquanto o Adaptec 5805 (com o firmware mais recente) relatava que todos os volumes RAID6 estavam no estado ideal, ele também relatou um volume para conter 'Falhas com falha'. O efeito disso parece ser que parte do volume RAID6 se torna ilegível (causando os erros citados na pergunta). O ESX parece não ver isso diretamente, mas a execução
dd if=/dev/zero of=file-on-damaged-volume
direta no console do ESXi terminou com um erro de E / S, enquanto ainda havia muito espaço no volume.Nenhuma quantidade de arcconf verifica / verifica_fix é executada em volumes e os dispositivos físicos foram capazes de detectar ou corrigir qualquer coisa ... Eventualmente, afastei todos os dados do volume e os recriei no nível adaptec. Agora está tudo bem, mas minha confiança na capacidade da adaptec de proteger meus dados está seriamente danificada.
fonte