Unidade de espaços de armazenamento / ReFS sendo descartada sob carga pesada

8

Eu tenho uma estação de trabalho Windows 10 usada na minha empresa para coisas como processamento de imagem (Photoshop) e desenvolvimento de software (Eclipse). É um computador baseado no i7-2600K, placa-mãe Gigabyte GA-B75M-D3H B75, 16 GB de RAM. O sistema operacional está no Samsung 850 pro SSD, há outro 850 pro para dados, WD Black para dados, além de duas unidades HGST de 4 GB cada uma nas portas SATA 3, ReFS formatado, em um espelho dos espaços de armazenamento. A matriz possui 1,63 GB usados ​​e 1,99 GB grátis.

Recentemente, as unidades ReFS no espelho dos espaços de armazenamento começaram a cair - até agora três vezes em um mês. Isso geralmente ocorre sob carga moderada a pesada, após um período prolongado. Nenhum dos outros discos cai sob carga até onde eu sei, portanto, presumo que seja ReFS, espaços de armazenamento ou um problema com um disco subjacente. Uma reinicialização coloca o disco online.

Eu vejo erros no visualizador de eventos, como os abaixo. Esses não estão todos em um único local e, embora existam áreas de log NTFS e Espaços de Armazenamento em "log de aplicativos e serviços -> microsoft -> windows", não parece haver um para o ReFS.

Agradecemos a ajuda para rastrear o que está causando esses problemas e resolvê-los, para que meu sistema permaneça ativo.

16:27.05 (under event viewer -> application and services log -> microsoft -> windows -> storagespaces-driver-operationsl
Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} requires a data integrity scan.                                    
Data on the disk is out-of-sync and a data integrity scan is required.                  To start the scan, run the following command:                  

Get-ScheduledTask -TaskName "Data Integrity Scan for Crash Recovery" | Start-ScheduledTask                  

Once you have resolved the condition listed above, you can online the disk by using the following commands in PowerShell:                  

Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsReadOnly $false                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsOffline  $false

16:27.05 (windows system event log): The file system was unable to write metadata to the media backing volume R:. A write failed with status "A device which does not exist was specified." ReFS will take the volume offline. It may be mounted again automatically.
16:27.06 (windows system event log): The file system detected a checksum error and was not able to correct it. The name of the file or folder is "<unable to determine file name>".
18:35.50 (windows system event log): Failed to connect to the driver: (-2147024894) The system cannot find the file specified. 
18:35.50 (Kernel PNP) The driver \Driver\WudfRd failed to load for the device SWD\WPDBUSENUM\_??_USBSTOR#Disk&Ven_Generic&Prod_STORAGE_DEVICE&Rev_9451#7&2a9fd895&0#{53f56307-b6bf-11d0-94f2-00a0c91efb8b}.

18:35.58: Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} could not be repaired because there is not enough free space in the storage pool.                  
Replace any failed or disconnected physical disks. The virtual disk will then be repaired automatically or you can repair it by running this command in PowerShell:                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Repair-VirtualDisk

ATUALIZAÇÃO, como yagmoth indica que esse erro inclui algo sobre USB. Os cenários em que eu lembro que esse erro ocorreu são: a) Ao fazer backup em um disco USB externo b) Ao executar backups do CrashPlan em outro disco SATA interno

Tim
fonte
1
antivírus removido caso seja um problema de compatibilidade com o Windows 10? como como o McAfee tem problema com a atualização aniversary
yagmoth555
@ yagmoth555 Eu poderia tentar, eu acho, mas não me parece muito provável. Estou bastante interessado em como solucionar o problema em si, em vez de adivinhar e verificar.
Tim
Infelizmente, sem mais registros, suspeito de um problema de hardware. Como a idéia do AV foi um teste fácil, como se o seu espelho não pudesse lidar com E / S, o driver AV ao acessar / na gravação não ajuda (pois diminui a velocidade da E / S instalando um driver no meio) Se você deseja investigar sem teste / erro, primeiro tente um monitor de processo para registrar tudo. Se tudo falhar, eu tentaria remover o espelhamento para testar novamente depois (mas esse teste ainda é, infelizmente, um teste / erro). Mantenha-nos atualizados com o log de monitoramento, por favor
yagmoth555
Posso perguntar se o seu espelho é feito com disco USB? como o erro do kernel declara um driver usb
yagmoth555
Ambos os discos estão em SATA 3Gbps. Boa localização sobre o erro USB. Pergunta atualizada. Não estou na máquina há uma semana ou mais, mas vou tentar acioná-la novamente e ver se os logs são diferentes. Parece que o ProcessMonitor geraria um monte de logs, mas vou tentar algum dia, obrigado.
Tim

Respostas:

2

Os espaços de armazenamento parecem muito sensíveis à latência de gravação: se houver picos demais, o volume poderá ser diminuído.

Parece um problema conhecido ao usar SSDs de consumidor, como você pode encontrar aqui

shodanshok
fonte
Obrigado por essa informação. Meus discos ReFS / Storage Space são discos rígidos de 4 TB HGST, não SSDs. Meus SSDs executam NTFS. A questão da latência de gravação é interessante.
22417 Tim
1

Primeiro, você realmente deve verificar o HCL. Eu aposto que um jantar bastante agradável, nada que você mencionou existe no Storage Spaces HCL. Como o vSAN, o Windows e os Espaços de Armazenamento possuem HCLs completamente diferentes. Eu posso dizer, mesmo sem procurar suas unidades, que nenhuma delas estará na HCL, porque nenhuma delas é de classe empresarial.

Se você deseja uma solução estável, adquira uma placa LSI SAS (não RAID), adquira HDDs SATA empresariais e adquira um SSD da série Intel dc. É caro? Sim. Será confiável? Tanto quanto o Windows pode ser quando se trata de armazenamento (o que não é ótimo).

Eu, larguei os espaços de armazenamento e voltei para uma placa LSI RAID. Passou da corrupção de dados toda semana para o armazenamento sólido por mais de dois anos no mesmo hardware. E eu tinha TODO o kit de nível empresarial que estava no HCL.

Você pode encontrar a Lista de compatibilidade de hardware (HCL) aqui https://www.windowsservercatalog.com/results.aspx?&chtext=&cstext=&csttext=&chbtext=&bCatID=1642&cpID=0&avc=10&ava=0&avq=0&OR=1&PGS=25&ready=0

Eric C. Singer
fonte
1
Obrigado por seus pensamentos, Eric. Talvez você possa editar sua postagem para expandir "HCL", pois não sei o que isso significa, e os outros também não estarão lendo esta postagem. Eu pensei que o objetivo principal do RAID de software, como espaços de armazenamento, era evitar a necessidade de soluções caras de nível empresarial. Não tenho certeza de que sua resposta "jogue fora e compre outra coisa" realmente atenda à minha pergunta.
Tim
Veja meus comentários, HCL = hardware certificado para funcionar nos termos do leigo. O RAID de SW não é igual ou significa que você pode economizar no HW de nível empresarial, significa que você tem a flexibilidade de uma solução baseada em SW.
Eric C. Singer
... e pare de usar o ReFS, volte para o NTFS. é infinitamente mais maduro que o ReFS. O ReFS tem muitas promessas, mas também tem muito a amadurecer.
Eric C. Cantor
Eu escrevi um post inteiro no blog Storage Spaces BTW, comecei uma série, mas desisti porque IMO é um PDV. Como a maioria das soluções MS, está meio cozido. ericcsinger.com/backup-storage-part-5-realization-of-a-failure Voltamos às placas RAID e não tivemos problemas desde então. Como você está usando o espelhamento, seria quase melhor configurar um script de robocopy para copiar dados de um disco para outro. Mais fácil de solucionar problemas e provavelmente mais confiável, e permitiria manter os discos de nível de consumidor.
Eric C. Cantor
1
Dito isto, como você está espelhando seus discos, você pode despejar um disco, formatá-lo com NTFS e copiar seus dados para ele. Eu recomendaria fortemente os espaços de armazenamento, pois o problema que você está vendo não é tanto um ReFS, como é um espaço de armazenamento. Qualquer coisa relacionada a discos despejados ou aparecendo com falha está relacionada a espaços de armazenamento. Se você está apenas tentando manter seus discos sincronizados para ter uma réplica local, a robocópia é a maneira mais fácil de fazê-lo. tempo não é tudo.
Eric C. Cantor