Em /var/log/kern.log
:
kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Este é o edac
log, um dos ce
erros da memória .
Eu li o edac doc
Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
e encontre o canal de erro:
$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
e deve ser mc0/csrow0/ch2
, como o documento, o DIMM DIMM_C0
, e pode ser encontrado por dmidecode
:
Mas não consigo encontrar esse DIMM, então não sei qual memória tem problema:
$ dmidecode -t memory | grep 'Locator: PROC'
Locator: PROC 1 DIMM 2A
Locator: PROC 1 DIMM 1D
Locator: PROC 1 DIMM 4B
Locator: PROC 1 DIMM 3E
Locator: PROC 1 DIMM 6C
Locator: PROC 1 DIMM 5F
Locator: PROC 2 DIMM 2A
Locator: PROC 2 DIMM 1D
Locator: PROC 2 DIMM 4B
Locator: PROC 2 DIMM 3E
Locator: PROC 2 DIMM 6C
Locator: PROC 2 DIMM 5F
Existem 12 slots e 9 slots têm memória.
Então, como posso saber qual memória tem problema?
Suplemento:
System Information
Manufacturer: HP
Product Name: ProLiant DL180 G6
Ubuntu 12.04
, Kernel é3.10.20
Respostas:
Seu problema com o DIMM é provável -
Locator: PROC 1 DIMM 5F
CPU # 0Channel # 2_DIMM # 0 significa:
Editar:
Ao fazer perguntas, mais informações são sempre melhores ... Se o fabricante e o modelo do servidor tivessem simplificado isso:
Aqui está o diagrama de memória das especificações rápidas do HP ProLiant DL180 G6 :
Minha sugestão de que o DIMM no slot nº 1 da CPU esteja correto ... Mas esse é o hardware da HP. Você não precisa adivinhar !!
Você deve usar os agentes de gerenciamento da HP, pois eles podem alertar e fornecer detalhes específicos da plataforma sobre a integridade e o status do hardware ...
fonte
PROC1 DIMM 5F
não tem memória.Então, o slot não está realmente confirmado? Devo adicionar um espelho hp deb e instalarhpamscli
para obter o DIMM correto?hp-health
, eStatus
é oN/A
mesmo que sua saída colada.hplog -v
para verificar se há entradas no log do HP IML.