Medição da correlação de redes neurais treinadas

9

Estou treinando uma rede neural artificial (retropropagação, feed-forward) com dados distribuídos não normais. Além do erro quadrático médio da raiz, a literatura sugere frequentemente o coeficiente de correlação de Pearson para avaliar a qualidade da rede treinada. Mas, o coeficiente de correlação de Pearson é razoável, se os dados de treinamento não forem normalmente distribuídos? Não seria mais razoável usar uma medida de correlação baseada em classificação, por exemplo, Spearman rho?

Julian
fonte
Você pode elaborar como exatamente alguém o usaria ou forneceria uma referência?
bayerj

Respostas:

6

O coeficiente de correlação de Pearson mede a associação linear. Baseada em segundos momentos centrais empíricos, é influenciada por valores extremos. Portanto:

  • Evidências de não linearidade em um gráfico de dispersão de valores reais versus previstos sugeririam o uso de uma alternativa como o coeficiente de correlação de classificação (Spearman);

    • Se o relacionamento parecer monotônico em média (como na linha superior da ilustração), um coeficiente de correlação de classificação será efetivo;

    • Caso contrário, a relação é curvilínea (como em alguns exemplos da linha inferior da ilustração, como a mais à esquerda ou a média em forma de u) e provavelmente qualquer medida de correlação será uma descrição inadequada; o uso de um coeficiente de correlação de classificação não corrigirá isso.

  • A presença de dados externos no gráfico de dispersão indica que o coeficiente de correlação de Pearson pode estar exagerando a força da relação linear. Pode ou não estar correto; use-o com o devido cuidado. O coeficiente de correlação de classificação pode ou não ser melhor, dependendo da confiabilidade dos valores externos.

Exemplos de gráficos de dispersão e suas correlações de Pearson

(Imagem copiada do artigo da Wikipedia sobre o coeficiente de correlação produto-momento da Pearson .)

whuber
fonte
Você pode fornecer algumas fontes para sua declaração sobre o uso da correlação de classificação para medir o desempenho da regressão?
Simon Kuang