Estou treinando uma rede neural artificial (retropropagação, feed-forward) com dados distribuídos não normais. Além do erro quadrático médio da raiz, a literatura sugere frequentemente o coeficiente de correlação de Pearson para avaliar a qualidade da rede treinada. Mas, o coeficiente de correlação de Pearson é razoável, se os dados de treinamento não forem normalmente distribuídos? Não seria mais razoável usar uma medida de correlação baseada em classificação, por exemplo, Spearman rho?
9
Respostas:
O coeficiente de correlação de Pearson mede a associação linear. Baseada em segundos momentos centrais empíricos, é influenciada por valores extremos. Portanto:
Evidências de não linearidade em um gráfico de dispersão de valores reais versus previstos sugeririam o uso de uma alternativa como o coeficiente de correlação de classificação (Spearman);
Se o relacionamento parecer monotônico em média (como na linha superior da ilustração), um coeficiente de correlação de classificação será efetivo;
Caso contrário, a relação é curvilínea (como em alguns exemplos da linha inferior da ilustração, como a mais à esquerda ou a média em forma de u) e provavelmente qualquer medida de correlação será uma descrição inadequada; o uso de um coeficiente de correlação de classificação não corrigirá isso.
A presença de dados externos no gráfico de dispersão indica que o coeficiente de correlação de Pearson pode estar exagerando a força da relação linear. Pode ou não estar correto; use-o com o devido cuidado. O coeficiente de correlação de classificação pode ou não ser melhor, dependendo da confiabilidade dos valores externos.
(Imagem copiada do artigo da Wikipedia sobre o coeficiente de correlação produto-momento da Pearson .)
fonte