Use o coeficiente de correlação de Pearson como objetivo de otimização no aprendizado de máquina

12

No aprendizado de máquina (para problemas de regressão), geralmente vejo o erro médio quadrático (MSE) ou o erro médio absoluto (MAE) sendo usado como a função de erro para minimizar (mais o termo de regularização). Gostaria de saber se há situações em que o uso do coeficiente de correlação seria mais apropriado? se tal situação existir, então:

  1. Em que situações o coeficiente de correlação é uma métrica melhor em comparação com o MSE / MAE?
  2. Nessas situações, o MSE / MAE ainda é uma boa função de custo de proxy a ser usada?
  3. É possível maximizar o coeficiente de correlação diretamente? É uma função objetivo estável para usar?

Não consegui encontrar casos em que o coeficiente de correlação seja usado diretamente como a função objetivo na otimização. Eu gostaria que as pessoas pudessem me indicar informações nessa área.

aha
fonte

Respostas:

7

Maximizar a correlação é útil quando a saída é altamente ruidosa. Em outras palavras, a relação entre entradas e saídas é muito fraca. Nesse caso, minimizar o MSE tenderá a tornar a saída próxima a zero, de modo que o erro de predicação seja o mesmo que a variação da saída de treinamento.

É possível usar diretamente a correlação como função objetivo para a abordagem de descida de gradiente (simplesmente altere-a para minimizar a correlação negativa). No entanto, não sei como otimizá-lo com a abordagem SGD, porque a função de custo e o gradiente envolvem saídas de todas as amostras de treinamento.

Outra maneira de maximizar a correlação é minimizar o MSE, restringindo a variação de saída a ser a mesma que a variação de saída de treinamento. No entanto, a restrição também envolve todas as saídas, portanto, não há como (na minha opinião) tirar proveito do otimizador SGD.

EDIT: Caso a camada superior da rede neural seja uma camada de saída linear, podemos minimizar o MSE e, em seguida, ajustar os pesos e a polarização na camada linear para maximizar a correlação. O ajuste pode ser feito de maneira semelhante à CCA ( https://en.wikipedia.org/wiki/Canonical_analysis ).

Bo Tian
fonte
1

Usamos a correlação de Pearson em nossa pesquisa e ela funciona bem. No nosso caso, é bastante estável. Como é uma medida invariável de conversão e escala, só é útil se você deseja prever a forma, não valores precisos. Portanto, é útil se você não souber se o seu destino está no espaço de solução do seu modelo e se estiver interessado apenas na forma. Pelo contrário, o MSE reduz a distância média entre a previsão e os alvos, e tenta ajustar os dados o máximo possível. Esta é provavelmente a razão pela qual o MSE é mais amplamente usado, porque você geralmente está interessado em prever valores precisos. Se você minimizar o MSE, a correlação aumentará.

HCRuiz
fonte