Uma etapa comum de pré-processamento para algoritmos de aprendizado de máquina é o clareamento de dados.
Parece que é sempre bom fazer o clareamento, uma vez que correlaciona os dados, facilitando a modelagem.
Quando o clareamento não é recomendado?
Nota: estou me referindo à desacorrelação dos dados.
data-transformation
Correu
fonte
fonte
Respostas:
O pré-clareamento é uma generalização da normalização de recursos, que torna a entrada independente, transformando-a em uma matriz de covariância de entrada transformada. Não vejo por que isso pode ser uma coisa ruim.
No entanto, uma pesquisa rápida revelou "A viabilidade do clareamento de dados para melhorar o desempenho do radar meteorológico" ( pdf ), que diz:
Eu não sou educado o suficiente para comentar sobre isso. Talvez a resposta para sua pergunta seja que o clareamento seja sempre bom, mas existem algumas dicas (por exemplo, com dados aleatórios, ele não funcionará bem se for feito através da função de autocorrelação gaussiana).
fonte
Em primeiro lugar, acho que a des correlação e o clareamento são dois procedimentos separados.
Para desassociar os dados, precisamos transformá-los para que os dados transformados tenham uma matriz de covariância diagonal. Essa transformação pode ser encontrada resolvendo o problema de autovalor. Encontramos os autovetores e os autovalores associados da matriz de covariância , resolvendoΣ = X X′
onde é uma matriz diagonal tendo os autovalores como seus elementos diagonais.Λ
A matriz diagonaliza assim a matriz de covariância de X . As colunas de Φ são os autovetores da matriz de covariância.Φ X Φ
Também podemos escrever a covariância diagonalizada como:
E, finalmente, há uma "pegadinha" comum com a qual as pessoas devem ter cuidado. É preciso ter cuidado para calcular os fatores de escala nos dados de treinamento e, em seguida, usar as equações (2) e (3) para aplicar os mesmos fatores de escala aos dados de teste; caso contrário, você corre o risco de sobreajustar (você usaria informações do conjunto de testes no processo de treinamento).
Fonte: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf
fonte
De http://cs231n.github.io/neural-networks-2/
Infelizmente, eu não sou educado o suficiente para comentar mais sobre isso.
fonte