O clareamento é sempre bom?

27

Uma etapa comum de pré-processamento para algoritmos de aprendizado de máquina é o clareamento de dados.

Parece que é sempre bom fazer o clareamento, uma vez que correlaciona os dados, facilitando a modelagem.

Quando o clareamento não é recomendado?

Nota: estou me referindo à desacorrelação dos dados.

Correu
fonte
11
você pode dar referência ao clareamento?
Atilla Ozgur
2
Eu acho que esse tópico é um esboço. Realmente deveria ser expandido. - - A resposta atualmente aceita possui tão pouca informação. - Eu aceitaria isso e abriria uma recompensa aqui.
Léo Léopold Hertz # 26/16
Sua pergunta também é tendenciosa, tendo "sempre" lá. Obviamente, o clareamento nem sempre é bom. Além disso, defina os tipos de clareamento. Eu acho que leva a respostas não tão construtivas aqui. - - Defina os tipos de dados a serem usados. - - Acho que pode ser uma pergunta melhor Como você pode melhorar a aplicação desse clareamento nesses dados suficientemente agradáveis? . - - @AtillaOzgur Uma fonte en.wikipedia.org/wiki/Whitening_transformation se a transformação básica do clareamento for considerada.
Léo Léopold Hertz #

Respostas:

13

O pré-clareamento é uma generalização da normalização de recursos, que torna a entrada independente, transformando-a em uma matriz de covariância de entrada transformada. Não vejo por que isso pode ser uma coisa ruim.

No entanto, uma pesquisa rápida revelou "A viabilidade do clareamento de dados para melhorar o desempenho do radar meteorológico" ( pdf ), que diz:

Em particular, o clareamento funcionou bem no caso da ACF exponencial (que está de acordo com os resultados de Monakov), mas menos bem no caso da gaussiana. Após experimentação numérica, descobrimos que o caso gaussiano é numericamente mal condicionado, no sentido de que o número da condição (razão do valor próprio máximo e mínimo) é extremamente grande para a matriz de covariância gaussiana.

Eu não sou educado o suficiente para comentar sobre isso. Talvez a resposta para sua pergunta seja que o clareamento seja sempre bom, mas existem algumas dicas (por exemplo, com dados aleatórios, ele não funcionará bem se for feito através da função de autocorrelação gaussiana).

andreister
fonte
2
pelo que entendi, funciona bem se a matriz de covariância for bem estimada. Alguém pode comentar sobre isso? obrigado.
Ran
3
A citação acima não se refere a uma matriz de covariância mal estimada (embora isso também seja problemático). Está dizendo que, para uma matriz de covariância perfeitamente especificada, ainda pode ser difícil executar com precisão a fatoração necessária (e as transformações de dados associadas). Isso ocorre devido ao mau condicionamento numérico , o que significa que erros de arredondamento de precisão finita poluem os cálculos.
GeoMatt22
2
Esta é uma resposta insuficiente. Ele copiou principalmente material não tão relacionado. - - Esta resposta realmente deve ser expandida. É um esboço.
Léo Léopold Hertz # 26/16
20

Em primeiro lugar, acho que a des correlação e o clareamento são dois procedimentos separados.

Para desassociar os dados, precisamos transformá-los para que os dados transformados tenham uma matriz de covariância diagonal. Essa transformação pode ser encontrada resolvendo o problema de autovalor. Encontramos os autovetores e os autovalores associados da matriz de covariância , resolvendoΣ=XX

ΣΦ=ΦΛ

onde é uma matriz diagonal tendo os autovalores como seus elementos diagonais.Λ

A matriz diagonaliza assim a matriz de covariância de X . As colunas de Φ são os autovetores da matriz de covariância.ΦXΦ

Também podemos escrever a covariância diagonalizada como:

(1)ΦΣΦ=Λ

xi

(2)xi=Φxi

Λ

Λ1/2ΛΛ1/2=I

(1)

Λ1/2ΦΣΦΛ1/2=I

xixi

(3)xi=Λ1/2xi=Λ1/2Φxi

xixiE(xixi)=I

Σ

E, finalmente, há uma "pegadinha" comum com a qual as pessoas devem ter cuidado. É preciso ter cuidado para calcular os fatores de escala nos dados de treinamento e, em seguida, usar as equações (2) e (3) para aplicar os mesmos fatores de escala aos dados de teste; caso contrário, você corre o risco de sobreajustar (você usaria informações do conjunto de testes no processo de treinamento).

Fonte: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf

tdc
fonte
2
Obrigado pelo esclarecimento, você está certo. Eu estava me referindo à des correlação. btw: no final, você escreve que o clareamento é realizado apenas nos dados de treinamento. Até onde eu sei, você calcula a matriz a partir dos dados de treinamento, mas a realiza nos dados de treinamento e teste.
Ran
Sim @Ran é isso que eu quis dizer ... Eu vou atualizar a resposta
tdc
Seria bom se você também pudesse oferecer seções em sua resposta. Faça uma introdução, um resumo e as coisas de matemática. - Acho que você não se aprofundou o suficiente na sua resposta. - - Sua resposta cobre principalmente proposições triviais, mas não é aprofundada o suficiente no tópico. Você tem apenas material básico copiado e colado das anotações da aula, mas muito pouco trabalho próprio para o tópico.
Léo Léopold Hertz # 26/16
portanto, em termos simples, faça o pca para obter recursos não correlacionados e, em seguida, foreach para um novo recurso, divida pela variação para obter recursos clareados.
Avocado #
1

De http://cs231n.github.io/neural-networks-2/

Uma fraqueza dessa transformação é que ela pode exagerar bastante o ruído nos dados, uma vez que estende todas as dimensões (incluindo as dimensões irrelevantes da variação minúscula que são principalmente o ruído) para ter tamanho igual na entrada. Na prática, isso pode ser atenuado por uma suavização mais forte ...

Infelizmente, eu não sou educado o suficiente para comentar mais sobre isso.

DharmaTurtle
fonte
Por favor, indique quais formas de ruído são exageradas. Sua referência é rigorosa. É apenas ciência da computação básica sobre o tópico, ou seja, ruído branco com uma abordagem de rede neural antiga. - - O trabalho exagerado também deve ser definido.
Léo Léopold Hertz # 26/16
Parece-me que isso está relacionado apenas ao dimensionamento de todos os recursos para ter a mesma variação, certo? Portanto, se houvesse um recurso cuja variação no conjunto de treinamento fosse ruído, poderíamos esperar que a variação geral desse recurso fosse muito menor que outra; essa transformação tornaria o recurso "ruído" e o outro recurso com a mesma variação e poderia ser visto como "ruído de amplificação".
ijoseph