Por que muitas pessoas desejam transformar dados distorcidos em dados distribuídos normais para aplicativos de aprendizado de máquina?

8

Para dados de imagem e tabulares, muitas pessoas transformam os dados distorcidos em dados normalmente distribuídos durante o pré-processamento.

O que a distribuição normal significa no aprendizado de máquina? É uma suposição essencial de algoritmos de aprendizado de máquina?

Até os dados da imagem, vi transformação quantil, que transforma todos os pixels de uma imagem para seguir a distribuição normal ou uniforme.

Eu posso pensar em uma razão: evitar a influência de valores extremos. Mas essas transformações distorcem a distribuição original dos dados.

Por que a distribuição normal é tão importante para o aprendizado de máquina que muitos pré-processamento incluem essa etapa?

林彥良
fonte
2
Não é, isso vem da crença errada de que os modelos terão melhor desempenho em dados normais, mas isso simplesmente não é verdade (exceto nos modelos que realmente exigem normalidade). Dados uniformes sobre[0,1]às vezes, porém, ajuda, principalmente com a NN, devido à maneira como elas funcionam.
user2974951
4
Essa superstição pode ser resumida como "Normalidade não é um requisito para nenhum modelo, a menos que seja". Os iniciantes muitas vezes acreditam erroneamente que a normalidade é sempre um requisito, mesmo que os casos em que isso seja verdade sejam poucos e distantes.
Sycorax diz Reinstate Monica
4
Existem outras suposições, geralmente mais importantes. Mas essas outras suposições são mais difíceis de entender .
Kjetil b halvorsen
Portanto, para redes neurais, algumas vezes os dados de distribuição normal ajudam a melhorar o desempenho, mas em outros modelos isso pode depender dos dados? E para verificar, talvez eu tenha que tentar manualmente ou explorar a matemática por trás dos algoritmos?
林彥良

Respostas:

11

Como @ user2974951 diz em um comentário, pode ser superstição que uma distribuição Normal seja de alguma forma melhor. Talvez eles tenham a idéia errada de que, como os dados normais são o resultado de muitos erros aditivos, se forçarem os dados a serem normais, eles podem tratar os números resultantes como tendo erros aditivos. Ou a primeira técnica de estatísticas que eles aprenderam foi a regressão OLS e algo sobre Normal era uma suposição ...

Normalmente, a normalidade não é um requisito. Mas se é útil depende do que o modelo faz com os dados.

Por exemplo, os dados financeiros geralmente são anormais - isto é, apresentam um erro multiplicativo (porcentagem). Os autoencodificadores variacionais usam uma distribuição Normal no gargalo para forçar a suavidade e a simplicidade. As funções sigmóides funcionam mais naturalmente com dados normais. Os modelos de mistura costumam usar uma mistura de normais. (Se você pode assumir que é Normal, você só precisa de dois parâmetros para defini-lo completamente, e esses parâmetros são bastante intuitivos em seu significado.)

Também pode ser que desejemos uma distribuição simétrica unimodal para nossa modelagem e o Normal é isso. (E as transformações em "Normal" geralmente não são estritamente normais, apenas mais simétricas.)

A normalidade pode simplificar algumas contas para você e alinhar-se com a sua concepção do processo que gera seus dados: a maioria dos dados está no meio com valores baixos ou altos relativamente mais raros, que são de interesse.

Mas a minha impressão é que é o Cargo Cult na natureza

Wayne
fonte
5

A resposta acima realmente diz a verdade. Gostaria apenas de acrescentar que vale a pena separar a idéia de querer "normalidade" versus querer escalar todos os recursos para estar na faixa semelhante (mesmo que eles tenham distribuições diferentes). Ambas as transformações têm seus prós e contras e, às vezes, são necessárias para evitar peculiaridades numéricas na etapa de otimização ou para evitar vieses sistêmicos nesses algoritmos.

Além disso, depende de que tipo de "aprendizado de máquina" você está se referindo (ou seja, SVMs, modelos baseados em árvore, redes neurais, etc.), pois todos eles se comportam de maneira diferente e podem ter problemas numéricos diferentes. Como mencionado acima, há benefícios em determinadas situações, mas a ideia de que a normalização de dados distorcidos levará a um melhor desempenho não é uma estratégia à prova de balas. Em geral, justificar qualquer etapa de "pré-processamento" ou "manipulação / transformação de dados" tende a ser uma alternativa mais robusta.

Samir Rachid Zaim
fonte