Na maioria das vezes, quando as pessoas falam sobre transformações de variáveis (para variáveis preditivas e de resposta), elas discutem maneiras de tratar a assimetria dos dados (como transformação de log, transformação de caixa e cox etc.). O que não consigo entender é por que a remoção da assimetria é considerada uma prática recomendada tão comum? Como a assimetria afeta o desempenho de vários tipos de modelos, como modelos baseados em árvore, modelos lineares e modelos não lineares? Que tipo de modelo é mais afetado pela assimetria e por quê?
16
Respostas:
Ao remover a assimetria, as transformações estão tentando fazer com que o conjunto de dados siga a distribuição gaussiana. O motivo é simplesmente que, se o conjunto de dados puder ser transformado para ser estatisticamente próximo o suficiente de um conjunto de dados gaussiano, o maior conjunto de ferramentas possível estará disponível para uso. Testes como ANOVA, teste , teste F e muitos outros dependem dos dados que apresentam variação constante ( σ 2 ) ou seguem uma distribuição gaussiana. 1t F σ2
Existem modelos que são mais robustos 1 (como usar o teste de Levine em vez do teste de Bartlett), mas a maioria dos testes e modelos que funcionam bem com outras distribuições exigem que você saiba com que distribuição está trabalhando e, normalmente, é apropriado apenas para uma única distribuição também.
Para citar o Manual de Estatística de Engenharia do NIST :
e em outro local
fonte
Isto é principalmente verdade para modelos paramétricos. Como Tavrock disse, ter uma variável de resposta que não é distorcida faz com que a aproximação gaussiana da estimativa de parâmetros funcione melhor, porque a distribuição simétrica converge muito mais rapidamente do que as distorcidas para gaussianas. Isso significa que, se você tiver distorcido os dados, transformá-los em conjuntos de dados menores, menos pelo uso de intervalos de confiança e testes apropriados nos parâmetros (os intervalos de previsão ainda não serão válidos, porque mesmo que seus dados sejam simétricos agora, você não pode dizer é normal, apenas estimativas de parâmetros convergem para gaussiano).
Todo esse discurso é sobre distribuição condicionada da variável resposta, você poderia dizer: sobre erros. No entanto, se você tiver uma variável que parece distorcida quando você olha para a distribuição incondicional dele, isso provavelmente pode significar que ela possui uma distribuição condicionada distorcida. A montagem de um modelo nos seus dados o deixará claro.
Nas árvores de decisão, primeiro apontarei uma coisa: não há sentido em transformar variáveis explicativas distorcidas, funções monotônicas não mudam nada; isso pode ser útil em modelos lineares, mas não em árvores de decisão. Dito isto, os modelos CART usam análise de variação para realizar espetos, e a variação é muito sensível a dados discrepantes e distorcidos; essa é a razão pela qual a transformação de sua variável de resposta pode melhorar consideravelmente a precisão do modelo.
fonte
Acredito que este é um artefato da tradição de reverter para os gaussianos devido às suas boas propriedades.
Mas existem boas alternativas de distribuição, por exemplo, a gama generalizada que engloba uma série de diferentes formas e formas de distribuição assimétricas
fonte
Como outros leitores disseram, um pouco mais sobre o que você planeja alcançar com seus dados seria útil.
Dito isto, existem duas doutrinas importantes no campo da estatística, conhecidas como o teorema do limite central e a lei dos grandes números . Ou seja, quanto mais observações houver, mais se espera que um conjunto de dados se aproxime de uma distribuição normal , uma com igual média, mediana e modo. Sob a lei de grandes números, espera-se que o desvio entre o valor esperado e o valor real acabe caindo a zero, devido a observações suficientes.
Portanto, uma distribuição normal permite que o pesquisador faça previsões mais precisas sobre uma população se a distribuição subjacente for conhecida.
A assimetria é quando uma distribuição se desvia disso, ou seja, um desvio pode ser inclinado positiva ou negativamente. No entanto, o teorema do limite central argumenta que, dado um conjunto suficientemente grande de observações, o resultado será uma distribuição aproximadamente normal. Portanto, se a distribuição não for normal, é sempre recomendável reunir mais dados antes de tentar alterar a estrutura subjacente da distribuição por meio dos procedimentos de transformação mencionados.
fonte
Quando é que a assimetria é uma coisa ruim? As distribuições simétricas (geralmente, mas nem sempre: por exemplo, não para a distribuição de Cauchy) têm mediana, modo e significam muito próximas umas das outras. Portanto, considere que, se queremos medir a localização de uma população, é útil ter a mediana, o modo e a média próximos um do outro.
Exemplo de 25 rendimentos em dólares de quilo roubados do www.
A assimetria da primeira coluna é 0,99 e a segunda é -0,05. A primeira coluna não é provavelmente normal (Shapiro-Wilk p = 0,04) e a segunda não é significativamente normal (p = 0,57).
Obviamente, o log-normal aqui é um modelo melhor e o logaritmo médio nos fornece uma melhor medida de localização. O fato de isso ser bem conhecido, se não totalmente compreendido, é ilustrado pela frase "Antecipo receber um salário de cinco dígitos".
fonte
A maioria dos resultados é baseada em suposições gaussianas. Se você tem uma distribuição distorcida, não possui uma distribuição gaussiana; talvez deva tentar desesperadamente transformá-la nisso.
MAS é claro, você pode tentar com o GLM.
fonte
Eu acho que não é apenas modelagem, mas nosso cérebro não está acostumado a trabalhar com dados altamente distorcidos. Por exemplo, é bem conhecido nas finanças comportamentais que não somos bons em estimar as probabilidades muito baixas ou altas.
fonte