Por que os dados inclinados não são preferidos para modelagem?

16

Na maioria das vezes, quando as pessoas falam sobre transformações de variáveis ​​(para variáveis ​​preditivas e de resposta), elas discutem maneiras de tratar a assimetria dos dados (como transformação de log, transformação de caixa e cox etc.). O que não consigo entender é por que a remoção da assimetria é considerada uma prática recomendada tão comum? Como a assimetria afeta o desempenho de vários tipos de modelos, como modelos baseados em árvore, modelos lineares e modelos não lineares? Que tipo de modelo é mais afetado pela assimetria e por quê?

saurav shekhar
fonte
2
Para dar uma resposta razoável, esclareça o que você quer dizer com: a) dados, b) modelagem ec) modelos. A questão principal - como sempre - é o que você quer fazer com ela . Mas o que é isso ?
Querido #
Atualizei minha resposta para adicionar algumas citações relevantes e expandir as reivindicações.
Tavrock 21/03

Respostas:

11

Ao remover a assimetria, as transformações estão tentando fazer com que o conjunto de dados siga a distribuição gaussiana. O motivo é simplesmente que, se o conjunto de dados puder ser transformado para ser estatisticamente próximo o suficiente de um conjunto de dados gaussiano, o maior conjunto de ferramentas possível estará disponível para uso. Testes como ANOVA, teste , teste F e muitos outros dependem dos dados que apresentam variação constante ( σ 2 ) ou seguem uma distribuição gaussiana. 1tFσ2

Existem modelos que são mais robustos 1 (como usar o teste de Levine em vez do teste de Bartlett), mas a maioria dos testes e modelos que funcionam bem com outras distribuições exigem que você saiba com que distribuição está trabalhando e, normalmente, é apropriado apenas para uma única distribuição também.

Para citar o Manual de Estatística de Engenharia do NIST :

Na modelagem de regressão, geralmente aplicamos transformações para atingir os dois objetivos a seguir:

  1. para satisfazer a suposição de homogeneidade de variações para os erros.
  2. para linearizar o ajuste o máximo possível.

É necessário algum cuidado e julgamento, pois esses dois objetivos podem entrar em conflito. Geralmente, tentamos obter variações homogêneas primeiro e depois abordamos a questão de tentar linearizar o ajuste.

e em outro local

Um modelo que envolve uma variável de resposta e uma única variável independente tem a forma:

YEu=f(XEu)+EEu

onde é a variável de resposta, X é a variável independente, f é a função de ajuste linear ou não linear e E é o componente aleatório. Para um bom modelo, o componente de erro deve se comportar como:YXfE

  1. desenhos aleatórios (isto é, independentes);
  2. de uma distribuição fixa;
  3. com localização fixa; e
  4. com variação fixa.

Além disso, para modelos de ajuste, geralmente é assumido que a distribuição fixa é normal e o local fixo é zero. Para um bom modelo, a variação fixa deve ser a menor possível. Um componente necessário dos modelos de ajuste é verificar essas suposições para o componente de erro e avaliar se a variação para o componente de erro é suficientemente pequena. O histograma, o gráfico de atraso e o gráfico de probabilidade normal são usados ​​para verificar as premissas fixas de distribuição, localização e variação no componente de erro. O gráfico da variável de resposta e os valores previstos versus a variável independente é usado para avaliar se a variação é suficientemente pequena. Os gráficos dos resíduos versus a variável independente e os valores previstos são usados ​​para avaliar a suposição de independência.

Avaliar a validade e a qualidade do ajuste em termos das premissas acima é uma parte absolutamente vital do processo de ajuste do modelo. Nenhum ajuste deve ser considerado completo sem uma etapa adequada de validação do modelo.


  1. citações (abreviadas) para reivindicações:
    • Breyfogle III, Forrest W. Implementando o Seis Sigma
    • Pyzdek, Thomas. Manual do Seis Sigma
    • Montgomery, Douglas C. Introdução ao controle estatístico de qualidade
    • Ed. Cubberly, Willaim H e Bakerjan, Ramon. Manual de engenheiros de ferramentas e fabricação: Desktop Edition
Tavrock
fonte
Obrigado pela sua resposta Tavrock. Mas, tanto quanto eu sei, ANOVA ou teste t do teste F não são usados ​​em árvores de decisão (pelo menos para realizar divisões). Além disso, na regressão linear, a maioria das suposições sobre o formato da distribuição está relacionada aos erros. Se erros forem distorcidos, esses testes falharão. Portanto, isso significa que a assimetria da variável preditora não deve afetar a qualidade da previsão para esses modelos. Por favor corrija-me se eu estiver errado. Obrigado novamente!!
Saurav shekhar
1
Você pode esclarecer sua pergunta - deseja saber sobre a transformação da variável de resposta, ou sobre a transformação das variáveis ​​preditoras, ou ambas?
Groovy_Worm
1
@Groovy_Worm obrigado por apontar isso. Nesta questão, estou preocupado com as variáveis ​​preditoras e de resposta.
Saurav shekhar
Você pode estar procurando por modelagem linear generalizada (GLM) . Na regressão linear, você normalmente assume que sua variável dependente segue uma distribuição gaussiana condicional nas variáveis ​​aleatórias X e e . Com o GLM, você pode expandir seu universo para permitir (quase) qualquer tipo de distribuição para sua variável dependente, suas variáveis ​​independentes (através de uma função de link especificada).
Chris K
7

Isto é principalmente verdade para modelos paramétricos. Como Tavrock disse, ter uma variável de resposta que não é distorcida faz com que a aproximação gaussiana da estimativa de parâmetros funcione melhor, porque a distribuição simétrica converge muito mais rapidamente do que as distorcidas para gaussianas. Isso significa que, se você tiver distorcido os dados, transformá-los em conjuntos de dados menores, menos pelo uso de intervalos de confiança e testes apropriados nos parâmetros (os intervalos de previsão ainda não serão válidos, porque mesmo que seus dados sejam simétricos agora, você não pode dizer é normal, apenas estimativas de parâmetros convergem para gaussiano).

Todo esse discurso é sobre distribuição condicionada da variável resposta, você poderia dizer: sobre erros. No entanto, se você tiver uma variável que parece distorcida quando você olha para a distribuição incondicional dele, isso provavelmente pode significar que ela possui uma distribuição condicionada distorcida. A montagem de um modelo nos seus dados o deixará claro.

Nas árvores de decisão, primeiro apontarei uma coisa: não há sentido em transformar variáveis ​​explicativas distorcidas, funções monotônicas não mudam nada; isso pode ser útil em modelos lineares, mas não em árvores de decisão. Dito isto, os modelos CART usam análise de variação para realizar espetos, e a variação é muito sensível a dados discrepantes e distorcidos; essa é a razão pela qual a transformação de sua variável de resposta pode melhorar consideravelmente a precisão do modelo.

carlo
fonte
1

Acredito que este é um artefato da tradição de reverter para os gaussianos devido às suas boas propriedades.

Mas existem boas alternativas de distribuição, por exemplo, a gama generalizada que engloba uma série de diferentes formas e formas de distribuição assimétricas

proeminente
fonte
1

Como outros leitores disseram, um pouco mais sobre o que você planeja alcançar com seus dados seria útil.

Dito isto, existem duas doutrinas importantes no campo da estatística, conhecidas como o teorema do limite central e a lei dos grandes números . Ou seja, quanto mais observações houver, mais se espera que um conjunto de dados se aproxime de uma distribuição normal , uma com igual média, mediana e modo. Sob a lei de grandes números, espera-se que o desvio entre o valor esperado e o valor real acabe caindo a zero, devido a observações suficientes.

Portanto, uma distribuição normal permite que o pesquisador faça previsões mais precisas sobre uma população se a distribuição subjacente for conhecida.

A assimetria é quando uma distribuição se desvia disso, ou seja, um desvio pode ser inclinado positiva ou negativamente. No entanto, o teorema do limite central argumenta que, dado um conjunto suficientemente grande de observações, o resultado será uma distribuição aproximadamente normal. Portanto, se a distribuição não for normal, é sempre recomendável reunir mais dados antes de tentar alterar a estrutura subjacente da distribuição por meio dos procedimentos de transformação mencionados.

Michael Grogan
fonte
1

Quando é que a assimetria é uma coisa ruim? As distribuições simétricas (geralmente, mas nem sempre: por exemplo, não para a distribuição de Cauchy) têm mediana, modo e significam muito próximas umas das outras. Portanto, considere que, se queremos medir a localização de uma população, é útil ter a mediana, o modo e a média próximos um do outro.

em0 0=-

Exemplo de 25 rendimentos em dólares de quilo roubados do www.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

A assimetria da primeira coluna é 0,99 e a segunda é -0,05. A primeira coluna não é provavelmente normal (Shapiro-Wilk p = 0,04) e a segunda não é significativamente normal (p = 0,57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

exp[significarem(k$)]  de 76,7 k, que é menor que a mediana, também é mais razoável como estimativa?

Obviamente, o log-normal aqui é um modelo melhor e o logaritmo médio nos fornece uma melhor medida de localização. O fato de isso ser bem conhecido, se não totalmente compreendido, é ilustrado pela frase "Antecipo receber um salário de cinco dígitos".

Carl
fonte
0

A maioria dos resultados é baseada em suposições gaussianas. Se você tem uma distribuição distorcida, não possui uma distribuição gaussiana; talvez deva tentar desesperadamente transformá-la nisso.

MAS é claro, você pode tentar com o GLM.

Ruído vermelho
fonte
0

Eu acho que não é apenas modelagem, mas nosso cérebro não está acostumado a trabalhar com dados altamente distorcidos. Por exemplo, é bem conhecido nas finanças comportamentais que não somos bons em estimar as probabilidades muito baixas ou altas.

Aksakal
fonte