Isso está próximo de uma questão filosófica, mas estou interessado em saber como outras pessoas com mais experiência pensam sobre seleção de distribuição. Em alguns casos, parece claro que a teoria pode funcionar melhor (os comprimentos da cauda dos ratos provavelmente são normalmente distribuídos). Em muitos casos, provavelmente não existe uma teoria para descrever um conjunto de dados, então você apenas usa algo que se encaixa perfeitamente no que você tem, independentemente do que foi originalmente desenvolvido para descrever? Eu posso imaginar algumas das armadilhas de ir com uma ou outra delas e, claro, parece haver o problema de que talvez você deva apenas usar uma distribuição empírica se realmente não tem idéia.
Então, acho que estou realmente perguntando: alguém tem uma maneira coerente de abordar / pensar sobre esse problema? E você pode sugerir algum recurso que trate bem disso?
fonte
Respostas:
Definitivamente depende de quais são os dados em questão e quanto se sabe ou deseja assumir sobre eles. Como o @whuber disse recentemente no bate-papo : "Nos casos em que a lei física está envolvida, você quase sempre pode fazer suposições razoáveis sobre uma maneira apropriada de modelar os dados". (Suspeito que isso seja mais verdadeiro dele do que de mim! Além disso, espero que isso não seja aplicado fora de seu contexto original ...) Em casos mais semelhantes à modelagem de construções latentes nas ciências sociais, geralmente é útil focar em distribuições empíricas como uma maneira de entender as nuances de fenômenos menos conhecidos. É um pouco fácil assumir uma distribuição normal e desprezar o desajuste de forma geral como insignificante, e é bastante ilusório descartar os discrepantes como errôneos, sem mais justificativa do que isso.
Obviamente, muito desse comportamento é motivado pelas suposições das análises que se deseja aplicar. Freqüentemente, as questões mais interessantes vão muito além da descrição ou classificação das distribuições das variáveis. Isso também influencia a resposta certa para um determinado cenário; pode haver razões (por exemplo, necessidades de energia ) para assumir uma distribuição normal quando ela não se encaixa particularmente bem (nem se encaixa muito mal), já que métodos não paramétricos e robustos também não são perfeitos. No entanto, o risco de fazê-lo habitualmente é esquecer de fazer as perguntas interessantes que podemos fazer sobre a distribuição de uma única variável.
Por exemplo, considere a relação entre riqueza e felicidade: uma pergunta popular que as pessoas geralmente querem fazer. Pode ser seguro assumir que a riqueza segue uma distribuição gama (Salem & Mount, 1974) ou beta generalizada (Parker, 1999) , mas é realmente seguro assumir que a felicidade é normalmente distribuída? Realmente, não deveria ser necessário assumir isso apenas para responder à pergunta original, mas às vezes as pessoas o fazem e depois ignoram questões potencialmente importantes, como viés de resposta e diferenças culturais. Por exemplo, algumas culturas tendem a dar respostas mais ou menos extremas (consulte a resposta de @ chl na análise fatorial de questionários compostos por itens do Likert ) e as normas variam em relação à expressão aberta de emoções positivas e negativas (Tucker, Ozer, Lyubomirsky e Boehm, 2006 ) . Isso pode aumentar a importância de diferenças nas características empíricas da distribuição, como assimetria e curtose. Se eu estivesse comparando a relação da riqueza com classificações subjetivas de felicidade na Rússia, China e EUA, provavelmente desejaria avaliar as diferenças nas tendências centrais das classificações de felicidade. Ao fazê-lo, hesitaria em assumir distribuições normais entre si por uma ANOVA unidirecional (mesmo que possa ser bastante robusta a violações) quando há motivos para esperar uma distribuição "de cauda mais gorda" na China, uma distribuição inclinada positivamente na Rússia e uma distribuição inclinada negativamente nos EUA devido a várias normas dependentes da cultura e vieses de resposta. Para um teste de significância (mesmo que eu provavelmente prefira relatar tamanhos de efeito, honestamente), prefiro usar um método não paramétrico e para realmente entender a felicidade subjetiva em cada população individualmente, antes, descreva a distribuição empiricamente do que tente categorizá-la como uma distribuição teórica simples e ignore ou encobrir qualquer desajuste. Isso é um desperdício de informações da IMO.
Referências
- Parker, SC (1999). O beta generalizado como modelo para a distribuição de ganhos. Economics Letters, 62 (2), 197–200.
- Salem, ABZ e Mount, TD (1974). Um modelo descritivo conveniente de distribuição de renda: a densidade gama. Econometrica, 42 (6), 1115–1127.
- Tucker, KL, Ozer, DJ, Lyubomirsky, S. e Boehm, JK (2006). Teste de invariância de medida na satisfação com a escala de vida: uma comparação entre russos e norte-americanos. Social Indicators Research, 78 (2), 341-360. Recuperado em http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .
fonte
Eu duvidaria disso. Distribuições normais surgem de muitos efeitos aditivos independentes. Os sistemas biológicos consistem em muitos ciclos de feedback interagindo (efeitos multiplicativos interdependentes). Também há frequentemente alguns estados que são mais estáveis que outros (isto é, atratores). Portanto, algum tipo de distribuição de cauda longa ou multimodal provavelmente descreveria o comprimento da cauda. De fato, a distribuição normal é provavelmente uma escolha padrão muito ruim para descrever qualquer coisa biológica e seu uso indevido é responsável pelos muitos "discrepantes" relatados nessa literatura. A prevalência dessa distribuição na natureza é um mito e não apenas no sentido "círculos perfeitos realmente não existem". No entanto, não se segue que a média e o sd sejam inúteis como estatísticas resumidas.
Ajustar distribuições empíricas fornece dicas para o processo subjacente, o que facilita o desenvolvimento de distribuições teóricas. Em seguida, a distribuição teórica é comparada às distribuições empíricas para testar as evidências da teoria.
Se seu objetivo é avaliar a probabilidade de determinados resultados com base nas evidências atuais disponíveis e você não tiver motivos para escolher essa distribuição específica, acho que não vejo como fazer suposições adicionais poderiam ser úteis. Em vez disso, parece confundir as coisas.
No entanto, se você estiver tentando descrever ou resumir os dados, pode fazer sentido ajustar-se à distribuição.
fonte
Os comprimentos da cauda certamente não são normalmente distribuídos.
Distribuições normais têm uma probabilidade diferente de zero de assumir valores negativos; comprimentos da cauda não.
A famosa frase de George Box , " todos os modelos estão errados, mas alguns são úteis " mostra bem o argumento. Casos em que podemos razoavelmente afirmar a normalidade (em vez de apenas aproximar a normalidade) são muito raros, quase criaturas de lendas, miragens ocasionalmente quase vislumbradas pelo canto do olho.
Nos casos em que as quantidades nas quais você está interessado não são especialmente sensíveis à escolha (desde que os amplos recursos da distribuição sejam consistentes com o que é conhecido), então sim, você pode simplesmente usar algo que se encaixe bastante bem.
Nos casos em que há um maior grau de sensibilidade, "apenas usar algo que se encaixa" não é suficiente por si só. Podemos usar alguma abordagem que não faça suposições específicas (talvez procedimentos livres de distribuição, como permutação, bootstrapping ou outras abordagens de reamostragem ou procedimentos robustos). Como alternativa, podemos quantificar a sensibilidade à suposição distributiva, como por meio de simulação (de fato, acho que essa geralmente é uma boa ideia).
Eu não descreveria isso como um problema - a inferência baseada em distribuições empíricas certamente é uma abordagem legítima adequada para muitos tipos de problemas (permutação / randomização e inicialização) são dois exemplos.
De maneira geral, em muitos casos, costumo considerar questões como:
1) O que eu entendo * sobre como os meios (ou outras quantidades do tipo local) se comportam para os dados deste formulário?
* (seja da teoria ou da experiência dessa forma de dados, ou de conselhos de especialistas ou, se necessário, dos próprios dados, embora isso acarrete problemas com os quais devemos lidar)
2) E quanto ao spread (variação, IQR etc.) - como ele se comporta?
3) E quanto a outros recursos de distribuição (limites, assimetria, discrição, etc.)
4) E quanto à dependência, heterogeneidade de populações, tendência a valores ocasionalmente muito discrepantes, etc.
Esse tipo de consideração pode orientar a escolha entre um modelo normal, um GLM, algum outro modelo ou uma abordagem robusta ou sem distribuição (como abordagens de inicialização ou permutação / randomização, incluindo procedimentos baseados em classificação)
fonte