É melhor selecionar distribuições baseadas em teoria, ajuste ou algo mais?

12

Isso está próximo de uma questão filosófica, mas estou interessado em saber como outras pessoas com mais experiência pensam sobre seleção de distribuição. Em alguns casos, parece claro que a teoria pode funcionar melhor (os comprimentos da cauda dos ratos provavelmente são normalmente distribuídos). Em muitos casos, provavelmente não existe uma teoria para descrever um conjunto de dados, então você apenas usa algo que se encaixa perfeitamente no que você tem, independentemente do que foi originalmente desenvolvido para descrever? Eu posso imaginar algumas das armadilhas de ir com uma ou outra delas e, claro, parece haver o problema de que talvez você deva apenas usar uma distribuição empírica se realmente não tem idéia.

Então, acho que estou realmente perguntando: alguém tem uma maneira coerente de abordar / pensar sobre esse problema? E você pode sugerir algum recurso que trate bem disso?

HFBrowning
fonte
4
Depende fundamentalmente de por que alguém está ajustando ou assumindo uma distribuição e o que ela pretende representar. Colocamos muitas perguntas neste site em que parece que as pessoas sentem que precisam ajustar uma distribuição a dados ou quantidades derivadas (como resíduos de regressão) quando, na verdade, o exercício é inútil (ou pior, enganoso), tanto quanto a solução dos problemas estatísticos que eles realmente tem está em causa. Talvez você possa esclarecer os tipos de casos que tem em mente?
whuber
1
Oi Whuber, obrigado pelo comentário. Desde que comecei a trabalhar um pouco na avaliação probabilística de riscos, sou obrigado a ajustar todos os meus dados às distribuições e isso me deixou curioso por ter uma visão mais consistente de como a seleção de distribuição é feita. Acho que, para esclarecer, só estou realmente interessado nos momentos em que você deve usar uma distribuição e em como proceder corretamente. Como eu disse, alguns casos têm sido fáceis da teoria, outras vezes estou usando uma distribuição empírica porque parece melhor, mas minha tomada de decisão é mais aleatória do que eu gostaria.
HFBrowning
1
Essa é uma lata interessante de worms, porque o que você está realmente fazendo (de maneira um pouco abstrata) é tentar propagar a incerteza de amostragem por meio de um cálculo. A razão para analisar o procedimento desse alto nível é que ele revela um erro fundamental que é frequentemente cometido: substituindo os dados por distribuições, falha-se em incluir a incerteza nos parâmetros de distribuição estimados. A contabilização disso é chamada de PRA de "segunda ordem" por alguns profissionais. Gostaria de sugerir que você restrinja sua pergunta para se concentrar nessas questões, em vez de perguntar sobre o ajuste da distribuição em geral.
whuber
1
O pacote que estou usando para o meu PRA é um monte carlo de segunda ordem ( pacote mc2d em R), portanto, estou atribuindo minhas distribuições como "incerteza", "variabilidade" ou ambas. Então, espero que eu esteja respondendo a esse problema o máximo que puder. No entanto, minha intenção original para essa pergunta era obter uma visão de nível mais alto, e criei a avaliação de riscos simplesmente para contextualizar o motivo pelo qual estou interessado. E talvez não há nenhuma maneira melhor do que "às vezes você fizer isso, às vezes você fazer isso dessa maneira", mas eu estava esperando que alguém tinha sugestões :) Especialmente porque eu não posso facilmente determinar quando ele pode ser melhor -
HFBrowning
3
Esse é definitivamente o lugar certo para sua postagem. Você está dizendo que está tendo problemas para fazer as edições? Aliás, estou curioso sobre como seus procedimentos quantificam a incerteza no uso da distribuição empírica. Ele também vem com variabilidade de amostragem (que pode ser profunda nas caudas, que geralmente importam mais nas avaliações de risco), mesmo que você não tenha estimado explicitamente nenhum parâmetro.
whuber

Respostas:

6

Definitivamente depende de quais são os dados em questão e quanto se sabe ou deseja assumir sobre eles. Como o @whuber disse recentemente no bate-papo : "Nos casos em que a lei física está envolvida, você quase sempre pode fazer suposições razoáveis ​​sobre uma maneira apropriada de modelar os dados". (Suspeito que isso seja mais verdadeiro dele do que de mim! Além disso, espero que isso não seja aplicado fora de seu contexto original ...) Em casos mais semelhantes à modelagem de construções latentes nas ciências sociais, geralmente é útil focar em distribuições empíricas como uma maneira de entender as nuances de fenômenos menos conhecidos. É um pouco fácil assumir uma distribuição normal e desprezar o desajuste de forma geral como insignificante, e é bastante ilusório descartar os discrepantes como errôneos, sem mais justificativa do que isso.

Obviamente, muito desse comportamento é motivado pelas suposições das análises que se deseja aplicar. Freqüentemente, as questões mais interessantes vão muito além da descrição ou classificação das distribuições das variáveis. Isso também influencia a resposta certa para um determinado cenário; pode haver razões (por exemplo, necessidades de ) para assumir uma distribuição normal quando ela não se encaixa particularmente bem (nem se encaixa muito mal), já que métodos não e também não são perfeitos. No entanto, o risco de fazê-lo habitualmente é esquecer de fazer as perguntas interessantes que podemos fazer sobre a distribuição de uma única variável.

Por exemplo, considere a relação entre riqueza e felicidade: uma pergunta popular que as pessoas geralmente querem fazer. Pode ser seguro assumir que a riqueza segue uma distribuição gama (Salem & Mount, 1974) ou beta generalizada (Parker, 1999) , mas é realmente seguro assumir que a felicidade é normalmente distribuída? Realmente, não deveria ser necessário assumir isso apenas para responder à pergunta original, mas às vezes as pessoas o fazem e depois ignoram questões potencialmente importantes, como viés de resposta e diferenças culturais. Por exemplo, algumas culturas tendem a dar respostas mais ou menos extremas (consulte a resposta de @ chl na análise fatorial de questionários compostos por itens do Likert ) e as normas variam em relação à expressão aberta de emoções positivas e negativas (Tucker, Ozer, Lyubomirsky e Boehm, 2006 ) . Isso pode aumentar a importância de diferenças nas características empíricas da distribuição, como assimetria e curtose. Se eu estivesse comparando a relação da riqueza com classificações subjetivas de felicidade na Rússia, China e EUA, provavelmente desejaria avaliar as diferenças nas tendências centrais das classificações de felicidade. Ao fazê-lo, hesitaria em assumir distribuições normais entre si por uma ANOVA unidirecional (mesmo que possa ser bastante robusta a violações) quando há motivos para esperar uma distribuição "de cauda mais gorda" na China, uma distribuição inclinada positivamente na Rússia e uma distribuição inclinada negativamente nos EUA devido a várias normas dependentes da cultura e vieses de resposta. Para um teste de significância (mesmo que eu provavelmente prefira relatar tamanhos de efeito, honestamente), prefiro usar um método não paramétrico e para realmente entender a felicidade subjetiva em cada população individualmente, antes, descreva a distribuição empiricamente do que tente categorizá-la como uma distribuição teórica simples e ignore ou encobrir qualquer desajuste. Isso é um desperdício de informações da IMO.

Referências
- Parker, SC (1999). O beta generalizado como modelo para a distribuição de ganhos. Economics Letters, 62 (2), 197–200.
- Salem, ABZ e Mount, TD (1974). Um modelo descritivo conveniente de distribuição de renda: a densidade gama. Econometrica, 42 (6), 1115–1127.
- Tucker, KL, Ozer, DJ, Lyubomirsky, S. e Boehm, JK (2006). Teste de invariância de medida na satisfação com a escala de vida: uma comparação entre russos e norte-americanos. Social Indicators Research, 78 (2), 341-360. Recuperado em http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .

Nick Stauner
fonte
Obrigado pela sua resposta, Nick. Eu achei o exemplo especialmente útil.
HFBrowning
3

os comprimentos da cauda dos ratos provavelmente são normalmente distribuídos

Eu duvidaria disso. Distribuições normais surgem de muitos efeitos aditivos independentes. Os sistemas biológicos consistem em muitos ciclos de feedback interagindo (efeitos multiplicativos interdependentes). Também há frequentemente alguns estados que são mais estáveis ​​que outros (isto é, atratores). Portanto, algum tipo de distribuição de cauda longa ou multimodal provavelmente descreveria o comprimento da cauda. De fato, a distribuição normal é provavelmente uma escolha padrão muito ruim para descrever qualquer coisa biológica e seu uso indevido é responsável pelos muitos "discrepantes" relatados nessa literatura. A prevalência dessa distribuição na natureza é um mito e não apenas no sentido "círculos perfeitos realmente não existem". No entanto, não se segue que a média e o sd sejam inúteis como estatísticas resumidas.

Especialmente porque eu não posso determinar prontamente quando é melhor "confiar nos dados" (como este conjunto de dados inclinado à direita que eu tenho, mas n = 160, que dado os dados não parece suficiente) e seguir com empírico, ou ajustá-lo a uma distribuição Beta, como um colega meu continua insistindo. Suspeitei que ele tenha selecionado isso apenas porque é delimitado em [0,1]. Tudo parece realmente ad hoc. Espero que isso esclareça minha intenção!

Ajustar distribuições empíricas fornece dicas para o processo subjacente, o que facilita o desenvolvimento de distribuições teóricas. Em seguida, a distribuição teórica é comparada às distribuições empíricas para testar as evidências da teoria.

Se seu objetivo é avaliar a probabilidade de determinados resultados com base nas evidências atuais disponíveis e você não tiver motivos para escolher essa distribuição específica, acho que não vejo como fazer suposições adicionais poderiam ser úteis. Em vez disso, parece confundir as coisas.

No entanto, se você estiver tentando descrever ou resumir os dados, pode fazer sentido ajustar-se à distribuição.

Lívido
fonte
1
Embora eu possa aceitar apenas uma resposta, gostaria de agradecer por apontar como as distribuições normais realmente surgem. Isso me forçou a pensar com mais cuidado sobre o que significa algo basear-se na teoria.
HFBrowning
3

Em alguns casos, parece claro que a teoria pode funcionar melhor (os comprimentos da cauda dos ratos provavelmente são normalmente distribuídos).

Os comprimentos da cauda certamente não são normalmente distribuídos.

Distribuições normais têm uma probabilidade diferente de zero de assumir valores negativos; comprimentos da cauda não.

A famosa frase de George Box , " todos os modelos estão errados, mas alguns são úteis " mostra bem o argumento. Casos em que podemos razoavelmente afirmar a normalidade (em vez de apenas aproximar a normalidade) são muito raros, quase criaturas de lendas, miragens ocasionalmente quase vislumbradas pelo canto do olho.

Em muitos casos, provavelmente não existe uma teoria para descrever um conjunto de dados, então você apenas usa algo que se encaixa perfeitamente no que você tem, independentemente do que foi originalmente desenvolvido para descrever?

Nos casos em que as quantidades nas quais você está interessado não são especialmente sensíveis à escolha (desde que os amplos recursos da distribuição sejam consistentes com o que é conhecido), então sim, você pode simplesmente usar algo que se encaixe bastante bem.

Nos casos em que há um maior grau de sensibilidade, "apenas usar algo que se encaixa" não é suficiente por si só. Podemos usar alguma abordagem que não faça suposições específicas (talvez procedimentos livres de distribuição, como permutação, bootstrapping ou outras abordagens de reamostragem ou procedimentos robustos). Como alternativa, podemos quantificar a sensibilidade à suposição distributiva, como por meio de simulação (de fato, acho que essa geralmente é uma boa ideia).

parece haver o problema de que talvez você deva apenas usar uma distribuição empírica se realmente não faz ideia.

Eu não descreveria isso como um problema - a inferência baseada em distribuições empíricas certamente é uma abordagem legítima adequada para muitos tipos de problemas (permutação / randomização e inicialização) são dois exemplos.

alguém tem uma maneira coerente de abordar / pensar sobre esse problema?

De maneira geral, em muitos casos, costumo considerar questões como:

1) O que eu entendo * sobre como os meios (ou outras quantidades do tipo local) se comportam para os dados deste formulário?

* (seja da teoria ou da experiência dessa forma de dados, ou de conselhos de especialistas ou, se necessário, dos próprios dados, embora isso acarrete problemas com os quais devemos lidar)

2) E quanto ao spread (variação, IQR etc.) - como ele se comporta?

3) E quanto a outros recursos de distribuição (limites, assimetria, discrição, etc.)

4) E quanto à dependência, heterogeneidade de populações, tendência a valores ocasionalmente muito discrepantes, etc.

Esse tipo de consideração pode orientar a escolha entre um modelo normal, um GLM, algum outro modelo ou uma abordagem robusta ou sem distribuição (como abordagens de inicialização ou permutação / randomização, incluindo procedimentos baseados em classificação)

Glen_b -Reinstate Monica
fonte