O fenômeno de 'super dispersão' em um GLM surge sempre que usamos um modelo que restringe a variação da variável de resposta, e os dados exibem uma variação maior do que a restrição do modelo permite. Isso ocorre geralmente ao modelar dados de contagem usando um Poisson GLM, e pode ser diagnosticado por testes conhecidos. Se os testes mostrarem que há evidências estatisticamente significativas de super dispersão, geralmente generalizamos o modelo usando uma família mais ampla de distribuições que liberam o parâmetro de variação da restrição que ocorre no modelo original. No caso de um GLM de Poisson, é comum generalizar para um GLM negativo-binomial ou quase-Poisson.
Esta situação está grávida de uma objeção óbvia. Por que começar com um Poisson GLM? Pode-se começar diretamente com as formas distributivas mais amplas, que possuem um parâmetro de variação (relativamente) livre, e permitir que o parâmetro de variação seja ajustado aos dados, ignorando completamente os testes de sobre-dispersão. Em outras situações, quando estamos analisando os dados, quase sempre usamos formas distributivas que permitem a liberdade de pelo menos os dois primeiros momentos; então, por que abrir uma exceção aqui?
Minha pergunta: Existe alguma boa razão para começar com uma distribuição que corrige a variação (por exemplo, a distribuição de Poisson) e depois executar um teste de sobre-dispersão? Como esse procedimento se compara a pular esse exercício completamente e ir direto para os modelos mais gerais (por exemplo, binomial negativo, quase Poisson, etc.)? Em outras palavras, por que nem sempre usar uma distribuição com um parâmetro de variação livre?
fonte
Respostas:
Em princípio, concordo que, 99% das vezes, é melhor usar apenas o modelo mais flexível. Com isso dito, aqui estão dois argumentos e meio para explicar por que você não pode.
(1) Menos flexível significa estimativas mais eficientes. Dado que os parâmetros de variância tendem a ser menos estáveis que os parâmetros médios, sua suposição de relação fixa de variância média pode estabilizar mais os erros padrão.
(2) Verificação do modelo. Trabalhei com físicos que acreditam que várias medidas podem ser descritas pelas distribuições de Poisson devido à física teórica. Se rejeitarmos a hipótese de que média = variância, temos evidências contra a hipótese de distribuição de Poisson. Como apontado em um comentário de @GordonSmyth, se você tiver motivos para acreditar que uma determinada medida deve seguir uma distribuição de Poisson, se você tiver evidências de excesso de dispersão, há evidências de que estão faltando fatores importantes.
fonte
Embora essa seja minha própria pergunta, também vou postar meus dois centavos como resposta, para que possamos adicionar ao número de perspectivas sobre essa questão. A questão aqui é se é sensato ajustar inicialmente uma distribuição de um parâmetro aos dados. Quando você usa uma distribuição de um parâmetro (como o Poisson GLM, ou um binômio GLM com parâmetro de teste fixo), a variação não é um parâmetro livre e, em vez disso, é restrita a ser uma função da média. Isso significa que é desaconselhável ajustar uma distribuição de um parâmetro aos dados em qualquer situação em que você não tenha certeza absoluta de que a variação segue a estrutura dessa distribuição.
Ajustar distribuições de um parâmetro aos dados é quase sempre uma péssima idéia: os dados geralmente são mais confusos do que os modelos propostos indicam, e mesmo quando há razões teóricas para acreditar que um modelo de um parâmetro específico pode ser obtido, geralmente os dados são na verdade, vêm de uma mistura dessa distribuição de um parâmetro, com uma faixa de valores de parâmetros. Isso geralmente é equivalente a um modelo mais amplo, como uma distribuição de dois parâmetros que permite maior liberdade para a variação. Como discutido abaixo, isso é verdade para o Poisson GLM no caso de dados de contagem.
Como afirmado na pergunta, na maioria das aplicações estatísticas, é prática padrão usar formas distributivas que permitem pelo menos os dois primeiros momentos variarem livremente. Isso garante que o modelo ajustado permita que os dados determinem a média e a variação inferidas, em vez de restringi-las artificialmente pelo modelo. Ter esse segundo parâmetro perde apenas um grau de liberdade no modelo, que é uma pequena perda em comparação com o benefício de permitir que a variação seja estimada a partir dos dados. É claro que se pode estender esse raciocínio e adicionar um terceiro parâmetro para permitir o ajuste da assimetria, um quarto para permitir o ajuste da curtose, etc.
Com algumas exceções extremamente pequenas, um Poisson GLM é um modelo ruim: na minha experiência, ajustar uma distribuição Poisson para contar dados quase sempre é uma má idéia. Para dados de contagem, é extremamente comum que a variação nos dados seja 'super-dispersa' em relação à distribuição de Poisson. Mesmo em situações em que a teoria aponta para uma distribuição de Poisson, geralmente o melhor modelo é uma mistura de distribuições de Poisson, em que a variação se torna um parâmetro livre. De fato, no caso de dados de contagem, a distribuição binomial negativa é uma mistura de Poisson com uma distribuição gama para o parâmetro rate, portanto, mesmo quando há razões teóricas para pensar que as contagens chegam de acordo com o processo de uma distribuição de Poisson, geralmente ocorre 'super dispersão' e a distribuição binomial negativa se encaixa muito melhor.
A prática de ajustar um GLM de Poisson para contar dados e, em seguida, fazer um teste estatístico para verificar se há "excesso de dispersão" é um anacronismo, e dificilmente é uma boa prática. Em outras formas de análise estatística, não começamos com uma distribuição de dois parâmetros, escolhemos arbitrariamente uma restrição de variação e testamos essa restrição para tentar eliminar um parâmetro da distribuição. Ao fazer as coisas dessa maneira, na verdade criamos um procedimento híbrido estranho, que consiste em um teste de hipótese inicial usado para a seleção de modelos e, em seguida, no modelo real (Poisson ou uma distribuição mais ampla). Foi mostrado em muitos contextos que esse tipo de prática de criação de modelos híbridos a partir de um teste inicial de seleção de modelos leva a modelos gerais ruins.
Uma situação análoga, em que um método híbrido semelhante foi usado, é nos testes T da diferença média. Costumava ser o caso de os cursos de estatística recomendarem primeiro o uso do teste de Levene (ou mesmo algumas "regras práticas" muito ruins) para verificar a igualdade de variações entre duas populações e, em seguida, se os dados "passassem" nesse teste, você faria use o teste T de aluno que assume uma variação igual e, se os dados "falharem" no teste, você usaria o teste T de Welch. Este é realmente um procedimento muito ruim (veja, por exemplo, aqui e aqui) É muito melhor usar o último teste, que não assume nenhuma hipótese sobre a variância, em vez de criar um teste composto desajeitado que reúne um teste preliminar de hipóteses e depois o usa para escolher o modelo.
Para dados de contagem, você geralmente obtém bons resultados iniciais ajustando um modelo de dois parâmetros, como um modelo de binômio negativo ou quase-Poisson. (Observe que esta última não é uma distribuição real, mas ainda fornece um modelo razoável de dois parâmetros.) Se for necessária alguma generalização adicional, geralmente é a adição de inflação zero, onde há um número excessivo de zeros. nos dados. Restringir a um Poisson GLM é uma escolha artificial e sem sentido de modelo, e isso não é muito melhor testando-se a dispersão excessiva.
Ok, agora aqui estão as pequenas exceções: As únicas exceções reais ao acima são duas situações:
(1) Você tem razões teóricas a priori extremamente fortes para acreditar que as suposições para a distribuição de um parâmetro são satisfeitas e parte da análise é testar esse modelo teórico em relação aos dados; ou
(2) Por alguma outra razão (estranha), o objetivo de sua análise é realizar um teste de hipótese sobre a variação dos dados e, portanto, você deseja restringir essa variação a essa restrição hipotética e, em seguida, testar essa hipótese.
Essas situações são muito raras. Eles tendem a surgir apenas quando há um forte conhecimento teórico a priori sobre o mecanismo de geração de dados, e o objetivo da análise é testar essa teoria subjacente. Esse pode ser o caso em uma gama extremamente limitada de aplicações em que os dados são gerados sob condições rigidamente controladas (por exemplo, na física).
fonte