Os testes de sobre-dispersão nos GLMs são realmente * úteis *?

15

O fenômeno de 'super dispersão' em um GLM surge sempre que usamos um modelo que restringe a variação da variável de resposta, e os dados exibem uma variação maior do que a restrição do modelo permite. Isso ocorre geralmente ao modelar dados de contagem usando um Poisson GLM, e pode ser diagnosticado por testes conhecidos. Se os testes mostrarem que há evidências estatisticamente significativas de super dispersão, geralmente generalizamos o modelo usando uma família mais ampla de distribuições que liberam o parâmetro de variação da restrição que ocorre no modelo original. No caso de um GLM de Poisson, é comum generalizar para um GLM negativo-binomial ou quase-Poisson.

Esta situação está grávida de uma objeção óbvia. Por que começar com um Poisson GLM? Pode-se começar diretamente com as formas distributivas mais amplas, que possuem um parâmetro de variação (relativamente) livre, e permitir que o parâmetro de variação seja ajustado aos dados, ignorando completamente os testes de sobre-dispersão. Em outras situações, quando estamos analisando os dados, quase sempre usamos formas distributivas que permitem a liberdade de pelo menos os dois primeiros momentos; então, por que abrir uma exceção aqui?

Minha pergunta: Existe alguma boa razão para começar com uma distribuição que corrige a variação (por exemplo, a distribuição de Poisson) e depois executar um teste de sobre-dispersão? Como esse procedimento se compara a pular esse exercício completamente e ir direto para os modelos mais gerais (por exemplo, binomial negativo, quase Poisson, etc.)? Em outras palavras, por que nem sempre usar uma distribuição com um parâmetro de variação livre?

Restabelecer Monica
fonte
11
meu palpite é que, se o subjacente é realmente poisson, então o resultado do glm não exibirá essas propriedades conhecidas e boas, como estimativas, também sendo eficientes no sentido de que a variação das estimativas é maior do que precisa, se o correto modelo tinha sido usado. As estimativas provavelmente nem são imparciais ou MLE. Mas essa é apenas a minha intuição e eu posso estar errado. Eu ficaria curioso sobre o que é uma boa resposta.
mlofton 15/02/19
3
Na minha experiência, o teste de dispersão excessiva é (paradoxalmente) principalmente quando você sabe (pelo conhecimento do processo de geração de dados) que a dispersão excessiva não pode estar presente. Nesse contexto, o teste de excesso de dispersão informa se o modelo linear está captando todo o sinal nos dados. Caso contrário, adicione mais covariáveis ​​ao modelo. Se for, mais covariáveis ​​não podem ajudar.
Gordon Smyth
@GordonSmyth: Eu acho que é uma boa resposta. Se você não quiser transformar isso em sua própria resposta, eu a dobrarei na minha.
Cliff AB
11
@GordonSmyth, que tem uma coisa que sempre me incomodou na análise do desvio como um teste de qualidade do ajuste: as covariáveis ​​ausentes são confundidas com superdispersão. Isso sugere alguns problemas sobre como o material é frequentemente ensinado. Dou aulas de categórica e os livros didáticos não enfatizam muito esse ponto.
cara
11
@guy Sim, isso mesmo, e as pessoas tendem a supor que o desvio residual é sempre distribuído pelo quadrado, o que geralmente não é. Tentamos fazer um trabalho melhor desses pontos em nosso livro recente doi.org/10.1007/978-1-4419-0118-7, mas é difícil cobrir tudo dentro dos limites de espaço.
Gordon Smyth

Respostas:

14

Em princípio, concordo que, 99% das vezes, é melhor usar apenas o modelo mais flexível. Com isso dito, aqui estão dois argumentos e meio para explicar por que você não pode.

(1) Menos flexível significa estimativas mais eficientes. Dado que os parâmetros de variância tendem a ser menos estáveis ​​que os parâmetros médios, sua suposição de relação fixa de variância média pode estabilizar mais os erros padrão.

(2) Verificação do modelo. Trabalhei com físicos que acreditam que várias medidas podem ser descritas pelas distribuições de Poisson devido à física teórica. Se rejeitarmos a hipótese de que média = variância, temos evidências contra a hipótese de distribuição de Poisson. Como apontado em um comentário de @GordonSmyth, se você tiver motivos para acreditar que uma determinada medida deve seguir uma distribuição de Poisson, se você tiver evidências de excesso de dispersão, há evidências de que estão faltando fatores importantes.

Vumar[y]=αE[y]α1 1

Cliff AB
fonte
Em 2.5: é claro que há binômio negativo e GLMM com efeitos aleatórios que não têm essa limitação.
Björn
@ Björn: é por isso que é apenas meio argumento; aplica-se apenas aos métodos de Quasi-Probabilidade. Até onde eu sei, não existem métodos baseados em probabilidade para sub- dispersão, mesmo que isso possa ser analisado com um modelo de Quasi-Probabilidade.
Cliff AB
11
Também em 2.5: meu entendimento é que não existe uma família de dispersão exponencial que satisfaça a relação desejada. Ou seja, a pontuação quase não corresponde a uma pontuação genuína. Isso não significa que não famílias de distribuições para dados de contagem que satisfaçam a relação desejada; deve haver muitas dessas famílias.
cara
2
@CliffAB para dados de contagem sub-dispersos, existe o modelo de Conway-Maxwell-Poisson: en.m.wikipedia.org/wiki/… que é implementado em alguns pacotes R.
Dimitris Rizopoulos 15/02/19
Se o modelo for usado para previsão, outro motivo para preferir o modelo mais simples é que, se tudo o resto for igual, o modelo mais simples terá melhores qualidades preditivas. Estou pensando na AIC, na BIC e no PAC em geral.
meh
11

Embora essa seja minha própria pergunta, também vou postar meus dois centavos como resposta, para que possamos adicionar ao número de perspectivas sobre essa questão. A questão aqui é se é sensato ajustar inicialmente uma distribuição de um parâmetro aos dados. Quando você usa uma distribuição de um parâmetro (como o Poisson GLM, ou um binômio GLM com parâmetro de teste fixo), a variação não é um parâmetro livre e, em vez disso, é restrita a ser uma função da média. Isso significa que é desaconselhável ajustar uma distribuição de um parâmetro aos dados em qualquer situação em que você não tenha certeza absoluta de que a variação segue a estrutura dessa distribuição.


Ajustar distribuições de um parâmetro aos dados é quase sempre uma péssima idéia: os dados geralmente são mais confusos do que os modelos propostos indicam, e mesmo quando há razões teóricas para acreditar que um modelo de um parâmetro específico pode ser obtido, geralmente os dados são na verdade, vêm de uma mistura dessa distribuição de um parâmetro, com uma faixa de valores de parâmetros. Isso geralmente é equivalente a um modelo mais amplo, como uma distribuição de dois parâmetros que permite maior liberdade para a variação. Como discutido abaixo, isso é verdade para o Poisson GLM no caso de dados de contagem.

Como afirmado na pergunta, na maioria das aplicações estatísticas, é prática padrão usar formas distributivas que permitem pelo menos os dois primeiros momentos variarem livremente. Isso garante que o modelo ajustado permita que os dados determinem a média e a variação inferidas, em vez de restringi-las artificialmente pelo modelo. Ter esse segundo parâmetro perde apenas um grau de liberdade no modelo, que é uma pequena perda em comparação com o benefício de permitir que a variação seja estimada a partir dos dados. É claro que se pode estender esse raciocínio e adicionar um terceiro parâmetro para permitir o ajuste da assimetria, um quarto para permitir o ajuste da curtose, etc.


Com algumas exceções extremamente pequenas, um Poisson GLM é um modelo ruim: na minha experiência, ajustar uma distribuição Poisson para contar dados quase sempre é uma má idéia. Para dados de contagem, é extremamente comum que a variação nos dados seja 'super-dispersa' em relação à distribuição de Poisson. Mesmo em situações em que a teoria aponta para uma distribuição de Poisson, geralmente o melhor modelo é uma mistura de distribuições de Poisson, em que a variação se torna um parâmetro livre. De fato, no caso de dados de contagem, a distribuição binomial negativa é uma mistura de Poisson com uma distribuição gama para o parâmetro rate, portanto, mesmo quando há razões teóricas para pensar que as contagens chegam de acordo com o processo de uma distribuição de Poisson, geralmente ocorre 'super dispersão' e a distribuição binomial negativa se encaixa muito melhor.

A prática de ajustar um GLM de Poisson para contar dados e, em seguida, fazer um teste estatístico para verificar se há "excesso de dispersão" é um anacronismo, e dificilmente é uma boa prática. Em outras formas de análise estatística, não começamos com uma distribuição de dois parâmetros, escolhemos arbitrariamente uma restrição de variação e testamos essa restrição para tentar eliminar um parâmetro da distribuição. Ao fazer as coisas dessa maneira, na verdade criamos um procedimento híbrido estranho, que consiste em um teste de hipótese inicial usado para a seleção de modelos e, em seguida, no modelo real (Poisson ou uma distribuição mais ampla). Foi mostrado em muitos contextos que esse tipo de prática de criação de modelos híbridos a partir de um teste inicial de seleção de modelos leva a modelos gerais ruins.

Uma situação análoga, em que um método híbrido semelhante foi usado, é nos testes T da diferença média. Costumava ser o caso de os cursos de estatística recomendarem primeiro o uso do teste de Levene (ou mesmo algumas "regras práticas" muito ruins) para verificar a igualdade de variações entre duas populações e, em seguida, se os dados "passassem" nesse teste, você faria use o teste T de aluno que assume uma variação igual e, se os dados "falharem" no teste, você usaria o teste T de Welch. Este é realmente um procedimento muito ruim (veja, por exemplo, aqui e aqui) É muito melhor usar o último teste, que não assume nenhuma hipótese sobre a variância, em vez de criar um teste composto desajeitado que reúne um teste preliminar de hipóteses e depois o usa para escolher o modelo.

Para dados de contagem, você geralmente obtém bons resultados iniciais ajustando um modelo de dois parâmetros, como um modelo de binômio negativo ou quase-Poisson. (Observe que esta última não é uma distribuição real, mas ainda fornece um modelo razoável de dois parâmetros.) Se for necessária alguma generalização adicional, geralmente é a adição de inflação zero, onde há um número excessivo de zeros. nos dados. Restringir a um Poisson GLM é uma escolha artificial e sem sentido de modelo, e isso não é muito melhor testando-se a dispersão excessiva.


Ok, agora aqui estão as pequenas exceções: As únicas exceções reais ao acima são duas situações:

(1) Você tem razões teóricas a priori extremamente fortes para acreditar que as suposições para a distribuição de um parâmetro são satisfeitas e parte da análise é testar esse modelo teórico em relação aos dados; ou

(2) Por alguma outra razão (estranha), o objetivo de sua análise é realizar um teste de hipótese sobre a variação dos dados e, portanto, você deseja restringir essa variação a essa restrição hipotética e, em seguida, testar essa hipótese.

Essas situações são muito raras. Eles tendem a surgir apenas quando há um forte conhecimento teórico a priori sobre o mecanismo de geração de dados, e o objetivo da análise é testar essa teoria subjacente. Esse pode ser o caso em uma gama extremamente limitada de aplicações em que os dados são gerados sob condições rigidamente controladas (por exemplo, na física).

Restabelecer Monica
fonte