Como decidir qual família glm usar?

Eu tenho dados de densidade de peixes que estou tentando comparar entre várias técnicas de coleta diferentes, os dados têm muitos zeros e o histograma parece vaugley apropriado para uma distribuição de poisson, exceto que, como densidades, não são dados inteiros. Sou relativamente novo nos GLMs e passei os últimos dias procurando on-line como saber qual distribuição usar, mas não consegui encontrar os recursos que ajudam a tomar essa decisão. Um histograma de amostra dos dados é semelhante ao seguinte:

Não tenho idéia de como decidir sobre a família apropriada a ser usada no GLM. Se alguém tiver algum conselho ou puder me dar um recurso que eu deveria consultar, isso seria fantástico.

regression distributions generalized-linear-model link-function C. Denney
fonte

O que exatamente é "densidade de peixes"? É um número de peixes por unidade de volume de lago, por exemplo?

gung - Restabelece Monica

É o número de peixes por unidade de área (neste caso metros quadrados). Utilizamos ferramentas de pesquisa visual, por isso é calculado pelo número de peixes observados dividido pela área pesquisada pela ferramenta. Tivemos que usar a densidade para padronizar as ferramentas, porque elas pesquisam quantidades muito diferentes de área; caso contrário, eu poderia usar dados de contagem e manter uma distribuição de poisson.

C. Denney

Meu conselho - volte para os dados da contagem e use a "área" como deslocamento em um modelo com um link de log --- mas não sei se o Poisson se encaixará muito bem (é um pouco difícil de adivinhar, pois seu histograma está mostrando apenas a distribuição marginal, e não as distribuições condicionais que o GLM modelaria ... e, em qualquer caso, possui escassos escaninhos demais para ser muito útil). Se o Poisson não for suficientemente pesado / com pico de 0-ish, um binômio negativo pode funcionar ou você pode precisar de modelos com

inflamento

Faço modelagem de Poisson todos os dias e o comentário de Glen_b é a resposta canônica.

Paul

Um adendo - a modelagem de Poisson é teoricamente bem justificada quando as unidades de observação (neste caso, acho que você conta peixes individuais?) São distribuídas independentemente pelo campo de observação, como grãos de areia espalhados aleatoriamente. Sob essa suposição, pode haver alguma variação na densidade, mas a posição de um peixe não implica nada sobre as posições de outros peixes. Mas esteja avisado de que essa suposição pode ser violada na prática porque os peixes se agrupam, por exemplo, nas escolas, e então suas posições não são mais independentes.

Paul

Respostas:

As famílias GLM compreendem uma função de link e uma relação de variância média. Para GLMs de Poisson, a função de link é um log e a relação de variação média é a identidade. Apesar dos avisos que a maioria dos softwares estatísticos fornece, é completamente razoável modelar um relacionamento em dados contínuos, no qual o relacionamento entre duas variáveis é linear na escala de log e a variação aumenta de acordo com a média.

Essa é, essencialmente, a lógica para escolher a função de link e variação em um GLM. Obviamente, existem várias suposições por trás desse processo. Você pode criar um modelo mais robusto usando quasilikelihood (consulte ?quasipoisson) ou erros padrão robustos (consulte package sandwichou gee).

Você notou corretamente que muitas densidades são 0 em seus dados. Nos modelos de probabilidade de Poisson, é apropriado amostrar 0s ocasionalmente nos dados, portanto, não é necessariamente o caso de essas observações levarem a um viés nas suas estimativas de taxas.

Para inspecionar as suposições por trás dos GLMs, geralmente é útil examinar os resíduos de Pearson. Eles explicam a relação da variação média e mostram ao estatístico se determinadas observações, como esses 0s, estão afetando de maneira flagrante a estimativa e os resultados.

AdamO
fonte

Modelo linear generalizado é definido em termos de preditor linear

η = X β

$\eta = \boldsymbol{X} \beta$

$g$

g (E (Y | X)) = η

$g(E(Y\,|\,\boldsymbol{X})) = \eta$

$Y$ $\boldsymbol{X} = X_1,X_2,\dots,X_k$ $Y$ $\boldsymbol{X}$

E (Y | X) = μ = g^{- 1} (η)

$E(Y\,|\,\boldsymbol{X} ) = \mu = g^{-1}(\eta)$

para que o modelo possa ser definido em termos probabilísticos como

Y | X \sim f (μ, σ^{2})

$Y\,|\,\boldsymbol{X} \sim f(\mu, \sigma^2)$

$f$ $f$ $Y$ $Y$ $\boldsymbol{X}$ $Y$ $\boldsymbol{X}$

Se o seu resultado for contínuo e ilimitado, a opção mais "padrão" é a distribuição Gaussiana (também conhecida como distribuição normal ), ou seja, a regressão linear padrão (a menos que você use outra função de link, então o link de identidade padrão).
Se você está lidando com resultados contínuos não negativos , pode considerar a distribuição gama ou distribuição gaussiana inversa .
Se o seu resultado for discreto , ou mais precisamente, você estiver lidando com contagens (quantas vezes algo acontece em um determinado intervalo de tempo), a escolha mais comum da distribuição para começar é a distribuição de Poisson . O problema com a distribuição de Poisson é que ela é bastante inflexível, considerando que a média é igual à variância; se essa suposição não for atendida, você poderá considerar o uso da família quase-Poisson ou a distribuição binomial negativa (consulte também Definição de dispersão). parâmetro para a família quasipoisson ).
Se o seu resultado for binário (zeros e uns), proporções de "sucessos" e "falhas" (valores entre 0 e 1) ou suas contagens , você pode usar a distribuição binomial , ou seja, o modelo de regressão logística . Se houver mais de duas categorias, você usaria a distribuição multinomial na regressão multinomial .

Por outro lado, na prática, se você estiver interessado em construir um modelo preditivo, poderá estar interessado em testar algumas distribuições diferentes e, no final, aprender que uma delas fornece resultados mais precisos que as outras, mesmo que não seja a melhor. mais "apropriado" em termos de considerações teóricas (por exemplo, em teoria você deve usar Poisson, mas na prática a regressão linear padrão funciona melhor para seus dados).

Tim
fonte

Esta é uma pergunta um tanto ampla, você está perguntando como fazer modelagem e existem livros inteiros dedicados a isso. Por exemplo, ao lidar com dados de contagem, considere o seguinte:

Além de escolher uma distribuição, você deve escolher uma função de link. Com dados de contagem, você pode tentar a distribuição binomial poisson ou negativa e a função de link de log. Uma razão para o link do log é fornecida aqui: Qualidade do ajuste e qual modelo escolher regressão linear ou Poisson Se seus patches tiverem áreas muito diferentes, talvez você deva incluir o logaritmo da área como um deslocamento, para modelar as contagens por unidade de área e não absolutas conta. Para obter uma explicação do deslocamento na regressão de dados de contagem, consulte Quando usar um deslocamento em uma regressão de Poisson?

EDIT

Esta resposta foi originalmente publicada em outra pergunta, que foi mesclada com esta. Embora a resposta seja geral, comentou detalhes de um conjunto de dados e problema que não estão mais em questão. A pergunta original pode ser encontrada no seguinte link: Família no GLM - como escolher o caminho certo?

kjetil b halvorsen
fonte

Não podemos desmembrar as perguntas, @kjetil, apenas os desenvolvedores podem fazer isso (e eles realmente não gostam). Ainda posso acessar o Q original, no entanto. Uma possibilidade é que eu possa copiar o conteúdo em um novo Q (que seria de minha autoria), você pode copiar esse A para o novo thread e, em seguida, eu poderia fechar esse segmento como uma duplicata. É difícil dizer se é uma ideia maluca ou se vale a pena, mas é o que posso fazer. Você tem uma preferência?

gung - Restabelece Monica

@ gung: Você pode fazer isso, ou eu posso copiar as informações dessa pergunta para a resposta aqui. Talvez seja o melhor? (I pode editar que parece a partir do histórico de edição)

b Kjetil Halvorsen

@kjetilbhalvorsen em primeiro lugar, desculpe por estragar tudo, pois foi minha ideia mesclar os tópicos, pois eles pareciam quase os mesmos e ambos continham boas respostas. Minha impressão inicial foi que mesclar os threads não faria mal. Talvez você possa simplesmente adicionar "Por exemplo, ao lidar com dados de contagem ..." ao seu segundo parágrafo? Sua resposta responde bem ao geral "Como escolher a família?" pergunta, então talvez vale a pena deixá-lo em discussão geral?

Tim

@ Tim vou editar como você diz!

Kjetil b halvorsen

Vamos tentar a edição. Se você quiser que eu republique o Q, faça ping novamente. Vou descartar a bandeira agora.

gung - Restabelece Monica