Eu tenho dados de densidade de peixes que estou tentando comparar entre várias técnicas de coleta diferentes, os dados têm muitos zeros e o histograma parece vaugley apropriado para uma distribuição de poisson, exceto que, como densidades, não são dados inteiros. Sou relativamente novo nos GLMs e passei os últimos dias procurando on-line como saber qual distribuição usar, mas não consegui encontrar os recursos que ajudam a tomar essa decisão. Um histograma de amostra dos dados é semelhante ao seguinte:
Não tenho idéia de como decidir sobre a família apropriada a ser usada no GLM. Se alguém tiver algum conselho ou puder me dar um recurso que eu deveria consultar, isso seria fantástico.
Respostas:
As famílias GLM compreendem uma função de link e uma relação de variância média. Para GLMs de Poisson, a função de link é um log e a relação de variação média é a identidade. Apesar dos avisos que a maioria dos softwares estatísticos fornece, é completamente razoável modelar um relacionamento em dados contínuos, no qual o relacionamento entre duas variáveis é linear na escala de log e a variação aumenta de acordo com a média.
Essa é, essencialmente, a lógica para escolher a função de link e variação em um GLM. Obviamente, existem várias suposições por trás desse processo. Você pode criar um modelo mais robusto usando quasilikelihood (consulte
?quasipoisson
) ou erros padrão robustos (consulte packagesandwich
ougee
).Você notou corretamente que muitas densidades são 0 em seus dados. Nos modelos de probabilidade de Poisson, é apropriado amostrar 0s ocasionalmente nos dados, portanto, não é necessariamente o caso de essas observações levarem a um viés nas suas estimativas de taxas.
Para inspecionar as suposições por trás dos GLMs, geralmente é útil examinar os resíduos de Pearson. Eles explicam a relação da variação média e mostram ao estatístico se determinadas observações, como esses 0s, estão afetando de maneira flagrante a estimativa e os resultados.
fonte
Modelo linear generalizado é definido em termos de preditor linear
para que o modelo possa ser definido em termos probabilísticos como
Se o seu resultado for contínuo e ilimitado, a opção mais "padrão" é a distribuição Gaussiana (também conhecida como distribuição normal ), ou seja, a regressão linear padrão (a menos que você use outra função de link, então o link de identidade padrão).
Se você está lidando com resultados contínuos não negativos , pode considerar a distribuição gama ou distribuição gaussiana inversa .
Se o seu resultado for discreto , ou mais precisamente, você estiver lidando com contagens (quantas vezes algo acontece em um determinado intervalo de tempo), a escolha mais comum da distribuição para começar é a distribuição de Poisson . O problema com a distribuição de Poisson é que ela é bastante inflexível, considerando que a média é igual à variância; se essa suposição não for atendida, você poderá considerar o uso da família quase-Poisson ou a distribuição binomial negativa (consulte também Definição de dispersão). parâmetro para a família quasipoisson ).
Se o seu resultado for binário (zeros e uns), proporções de "sucessos" e "falhas" (valores entre 0 e 1) ou suas contagens , você pode usar a distribuição binomial , ou seja, o modelo de regressão logística . Se houver mais de duas categorias, você usaria a distribuição multinomial na regressão multinomial .
Por outro lado, na prática, se você estiver interessado em construir um modelo preditivo, poderá estar interessado em testar algumas distribuições diferentes e, no final, aprender que uma delas fornece resultados mais precisos que as outras, mesmo que não seja a melhor. mais "apropriado" em termos de considerações teóricas (por exemplo, em teoria você deve usar Poisson, mas na prática a regressão linear padrão funciona melhor para seus dados).
fonte
Esta é uma pergunta um tanto ampla, você está perguntando como fazer modelagem e existem livros inteiros dedicados a isso. Por exemplo, ao lidar com dados de contagem, considere o seguinte:
Além de escolher uma distribuição, você deve escolher uma função de link. Com dados de contagem, você pode tentar a distribuição binomial poisson ou negativa e a função de link de log. Uma razão para o link do log é fornecida aqui: Qualidade do ajuste e qual modelo escolher regressão linear ou Poisson Se seus patches tiverem áreas muito diferentes, talvez você deva incluir o logaritmo da área como um deslocamento, para modelar as contagens por unidade de área e não absolutas conta. Para obter uma explicação do deslocamento na regressão de dados de contagem, consulte Quando usar um deslocamento em uma regressão de Poisson?
Esta resposta foi originalmente publicada em outra pergunta, que foi mesclada com esta. Embora a resposta seja geral, comentou detalhes de um conjunto de dados e problema que não estão mais em questão. A pergunta original pode ser encontrada no seguinte link: Família no GLM - como escolher o caminho certo?
fonte