Variável dependente fracionária: por que não usar a regressão de Poisson?

7

Em muitas configurações, estamos interessados ​​em estimar um modelo com uma variável dependente fracionária. Por exemplo, Papke e Wooldridge (1996) http://faculty.smu.edu/millimet/classes/eco6375/papers/papke%20wooldridge%201996.pdf consideram as taxas de participação do plano 401 (k), onde a taxa é definida como . Os autores então desenvolvem um método GLM para estimar esses modelos. Olhando para a literatura de dados de contagem, imagino que não se deva executar uma regressão de Poisson de contas no mesmo conjunto de regressores e como funcionários de compensação . Isso depende potencialmente do número absoluto de contas ?PRATE=accountsemplyeesaccountsemployeesaccounts

Isso é diferente de uma duplicata sugerida. Qual modelo de regressão é o mais apropriado para usar com dados de contagem? como minha pergunta discute o local correto do deslocamento / denominador.

Felix H
fonte
... como um log de deslocamento (funcionário) ;-) (se usado link de log)! imho ... você tem os mesmos resultados, mas o que (em que escala ...) você não prefere (interpretar)? - apenas uma questão de gosto ...
Ivan Kshnyasev
Acho que não. Estou perguntando sobre dados de contagem com uma variável muito clara de ofest / exposição e quando modelar algo como taxa ou contagem.
Felix H
Você deve usar o log (funcionários) como deslocamento. Você pode fornecer mais detalhes sobre sua inscrição? Uma discussão muito detalhada do Como / Por que o deslocamento está em stats.stackexchange.com/questions/142338/… , você também pode consultar stats.stackexchange.com/questions/307369/… (Ambos são melhor duplicados do que o proposto acima)
kjetil b halvorsen 13/10

Respostas:

1

Uma razão para não usar a regressão de Poisson aqui é que, como cada funcionário pode ter no máximo uma conta, o número de contas é limitado pelo número de funcionários. Uma distribuição de Poisson permitiria probabilidade diferente de zero para o número de contas que excedem o número de funcionários. Meu entendimento é que, embora as regressões de Poisson sejam robustas a muitas violações de suposições, pelo menos você perderia a eficiência ao usar uma regressão de Poisson em comparação com algo mais apropriado.

A questão então deveria ser: uma regressão binomial não seria mais apropriada? (Supondo a mesma taxa de participação para cada funcionário, o número de planos deve ser distribuído como que é o número de funcionários.) IIRC, o motivo pelo qual uma regressão binomial não pode ser empregada neste caso é que o número de funcionários não é conhecido; somente a taxa de participação em si é conhecida. Isso exclui a regressão binomial - e também descartaria a regressão de Poisson com um deslocamento, mesmo que fosse apropriado.pyBinomial(n,p)n

The Laconic
fonte
Obrigado pela sua resposta! No entanto, e se soubéssemos o número de funcionários e cada funcionário pudesse ter apenas zero ou uma conta?
Felix H
Esse é o caso de regressão binomial.
The Laconic
Claro, mas então o que deve ser preferível? Binomial ou conta com algum deslocamento?
Felix H
Binomial. Um deslocamento não faz nada para manter a distribuição delimitada acima; o número de observações não pode, em princípio, provir de uma distribuição de Poisson. Por outro lado, se cada funcionário pode ter zero ou uma conta e a probabilidade de ter uma conta é a mesma para cada funcionário em um grupo de funcionários, o número total de contas é literalmente distribuído como Binomial (n, p ) pn
The Laconic