Estou lendo um artigo muito interessante de Sellers e Shmueli sobre modelos de regressão para dados de contagem. Perto do início (p. 944), citam McCullaugh e Nelder (1989) dizendo que a regressão binomial negativa é impopular e tem um vínculo canônico problemático. Encontrei a passagem referida e ela diz (p. 374 de M e N)
"Parece ter sido pouco utilizado a distribuição binomial negativa nas aplicações; em particular, o uso do link canônico é problemático, pois torna o preditor linear uma função de um parâmetro da função de variância".
Na página anterior, eles fornecem esse link como
função de variação
A distribuição é dada como
Eu descobri que a regressão NB é bastante usada (e recomendada em vários livros). Todos esses usos e recomendações estão errados?
Quais são as consequências desse vínculo problemático?
fonte
Respostas:
Eu discuto as afirmações sob vários pontos de vista:
i) Embora o link canônico possa muito bem ser "problemático", não é imediatamente óbvio que alguém se interessará por esse link - enquanto, por exemplo, o link de log no Poisson geralmente é conveniente e natural, e por isso as pessoas geralmente interessado nisso. Mesmo assim, no caso de Poisson, as pessoas olham para outras funções de link.
Portanto, não precisamos restringir nossa consideração ao link canônico.
Um "elo problemático" não é, por si só, um argumento especialmente revelador contra a regressão binomial negativa.
O link de log, por exemplo, parece ser uma escolha bastante razoável em algumas aplicações binomiais negativas, por exemplo, nos casos em que os dados podem ser Poisson condicionalmente, mas há heterogeneidade na taxa de Poisson - o link de log pode ser quase tão interpretável como no caso de Poisson.
Em comparação, eu uso os Gamma GLMs com bastante frequência, mas não me lembro (exemplos de livros didáticos de lado) de ter usado seu link canônico - eu uso o link de log quase sempre, já que é um link mais natural para os tipos de problemas Eu costumo trabalhar.
ii) "Parece que pouco foi feito ... nas aplicações" pode ter sido verdade em 1989, mas não acho que isso ocorra agora. [Mesmo que permanecesse agora, esse não é um argumento de que é um modelo ruim, apenas que não foi amplamente utilizado - o que pode acontecer por todos os tipos de razões.]
A regressão binomial negativa tornou-se mais amplamente usada à medida que está mais disponível, e vejo isso sendo usado em aplicativos muito mais amplamente agora. Em R, por exemplo, utilizo as funções
MASS
que o suportam (e o livro correspondente, Venables e Ripley, Modern Applied Statistics with S , usa regressão binomial negativa em algumas aplicações interessantes) - e usei algumas funcionalidades em alguns outros pacotes antes mesmo de usá-lo no R.Eu teria usado a regressão binomial negativa mais, ainda mais cedo, se estivesse prontamente disponível para mim; Espero que o mesmo seja verdade para muitas pessoas - então o argumento de que foi pouco usado parece ser mais uma oportunidade.
Embora seja possível evitar a regressão binomial negativa (por exemplo, usando modelos Poisson superdispersos) ou várias situações em que realmente não importa muito o que você faz , existem várias razões pelas quais isso não é totalmente satisfatório.
Por exemplo, quando meu interesse é mais por intervalos de previsão do que estimativas de coeficientes, o fato de os coeficientes não mudarem pode não ser uma razão adequada para evitar o binômio negativo.
É claro que ainda existem outras opções que modelam a dispersão (como o Conway-Maxwell-Poisson, que é o assunto do artigo que você mencionou); Embora essas sejam certamente opções, às vezes há situações em que fico muito feliz que o binômio negativo seja um 'encaixe' razoavelmente bom como modelo para o meu problema.
Eu realmente acho que não! Se fossem, já deveria ter ficado razoavelmente claro agora. De fato, se McCullagh e Nelder continuaram a se sentir da mesma maneira, eles não tiveram falta de oportunidade, nem falta de fóruns para esclarecer as questões restantes. Nelder faleceu (2010), mas McCullagh aparentemente ainda está por aí .
Se essa curta passagem em McCullagh e Nelder é tudo o que eles têm, eu diria que é um argumento bastante fraco.
Eu acho que a questão é principalmente uma das funções de variância e a função de link que está relacionada, e não relacionada (como é o caso de praticamente todas as outras famílias principais de GLM em uso popular), o que faz a interpretação na escala do preditor linear menos direto (isso não quer dizer que seja o único problema; acho que é o principal problema para um profissional). Não é muita coisa.
A título de comparação, vejo os modelos Tweedie sendo usados muito mais amplamente nos últimos tempos, e não vejo pessoas se preocupando com o fato de que aparece tanto na função de variância quanto no link canônico (nem na maioria dos casos nem se preocupa muito). sobre o link canônico).p
Nada disso é tirar nada dos modelos de Conway-Maxwell-Poisson (o assunto dos jornais Sellers e Shmueli), que também estão se tornando mais amplamente utilizados - certamente não desejo participar de um binômio negativo versus COM Partida de tiro -Poisson.
Simplesmente não o vejo como um ou outro, assim como (agora falando mais amplamente), adoto uma postura puramente bayesiana ou puramente freqüentista sobre problemas estatísticos. Usarei o que me parecer a melhor escolha nas circunstâncias particulares em que estou, e cada escolha tende a ter vantagens e desvantagens.
fonte