É tecnicamente “válido” ajustar uma regressão logística com uma variável dependente que é uma proporção?

8

Várias postagens ( aqui e aqui ) sugerem que a regressão beta é mais apropriada quando a variável dependente é naturalmente limitada entre 0 e 1. Minha pergunta é, deixando de lado a adequação, é tecnicamente incorreto ajustar uma regressão logística à variável de resposta proporcional? R emitirá um aviso, mas ainda produzirá um resultado.

Parece-me que a função de probabilidade não será uma probabilidade válida quando a variável de resposta for proporcional em vez de binária, mas matematicamente falando, ainda pode ser minimizada para dar uma solução. Eu me pergunto que violação / erro, se houver, é cometido ao ajustar uma regressão logística a dados proporcionais.

Comunidade
fonte
Além das respostas abaixo: Aqui está outro post que trata dessa questão.
COOLSerdash

Respostas:

8

O que você propõe às vezes é chamado de logit fracionário. Certamente tem seus méritos, desde que você se lembre de usar erros padrão robustos. Em 2010, dei uma palestra na reunião dos usuários Stata alemães, comparando, entre outras coisas, a regressão beta e o logit fracionário. Os slides podem ser encontrados aqui: http://www.maartenbuis.nl/presentations/berlin10.pdf

Maarten Buis
fonte
(+1) Maarten, outra pergunta: li que o GLM binomial pode ser usado para respostas de fração / proporção se o número total de tentativas for fornecido para cada fração / proporção (em R isso é feito com um weightsargumento para glm), veja, por exemplo, aqui stats.stackexchange.com/a/26779/28666 . Como o "logit fracionário" com "erros padrão robustos" se relaciona com essa abordagem? É a mesma coisa ou não?
Ameba
2
@amoeba é diferente. Pense em um logit fracionário como um modelo para a proporção média, enquanto o que você propôs como uma maneira de recuperar um modelo de logit.
Maarten Buis
6

Modelos desse tipo são frequentemente definidos e usados ​​como um tipo de modelo linear generalizado. Para uma revisão concisa, consulte http://www.stata-journal.com/article.html?article=st0147 O argumento é que o binômio é uma família razoável, mesmo para proporções contínuas, pois a variação também se aproxima de 0 à medida que a média se aproxima. 0 ou 1.

Se programas ou funções específicos em um software específico os acomodam é uma questão diferente. Dizer que "R lançará um aviso, mas ainda produzirá um resultado" transmite pouca informação. A qual pacote você está se referindo? É realmente o único pacote relevante? De qualquer forma, como o artigo mencionado acima indica, este modelo é bem suportado no Stata, por exemplo.

Isso ainda deixa margem para uma discussão detalhada dos méritos relativos de um modelo de logit para proporções contínuas e regressão beta.

Nick Cox
fonte
1
+1 nesta resposta antiga após a discussão de hoje em outro lugar. Ainda encorajo você a postar uma resposta sobre essa abordagem em stats.stackexchange.com/questions/29038 .
Ameba
1
Alguns comentários sobre como isso funciona em R estão, por exemplo, nos comentários nesta resposta stats.stackexchange.com/a/43369 em um tópico relacionado.
Ameba