Suponha que eu queira construir um modelo para prever algum tipo de proporção ou porcentagem. Por exemplo, digamos que eu queira prever o número de meninos versus meninas que participarão de uma festa, e os recursos da festa que posso usar no modelo são coisas como quantidade de publicidade da festa, tamanho do local, se houver haverá álcool na festa etc. (Este é apenas um exemplo inventado; os recursos não são realmente importantes.)
Minha pergunta é: qual é a diferença entre prever uma proporção e uma porcentagem e como meu modelo muda dependendo da minha escolha? Um é melhor que o outro? Alguma outra função é melhor que uma? (Eu realmente não me importo com os números específicos de proporção versus porcentagem; eu só quero poder identificar quais festas têm maior probabilidade de serem "festas de meninos" x "festas de meninas".) Por exemplo, eu sou pensando:
- Se eu quiser prever uma porcentagem (digamos,
# boys / (# boys + # girls)
então, como meu recurso dependente é limitado entre 0 e 1, provavelmente devo usar algo como uma regressão logística em vez de uma regressão linear. - Se eu quiser prever uma proporção (por exemplo,
# boys / # girls
ou# boys / (1 + # girls)
evitar erros de divisão por zero), meu recurso dependente é positivo; então, talvez eu deva aplicar algum tipo de transformação (log?) Antes de usar uma regressão linear? (Ou algum outro modelo? Que tipo de modelos de regressão são usados para dados positivos e não contáveis?) - Geralmente, é melhor prever (digamos) a porcentagem em vez da proporção e, se sim, por quê?
fonte
Respostas:
fonte
Ecoando a primeira resposta. Não se preocupe em converter - apenas modele as contagens e covariáveis diretamente.
Se você fizer isso e ajustar um modelo de regressão binomial (ou equivalentemente logístico) às meninas, contará que sim, se você escolher a função de link usual para esses modelos, implicitamente já estará ajustando uma proporção (covariada suavizada) de meninos para meninas. Esse é o preditor linear.
O principal motivo para modelar as contagens diretamente, em vez de proporções ou proporções, é que você não perde informações. Intuitivamente, você ficaria muito mais confiante com as inferências de uma proporção observada de 1 (meninos para meninas) se viesse vendo 100 meninos e 100 meninas do que vendo 2 e 2. Consequentemente, se você tiver covariáveis, terá mais informações sobre seus efeitos e potencialmente um melhor modelo preditivo.
fonte