Eu tenho um estudo em que muitos resultados são representados como porcentagens e estou usando várias regressões lineares para avaliar o efeito de algumas variáveis categóricas nesses resultados.
Fiquei imaginando, uma vez que uma regressão linear assume que o resultado é uma distribuição contínua, existem problemas metodológicos na aplicação desse modelo a porcentagens limitadas entre 0 e 100?
regression
ratio
percentage
Bakaburg
fonte
fonte
Respostas:
Abordarei os problemas relevantes para a possibilidade discreta ou contínua:
Um problema com a descrição da média
Você tem uma resposta limitada. Mas o modelo que você está ajustando não é limitado e, portanto, pode passar direto pelo limite; alguns de seus valores ajustados podem ser impossíveis e, eventualmente, os valores previstos devem ser.
O verdadeiro relacionamento deve eventualmente se tornar mais plano do que no meio, à medida que se aproxima dos limites, de modo que seria esperado que se dobrasse de alguma maneira.
Um problema com a descrição da variação
À medida que a média se aproxima do limite, a variação tende a diminuir também, sendo outras coisas iguais. Há menos espaço entre a média e o limite, então a variabilidade geral tende a reduzir (caso contrário, a média tenderia a ser afastada do limite por pontos, sendo, em média, mais distantes no lado não próximo do limite.
(De fato, se todos os valores da população em alguma vizinhança estivessem exatamente no limite, a variação seria zero.)
Um modelo que lide com esse limite deve levar esses efeitos em consideração.
Se a proporção for para uma variável de contagem, um modelo comum para a distribuição da proporção é um GLM binomial. Existem várias opções para a forma da relação da proporção média e dos preditores, mas a mais comum seria um GLM logístico (várias outras opções são de uso comum).
Se a proporção for contínua (como a porcentagem de creme no leite), há várias opções. A regressão beta parece ser uma escolha bastante comum. Novamente, ele pode usar uma relação logística entre a média e os preditores, ou pode usar alguma outra forma funcional.
Consulte também Regressão para obter um resultado (proporção ou fração) entre 0 e 1 .
fonte
É exatamente o mesmo que quando o resultado está entre 0 e 1, e esse caso é tipicamente tratado com um modelo linear generalizado (GLM), como regressão logística. Existem muitos excelentes iniciadores para regressão logística (e outros GLMs) na internet, e também há um livro bem conhecido da Agresti sobre o assunto.
A regressão beta é uma alternativa viável, mas mais complicada. As chances são de que a regressão logística funcionaria bem para o seu aplicativo e normalmente seria mais fácil de implementar com a maioria dos softwares estatísticos.
Por que não usar regressão de mínimos quadrados ordinários? Na verdade, as pessoas sim, às vezes sob o nome "modelo de probabilidade linear" (LPM). A razão mais óbvia pela qual os LPMs são "ruins" é que não há maneira fácil de restringir o resultado a um determinado intervalo, e você pode obter previsões acima de 1 (ou 100% ou qualquer outro limite superior finito) e abaixo de 0 (ou outro limite inferior). Pelo mesmo motivo, as previsões próximas ao limite superior tendem a ser sistematicamente muito altas e as previsões próximas ao limite inferior tendem a ser muito baixas. A matemática subjacente à regressão linear pressupõe explicitamente que tendências como essa não existem. Normalmente, não há um ótimo motivo para ajustar um LPM à regressão logística.
Como um aparte, verifica-se que todos os modelos de regressão OLS, incluindo LPMs, podem ser definidos como um tipo especial de GLM e, nesse contexto, os LPMs estão relacionados à regressão logística.
fonte
Pode valer a pena investigar a regressão beta (para a qual entendo que há um pacote R), que parece bem adequado para esses problemas.
http://www.jstatsoft.org/v34/i02/paper
fonte