Quais são os problemas com o uso do resultado percentual na regressão linear?

11

Eu tenho um estudo em que muitos resultados são representados como porcentagens e estou usando várias regressões lineares para avaliar o efeito de algumas variáveis ​​categóricas nesses resultados.

Fiquei imaginando, uma vez que uma regressão linear assume que o resultado é uma distribuição contínua, existem problemas metodológicos na aplicação desse modelo a porcentagens limitadas entre 0 e 100?

Bakaburg
fonte
1
Essas porcentagens são contínuas (como a porcentagem de nata no leite, por exemplo) ou discretas (como proporções binomiais, uma contagem em alguma categoria da contagem total)?
Glen_b -Reinstala Monica
1
Uhm ... eu não entendo a diferença. Os dois não são contínuos? De qualquer forma, acho que o segundo descreve melhor meus dados, já que estamos falando de pessoas no total.
Bakaburg
A distribuição das contagens divididas por contagens é definitivamente discreta. De fato, o numerador é geralmente modelado como um binômio, o denominador é condicionado (tratado como constante), de modo que a proporção é geralmente tratada como um binômio dimensionado. No entanto, mesmo que o denominador foi alse uma variável aleatória, a relação seria ainda ser discreto desde o seu espaço amostra é contáveis
Glen_b -Reinstate Monica

Respostas:

17

Abordarei os problemas relevantes para a possibilidade discreta ou contínua:

  1. Um problema com a descrição da média

    Você tem uma resposta limitada. Mas o modelo que você está ajustando não é limitado e, portanto, pode passar direto pelo limite; alguns de seus valores ajustados podem ser impossíveis e, eventualmente, os valores previstos devem ser.

    O verdadeiro relacionamento deve eventualmente se tornar mais plano do que no meio, à medida que se aproxima dos limites, de modo que seria esperado que se dobrasse de alguma maneira.

  2. Um problema com a descrição da variação

    À medida que a média se aproxima do limite, a variação tende a diminuir também, sendo outras coisas iguais. Há menos espaço entre a média e o limite, então a variabilidade geral tende a reduzir (caso contrário, a média tenderia a ser afastada do limite por pontos, sendo, em média, mais distantes no lado não próximo do limite.

(De fato, se todos os valores da população em alguma vizinhança estivessem exatamente no limite, a variação seria zero.)

Um modelo que lide com esse limite deve levar esses efeitos em consideração.

Se a proporção for para uma variável de contagem, um modelo comum para a distribuição da proporção é um GLM binomial. Existem várias opções para a forma da relação da proporção média e dos preditores, mas a mais comum seria um GLM logístico (várias outras opções são de uso comum).

Se a proporção for contínua (como a porcentagem de creme no leite), há várias opções. A regressão beta parece ser uma escolha bastante comum. Novamente, ele pode usar uma relação logística entre a média e os preditores, ou pode usar alguma outra forma funcional.

Consulte também Regressão para obter um resultado (proporção ou fração) entre 0 e 1 .

Glen_b -Reinstate Monica
fonte
1
+1 e tomei a liberdade de adicionar um link ao que talvez pudesse ser visto como nosso tópico "mestre" sobre esse tópico (a resposta de Gung também abrange opções beta e logísticas).
ameba diz Restabelecer Monica
2
Um argumento geral fácil é se a média é 0, que só é possível se todos os valores forem 0 e, da mesma forma, com 1 = 100% e todos os valores sendo 1. Portanto, a variação deve ser 0 nos extremos, independentemente de proporções baseadas em contando ou medindo. Embora seja possível que todos os outros valores sejam constantes, na prática isso é muito raro. Daí variância será maior para algum valor entre 0 e 1.
Nick Cox
você poderia fornecer algumas referências para os 2 problemas descritos?
user1607
3

É exatamente o mesmo que quando o resultado está entre 0 e 1, e esse caso é tipicamente tratado com um modelo linear generalizado (GLM), como regressão logística. Existem muitos excelentes iniciadores para regressão logística (e outros GLMs) na internet, e também há um livro bem conhecido da Agresti sobre o assunto.

A regressão beta é uma alternativa viável, mas mais complicada. As chances são de que a regressão logística funcionaria bem para o seu aplicativo e normalmente seria mais fácil de implementar com a maioria dos softwares estatísticos.

Por que não usar regressão de mínimos quadrados ordinários? Na verdade, as pessoas sim, às vezes sob o nome "modelo de probabilidade linear" (LPM). A razão mais óbvia pela qual os LPMs são "ruins" é que não há maneira fácil de restringir o resultado a um determinado intervalo, e você pode obter previsões acima de 1 (ou 100% ou qualquer outro limite superior finito) e abaixo de 0 (ou outro limite inferior). Pelo mesmo motivo, as previsões próximas ao limite superior tendem a ser sistematicamente muito altas e as previsões próximas ao limite inferior tendem a ser muito baixas. A matemática subjacente à regressão linear pressupõe explicitamente que tendências como essa não existem. Normalmente, não há um ótimo motivo para ajustar um LPM à regressão logística.

Como um aparte, verifica-se que todos os modelos de regressão OLS, incluindo LPMs, podem ser definidos como um tipo especial de GLM e, nesse contexto, os LPMs estão relacionados à regressão logística.

shadowtalker
fonte
4
Embora, em geral, grande parte dessa resposta pareça valer a pena, ela contém algumas informações erradas que podem confundir os leitores. A descrição da regressão logística no primeiro parágrafo parece uma descrição de uma transformação semelhante a log da variável dependente seguida de regressão linear: não é regressão logística. A interpretação dos coeficientes também não está correta. Um problema mais importante com os "LPMs" é que, quando os dados estão próximos dos extremos, eles provavelmente exibem distribuições assimétricas dos resíduos, o que é uma violação importante da suposição de regressão do iid.
whuber
Não achei que valesse a pena entrar em odds ratio e tal. Vou tirar esse material e deixar o OP ler sobre ele então. Também é bom ponto sobre os resíduos.
shadowtalker
(+1) Obrigado por suas respostas construtivas!
whuber
2

Pode valer a pena investigar a regressão beta (para a qual entendo que há um pacote R), que parece bem adequado para esses problemas.

http://www.jstatsoft.org/v34/i02/paper

Dikran Marsupial
fonte
7
Sua resposta seria ainda melhor se você se deparar com algumas das principais razões pelas quais a regressão linear sofre quando o resultado é uma porcentagem.
Alexis #