Como a regressão quantílica se compara à regressão logística com a variável dividida no quantil?

9

Pesquisei um pouco no Google, mas não encontrei nada sobre isso.

Suponha que você faça uma regressão do quantil no quinto quinto da variável dependente.

Em seguida, você divide o DV no quinto quantil e rotula o resultado 0 e 1. Em seguida, você faz a regressão logística no DV categorizado.

Estou procurando estudos de Monte-Carlo sobre isso ou razões para preferir um ao outro etc.

Peter Flom
fonte
2
Você poderia nos mostrar uma maneira razoável de comparar os resultados das duas regressões? Afinal, a menos que você tenha algo um pouco menos geral em mente, os coeficientes dos regressores nesses dois modelos têm significados e interpretações completamente diferentes; portanto, em que sentido devemos entender o que você quer dizer com "preferir"?
whuber
Além de todos os outros comentários acima, a regressão quantílica incondicional (Firpo et al 2009) na verdade usa regressões como você descreve (a variável dependente definida por algum quantil incondicional da distribuição) para implementar sua metodologia.
Fcold 21/04

Respostas:

7

Para simplificar, suponha que você tenha uma variável dependente contínua Y e uma variável preditora contínua X.

Regressão logística

Se eu entendo seu post corretamente, sua regressão logística categorizará Y em 0 e 1 com base no quantil da distribuição (incondicional) de Y. Especificamente, o q-ésil quantil da distribuição dos valores Y observados será computado e Ycat será seja definido como 0 se Y for estritamente menor que esse quantil e 1 se Y for maior que ou igual a esse quantil.

Se o exposto acima captar sua intenção, a regressão logística modelará as chances de Y exceder ou ser igual ao q-ésil quantil (observado) da distribuição Y (incondicional) em função de X.

Regressão quantílica

Por outro lado, se você estiver executando uma regressão quantílica de Y em X, estará focando na modelagem de como o q-ésil quantil da distribuição condicional de Y, dado X, muda em função de X.

Regressão logística versus regressão quantílica

Parece-me que esses dois procedimentos têm objetivos totalmente diferentes, uma vez que o primeiro procedimento (ou seja, regressão logística) se concentra no q-ésil quantil da distribuição incondicional de Y, enquanto o segundo procedimento (ou seja, regressão quantil) se concentra no o q-ésil quantil da distribuição condicional de Y.

The unconditional distribution of Y is the 
distribution of Y values (hence it ignores any 
information about the X values). 

The conditional distribution of Y given X is the 
distribution of those Y values for which the values 
of X are the same.  

Exemplo ilustrativo

Para fins ilustrativos, digamos Y = colesterol e X = peso corporal.

Então, a regressão logística está modelando as chances de ter um valor 'alto' de colesterol (ou seja, maior ou igual ao q-ésimo quantil dos valores observados de colesterol) em função do peso corporal, onde a definição de 'alto' não tem relação ao peso corporal. Em outras palavras, o marcador para o que constitui um valor 'alto' de colesterol é independente do peso corporal. O que muda com o peso corporal neste modelo são as chances de um valor de colesterol exceder esse marcador.

Por outro lado, a regressão quantílica está analisando como os valores do colesterol 'marcador' para os quais q% dos indivíduos com o mesmo peso corporal na população subjacente têm um valor mais alto de colesterol variam em função do peso corporal. Você pode pensar nesses valores de colesterol como marcadores para identificar quais valores de colesterol são 'altos' - mas, neste caso, cada marcador depende do peso corporal correspondente; além disso, presume-se que os marcadores mudem de maneira previsível à medida que o valor de X muda (por exemplo, os marcadores tendem a aumentar à medida que X aumenta).

Isabella Ghement
fonte
2
Eu concordo com tudo isso. No entanto, parece haver uma semelhança - isto é, ambos olham para o quinto quantil em função das mesmas variáveis ​​independentes.
Peter Flom
4
Sim, mas a diferença é que um método analisa o quantil incondicional (isto é, regressão logística) enquanto o outro analisa o quantil condicional (isto é, regressão quantil). Esses dois quantis acompanham coisas diferentes.
Isabella Ghement
3

Eles não serão iguais, e o motivo é simples.

Com a regressão quantil, você deseja modelar a condicional quantil das variáveis ​​independentes. Sua abordagem com regressão logística se ajusta ao quantil marginal.

Firebug
fonte
1

Alguém pergunta "qual é o efeito no enésimo quantil da distribuição da variável dependente?" O outro pergunta "qual é o efeito sobre a probabilidade de a variável dependente cair no enésimo quantil de sua distribuição incondicional ?"

Ou seja, o fato de que ambos têm a palavra "quantil", eles parecem mais semelhantes do que são.

Eu acho que se você primeiro estimar uma função quantil condicional, usar isso para a divisão e prosseguir a partir daí, as duas abordagens se tornarão mais semelhantes. Mas não vejo o que você gostaria de ganhar com esse desvio. .

sheß
fonte
0

Esse é aproximadamente o acordo, se eu os transcrevi corretamente. Consulte https://en.wikipedia.org/wiki/Quantile_regression paraρp.

Regressão logística:

p(ythresh)=argminpiJlogistic(p,yi<ythresh)

Regressão quantílica

y(pthresh)=argminyiρp(yiy)

A questão é (não me lembro) as funções de pontuação para esses problemas variacionais são as únicas possíveis para o MLE? Caso contrário, existe um par que garanta equivalência no sentido em que os mesmos pares são gerados?(p,y)

mathtick
fonte