Digamos que temos uma variável dependente com poucas categorias e conjunto de variáveis independentes.
Quais são as vantagens da regressão logística multinomial sobre o conjunto de regressões logísticas binárias (ou seja, esquema de um vs resto )? Por conjunto de regressão logística binária, quero dizer que, para cada categoria , construímos modelo de regressão logística binária separado com alvo = 1 quando e 0 em caso contrário.Y = y i
logistic
categorical-data
multinomial
Tomek Tarczynski
fonte
fonte
Respostas:
Se tiver mais de duas categorias, sua pergunta sobre a "vantagem" de uma regressão sobre a outra provavelmente não terá sentido se você tentar comparar os parâmetros dos modelos , porque os modelos serão fundamentalmente diferentes:Y
il o g P ( i )P ( n o t i ) = l o g i tEu= L i n e um r c o m b i n a t i o n para cada logística binária de regressão, eEu
iri≠rl o g P ( i )P ( r )= l o g i tEu= L i n e um r c o m b i n a t i o n para cada categoria em regressão logística múltipla, sendo a categoria de referência escolhida ( ).Eu r i ≠ r
No entanto, se o seu objetivo é apenas para prever a probabilidade de cada categoria qualquer abordagem é justificada, embora eles podem dar diferentes estimativas de probabilidade. A fórmula para estimar uma probabilidade é genérica:Eu
i,j,…,rrexp(logit)=1P′()P′( i ) = e x p ( l o g i tEu)e x p ( l o g i tEu) + e x p ( l o g i tj) + ⋯ + e x p ( l o g i tr) , em que são todas as categorias, e se foi escolhido para ser a referência, seu . Portanto, para logística binária, essa mesma fórmula se torna . A logística multinomial depende da suposição (nem sempre realista) de independência de alternativas irrelevantes, enquanto uma série de previsões logísticas binárias não.eu , j , … , r r exp(logit)=1 P′(i)=exp(logiti)exp(logiti)+1
Um tema separado é o que são diferenças técnicas entre regressões logísticas multinomiais e binárias no caso de ser dicotômico . Haverá alguma diferença nos resultados? Na maioria das vezes, na ausência de covariáveis, os resultados serão os mesmos, ainda assim, existem diferenças nos algoritmos e nas opções de saída. Deixe-me apenas citar a Ajuda do SPSS sobre esse problema no SPSS:Y
fonte
Por causa do título, estou assumindo que "vantagens da regressão logística múltipla" significa "regressão multinomial". Muitas vezes há vantagens quando o modelo é ajustado simultaneamente. Essa situação específica é descrita em Agresti (Análise de dados categóricos, 2002) pág. 273. Em resumo (parafraseando Agresti), você espera que as estimativas de um modelo conjunto sejam diferentes de um modelo estratificado. Os modelos logísticos separados tendem a ter erros padrão maiores, embora possa não ser tão ruim quando o nível mais frequente do resultado é definido como o nível de referência.
fonte