Regressão logística multinomial vs regressão logística binária um-contra-o-resto

36

Digamos que temos uma variável dependente com poucas categorias e conjunto de variáveis ​​independentes. Y

Quais são as vantagens da regressão logística multinomial sobre o conjunto de regressões logísticas binárias (ou seja, esquema de um vs resto )? Por conjunto de regressão logística binária, quero dizer que, para cada categoria , construímos modelo de regressão logística binária separado com alvo = 1 quando e 0 em caso contrário.Y = y iyiYY=yi

Tomek Tarczynski
fonte
3
Matematicamente, um modelo de logit multinomial é um conjunto de modelos de logit binários, todos comparados com uma alternativa básica. Mas como você pode recolher parâmetros genéricos e talvez combinar outros, o MNL sempre será pelo menos tão eficiente (e provavelmente mais). Não vejo razão para usar uma série de modelos binomiais.
gregmacfarlane
2
@gmacfarlane: Tentei simular dados em que o MNL seria melhor que uma série de regressões logísticas binárias, mas sempre que a qualidade era, em média, a mesma. Eu estava comparando gráficos de elevação e, após calcular a média dos resultados de algumas simulações, eles pareciam quase iguais. Talvez você tenha uma idéia de como gerar dados para que o MNL supere as regressões logísticas binárias? Embora o MNL tenha uma grande vantagem, seus escores podem ser interpretados como probabilidade.
Tomek Tarczynski 14/03
A regressão logística multinomial é a extensão da regressão binária de logit. É usado quando as variáveis ​​dependentes do estudo são três e acima, enquanto o logit binário é usado quando as variáveis ​​dependentes do estudo são duas.
Para o leitor: recomendo começar pela resposta de @ julieth e acompanhar lendo ttnphns '. Penso que o primeiro responde mais diretamente à pergunta original, mas o segundo acrescenta algum contexto interessante. O ttnphns também mostra os diferentes recursos disponíveis para ambos em uma rotina popular de software, o que poderia constituir um motivo para o uso um do outro (consulte a declaração de gregmacfarlane).
Ben Ogorek 16/02

Respostas:

21

Se tiver mais de duas categorias, sua pergunta sobre a "vantagem" de uma regressão sobre a outra provavelmente não terá sentido se você tentar comparar os parâmetros dos modelos , porque os modelos serão fundamentalmente diferentes:Y

ilogP(i)P(not i)=logiti=linear combination para cada logística binária de regressão, ei

irirlogP(i)P(r)=logiti=linear combination para cada categoria em regressão logística múltipla, sendo a categoria de referência escolhida ( ).irir

No entanto, se o seu objetivo é apenas para prever a probabilidade de cada categoria qualquer abordagem é justificada, embora eles podem dar diferentes estimativas de probabilidade. A fórmula para estimar uma probabilidade é genérica:i

i,j,,rrexp(logit)=1P()P(i)=exp(logiti)exp(logiti)+exp(logitj)++exp(logitr) , em que são todas as categorias, e se foi escolhido para ser a referência, seu . Portanto, para logística binária, essa mesma fórmula se torna . A logística multinomial depende da suposição (nem sempre realista) de independência de alternativas irrelevantes, enquanto uma série de previsões logísticas binárias não.i,j,,rrexp(logit)=1P(i)=exp(logiti)exp(logiti)+1


Um tema separado é o que são diferenças técnicas entre regressões logísticas multinomiais e binárias no caso de ser dicotômico . Haverá alguma diferença nos resultados? Na maioria das vezes, na ausência de covariáveis, os resultados serão os mesmos, ainda assim, existem diferenças nos algoritmos e nas opções de saída. Deixe-me apenas citar a Ajuda do SPSS sobre esse problema no SPSS:Y

Os modelos de regressão logística binária podem ser ajustados usando o procedimento de regressão logística ou o procedimento de regressão logística multinomial. Cada procedimento possui opções não disponíveis no outro. Uma distinção teórica importante é que o procedimento de Regressão Logística produz todas as previsões, resíduos, estatísticas de influência e testes de adequação usando dados no nível de caso individual, independentemente de como os dados são inseridos e se o número de padrões covariados é ou não é menor que o número total de casos, enquanto o procedimento de regressão logística multinomial agrega internamente casos para formar subpopulações com padrões de covariáveis ​​idênticos para os preditores, produzindo previsões, resíduos e testes de qualidade de ajuste com base nessas subpopulações.

A regressão logística fornece os seguintes recursos exclusivos:

• Teste de qualidade de ajuste de Hosmer-Lemeshow para o modelo

• Análises passo a passo

• Contrastes para definir a parametrização do modelo

• Pontos de corte alternativos para classificação

• Gráficos de classificação

• Modelo montado em um conjunto de casos em um conjunto de casos retido

• Salva previsões, resíduos e estatísticas de influência

A regressão logística multinomial fornece os seguintes recursos exclusivos:

• Testes qui-quadrado de Pearson e desvio para adequação do modelo

• Especificação de subpopulações para agrupamento de dados para testes de qualidade do ajuste

• Listagem de contagens, contagens previstas e resíduos por subpopulações

• Correção de estimativas de variância para sobre-dispersão

• Matriz de covariância das estimativas de parâmetros

• Testes de combinações lineares de parâmetros

• Especificação explícita de modelos aninhados

• Ajuste de 1 a 1 modelos de regressão logística condicional correspondidos usando variáveis ​​diferenciadas

ttnphns
fonte
Sei que esses modelos serão diferentes, mas não sei qual é o melhor em qual situação. Farei a pergunta de outra maneira. Se você recebeu uma tarefa: Para cada pessoa, preveja a probabilidade de que uma empresa de telefonia móvel seja a favorita (vamos supor que cada uma tenha uma empresa de telefonia móvel favorita). Quais desses métodos você usaria e quais são as vantagens em relação ao segundo?
Tomek Tarczynski
@Tomek expandi minha resposta um pouco
ttnphns
Embora eu ache que a @ julieth's é a melhor resposta à pergunta original do OP, devo-lhe a introdução da suposição Independência das Alternativas Irrelevantes. Uma pergunta que ainda tenho é se a logística separada realmente o contorna; o artigo da Wikipedia que você vinculou ao probit mencionado e ao "logit aninhado" como permitindo violações do IIA
Ben Ogorek
Você seria capaz de explicar como ajustar os modelos com uma opção de categoria de referência? Para a categoria , usamos apenas um subconjunto dos dados que estão na categoria de referência ou na categoria , para ? r i i ririir
user21359
13

Por causa do título, estou assumindo que "vantagens da regressão logística múltipla" significa "regressão multinomial". Muitas vezes há vantagens quando o modelo é ajustado simultaneamente. Essa situação específica é descrita em Agresti (Análise de dados categóricos, 2002) pág. 273. Em resumo (parafraseando Agresti), você espera que as estimativas de um modelo conjunto sejam diferentes de um modelo estratificado. Os modelos logísticos separados tendem a ter erros padrão maiores, embora possa não ser tão ruim quando o nível mais frequente do resultado é definido como o nível de referência.

julieth
fonte
Obrigado! Vou tentar encontrar neste livro, google.books infelizmente fornece conteúdo apenas até a página 268.
Tomek Tarczynski
@TomekTarczynski Resumi as informações relevantes do parágrafo, para que você não possa obter mais informações relacionadas a essa questão olhando para o livro (embora o livro seja ótimo, você receberá outras informações boas).
julieth
4
Citação do livro Agresti: "As estimativas de ajuste separado diferem das estimativas de ML para ajuste simultâneo dos logits J-1. Elas são menos eficientes, tendendo a apresentar erros padrão maiores. No entanto, Begg e Gray 1984 mostraram que a perda de eficiência é menor quando a categoria de resposta com maior prevalência é a linha de base ".
Franck Dernoncourt