A função logit é sempre a melhor para modelagem de regressão de dados binários?

15

Eu estive pensando sobre este problema. A função logística usual para modelar dados binários é: No entanto, a função logit, que é uma curva em forma de S, é sempre a melhor para modelar os dados? Talvez você tenha motivos para acreditar que seus dados não seguem a curva normal em forma de S, mas um tipo diferente de curva com domínio(0,1).

log(p1p)=β0+β1X1+β2X2+
(0,1)

Existe alguma pesquisa sobre isso? Talvez você possa modelá-lo como uma função probit ou algo semelhante, mas e se for algo totalmente diferente? Isso poderia levar a uma melhor estimativa dos efeitos? Apenas um pensamento que tive, e me pergunto se há alguma pesquisa sobre isso.

Glen
fonte
3
possível duplicata da diferença entre os modelos logit e probit
Macro
2
@ Macro Eu não acho que é uma duplicata exata. Essa pergunta é apenas sobre logit e probit; este pede outras alternativas também.
Peter Flom - Restabelece Monica
Estou votando para deixar isso em aberto. A principal diferença que vejo é que este Q está solicitando pesquisas em estatísticas sobre o tópico de diferentes funções possíveis de link. É uma diferença sutil, mas pode ser suficiente. @Glen, você pode revisar o outro Q, se ainda não o viu. Na minha resposta, falo sobre diferentes links possíveis. Se você acha que esse Q não é realmente diferente, sinalize-o e os mods podem fechá-lo; se você conseguir pensar em uma maneira de diferenciar o que está pedindo e o Q mais claro, convém editar para fazer isso.
gung - Restabelece Monica
Eu sei que não é uma duplicata exata da pergunta logit vs. probit, mas pensei que a resposta do gung, que foi além do que foi perguntado pela pergunta vinculada, aborda a maior parte do que foi perguntado aqui, e é por isso que fechei como duplicado. Provavelmente existem outros tópicos intimamente relacionados, mas esse foi o primeiro que veio à mente.
Macro
Obrigado pelos comentários. Acredito que minha pergunta seja diferente da pergunta anterior. Eu estou muito familiarizado com as transformações probit e log-log, e a discussão da pergunta anterior foi muito informativa para mim. No entanto, estou interessado em outras funções de link (possivelmente não paramétricas?) Que são possíveis, em uma situação em que você pode ou não ter conhecimento de que a curva de probabilidade segue uma distribuição diferente. Eu acho que quando interações estão envolvidas entre as covariáveis, isso pode ter um papel importante. Resposta @ David J. Harris é útil também ...
Glen

Respostas:

15

As pessoas usam todo tipo de função para manter seus dados entre 0 e 1. As probabilidades de log caem naturalmente da matemática quando você obtém o modelo (é chamado de "função de link canônico"), mas você é absolutamente livre para experimentar outras alternativas.

Como Macro aludiu em seu comentário à sua pergunta, uma escolha comum é um modelo probit , que usa a função quantil de uma gaussiana em vez da função logística. Também ouvi coisas boas sobre o uso da função quantil da distribuição de um aluno , embora nunca tenha tentado.t

Todos eles têm a mesma forma básica de S, mas diferem na rapidez com que saturam em cada extremidade. Os modelos de probit se aproximam de 0 e 1 muito rapidamente, o que pode ser perigoso se as probabilidades tendem a ser menos extremas. baseados em modelos podem ir de qualquer maneira, dependendo de como muitos graus de liberdade do tttt7

Espero que isto ajude.

Editado para adicionar : A discussão @Macro vinculada a é realmente excelente. Eu recomendo a leitura, se você estiver interessado em mais detalhes.

David J. Harris
fonte
A questão é especificamente sobre "dados binários" - não sobre dados que estão entre 0 e 1. O modelo probit não tem justificativa teórica no caso de dados binários.
Neil G
3
@ NeilG, uma razão para usar o modelo probit é que ele fornece uma maneira conveniente de modelar dados binários multivariados (por exemplo, com um modelo misto) como normais com limite. Nesse caso, a matriz de correlação das variáveis ​​subjacentes é estatisticamente indentificável, enquanto que não está no caso logístico. Há um pouco mais de discussão aqui .
Macro
@ Macro: Ah, entendo. Isso é muito interessante, obrigado.
Neil G
@ David J.Harris: Você quer dizer quintil (ou talvez quantil tenha o mesmo significado), ou seja, dividir a distribuição em pedaços de quintos: 20%, 40%, .., 100%?
MSIS
11
@MSIS um quintil divide em quintos, se divide percentuais em 100ths, e se divide quartil em unidades arbitrárias Veja en.wikipedia.org/wiki/Quantile#Specialized_quantiles
David J. Harris
11

Não vejo razão, a priori, por que a função de link apropriada para um determinado conjunto de dados deve ser o logit (embora o universo pareça ser bastante gentil conosco em geral). Não sei se é exatamente isso que você está procurando, mas aqui estão alguns documentos que discutem funções de link mais exóticas:

Divulgação: não conheço bem esse material. Tentei brincar com o Cauchit e Scobit há alguns anos, mas meu código continuava travando (provavelmente porque eu não sou um grande programador) e não parecia relevante para o projeto em que estava trabalhando, então o deixei cair .

A maioria dessas coisas tem a ver com comportamentos de cauda diferentes dos links prototípicos (ou seja, a função 'vira a esquina' cedo e não assemelha a 0 e 1 muito rápido), ou é distorcida (ou seja, como o cloglog, eles abordar um limite mais rapidamente que o outro). Você também deve poder replicar esses comportamentos, acredito, ajustando uma função spline deX com um link logístico.

- Reinstate Monica
fonte
4

A melhor estratégia é modelar os dados à luz do que está acontecendo (sem surpresa!)

  • Os modelos Probit são originários dos estudos LD50 - você deseja a dose de inseticida que mata metade dos insetos. A resposta binária é se o bug vive ou morre (em uma determinada dose). Os bugs suscetíveis a uma dose também serão suscetíveis a doses mais baixas, e é aí que entra a idéia de modelar para o normal cumulativo.
  • Se as observações binárias vierem em clusters, você poderá usar um modelo beta-binomial. Ben Bolker tem uma boa introdução na documentação de seu pacote bbmle (em R), que implementa isso em casos simples. Esses modelos permitem mais controle sobre a variação dos dados do que o obtido em uma distribuição binomial.
  • Dados binários multivariados - o tipo que se acumula em tabelas de contingência multidimensionais - podem ser analisados ​​usando um modelo log-linear. A função de link é o log e não as probabilidades do log. Algumas pessoas se referem a isso como regressão de Poisson.

Provavelmente, não há pesquisas sobre esses modelos como tais, embora tenha havido muita pesquisa sobre qualquer um desses modelos e sobre as comparações entre eles e sobre diferentes maneiras de estimar. O que você encontra na literatura é que há muita atividade por um tempo, já que os pesquisadores consideram várias opções para uma classe específica de problemas e, em seguida, um método surge como superior.

Placidia
fonte
+1 para binomial beta. Essa é uma ótima ferramenta para ter na caixa de ferramentas.
David J. Harris
3

O Logit é um modelo para que as entradas sejam um produto de especialistas, cada uma das quais é uma distribuição de Bernoulli. Em outras palavras, se você considerar todas as entradas como distribuições independentes de Bernoulli com probabilidadespEu cuja evidência é combinada, você descobrirá que está adicionando a função logística aplicada a cada um dos pEus. (Outra maneira de dizer o mesmo é que a conversão da parametrização da expectativa em parametrização natural da distribuição de Bernoulli é a função logística.)

Neil G
fonte