Eu estive pensando sobre este problema. A função logística usual para modelar dados binários é: No entanto, a função logit, que é uma curva em forma de S, é sempre a melhor para modelar os dados? Talvez você tenha motivos para acreditar que seus dados não seguem a curva normal em forma de S, mas um tipo diferente de curva com domínio(0,1).
Existe alguma pesquisa sobre isso? Talvez você possa modelá-lo como uma função probit ou algo semelhante, mas e se for algo totalmente diferente? Isso poderia levar a uma melhor estimativa dos efeitos? Apenas um pensamento que tive, e me pergunto se há alguma pesquisa sobre isso.
Respostas:
As pessoas usam todo tipo de função para manter seus dados entre 0 e 1. As probabilidades de log caem naturalmente da matemática quando você obtém o modelo (é chamado de "função de link canônico"), mas você é absolutamente livre para experimentar outras alternativas.
Como Macro aludiu em seu comentário à sua pergunta, uma escolha comum é um modelo probit , que usa a função quantil de uma gaussiana em vez da função logística. Também ouvi coisas boas sobre o uso da função quantil da distribuição de um aluno , embora nunca tenha tentado.t
Todos eles têm a mesma forma básica de S, mas diferem na rapidez com que saturam em cada extremidade. Os modelos de probit se aproximam de 0 e 1 muito rapidamente, o que pode ser perigoso se as probabilidades tendem a ser menos extremas. baseados em modelos podem ir de qualquer maneira, dependendo de como muitos graus de liberdade do tt t t7
Espero que isto ajude.
Editado para adicionar : A discussão @Macro vinculada a é realmente excelente. Eu recomendo a leitura, se você estiver interessado em mais detalhes.
fonte
Não vejo razão, a priori, por que a função de link apropriada para um determinado conjunto de dados deve ser o logit (embora o universo pareça ser bastante gentil conosco em geral). Não sei se é exatamente isso que você está procurando, mas aqui estão alguns documentos que discutem funções de link mais exóticas:
Cauchit (etc.):
Koenker, R., & Yoon, J. (2009). Links paramétricos para modelos de escolha binária: um colóquio pescador-bayesiano . Journal of Econometrics, 152, 2 , pp. 120-130.
Koenker, R. (2006). Links paramétricos para modelos de escolha binária . Rnews, 6, 4 , pp. 32-34.
Scobit :
Nagler, J. (1994). Scobit: um estimador alternativo para logit e probit . American Journal of Political Science, 38, 1 , pp. 230-255.
Probabilidade de inclinação :
Bazan, JL, Bolfarine, H., & Branco, MD (2010). Uma estrutura para links enviesados-probit em regressão binária . Comunicações em Estatística - Teoria e Métodos, 39 , pp. 678-697.
(Essa parece ser uma boa visão geral de links distorcidos em uma estrutura bayesiana) :
Chen, MH (2004). Modelos de links inclinados para dados de resposta categóricos . Em Distribuições Skew-Elípticas e Suas Aplicações: Uma Jornada Além da Normalidade , Marc Genton, editor. Chapman e Hall.
Divulgação: não conheço bem esse material. Tentei brincar com o Cauchit e Scobit há alguns anos, mas meu código continuava travando (provavelmente porque eu não sou um grande programador) e não parecia relevante para o projeto em que estava trabalhando, então o deixei cair .
A maioria dessas coisas tem a ver com comportamentos de cauda diferentes dos links prototípicos (ou seja, a função 'vira a esquina' cedo e não assemelha a 0 e 1 muito rápido), ou é distorcida (ou seja, como o cloglog, eles abordar um limite mais rapidamente que o outro). Você também deve poder replicar esses comportamentos, acredito, ajustando uma função spline deX com um link logístico.
fonte
A melhor estratégia é modelar os dados à luz do que está acontecendo (sem surpresa!)
Provavelmente, não há pesquisas sobre esses modelos como tais, embora tenha havido muita pesquisa sobre qualquer um desses modelos e sobre as comparações entre eles e sobre diferentes maneiras de estimar. O que você encontra na literatura é que há muita atividade por um tempo, já que os pesquisadores consideram várias opções para uma classe específica de problemas e, em seguida, um método surge como superior.
fonte
O Logit é um modelo para que as entradas sejam um produto de especialistas, cada uma das quais é uma distribuição de Bernoulli. Em outras palavras, se você considerar todas as entradas como distribuições independentes de Bernoulli com probabilidadespEu cuja evidência é combinada, você descobrirá que está adicionando a função logística aplicada a cada um dos pEu s. (Outra maneira de dizer o mesmo é que a conversão da parametrização da expectativa em parametrização natural da distribuição de Bernoulli é a função logística.)
fonte