Diferença entre os modelos logit e probit

299

Qual é a diferença entre o modelo Logit e Probit ?

Estou mais interessado aqui em saber quando usar a regressão logística e quando usar o Probit.

Se houver alguma literatura que o defina usando R , isso também seria útil.

Beta
fonte
5
Não existe praticamente nenhuma diferença entre os resultados dos dois (consulte Paap & Franses 2000)
1
Certa vez, eu tive um extenso conjunto de dados (bioensaio) em que pudemos ver o probit ajustado marginalmente melhor, mas não fez diferença para conclusões.
Kjetil b halvorsen
1
@ Alyas Shah: e essa é a explicação por que, com meus dados probit melhorados (marginalmente), melhor --- porque acima de uma certa dose, a mortalidade é de 100%, e abaixo de algum limiar, a mortalidade é de 0%, por isso não vemos a abordagem lenta do logit!
precisa saber é o seguinte
3
Para dados reais, por oposição aos dados gerados a partir do logit ou probit, uma abordagem ponderada para o problema seria executar uma comparação de modelo. Na minha experiência, os dados raramente se inclinam para um dos dois modelos.
Xian
2
Ouvi dizer que o uso prático da distribuição logística se origina de sua semelhança com o CDF normal e de sua função de distribuição cumulativa muito mais simples. De fato, o CDF normal contém uma integral que deve ser avaliada - o que eu acho que era computacionalmente caro na época.
Dv_bn

Respostas:

144

Eles diferem principalmente na função de link.

No Logit: Pr(Y=1X)=[1+eXβ]1

Em Probit: (pdf normal cumulativo)Pr(Y=1X)=Φ(Xβ)

De outro modo, a logística possui caudas um pouco mais achatadas. isto é, a curva probit se aproxima dos eixos mais rapidamente que a curva logit.

Logit tem uma interpretação mais fácil do que probit. A regressão logística pode ser interpretada como modelagem de chances de log (ou seja, aqueles que fumam> 25 cigarros por dia têm uma probabilidade 6 vezes maior de morrer antes dos 65 anos de idade). Geralmente, as pessoas iniciam a modelagem com logit. Você pode usar o valor de probabilidade de cada modelo para decidir entre logit e probit.

vinux
fonte
6
Obrigado pela sua resposta Vinux. Mas também quero saber quando usar logit e probit. Eu sei que o logit é mais popular que o probit, e na maioria dos casos usamos regressão logit. Mas há alguns casos em que os modelos Probit são mais úteis. Você pode me dizer quais são esses casos. E como distinguir esses casos de casos regulares.
Beta
5
Quando você está preocupado com a parte final da curva, em algum momento a seleção do logit ou probit é importante. Não existe uma regra exata para selecionar probit ou logit. Você pode selecionar o modelo observando a probabilidade (ou a probabilidade do log) ou AIC.
Vinux
12
Obrigado pelo conselho! Você pode elaborar como selecionar entre logit e probit? Em particular: (1) Como posso saber quando você está preocupado com a parte da cauda da curva? (2) Como seleciono um modelo olhando a probabilidade, a probabilidade do log ou a AIC? O que especificamente devo analisar e como isso deve influenciar minha decisão sobre qual modelo usar?
DW
Bem, você poderia dar exemplos nos quais o logit falha em comparação com o probit? Não consigo encontrar os que você tem em mente.
Wok
1
@flies Aqui denota a transposta da matriz . XXX
Mathemanic
445

Um modelo linear padrão (por exemplo, um modelo de regressão simples) pode ser pensado como tendo duas 'partes'. Estes são chamados componente estrutural e componente aleatório . Por exemplo: Os dois primeiros termos (ou seja, ) constituem o componente estrutural e (que indica um termo de erro normalmente distribuído) é o componente aleatório. Quando a variável de resposta não é normalmente distribuída (por exemplo, se sua variável de resposta é binária), essa abordagem pode não ser mais válida. O modelo linear generalizado
β 0 + β 1 X ε

Y=β0+β1X+εwhere εN(0,σ2)
β0+β1Xε(GLiM) foi desenvolvido para tratar desses casos, e os modelos logit e probit são casos especiais de GLiM que são apropriados para variáveis ​​binárias (ou variáveis ​​de resposta de várias categorias com algumas adaptações ao processo). Um GLiM possui três partes, um componente estrutural , uma função de link e uma distribuição de resposta . Por exemplo: Aqui é novamente o componente estrutural, é a função de link e
β 0 + β 1 X g ( ) μ
g(μ)=β0+β1X
β0+β1Xg()μé uma média de uma distribuição de resposta condicional em um determinado ponto no espaço covariável. A maneira como pensamos sobre o componente estrutural aqui não difere realmente de como pensamos sobre ele nos modelos lineares padrão; de fato, essa é uma das grandes vantagens dos GLiMs. Como em muitas distribuições a variação é uma função da média, tendo ajustado uma média condicional (e considerando que você estipulou uma distribuição de resposta), você contabilizou automaticamente o análogo do componente aleatório em um modelo linear (NB: isso pode ser mais complicado na prática).

A função link é a chave para os GLiMs: como a distribuição da variável de resposta não é normal, é o que nos permite conectar o componente estrutural à resposta - ele os vincula (daí o nome). Também é a chave da sua pergunta, já que o logit e o probit são links (como o @vinux explicou), e a compreensão das funções do link nos permitirá escolher de maneira inteligente quando usar qual deles. Embora possa haver muitas funções de link aceitáveis, geralmente há uma que é especial. Sem querer ir muito longe nas ervas daninhas (isso pode ser muito técnico), a média prevista, , não será necessariamente matematicamente a mesma que o parâmetro de localização canônica da distribuição de resposta ;βμ. A vantagem disso "é que existe uma estatística suficiente para " ( German Rodriguez ). O link canônico para dados de resposta binária (mais especificamente, a distribuição binomial) é o logit. No entanto, existem muitas funções que podem mapear o componente estrutural para o intervalo e, portanto, são aceitáveis; o probit também é popular, mas ainda existem outras opções usadas (como o log complementar, , geralmente chamado de 'cloglog'). Portanto, existem muitas funções de link possíveis e a escolha da função de link pode ser muito importante. A escolha deve ser feita com base em alguma combinação de: βln ( - ln ( 1 - μ ) )(0,1)ln(ln(1μ))

  1. Conhecimento da distribuição de respostas,
  2. Considerações teóricas e
  3. Ajuste empírico aos dados.

Tendo abordado um pouco da base conceitual necessária para entender essas idéias mais claramente (perdoe-me), explicarei como essas considerações podem ser usadas para orientar sua escolha de link. (Deixe-me observar que acho que o comentário de @ David captura com precisão por que links diferentes são escolhidos na prática .) Para começar, se sua variável de resposta for o resultado de um estudo de Bernoulli (ou seja, ou ), sua distribuição de respostas será binomial, e o que você está realmente modelando é a probabilidade de uma observação ser (ou seja, ). Como resultado, qualquer função que mapeie a linha do número real , para o intervalo1 1 π ( Y = 1 ) ( - , + ) ( 0 , 1 )011π(Y=1)(,+)(0,1)vai funcionar.

Do ponto de vista da sua teoria substantiva, se você pensa que suas covariáveis ​​estão diretamente conectadas à probabilidade de sucesso, então normalmente escolheria a regressão logística porque é o elo canônico. No entanto, considere o seguinte exemplo: Você é solicitado a modelar high_Blood_Pressureem função de algumas covariáveis. A pressão arterial em si normalmente é distribuída na população (na verdade eu não sei, mas parece razoável, à primeira vista); no entanto, os médicos a dicotomizaram durante o estudo (ou seja, eles apenas registraram "pressão alta" ou "normal" ) Nesse caso, o probit seria preferível a priori por razões teóricas. Isto é o que @Elvis quis dizer com "seu resultado binário depende de uma variável gaussiana oculta".simétrico , se você acredita que a probabilidade de sucesso aumenta lentamente de zero, mas diminui mais rapidamente à medida que se aproxima de um, o cloglog é solicitado, etc.

Por fim, observe que é improvável que o ajuste empírico do modelo nos dados ajude na seleção de um link, a menos que as formas do link funcionem em questão diferem substancialmente (das quais o logit e o probit não). Por exemplo, considere a seguinte simulação:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

Mesmo quando sabemos que os dados foram gerados por um modelo probit e temos 1000 pontos de dados, o modelo probit produz apenas um ajuste melhor 70% das vezes, e mesmo assim, geralmente por apenas uma quantia trivial. Considere a última iteração:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

A razão para isso é simplesmente que as funções logit e link probit produzem saídas muito semelhantes quando recebem as mesmas entradas.

Digite a descrição da imagem aqui

As funções logit e probit são praticamente idênticas, exceto que o logit fica um pouco mais distante dos limites quando 'virar a esquina', como o @vinux afirmou. (Observe que, para que o logit e o probit se alinhem da melhor forma, o do logit deve ser vezes o valor da inclinação correspondente para o probit. Além disso, eu poderia ter mudado o cloglog ligeiramente para que eles fiquem no topo mais um do outro, mas deixei de lado para manter a figura mais legível.) Observe que o cloglog é assimétrico, enquanto os outros não; ele começa a se afastar de 0 mais cedo, mas mais lentamente, e se aproxima de 1 e depois vira bruscamente. 1,7β11.7

Mais algumas coisas podem ser ditas sobre as funções de link. Primeiro, considerando a função de identidade ( ) como uma função de link, podemos entender o modelo linear padrão como um caso especial do modelo linear generalizado (ou seja, a distribuição da resposta é normal e o link é a função de identidade). Também é importante reconhecer que qualquer transformação que o link instanciar é aplicada adequadamente ao parâmetro que governa a distribuição de resposta (ou seja, ), não os dados de resposta reaisg(η)=ημ. Finalmente, porque na prática nunca temos o parâmetro subjacente para transformar, nas discussões desses modelos, muitas vezes o que é considerado o link real é deixado implícito e o modelo é representado pela inversa da função de link aplicada ao componente estrutural. . Ou seja: Por exemplo, a regressão logística geralmente é representada: vez de:

μ=g1(β0+β1X)
π(Y)=exp(β0+β1X)1+exp(β0+β1X)
ln(π(Y)1π(Y))=β0+β1X

Para uma visão geral rápida e clara, mas sólida, do modelo linear generalizado, consulte o capítulo 10 de Fitzmaurice, Laird, & Ware (2004) , no qual eu me inclinei para partes desta resposta, embora, já que essa seja minha própria adaptação, - e outro - material, qualquer erro seria meu). Para saber como encaixar esses modelos no R, consulte a documentação da função ? Glm no pacote base.

(Uma nota final adicionada mais tarde :) Às vezes, ouço as pessoas dizerem que você não deve usar o probit, porque ele não pode ser interpretado. Isso não é verdade, embora a interpretação dos betas seja menos intuitiva. Com a regressão logística, uma alteração de uma unidade em é associada a uma alteração nas chances de log de 'sucesso' (como alternativa, uma vezes nas probabilidades), sendo todas as demais iguais. Com um probit, isso seria uma alteração de 's. (Pense em duas observações em um conjunto de dados com escores de 1 e 2, por exemplo.) Para convertê-las em probabilidades previstas , você pode passá-las pelo CDF normalX1β1exp(β1)β1 zz, ou procure-os em uma tabela . z

(+1 para @vinux e @Elvis. Aqui, tentei fornecer uma estrutura mais ampla para pensar sobre essas coisas e depois usá-la para abordar a escolha entre logit e probit.)

gung
fonte
79
Obrigado rapazes. Fico feliz que isso tenha acontecido bem; Na verdade, este é um bom exemplo de como você pode aprender coisas sobre o CV respondendo a perguntas e perguntando e lendo as respostas de outras pessoas: eu conhecia essas informações de antemão, mas não o bastante para poder escrevê-las a frio. Na verdade, passei algum tempo revisando meus textos antigos para descobrir como organizar o material e apresentá-lo claramente, e no processo solidifiquei essas idéias para mim.
gung
6
@gung Obrigado por esta explicação, é uma das descrições mais claras dos GLMs em geral que me deparei.
fmark
@whuber "Quando a variável de resposta não é normalmente distribuída (por exemplo, se sua variável de resposta é binária), essa abordagem [OLS padrão] pode não ser mais válida." Desculpe incomodá-lo (de novo!) Com isso, mas acho isso um pouco confuso. Entendo que não há premissas distributivas incondicionais na variável dependente no OLS. Essa citação significa que, uma vez que a resposta é tão extraordinariamente não-normal (ou seja, uma variável binária), que sua distribuição condicional dada (e, portanto, a distribuição dos resíduos) não pode se aproximar da normalidade? X
landroni
7
@landroni, você pode fazer uma nova pergunta para isso. Em resumo, se sua resposta é binária, a distribuição condicional de Y, dada X = xi, não pode se aproximar da normalidade; sempre será binomial. A distribuição dos resíduos brutos também nunca se aproximará da normalidade. Eles sempre serão pi & (1-pi). A distribuição amostral da média condicional de Y dada X = xi (isto é, pi) aproximar-se-á da normalidade.
gung
2
Compartilho um pouco da preocupação da landroni: afinal, um resultado normalmente distribuído não é um resíduo normalmente distribuído e um resultado não normalmente distribuído pode ter um resíduo normalmente distribuído. O problema com o resultado parece ser menos sobre sua distribuição em si do que sobre seu alcance.
Alexis
47

Além da resposta do vinux, que já conta o mais importante:

  • os coeficientes na regressão logit têm interpretações naturais em termos de razão de chances;β

  • a regressão probística é o modelo natural quando você pensa que seu resultado binário depende de uma variável gaussiana oculta [eq. 1] com maneira determinística: exatamente quando .Z=Xβ+ϵ ϵN(0,1)Y=1Z>0

  • De maneira mais geral e mais natural, a regressão probística é o modelo mais natural se você acha que o resultado é exatamente quando algum excede o limite , com . É fácil ver que isso pode ser reduzido ao caso mencionado: apenas redimensione como ; é fácil verificar essa equação [eq. 1] ainda mantém (redimensionar os coeficientes e traduzir a interceptação). Esses modelos foram defendidos, por exemplo, em contextos médicos, onde seria uma variável contínua não observada e por exemplo, uma doença que aparece quando1Z0=Xβ0+ϵ0cϵN(0,σ2)Z0Z=1σ(Z0c)Z0YZ0 excede algum "limiar patológico".

Os modelos logit e probit são apenas modelos . "Todos os modelos estão errados, alguns são úteis", como Box disse uma vez! Ambos os modelos permitirão detectar a existência de um efeito de no resultado ; exceto em alguns casos muito especiais, nenhum deles será "realmente verdadeiro", e sua interpretação deve ser feita com cautela.XY

Elvis
fonte
17
Também é importante notar que o uso dos modelos probit versus logit é fortemente influenciado pela tradição disciplinar. Por exemplo, os economistas parecem muito mais acostumados a analisar análises, enquanto os pesquisadores em psicometria dependem principalmente dos modelos de logit.
David
Qual é o modelo por trás do lançamento de uma moeda?
skan
32

Em relação à sua declaração

Estou mais interessado aqui em saber quando usar a regressão logística e quando usar probit

Já existem muitas respostas que trazem coisas a serem consideradas na escolha entre as duas, mas há uma consideração importante que ainda não foi declarada: quando seu interesse é examinar associações dentro do cluster em dados binários usando efeitos logísticos de efeitos mistos ou modelos probit, existe uma fundamentação teórica para a preferência do modelo probit. Obviamente, isso pressupõe que não há uma razão a priori para preferir o modelo logístico (por exemplo, se você está fazendo uma simulação e sabe que é o verdadeiro modelo).

Primeiro , para entender por que isso é verdade, observe que esses dois modelos podem ser vistos como modelos de regressão contínua com limite. Como um exemplo, considere o modelo linear simples de efeitos mistos para a observação no cluster :ij

yij=μ+ηj+εij

onde é o efeito aleatório do cluster e é o termo do erro. Em seguida, os modelos de regressão logística e de probit são equivalentemente formulados como sendo gerados a partir desse modelo e com limiar em 0:ηjN(0,σ2)jεij

yij={1if   yij00if   yij<0

Se o for normalmente distribuído, você terá uma regressão probit e, se for distribuído logisticamente, terá um modelo de regressão logística. Como a escala não é identificada, esses erros residuais são especificados como padrão normal e logística padrão, respectivamente.εij

Pearson (1900) mostrou que, se dados normais multivariados eram gerados e limitados para serem categóricos, as correlações entre as variáveis ​​subjacentes ainda eram estatisticamente identificadas - essas correlações são denominadas correlações policóricas e, específicas para o caso binário, são denominadas correlações tetracóricas . Isso significa que, em um modelo probit, o coeficiente de correlação intraclasse das variáveis ​​normalmente distribuídas subjacentes:

ICC=σ^2σ^2+1

é identificado, o que significa que, no caso probit, você pode caracterizar completamente a distribuição conjunta das variáveis ​​latentes subjacentes .

No modelo logístico, a variação de efeito aleatório no modelo logístico ainda é identificada, mas não caracteriza totalmente a estrutura de dependência (e, portanto, a distribuição conjunta), uma vez que é uma mistura entre uma variável aleatória normal e uma logística que não possui a propriedade que é totalmente especificada por sua matriz de média e covariância. Observar essa suposição paramétrica ímpar para as variáveis ​​latentes subjacentes torna menos clara a interpretação dos efeitos aleatórios no modelo logístico.

Macro
fonte
6
Existem outras situações em que alguém preferiria probit também. Os modelos de seleção econométrica (ie Heckman) são comprovados apenas usando o modelo probit. Tenho menos certeza disso, mas também acredito que alguns modelos SEM, onde variáveis ​​binárias são endógenas, também utilizam o modelo probit, devido à suposição de normalidade multivariada necessária para a estimativa da máxima probabilidade.
22712 Andy W
1
@ Andy, você está certo sobre SEMs binários - e isso está intimamente relacionado ao argumento que fiz aqui - a estimativa (e interpretação subsequente) é suportada pelo fato de que as correlações subjacentes são identificadas e caracterizam totalmente a distribuição conjunta .
Macro
29

Um ponto importante que não foi abordado nas respostas anteriores (excelentes) é a etapa de estimativa real. Os modelos de logit multinacionais têm um PDF fácil de integrar, levando a uma expressão de forma fechada da probabilidade de escolha. A função de densidade da distribuição normal não é tão facilmente integrada, portanto os modelos probit geralmente requerem simulação. Portanto, embora ambos os modelos sejam abstrações de situações do mundo real, o logit geralmente é mais rápido para problemas maiores (várias alternativas ou grandes conjuntos de dados).

Para ver isso mais claramente, a probabilidade de um resultado específico ser selecionado é uma função das variáveis ​​preditoras e doxε

P=I[ε>βx]f(ε)dε
If(x)

P=ε=βxf(ε)dε=1F(βx)=11exp(βx)

Não existe uma forma conveniente para esses modelos.

gregmacfarlane
fonte
4
É por isso que as funções de logit multinomiais são classicamente usadas para estimar problemas de escolha discreta espacial, mesmo que o fenômeno real seja melhor modelado por um probit.
fmark 27/09/12
Como você incorporaria elementos espaciais em um modelo DC? Eu estou muito interessado.
Gregmacfarlane 28/09/12
2
Mas, na situação de escolha, o probit é mais flexível, portanto, mais usado hoje! O logit multinomial implica a suposição de irrelevância de alternativas irrelevantes, que nem sempre é empiricamente justificada.
precisa saber é o seguinte
1
Você está certo de que o IIA nem sempre é justificado, e também de que, com os estimadores modernos, os modelos probit podem ser estimados razoavelmente rapidamente. Mas os modelos GEV resolvem o problema do IIA e podem representar melhor a estrutura de escolha em determinadas situações. Também não tenho certeza de que o probit seja "mais usado hoje"; no meu campo (modelagem de transporte), os modelos probit continuam sendo uma novidade.
Gregmacfarlane
13

O que vou dizer de maneira alguma invalida o que foi dito até agora. Quero apenas ressaltar que os modelos probit não sofrem com as premissas do IIA (independência de alternativas irrelevantes), e o modelo logit.

Para usar um exemplo do excelente livro do Train. Se eu tiver um logit que preveja se eu vou pegar o ônibus azul ou dirigir no meu carro, a adição de ônibus vermelho atrai proporcionalmente o carro e o ônibus azul. Mas, usando um modelo probit, você pode evitar esse problema. Em essência, em vez de desenhar de ambos proporcionalmente, você pode desenhar mais do ônibus azul, pois eles são substitutos mais próximos.

O sacrifício que você faz é que não há soluções de forma fechada, como apontado acima. Probit tende a ser meu objetivo quando estou preocupado com os problemas do IIA. Isso não quer dizer que não há maneiras de contornar o IIA em uma estrutura de logit (distribuições GEV). Mas sempre vi esses tipos de modelos como uma maneira desajeitada de contornar o problema. Com as velocidades computacionais que você pode obter, eu diria que vá com probit.

user61417
fonte
1
Você poderia explicar a "Independência de alternativas irrelevantes", por favor?
skan
3
Observe que ainda é possível estimar um modelo de probit multinomial que imponha uma variante da suposição IIA (como no comando mprobit em Stata). Para eliminar o IIA no probit multinomial, você deve modelar a matriz de variância-covariância dos erros da variável latente para cada alternativa na variável de resposta.
22417 Kenji
8

Uma das diferenças mais conhecidas entre logit e probit é a distribuição de resíduos de regressão (teórica): normal para probit, logística para logit (consulte: Koop G. Uma Introdução à Econometria Chichester, Wiley: 2008: 280).

Carlo Lazzaro
fonte
2
mas como sabemos se nossos dados devem ter uma distribuição residual normal ou logística teórica ?, por exemplo, quando jogo uma moeda.
skan
8

Ofereço uma resposta prática à pergunta, que se concentra apenas em "quando usar a regressão logística e quando usar probit", sem entrar em detalhes estatísticos, mas focando nas decisões baseadas em estatísticas. A resposta depende de duas coisas principais: você tem uma preferência disciplinar e só se importa com o modelo que melhor se ajusta aos seus dados?

Diferença básica

Os modelos logit e probit fornecem modelos estatísticos que dão a probabilidade de que uma variável de resposta dependente seja 0 ou 1. Eles são muito semelhantes e geralmente apresentam resultados praticamente idênticos, mas como eles usam funções diferentes para calcular as probabilidades, seus resultados às vezes são levemente diferente.

Preferência disciplinar

Algumas disciplinas acadêmicas geralmente preferem uma ou outra. Se você vai publicar ou apresentar seus resultados em uma disciplina acadêmica com uma preferência tradicional específica, deixe que dite sua escolha, para que suas descobertas sejam mais facilmente aceitáveis. Por exemplo (dos consultores de métodos ),

O Logit - também conhecido como regressão logística - é mais popular nas ciências da saúde como epidemiologia, em parte porque os coeficientes podem ser interpretados em termos de odds ratio. Modelos probit podem ser generalizados para dar conta de variações não constantes de erro em configurações econométricas mais avançadas (conhecidas como modelos probit heterocedásticos) e, portanto, são usadas em alguns contextos por economistas e cientistas políticos.

O ponto é que as diferenças nos resultados são tão pequenas que a capacidade do público em geral de entender seus resultados supera as pequenas diferenças entre as duas abordagens.

Se tudo o que lhe interessa se encaixa melhor ...

Se sua pesquisa está em uma disciplina que não prefere uma ou outra, meu estudo dessa questão (que é melhor, logit ou probit) me levou a concluir que geralmente é melhor usar probit , já que quase sempre dê um ajuste estatístico aos dados iguais ou superiores aos do modelo de logit. A exceção mais notável quando os modelos de logit se ajustam melhor é no caso de "variáveis ​​independentes extremas" (que explico abaixo).

Minha conclusão baseia-se quase inteiramente (depois de pesquisar várias outras fontes) em Hahn, ED & Soyer, R., 2005. Modelos de probit e logit: diferenças no domínio multivariado. Disponível em: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Aqui está o meu resumo das conclusões práticas da decisão deste artigo sobre se os modelos multivariados logit versus probit fornecem um melhor ajuste aos dados (essas conclusões também se aplicam a modelos univariados, mas apenas simulam efeitos para duas variáveis ​​independentes):

  • Na maioria dos cenários, os modelos logit e probit ajustam os dados igualmente bem, com as duas exceções a seguir.

  • O Logit é definitivamente melhor no caso de "variáveis ​​independentes extremas" . Essas são variáveis ​​independentes, nas quais um valor particularmente grande ou pequeno determinará com esmagadora maioria se a variável dependente é 0 ou 1, substituindo os efeitos da maioria das outras variáveis. Hahn e Soyer definem formalmente assim (p. 4):

Um nível variável extremamente independente envolve a influência de três eventos. Primeiro, um nível de variável independente extrema ocorre no extremo superior ou inferior de uma variável independente. Por exemplo, digamos que a variável independente x deva assumir os valores 1, 2 e 3,2. O nível variável independente extrema envolveria os valores em x = 3,2 (ou x = 1). Segundo, uma proporção substancial (por exemplo, 60%) do total de n deve estar nesse nível. Terceiro, a probabilidade de sucesso nesse nível deve ser extrema (por exemplo, superior a 99%).

  • Probit é melhor no caso de "modelos de efeitos aleatórios" com tamanhos de amostra moderados ou grandes (é igual ao logit para tamanhos de amostra pequenos). Para modelos de efeitos fixos, probit e logit são igualmente bons. Eu realmente não entendo o que Hahn e Soyer querem dizer com "modelos de efeitos aleatórios" em seu artigo. Embora muitas definições sejam oferecidas ( como nesta pergunta do Stack Exchange ), a definição do termo é de fato ambígua e inconsistente . Mas como o logit nunca é superior ao probit a esse respeito, o ponto é discutido pela simples escolha de probit.

Com base na análise de Hahn e Soyer, minha conclusão é sempre usar modelos probit, exceto no caso de variáveis ​​independentes extremas, caso em que o logit deve ser escolhido . Variáveis ​​independentes extremas não são tão comuns e devem ser fáceis de reconhecer. Com essa regra, não importa se o modelo é um modelo de efeitos aleatórios ou não. Nos casos em que um modelo é um modelo de efeitos aleatórios (onde probit é preferido), mas existem variáveis ​​independentes extremas (onde logit é preferido), embora Hahn e Soyer não tenham comentado sobre isso, minha impressão no artigo deles é que o efeito de variáveis ​​independentes extremas são mais dominantes e, portanto, o logit seria preferido.

Tripartio
fonte
5

Abaixo, explico um estimador que aninha probit e logit como casos especiais e onde é possível testar qual é o mais apropriado.

Probit e logit podem ser aninhados em um modelo de variável latente,

yi=xiβ+εi,εiG(),

onde o componente observado é

yi=1(yi>0).

G

(β)=yilogG(xiβ)+(1yi)log[1G(xiβ)].

G

Em Klein & Spady, a função de critério é

(β)=yilogG^(xiβ)+(1yi)log[1G^(xiβ)],

G^()

G^(z)=i=1NyiK(zxiβh)j=1NK(zxjβh),

Khβhh

G^ih

GβG

Superpronker
fonte
5

Eles são muito parecidos.

Y=1XSX

P(Y=1|X)=P(S<βX)

Ou equivalente :

P(Y=1|X)=P(βXS>0)

S

  • S
  • S

β

E=βXSXS

  • E>0Y=1
  • E<0Y=0

As diferenças entre logística e probit estão na diferença entre as distribuições logística e normal. Não há muito. Uma vez ajustados, eles se parecem com: insira a descrição da imagem aqui

Logística tem cauda mais pesada. Isso pode afetar um pouco a forma como os eventos de probabilidade pequena (<1%) ou alta (> 99%) são ajustados. Praticamente, a diferença nem é perceptível na maioria das situações: logit e probit preveem essencialmente a mesma coisa. Veja http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article

"Filosoficamente", a regressão logística pode ser justificada por ser equivalente ao princípio da entropia máxima: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropy-models /

Em termos de cálculo: a logística é mais simples, pois a distribuição cumulativa da distribuição logística tem uma fórmula fechada, diferente da distribuição normal. Porém, as distribuições normais têm boas propriedades quando você passa para a multidimensional; é por isso que o probit é geralmente preferido em casos avançados.

Benoit Sanchez
fonte