Estou tentando entender como a regressão logística usa a distribuição binomial.
Digamos que estou estudando o sucesso do ninho em pássaros. A probabilidade de um ninho ter sucesso é de 0,6. Usando a distribuição binomial, posso calcular a probabilidade de r sucessos dados em n tentativas (número de ninhos estudados).
Mas como a distribuição binomial é usada em um contexto de modelagem? Digamos que eu queira saber como a temperatura média diária afeta o sucesso do ninho e uso a regressão logística para explorar esta questão.
Dentro do contexto que descrevi, como a regressão logística usa a distribuição binomial?
Estou procurando uma resposta intuitiva, portanto uma resposta sem equações! Penso que as equações só são úteis quando o entendimento é alcançado em um nível intuitivo.
Respostas:
Suponha que você observe vários ninhos em diferentes temperaturas médias diárias . Como a probabilidade π ( t ) de sucesso do ninho depende da temperatura t ? (Se os ninhos são independentes, o número de ninhos com sucesso na temperatura t é então distribuído binomialmente com n igual ao número de ninhos observados e à probabilidade de sucesso π ( t ) .)t π( T ) t t n π( T )
A regressão logística é uma abordagem (usando a função logística) de especificar a probabilidade de sucesso como uma função da temperatura via alongamento e deslocamento da curva logística, com a quantidade de alongamento e deslocamento necessária para ser estimada a partir dos dados.
fonte
Sem equações? Caramba. Vamos ver:
O modelo de regressão logística é literalmente um modelo para o parâmetrop de uma distribuição binomial; com um preditor contínuo, cada ponto pode ter sua própria distribuição. (Nos casos em que as observações são de 0 a 1, lidamos com o caso especial de Bernoulli; essa é uma situação comum.)
On é dado, não modelado. Assim, o resultado é, com um modelo que relaciona o pEu 's e um conhecido nEu , podemos modelar dados binomial em termos de um indicador que descreve a média (e variância) através do seu modelo para p . O modelo pode ser adequado através da estimativa de máxima verossimilhança, mas devido à sua forma especial (família exponencial), o ML é relativamente "agradável".
Como o vínculo logístico é canônico para a família binomial, é ainda mais agradável, pois as estatísticas suficientes são de forma muito simples - o que o torna conveniente para lidar com amostras grandes ou mesmo para desenvolver algoritmos 'online'.
Com a regressão logística, essa curva (a função de link) é uma função logística. Outras funções são possíveis, e muitos pacotes implementam várias (o R possui três
glm
funções adequadas, se bem me lembro).Nenhum símbolo de igualdade foi prejudicado na elaboração deste post.
fonte
Seu modelo assume que o sucesso de um ninho pode ser visto como uma aposta: Deus joga uma moeda carregada com os lados rotulados como "sucesso" e "fracasso". O resultado do flip para um ninho é independente do resultado do flip para qualquer outro ninho.
Os pássaros têm algo a seu favor: a moeda pode favorecer muito o sucesso em algumas temperaturas em comparação com outras. Assim, quando você tem a chance de observar ninhos em uma determinada temperatura, o número de sucessos é igual ao número de lançamentos bem-sucedidos da mesma moeda - aquele para essa temperatura. A distribuição binomial correspondente descreve as chances de sucesso. Ou seja, estabelece a probabilidade de zero sucesso, de um, de dois, ... e assim por diante, através do número de ninhos.
Uma estimativa razoável da relação entre a temperatura e como Deus carrega as moedas é dada pela proporção de sucessos observados nessa temperatura. Esta é a estimativa de máxima verossimilhança (MLE).
A linha superior da figura mostra os MLEs em cada uma das quatro temperaturas observadas. A curva vermelha no painel "Ajustar" mostra como a moeda é carregada, dependendo da temperatura. Por construção, esse rastreamento passa por cada um dos pontos de dados. (O que faz em temperaturas intermediárias é desconhecido; conectei os valores bruscamente para enfatizar esse ponto.)
Esse modelo "saturado" não é muito útil, precisamente porque não nos dá base para estimar como Deus carregará as moedas em temperaturas intermediárias. Para fazer isso, precisamos supor que exista algum tipo de curva de "tendência" que relacione o carregamento de moedas com a temperatura.
A linha inferior da figura se encaixa nessa tendência. A tendência é limitada no que pode ser feito: quando plotada nas coordenadas apropriadas ("probabilidades de log"), conforme mostrado nos painéis "Logit Response" à esquerda, ela pode seguir apenas uma linha reta. Qualquer linha reta determina o carregamento da moeda em todas as temperaturas, como mostra a linha curva correspondente nos painéis "Ajustar". Esse carregamento, por sua vez, determina as distribuições binomiais em todas as temperaturas. A linha inferior representa essas distribuições para as temperaturas em que os ninhos foram observados. (As linhas pretas tracejadas marcam os valores esperados das distribuições, ajudando a identificá-las com bastante precisão. Você não vê essas linhas na linha superior da figura porque coincidem com os segmentos vermelhos.)
Agora é preciso fazer uma troca: a linha pode passar de perto para alguns pontos de dados, apenas para se afastar de outros. Isso faz com que a distribuição binomial correspondente atribua probabilidades mais baixas à maioria dos valores observados do que antes. Você pode ver isso claramente em 10 e 15 graus: a probabilidade dos valores observados não é a maior probabilidade possível, nem se aproxima dos valores atribuídos na linha superior.
A regressão logística desliza e move as possíveis linhas ao redor (no sistema de coordenadas usado pelos painéis "Logit Response"), converte suas alturas em probabilidades binomiais (os painéis "Ajustar"), avalia as chances atribuídas às observações (os quatro painéis à direita) ) e escolhe a linha que oferece a melhor combinação dessas chances.
O que e melhor"? Simplesmente que a probabilidade combinada de todos os dados é a maior possível. Dessa maneira, nenhuma probabilidade única (os segmentos vermelhos) pode ser verdadeiramente minúscula, mas geralmente a maioria das probabilidades não será tão alta quanto no modelo saturado.
Aqui está uma iteração da pesquisa de regressão logística em que a linha foi girada para baixo:
Espero que esta discussão tenha ajudado a desenvolver uma imagem mental das probabilidades binomiais mudando conforme a linha varia, mantendo o mesmo tempo os dados. O ajuste da linha pela regressão logística tenta tornar essas barras vermelhas o mais alto possível. Assim, a relação entre regressão logística e a família de distribuições binomiais é profunda e íntima.
Apêndice:
R
código para produzir as figurasfonte