Traduzir o comando glm de R em notação matemática

8

Eu tenho o seguinte modelo linear generalizado. O objeto glmDVé modelado como uma proporção de sucessos em relação ao total de tentativas. Os objetos x_isão variáveis ​​contínuas.

Como isso se parece na notação matemática?

winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, 
               data=myData, family=binomial("logit"))
user2205916
fonte
1
Observe que, se sua resposta for uma proporção em vez de um conjunto de 0s & 1s (o que eu deduzo é o que você baseou em sua descrição), você deve usar um weightsargumento w / ? Glm , onde os pesos são o número total de tentativas para cada observação.
gung - Restabelece Monica

Respostas:

11

Para uma regressão logística binária, o caso de uso usual para o GLM binomial com um link de logit, você está modelando a probabilidade de que sua variável dependente seja um "sucesso" (ou "sim"), convencionalmente codificado como . A maneira como você está fazendo isso é modelando as probabilidades de log. Portanto, em vez de modelar a média da resposta como no OLS, você está modelando a alteração nas probabilidades do log:Pr ( Y = 1 ) = θ = logit - 1 ( β 0 + β 1 x 1 + β 2 x 2 + . . . + Β 7 x 7 )1

Pr(y=1)=θ=logit1(β0+β1x1+β2x2+...+β7x7)

Onde e .logit-1(x)=exp(x)logit(x)=log(x1x)logit1(x)=exp(x)1+exp(x)

Uma explicação mais completa e muito acessível sobre isso pode ser encontrada em Agresti, Uma introdução à análise de dados categóricos.

Mas para sua pergunta específica, você afirma que está modelando a proporção de sucessos. Na verdade, não é isso que um GLM binomial está acostumado a fazer. No entanto, o que você realmente procura é o que um GLM binomial faz, e ainda é possível em R. Isso requer apenas um pequeno ajuste no que você está fazendo. No caso de você ter um número finito de tentativas que podem ter , você ainda pode usar o mesmo modelo, que possui densidade Como seus valores são fixados pelo design experimental e são seus sucessos observados, você está realizando uma inferência no parâmetroy { 0 ... n } Pr ( y ) ( nny{0...n}

Pr(y)(ny)θy(1θ)ny
y θ n y θ θ logit ( θ ) = β 0 + β 1 x 1 + . . . + β i x i θnyθ da mesma maneira que no caso de resposta binária mais típico (acima), no qual é fixado em 1, assume o valor 1 com probabilidade e é uma função dos seus parâmetros. Para o caso do link logit, , principalmente porque esse transformado existe em toda a linha real, em vez do intervalo de unidade . (Outras propriedades desejáveis ​​do link de logit são descritas em Agresti, incluindo a validade dos coeficientes, mesmo em ambientes onde amostras não aleatórias, como projetos de controle de caso, são usadas; não é o caso, por exemplo, de funções de link de probit.)nyθθ
logit(θ)=β0+β1x1+...+βixi
θ

Em termos de R, basta criar um objeto (denominado glmDV) que é uma matriz de duas colunas, a primeira coluna o número de sucessos e a segunda o número total de falhas . O restante da declaração permanece o mesmo!n - yyny

Sycorax diz restabelecer Monica
fonte
Essa validação cruzada foi muito útil. Vou verificar Agresti na biblioteca. Obrigado pela ajuda.
precisa saber é o seguinte
@ Sycorax ou @ user2205916, especificamente como você passa a "matriz de 2 colunas" que contém números de sucessos e falhas para R e como R faz uso disso? Eu estou familiarizado com o uso glme, pelo que sei , ele aceita apenas uma variável de resposta de 1 coluna, não duas colunas. Corrija-me se estiver errado e cite a documentação relevante, se possível. Obrigado!
clarpaul
@clarpaul stat.ethz.ch/R-manual/R-patched/library/stats/html/glm.html Primeiro parágrafo de "Detalhes" na glmdocumentação. Uma boa maneira de aprender sobre como as funções do R funcionam é pesquisar no Google o nome da função; isso geralmente exibe a documentação relevante. Você também pode digitar ?glmem um console R
Sycorax diz Reinstate Monica
@ Sycorax, obrigado por procurar isso para mim. Coloquei-o em prática ontem e parecia funcionar!
precisa saber é